Universität Trier Zentrum für Informations-, Medien- und Kommunikationstechnologie (ZIMK) Trier, den 3. 7. 2013 Bernhard Baltes-Götz Behandlung fehlender Werte in SPSS und Amos Behandlung fehlender Werte in SPSS und Amos Inhaltsverzeichnis VORWORT 4 1 EINLEITUNG 5 2 KLASSIFIKATION FEHLENDER WERTE 7 2.1 MCAR 7 2.2 MAR 8 2.3 MNAR 11 3 ANALYSE DER VERTEILUNG VON FEHLENDEN WERTEN 13 3.1 Anwendungsbeispiel 13 3.2 Muster- und MCAR-Analyse mit der Prozedur MVA 13 3.2.1 Variablen mit fehlenden oder extremen Werten 14 3.2.2 Lokale und globale Beurteilung der MCAR-Bedingung 15 3.2.3 Muster fehlender Werte 17 3.3 Musteranalyse mit der Prozedur MULTIPLE IMPUTATION 19 4 TRADITIONELLE METHODEN ZUR BEHANDLUNG FEHLENDER WERTE 22 4.1 Individuelle Mittelwerte aus den vorhandenen Items 22 4.2 Ausschluss von Variablen 22 4.3 Ausschluss von Fällen 22 4.3.1 Nachteile des Verfahrens 22 4.3.2 Vorteile des Verfahrens 24 4.4 Paarweiser Ausschluss fehlender Werte 26 4.4.1 Verzerrte Schätzer bei verletzter MCAR-Bedingung 26 4.4.2 Indefinite Korrelationsmatrizen 27 4.5 Ersetzung fehlender Werte durch den Stichprobenmittelwert 29 4.6 MD-Indikatorvariable als Ergänzung eines kontinuierlichen Prädiktors 31 4.7 Zusatzkategorie bei nominalskalierten Prädiktoren 32 4.8 Regressionsimputation 33 5 MAXIMUM LIKELIHOOD - METHODEN 39 5.1 ML-Schätzung von Verteilungsparametern per EM-Algorithmus 39 5.2 Einfache Imputation nach EM-Schätzung der Verteilungsmomente 44 2 Behandlung fehlender Werte in SPSS und Amos 5.3 Direkte ML-Schätzung in Strukturgleichungsmodellen 47 5.3.1 FIML-Lösung zum Colleges-Beispiel 48 5.3.2 Hilfsvariablen 50 5.3.3 Optionen bei ungültiger Normalverteilungsannahme 52 6 MULTIPLE IMPUTATION 53 6.1 Grundprinzip und Phasen 53 6.2 Imputationsphase 54 6.2.1 Zu berücksichtigende Variablen und Beziehungen 54 6.2.2 Proper Multiple Imputations und Bayes-Statistik 55 6.2.3 Zufallsziehung aus der a-posteriori - Verteilung per Markoff Chain Monte Carlo (MCMC) 58 6.2.4 Imputationsalgorithmen mit MCMC-Technik 58 6.2.5 Technische Details 61 6.3 Kombination der multiplen Schätzergebnisse 62 6.3.1 Rubins Regeln 62 6.3.2 Tests zu einzelnen Parametern 62 6.3.3 Durch fehlende Werte bedingter Präzisionsverlust bei der Parameterschätzung 63 6.3.4 Mehrparametertests 63 6.4 Beispiel 64 6.4.1 Imputationsstichproben erstellen 64 6.4.2 Konvergenzbeurteilung 69 6.4.3 Kombinierte Ergebnisse aus den Imputationsstichproben 71 6.4.4 Hilfsvariablen einbeziehen 74 6.5 Unterstützung der multiple Imputation in Statistik-Programmen 74 7 VERGLEICH DER BEHANDELTEN VERFAHREN 76 7.1 FIML versus MI 76 7.2 Übersichtstabelle zur Eignung der behandelten Verfahren 77 LITERATUR 78 STICHWORTVERZEICHNIS 80 Herausgeber: Zentrum für Informations-, Medien- und Kommunikationstechnologie (ZIMK) an der Universität Trier Universitätsring 15 D-54286 Trier WWW: http://www.uni-trier.de/index.php?id=518 E-Mail: [email protected] Tel.: (0651) 201-3417, Fax.: (0651) 3921 Autor: Bernhard Baltes-Götz (E-Mail: [email protected]) Copyright 2013; ZIMK 3 Behandlung fehlender Werte in SPSS und Amos Vorwort In diesem Manuskript geht es um das bei empirischen Studien fast allgegenwärtige Problem fehlender Werte. Für traditionelle Behandlungsmethoden (z.B. fallweiser Ausschluss, Ersetzung durch Mittelwerte) und moderne Alternativen (z.B. direkte Maximum Likelihood - Schätzung, multiple Imputation) werden … statistische Grundlagen erläutert, Anwendungsbeispiele mit SPSS Statistics 21 und Amos 21 vorgeführt. Die aktuelle Version des Manuskripts ist als PDF-Dokument zusammen mit den im Kurs benutzen Datei- en auf dem Webserver der Universität Trier von der Startseite (http://www.uni-trier.de/) ausgehend fol- 1 gendermaßen zu finden: ZIMK (Rechenzentrum) > Infos für Studierende > EDV-Dokumentationen > 2 Statistik > Behandlung fehlender Werte in SPSS und Amos Leider sind in diesem Manuskript einige Teile unter Zeitdruck entstanden, so dass Unzulänglichkeiten zu befürchten sind. Kritik und Verbesserungsvorschläge zum Manuskript werden dankbar entgegen genom- men (z.B. unter der Mail-Adresse [email protected]). Trier, im Juli 2013 Bernhard Baltes-Götz 4 Behandlung fehlender Werte in SPSS und Amos 1 Einleitung Fehlende Werte sind bei empirischen Studien aus zahlreichen Gründen kaum zu vermeiden. So rechnet Acock (2005, S. 1014) z.B. bei der Frage nach dem Einkommen mit einer Ausfallrate von 30%. Klassi- sche statistische Auswertungsverfahren (z.B. Regressions-, Faktoren- oder Diskriminanzanalyse) erfor- dern jedoch komplette Fälle. Je mehr Variablen beteiligt sind, desto kleiner wird die Schnittmenge mit den Fällen, die bei allen Variablen einen gültigen Wert abgeliefert haben. Unter der vereinfachenden An- nahme, dass für k beteiligte Variablen die Ereignisse {gültiger Wert bei Variable j}, j = 1, .., k unabhängig sind, erhält man bei einer für alle Variablen identischen Wahrscheinlichkeit p für einen gül- s tigen Wert bei einer einzelnen Variablen in Abhängigkeit von der Anzahl k folgende Wahrscheinlichkeit p für einen vollständigen Datensatz: c p pk c s Bei p = 0,97 fällt der Anteil kompletter Fälle in Abhängigkeit von der Variablenzahl schnell unter 50%: s k p c 5 0,86 10 0,74 20 0,54 30 0,40 Allerdings entscheidet in der Regel nicht der pure Zufall über das Fehlen eines Wertes. Oft hängt die Wahrscheinlichkeit für das Fehlen eines Wertes bei einer Variablen i von den Ausprägungen anderer Variablen ab. So könnte die Ausfallwahrscheinlichkeit bei der Frage nach dem Einkommen von der eben- falls erfragten Einstellung zur Steuerehrlichkeit abhängen. Konstellationen dieses Typs können von mo- dernen statistischen Verfahren gut behandelt werden. Leider hängt nicht selten die Wahrscheinlichkeit für das Fehlen eines Wertes von dessen Ausprägung ab, was z.B. bei der Frage nach dem Einkommen zu befürchten ist. Auch moderne statistische Verfahren sind überfordert, wenn diese Abhängigkeit auch nach Berücksichtung von beobachteten Ursachen für das Auf- treten fehlender Werte besteht, wenn also im Einkommensbeispiel bei Personen mit gleicher Einstellung zur Steuerehrlichkeit die Wahrscheinlichkeit für einen fehlenden Einkommenswert von seiner Höhe ab- hängt. Die in Statistikprogrammen meist voreingestellte fallweise Behandlung fehlender Werte (Beschränkung auf die vollständigen Fälle) gehört nicht zu den modernen statistischen Verfahren. Hier drohen: Verzerrte Schätzergebnisse Wenn nicht der pure Zufall über das Auftreten fehlender Werte entscheidet, resultieren verzerrte Parameterschätzer und entsprechend falsche Schlüsse. Verlust an Präzision Es ist bedauerlich, wenn die im Datensatz enthaltene Information zu einem erheblichen Teil verlo- ren geht. Dies führt zu vergrößerten Standardfehlern und Konfidenzintervallen bei Parameter- schätzungen sowie zu einer reduzierten Power bei Hypothesentests. Um die Beeinträchtigung der Forschung durch fehlende Werte gering zu halten, sind folgende Maßnah- men erforderlich: Fehlende Werte vermeiden Bei der Datenerhebung sind fehlende Werte nach Möglichkeit zu vermeiden, was aber nur in sel- tenen Fällen perfekt gelingen wird. Relativ günstige Bedingungen bestehen z.B. bei der Online- Forschung mit Internet-Techniken, wo Auskunftspersonen nach dem Abschicken eines lückenhaft ausgefüllten Formulars um vollständige Antworten gebeten werden können. 5 Behandlung fehlender Werte in SPSS und Amos Bestmögliche statistische Behandlung fehlender Werte Bei der statistischen Auswertung sind Verfahren zu verwenden, die unter möglichst allgemeinen Bedingungen fehlende Werte kompensieren und verzerrte Forschungsergebnisse verhindern kön- nen. Anschließend wird beschrieben, welche Verfahren zur Behandlung fehlender Werte in den Produkten in der SPSS-Software-Familie verfügbar sind. IBM SPSS Statistics bietet im Erweiterungsmodul Missing Values zwei Prozeduren zur Analyse und Behandlung fehlender Werte. In der folgenden Auflistung der verfügbaren Leistungen tauchen etliche im weiteren Kursverlauf noch zu erläuternde Begriffe auf: MVA Die ältere Prozedur MVA (Missing Values Analysis), deren Leistungen auch über den Menübefehl Analysieren > Analyse fehlender Werte abrufbar sind, bietet u.a.: o Univariate Analysen (z.B. Anteile fehlender Werte, Anzahl der Ausreißer) o Einfaches Ersetzen fehlender Werte (z.B. per multipler Regression) o Schätzung von Mittelwerten, Varianzen und Kovarianzen per EM-Algorithmus o Test nach Little zur Überprüfung der MCAR-Bedingung (rein zufälliges Auftreten fehlen- der Werte) Multiple Imputation Diese seit SPSS Statistics 17 verfügbare Prozedur, deren Leistungen auch über den Menübefehl Analysieren > Multiple Imputation abrufbar sind, unterstützt neben einer Analyse der aufge- tretenen Muster fehlender Werte die multiple Imputation. Dabei entstehen mehrere (z.B. fünf) vervollständigte Datensätze, um die Unsicherheit bzgl. der beim Ersetzen fehlender Werte ver- wendeten Parameter zu berücksichtigen. Bei den eigentlich intendierten Auswertungen ist einiger Aufwand erforderlich, den SPSS Statistics zum Glück in vielen Fällen automatisiert: o Wiederholung mit jedem einzelnen Imputationsdatensatz o Zusammenfassung der Ergebnisse Von den eben genannten Verfahren zur Behandlung fehlender Werte ist nur die multiple Imputation durchweg zu empfehlen. Mit der direkten FIML-Methode (Full Information Maximum Likelihood) steht eine weitere, im selben guten Ruf stehende Lösung für das Problem fehlender Werte zur Verfügung. Im Rahmen der IBM SPSS -Produktfamilie wird diese Methode vom Strukturgleichungsanalyseprogramm IBM SPSS Amos angeboten. Im Manuskript können bei weiten nicht alle Detailprobleme im Zusammenhang mit fehlenden Werten behandelt werden: Wir konzentrieren uns auf Regressionsmodelle und ignorieren z.B. Probleme und Techniken bei der Schätzung von univariaten Verteilungsaspekten (z.B. Erwartungswert). Man kann zwischen komplett fehlenden Fällen und fehlenden Einzelwerten unterscheiden. Für das zuerst genannte Problem sind Gewichtungsverfahren vorgeschlagen worden, die im Manuskript nicht behandelt werden (siehe z.B. Little & Rubin 2002, Abschnitt 3.3). Ebenso werden die speziellen Probleme von Längsschnittstudien (Panelstudien) mit vorzeitig aus- gestiegenen Fällen ignoriert. 6 Behandlung fehlender Werte in SPSS und Amos 2 Klassifikation fehlender Werte Wir betrachten das Auftreten fehlender Werte als stochastisches Phänomen und definieren zu jeder bei einer statistischen Analyse beteiligten X eine Missing Data (MD) – Indikatorvariable M: j j 1, fallsder Beobachtungswert zu X fehlt M j j 0, sonst Rubin (1976) hat über Beziehungen zwischen den MD-Indikatorvariablen und den eigentlichen Beobach- tungsvariablen eine allgemein anerkannte Klassifikation fehlender Werte begründet, die anschließend vorgestellt werden soll. Später werden wir die verschiedenen MD-Behandlungsmethoden danach beurtei- len, bei welchen Rubin-Typen sie anwendbar sind. 2.1 MCAR Eine statistische Analyse mit den Variablen X , …, X erfüllt die MCAR-Bedingung (Missing Completely 1 k At Random), wenn für jede Variable X gilt: Die Wahrscheinlichkeit für einen fehlenden Wert bei X hängt j j weder von der X -Ausprägung noch von den Ausprägungen der restlichen Variablen ab: j P({M 1}| X ,...,X )c ([0,1]) j 1 k j Die für den Ausfall eines X –Wertes verantwortlichen Ursachen stehen in keiner Beziehung zu den Vari- j ablenausprägungen. Es darf durchaus eine Überlappung mit den Ursachen für den Ausfall von Werten bei anderen Variablen geben (z.B. aufgrund des Persönlichkeitsmerkmals Faulheit bei einer Befragung), so dass Fälle ohne X –Wert auch bei anderen Variablen ein erhöhtes Ausfallrisiko haben. Diese MD- j Ursachen müssen aber von allen beobachteten Variablen in der Analyse unabhängig sein. Ist die MCAR-Bedingung erfüllt, haben für jede Variable X die beiden Teilpopulationen mit {M = 1} j j und {M = 0} bei allen Variablen X , …, X dieselbe Verteilung. Diese Bedingung lässt sich für alle Vari- j 1 k ablen mit einem von j verschiedenen Index m überprüfen. Bei metrischen Variablen wird man sich in der Regel auf die Erwartungswerte der beiden Teilpopulationen beschränken und unter Verwendung der Fälle mit gültigem X - Wert die Nullhypothese gleicher Erwartungswerte über einen t-Test für unabhängige m Stichproben prüfen. Signifikante Testergebnisse sprechen gegen die lokale MCAR-Bedingung und geben Hinweise auf Prädiktoren für die MD-Wahrscheinlichkeit bei X. Diese sollten bei einer Analyse mit j MAR-pflichtiger MD-Behandlung (siehe unten) einbezogen werden, um die MAR-Bedingung plausibel zu machen. Ein von Little entwickeltes Testverfahren, das SPSS Statistics bei vorhandenem Modul Missing Values beherrscht, erlaubt die globale Beurteilung der MCAR-Bedingung. Littles Test berechnet für jedes Mus- ter fehlender Werte (z.B. für die Teilstichprobe mit gültigen Werten bei den Variablen X , X und X so- 1 2 3 wie fehlenden Werten bei den Variablem X , ..., X ) einen streuungsnormierten Abstand des Vektors mit 4 k den Teilstichprobenmittelwerten vom Vektor mit den Mittelwerten der Gesamtstichprobe. Die Abstand- maße zu den einzelnen MD-Mustern werden mit der jeweiligen Teilstichprobengröße gewichtet und auf- summiert, wobei eine Prüfgröße entsteht, die bei erfüllter MCAR-Bedingung einer 2-Verteilung folgt. Bei akzeptierter Nullhypothese kann man sich berechtigt fühlen, eine MCAR-pflichtige MD-Behandlung einzusetzen (z.B. den simplen fallweisen Ausschluss). Wie die lokale und globale MCAR-Testung mit SPSS Statistics durchgeführt wird, erfahren Sie in Ab- schnitt 3.2. Anschließend soll ein graphischer Eindruck von einer MCAR- Verteilung vermittelt werden. Das folgende Streudiagramm zeigt die gemeinsame empirische Verteilung einer Variablen X mit voll- ständig vorhandenen Werten und einer Variablen Y mit teilweise fehlenden Werten nach dem MCAR- Prinzip. Fälle mit vorhandenen Beobachtungswerten für X und Y sind durch einen blauen Kreis darge- stellt. Datenpunkte mit fehlendem Y-Wert sind durch ein grünes Kreuz markiert: 7 Behandlung fehlender Werte in SPSS und Amos Im Little-Test wird für diese Daten erwartungsgemäß die MCAR-Nullhypothese akzeptiert: Die von SPSS per EM-Algorithmus (siehe Abschnitt 5.1) ermittelte und in der Tabelle protokollierte Ko- varianz ist erwartungsgemäß relativ präzise geschätzt (wahrer Wert: 0,7). 2.2 MAR Wenn mit M die Indikatorvariable für das Fehlen des X-Wertes bezeichnet wird, dann verlangt die j j MCAR-Bedingung, dass M von allen Variablen X , …, X unabhängig sein. Demgegenüber fordert die j 1 k MAR-Bedingung (Missing At Random), dass M nach Kontrolle der Abhängigkeiten von beobachten Va- j riablen nicht mehr von X abhängen darf. j In der Einleitung wurde ein Beispiel mit den Variablen Einkommen und Einstellung zur Steuerehrlichkeit erwähnt. Es liegt kein Verstoß gegen die MAR-Bedingung vor, wenn die Ausfallwahrscheinlichkeit bei der Frage nach dem Einkommen von der Einstellung zu Steuerehrlichkeit abhängt, solange bei Personen mit derselben Einstellung zur Steuerehrlichkeit die Wahrscheinlichkeit für einen fehlenden Einkom- menswert nicht von dessen Höhe abhängt. Offenbar ist die MAR-Bedingung weniger streng als die MCAR-Bedingung und damit realistischer. Un- ter der MCAR-Bedingung ist auch die MAR-Bedingung erfüllt. 8 Behandlung fehlender Werte in SPSS und Amos Die Bezeichnung MAR ist unglücklich gewählt, weil sie den Inhalt des Begriffs ziemlich im Unklaren lässt und zudem leicht mit MCAR verwechselt werden kann. Um die MAR-Bedingung zu klären, beschränken wir uns auf zwei Variablen, die zur Vermeidung von Indexaufwand als X und Y bezeichnet werden sollen. Zunächst vereinfachen wir noch weiter und nehmen an, dass nur bei der Variablen Y fehlende Werte auftreten, dass also die Variable X einen kompletten Wer- tevektor besitzt. In dieser Situation besagt die MAR-Bedingung, dass die Wahrscheinlichkeit für einen fehlender Y-Wert zwar von der Variablen X abhängen darf, aber für einen festen X-Wert nicht von der Variablen Y. Die bedingte Irrelevanz der unbekannten Y-Ausprägung lässt sich mit bedingten Wahr- scheinlichkeiten präziser formulieren: P({M 1}| X,Y)P({M 1}| X) Y Y Unter dieser Voraussetzung ist für jede X-Ausprägung die bedingte Verteilung der fehlenden Y-Werte identisch mit der bedingten Verteilung der vorhandenen Y-Werte, so dass genügend Information über die fehlenden Werte vorliegt. Im realistischeren Fall, dass beide Variablen fehlende Werte aufweisen, sind vier Muster fehlender Werte möglich, und die MAR-Bedingung verlangt für deren Wahrscheinlichkeiten (nach Little & Rubin 2002, S. 18): P({M 1,M 1}| X,Y)c ([0,1]) X Y P({M 1,M 0}| X,Y)P({M 1,M 0}|Y) X Y X Y P({M 0,M 1}| X,Y)P({M 0,M 1}| X) X Y X Y P({M 0,M 0}| X,Y)1cP({M 1,M 0}|Y)P({M 0,M 1}| X) X Y X Y X Y Es dürfte klar sein, wie vollständige Variablen in diese Gleichungen aufzunehmen sind. Je mehr Beo- bachtungen mit prognostischer Relevanz für die Wahrscheinlichkeiten fehlender Werte eingehen (im Ide- alfall über vollständige Variablen) eingehen, desto realistischer ist die MAR-Bedingung. Im Wesentlichen verlangt die MAR-Bedingung für jedes MD-Muster (z.B. fehlende Werte bei den Vari- ablen X und X , vorhandene Werte bei den restlichen Variablen X und X ), dass bei jeder festen Kombi- 1 2 3 4 nation vorhandener Werte (im Beispiel: bei jedem (X , X )-Wertepaar) die Verteilung der MD-belasteten 3 4 Variablen identisch ist bei den Teilpopulationen mit bzw. ohne Beobachtungswerte. Leider kann die MAR-Bedingung nicht überprüft werden, weil man dazu die fehlenden Werte kennen müsste. Viele attraktive Techniken zur Lösungen von MD-Problemen setzen die MAR-Bedingung voraus (z.B. die ML-Techniken mit direkter Parameterschätzung oder EM-Schätzung von Verteilungsmomenten, die multiple Imputation). Diese Methoden liefern unverzerrte Parameterschätzungen, ohne dass ein Modell für das Zustandekommen fehlender Werte bekannt sein müsste. Man spricht daher auch von einem igno- rierbaren Missing Data - Mechanismus, wenn zumindest die MAR-Bedingung erfüllt ist (siehe z.B. Alli- son 2002, S. 5). Der folgende Plot zeigt eine vollständige Variable X und eine Variable Y mit fehlenden Werten (durch ein Kreuz markiert). Im MAR-Sinn hängt in der simulierten Population die Wahrscheinlichkeit für einen feh- lenden Y-Wert von der X-Ausprägung ab, ist für feste X-Werte jedoch unabhängig von der Y-Ausprägung: 9 Behandlung fehlender Werte in SPSS und Amos Die MCAR-Bedingung ist bei diesen Daten deutlich verletzt, was zu einem hoch signifikanten Little-Test führt: Die von SPSS per EM-Algorithmus (siehe Abschnitt 5.1) ermittelte und in der Tabelle protokollierte Ko- varianz kann als sehr gute Schätzung für den wahren Wert (= 0,7) gelten. Um die MAR-Plausibilität zu steigern, sollten bei einer Studie möglichst viele Merkmale mit Einfluss auf die Wahrscheinlichkeit für fehlende Werte miterhoben werden. In sozialwissenschaftlichen Studien sind dabei z.B. folgende Merkmale von Interesse: Bildung, Alter, Geschlecht, Lebenszufriedenheit, Motivati- on zur Teilnahme an der Studie. Am Ende einer schriftlichen Befragung (z.B. via Internet) kann man sich mit einiger Aussicht auf eine ehrliche Antwort bei den Teilnehmern erkundigen, ob sie ernsthaft geant- wortet haben. Wenn fehlende Werte Bestandteil der Untersuchungsplanung sind, ist die MAR- oder auch die MCAR- Bedingung erfüllt (siehe Enders 2010, S. 21). Man kann z.B. aus Kostengründen bei manchen Fällen auf eine aufwändige Messung verzichten: Geschieht dies in Abhängigkeit von einer bestimmten Ausprägung bei einem erhobenen Merkmal, resultiert die MAR-Bedingung. Geschieht dies zufallsabhängig, ist die MCAR-Bedingung erfüllt. 10
Description: