Wissenschaftliche Berater: Prof. Dr. Holger Dette • Prof. Dr. Wolfg ang Härdle Springer-Verlag Berlin Heidelberg GmbH Andreas Handl Multivariate Analysemethoden Theorie und Praxis multivariater Verfahren unter besonderer Berücksichtigung von S-PlUS Springer DI. Andreas Handl Universität Bielefeld Fakultät für Wirtschaftswissenschaften, Statistik und Ökonometrie Postfach 10 01 31 33501 Bielefeld, Deutschland e-mail: [email protected] Die Deutsche Bibliothek -CIP-Einheitsaufnahme Handl,Andreas: Multivariate Verfahren: Theorie und Praxis unter besonderer Berücksichtigung von S-PLUS / Andreas HandL -Ber1in; Heidelberg; New York; Barcelona; Hongkong; London; Mai1and; Paris; Tokio: Springer, 2002 (Statistik und ihre Anwendungen) Mathematics Subject Classification (2000): 62H17, 62H20, 62H25, 62H30, 62G 10, 62J05 ISBN 978-3-540-43386-6 ISBN 978-3-662-08887-6 (eBook) DOI 10.1007/978-3-662-08887-6 Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funk sendung, der Mikroverfilmung oder der VervieUliltigung auf anderen Wegen und der Speicherung in DatenverarbeitungsauIagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Ver vielfiiltigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. Sep tember 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwi derhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. http://www.springer.de © Springer-Verlag Berlin Heidelberg 2002 Ursprünglich erschienen bei Springer-Verlag Berlin Heidelberg New York 2002. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk be rechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, daß solche Namen im Sinne der Warenzeichen-und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jeder mann benutzt werden dürften. Einbandgestaltung: design& production. Heide1berg Datenerstellung durch den Autor unter Verwendung eines Springer ~ -Makropakets Gedruckt auf säurefreiem Papier SPIN 10874257 40/3142CK-5 4 321 0 Für Claudia und Fabian Vorwort In den letzten 20 Jahren hat die starke Verbreitung von leistungsfähigen Rechnern unter anderem dazu geführt, dass riesige Datenmengen gesammelt werden, in denen sowohl unter den Objekten als auch den Merkmalen Struk turen gesucht werden. Geeignete Werkzeuge hierzu bieten multivariate Ver fahren. Außerdem erhöhte sich durch die Verbreitung der Computer auch die Verfügbarkeit leistungsfähiger Programme zur Analyse multivariater Da ten. Statistische Programmpakete wir SAS, SPSS und BMDP laufen auch auf PCs. Daneben wurde eine Reihe von Umgebungen zur Datenanalyse wie S PLUS, Rund GAUSS geschaffen, die nicht nur eine Vielzahl von Funktionen zur Verfügung stellen, sondern in denen auch neue Verfahren schnell implemen tiert werden können. Dieses Buch gibt eine Einführung in die Analyse multivariater Daten, die die eben beschriebenen Aspekte berücksichtigt. Jedes Verfahren wird zunächst anhand eines realen Problems motiviert. Darauf aufbauend wird ausführlich die Zielsetzung des Verfahrens herausgearbeitet. Es folgt eine de taillierte Entwicklung der Theorie. Praktische Aspekte runden die Darstel lung des Verfahrens ab. An allen Stellen wird die Vorgehensweise anhand realer Datensätze veranschaulicht. Abschließend wird beschrieben, wie das Verfahren in S-PLUS durchzuführen ist beziehungsweise wie S-PLUS entspre chend erweitert werden kann, wenn das Verfahren nicht implementiert ist. Das Buch wendet sich zum einen an Studierende des Fachs Statistik im Hauptstudium, die die multivariaten Verfahren sowie deren Durchführung beziehungsweise Implementierung in S-PLUS kennen lernen möchten. Es rich tet sich zum anderen aber auch an Personen in Wissenschaft und Praxis, die im Rahmen von Diplomarbeiten, Dissertationen und Projekten Datenanalyse betreiben und hierbei multivariate Verfahren unter Zuhilfenahme von S-PLUS anwenden möchten. Dabei sind grundsätzlich die Ausführungen so gehalten und die Beispiele derart gewählt, dass sie für die Anwender unterschiedlich ster Fachrichtungen interessant sind. Einige Grundlagen wie Maximum-Likelihood und Testtheorie werden vor ausgesetzt. Diese werden zum Beispiel in Schlittgen (2000) und Fahrmeir et al. (2001) dargelegt. Andere grundlegende Aspekte werden aber auch in diesem Buch entwickelt. So findet man in Kapitel 2 einen großen Teil der univariaten Datenanalyse und in Kapitel 3 einige Aspekte von univariaten VIII Vorwort Zufallsvariablen. Die im Buch benötigte Theorie mehrdimensionaler Zufalls variablen wird in Kapitel 3 detailliert herausgearbeitet. Um diese und weite re Kapitel verstehen zu können, benötigt man Kenntnisse aus der Linearen Algebra. Deshalb werden im Anhang A.l die zentralen Begriffe und Zusam menhänge der Linearen Algebra beschrieben und exemplarisch verdeutlicht. Außerdem ist Literatur angegeben, in der die Beweise und Zusammenhänge ausführlich betrachtet werden. Es ist unmöglich, alle multivariaten Verfahren in einem Buch darzustel len. Ich habe die Verfahren so ausgewählt, dass ein Überblick über die breiten Anwendungsmöglichkeiten multivariater Verfahren gegeben wird. Dabei ver suche ich die Verfahren so darzustellen, dass anschließend die Spezialliteratur zu jedem der Gebiete gelesen werden kann. Das Buch besteht aus 4 Teilen. Im ersten Teil werden die Grundlagen gelegt, während in den anderen Teilen unterschiedliche Anwendungsaspekte berücksichtigt werden. Bei einem hoch dimensionalen Datensatz kann man an den Objekten oder den Merkmalen interessiert sein. Im zweiten Teil werden deshalb Verfahren vorgestellt, die dazu dienen, die Objekte in einem Raum niedriger Dimension darzustellen. Außerdem wird die Procrustes-Analyse beschrieben, die einen Vergleich un terschiedlicher Konfigurationen erlaubt. Der dritte Teil beschäftigt sich mit Abhängigkeitsstrukturen zwischen Variablen. Hier ist das Modell der beding ten Unabhängigkeit von großer Bedeutung. Im letzten Teil des Buches wer den Daten mit Gruppenstruktur betrachtet. Am Ende fast aller Kapitel sind Aufgaben zu finden. Die Lösungen zu den Aufgaben sowie die im Buch ver wendeten Datensätze und S-PLUS-Funktionen sind auf der Internet-Seite des Springer-Verlages zu finden. In diesem Buch spielt der Einsatz des Rechners bei der Datenanalyse eine wichtige Rolle. Programmpakete entwickeln sich sehr schnell, sodass das heute Geschriebene oft schon morgen veraltet ist. Um dies zu vermei den, beschränke ich mich auf den Kern von S-PLUS, wie er schon in der Version 3 vorhanden war. Den Output habe ich mit Version 4.5 erstellt. Ich stelle also alles im Befehlsmodus dar. Dies hat aus meiner Sicht eini ge Vorteile. Zum einen lernt man so, wie man das System schnell um ei gene Funktionen erweitern kann. Zum anderen kann man die Funktionen in nahezu allen Fällen auch in R ausführen, das man sich kostenlos im In ternet unter http://cran.r-proj ect. org/ herunterladen kann. Informa tionen zum Bezug von S-Plus für Studenten findet man im Internet unter http://elms03.e-academy . com/splus/. Das Buch enthält keine getrennte Einführung in S-PLUS. Vielmehr werden im Kapitel 2.3 anhand der elementa ren Datenbehandlung die ersten Schritte in S-PLUS gezeigt. Dieses Konzept hat sich in Lehrveranstaltungen als erfolgreich erwiesen. Nachdem man die ses Kapitel durchgearbeitet hat, sollte man sich dann Kapitel A.3 widmen, in dem gezeigt wird, wie man die Matrizenrechnung in S-PLUS umsetzt. Bei der Erstellung eigener Funktionen benötigt man diese Kenntnisse. Ansonsten bietet es sich an, einen Blick in die Lehrbuchliteratur zu werfen. Hier sind Vorwort IX Süselbeck (1993), Krause und Olson (2000) und Venables und Ripley (1999) zu empfehlen. Das Buch ist aus Skripten entstanden, die ich seit Mitte der Achtziger Jahre zu Vorlesungen an der Freien Universität Berlin und der Universität Bielefeld angefertigt habe. Ich danke an erster Stelle Herrn Prof. Dr. Herbert Büning von der Freien Universität Berlin, der mich ermutigt und unterstützt hat, aus meinem Skript ein Lehrbuch zu erstellen. Er hat Teile des Manu skripts gelesen und korrigiert und mir sehr viele wertvolle Hinweise gegeben. Dankbar bin ich auch Herrn Dipl.-Volkswirt Wolfgang Lemke von der Uni versität Bielefeld, der die Kapitel über Regressionsanalyse und insbesonde re Faktorenanalyse durch seine klugen Fragen und Anmerkungen bereichert hat. Ebenfalls danken möchte ich Herrn Dr. Stefan Niermann, der das Skript schon seit einigen Jahren in seinen Lehrveranstaltungen an der Universität Hannover verwendet und einer kritischen Würdigung unterzogen hat. Herrn Andreas Schleicher von der OECD in Paris danke ich für die Geneh migung, die Daten der PISA-Studie zu verwenden. Herrn Prof. Dr. Wolfgang Härdle von der Humboldt-Universität zu Berlin und Herrn Prof. Dr. Holger Dette von der Ruhr-Universität Bochum danke ich, dass sie das Buch in ihre Reihe aufgenommen haben. Vom Springer-Verlag erhielt ich jede nur denk bare Hilfe bei der Erstellung der druckreifen Version. Herr Holzwarth vom Springer-Verlag fand für jedes meiner LATEX-Probleme sofort eine Lösung und Frau Kehl gab mir viele wichtige Hinweise in Bezug auf das Layout. Abschließend möchte ich an Herrn Professor Dr. Bernd Streitberg erin nern, der ein großartiger Lehrer war. Er konnte schwierige Zusammenhänge einfach veranschaulichen und verstand es, Studenten und Mitarbeiter für die Datenanalyse zu begeistern. Auch ihm habe ich sehr viel zu verdanken. Bielefeld, im Juni 2002 Andreas Handl Inhaltsverzeichnis Teil I Grundlagen 1 Beispiele multivariater Datensätze . . . . . . . . . . . . . . . . . . . . . . . . 3 2 Elementare Behandlung der Daten ....................... 13 2.1 Beschreibung und Darstellung univariater Datensätze . . . . . .. 13 2.1.1 Beschreibung und Darstellung qualitativer Merkmale. 15 2.1.2 Beschreibung und Darstellung quantitativer Merkmale 17 2.2 Beschreibung und Darstellung multivariater Datensätze ..... 22 2.2.1 Beschreibung und Darstellung von Datenmatrizen quantitativer Merkmale .. . . . . . . . . . . . . . . . . . . . . . . . .. 22 2.2.2 Beschreibung und Darstellung von Datenmatrizen qualitativer Merkmale ............................ 36 2.3 Datenbehandlung in S-PLUS. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 41 2.3.1 Univariate Datenanalyse .......................... 41 2.3.2 Multivariate Datenanalyse . . . . . . . . . . . . . . . . . . . . . . . .. 51 2.4 Ergänzungen und weiterführende Literatur ................ 61 2.5 Übungen.............................................. 61 3 Mehrdimensionale Zufallsvariablen ....................... 65 3.1 Problemstellung........................................ 65 3.2 Univariate Zufallsvariablen .............................. 65 3.3 Zufallsmatrizen und Zufallsvektoren ...................... 70 3.4 Die multivariate Normalverteilung . . . . . . . . . . . . . . . . . . . . . . .. 81 4 Ähnlichkeits- und Distanzmaße . . . . . . . . . . . . . . . . . . . . . . . . . .. 83 4.1 Problemstellung........................................ 83 4.2 Bestimmung der Distanzen und Ähnlichkeiten aus der Datenmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 84 4.2.1 Quantitative Merkmale.. . . . . .. . . . . . . . . . . . .. . . . . . .. 84 4.2.2 Binäre Merkmale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 88 4.2.3 Qualitative Merkmale mit mehr als zwei Merkmalsausprägungen ........ . . . . . . . . . . . . . . . . . .. 92 4.2.4 Qualitative Merkmale, deren Merkmalsausprägungen geordnet sind . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 92