ebook img

Multivariate Analysemethoden (S-PLUS) PDF

536 Pages·2002·2.272 MB·German
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Multivariate Analysemethoden (S-PLUS)

Andreas Handl Multivariate Verfahren Theorie und Praxis multivariater Verfahren unter besonderer Beru¨cksichtigung von S-PLUS SPIN Springer’s internal project number, if known Monograph – Mathematics – 20th September 2002 Springer Berlin Heidelberg NewYork Barcelona HongKong London Milan Paris Tokyo V Fu¨r Claudia und Fabian Vorwort In den letzten 20 Jahren hat die starke Verbreitung von leistungsf¨ahigen Rechnern unter anderem dazu gefu¨hrt, dass riesige Datenmengen gesam- melt werden, in denen sowohl unter den Objekten als auch den Merkmalen Strukturen gesucht werden. Geeignete Werkzeuge hierzu bieten multivari- ate Verfahren. Außerdem erh¨ohte sich durch die Verbreitung der Computer auchdieVerfu¨gbarkeitleistungsf¨ahigerProgrammezurAnalysemultivariater Daten.StatistischeProgrammpaketewirSAS,SPSSundBMDPlaufenauchauf PCs. Daneben wurde eine Reihe von Umgebungen zur Datenanalyse wie S- PLUS,RundGAUSSgeschaffen,dienichtnureineVielzahlvonFunktionenzur Verfu¨gung stellen, sondern in denen auch neue Verfahren schnell implemen- tiert werden k¨onnen. Dieses Buch gibt eine Einfu¨hrung in die Analyse multivariater Daten, die die eben beschriebenen Aspekte beru¨cksichtigt. Jedes Verfahren wird zun¨achst anhand eines realen Problems motiviert. Darauf aufbauend wird ausfu¨hrlichdieZielsetzungdesVerfahrensherausgearbeitet.Esfolgteinede- taillierte Entwicklung der Theorie. Praktische Aspekte runden die Darstel- lung des Verfahrens ab. An allen Stellen wird die Vorgehensweise anhand realer Datens¨atze veranschaulicht. Abschließend wird beschrieben, wie das VerfahreninS-PLUSdurchzufu¨hrenistbeziehungsweisewieS-PLUSentsprechend erweitert werden kann, wenn das Verfahren nicht implementiert ist. Das Buch wendet sich zum einen an Studierende des Fachs Statistik im Hauptstudium, die die multivariaten Verfahren sowie deren Durchfu¨hrung beziehungsweiseImplementierunginS-PLUSkennenlernenm¨ochten.Esrichtet sich zum anderen aber auch an Personen in Wissenschaft und Praxis, die im RahmenvonDiplomarbeiten,DissertationenundProjektenDatenanalysebe- treiben und hierbei multivariate Verfahren unter Zuhilfenahme von S-PLUS anwenden m¨ochten. Dabei sind grunds¨atzlich die Ausfu¨hrungen so gehalten und die Beispiele derart gew¨ahlt, dass sie fu¨r die Anwender unterschiedlich- ster Fachrichtungen interessant sind. Einige Grundlagen wie Maximum-Likelihood und Testtheorie werden vo- rausgesetzt. Diese werden zum Beispiel in Schlittgen (2000) und Fahrmeir et al. (2001) dargelegt. Andere grundlegende Aspekte werden aber auch in diesemBuchentwickelt.SofindetmaninKapitel2einengroßenTeilderuni- variaten Datenanalyse und in Kapitel 3 einige Aspekte von univariaten Zu- VIII Vorwort fallsvariablen.DieimBuchben¨otigteTheoriemehrdimensionalerZufallsvari- ablen wird in Kapitel 3 detailliert herausgearbeitet. Um diese und weitere Kapitel verstehen zu k¨onnen, ben¨otigt man Kenntnisse aus der Linearen Al- gebra. Deshalb werden im Anhang A.1 die zentralen Begriffe und Zusam- menh¨ange der Linearen Algebra beschrieben und exemplarisch verdeutlicht. Außerdem ist Literatur angegeben, in der die Beweise und Zusammenh¨ange ausfu¨hrlich betrachtet werden. Esistunm¨oglich,allemultivariatenVerfahrenineinemBuchdarzustellen. Ich habe die Verfahren so ausgew¨ahlt, dass ein U¨berblick u¨ber die breiten Anwendungsm¨oglichkeiten multivariater Verfahren gegeben wird. Dabei ver- sucheichdieVerfahrensodarzustellen,dassanschließenddieSpezialliteratur zujedemderGebietegelesenwerdenkann.DasBuchbestehtaus4Teilen.Im erstenTeilwerdendieGrundlagengelegt,w¨ahrendindenanderenTeilenun- terschiedliche Anwendungsaspekte beru¨cksichtigt werden. Bei einem hochdi- mensionalen Datensatz kann man an den Objekten oder den Merkmalen interessiert sein. Im zweiten Teil werden deshalb Verfahren vorgestellt, die dazu dienen, die Objekte in einem Raum niedriger Dimension darzustellen. Außerdem wird die Procrustes-Analyse beschrieben, die einen Vergleich un- terschiedlicher Konfigurationen erlaubt. Der dritte Teil besch¨aftigt sich mit Abh¨angigkeitsstrukturen zwischen Variablen. Hier ist das Modell der bed- ingten Unabh¨angigkeit von großer Bedeutung. Im letzten Teil des Buches werden Daten mit Gruppenstruktur betrachtet. Am Ende fast aller Kapitel sind Aufgaben zu finden. Die L¨osungen zu den Aufgaben sowie die im Buch verwendeten Datens¨atze und S-PLUS-Funktionen sind auf der Internet-Seite des Springer-Verlages zu finden. In diesem Buch spielt der Einsatz des Rechners bei der Datenanalyse eine wichtige Rolle. Programmpakete entwickeln sich sehr schnell, sodass das heute Geschriebene oft schon morgen veraltet ist. Um dies zu vermei- den, beschr¨anke ich mich auf den Kern von S-PLUS, wie er schon in der Version 3 vorhanden war. Den Output habe ich mit Version 4.5 erstellt. Ich stelle also alles im Befehlsmodus dar. Dies hat aus meiner Sicht einige Vorteile. Zum einen lernt man so, wie man das System schnell um eigene Funktionen erweitern kann. Zum anderen kann man die Funktionen in na- hezu allen F¨allen auch in R ausfu¨hren, das man sich kostenlos im Inter- net unter http://cran.r-project.org/ herunterladen kann. Informatio- nen zum Bezug von S-Plus fu¨r Studenten findet man im Internet unter http://elms03.e-academy.com/splus/. Das Buch enth¨alt keine getrennte Einfu¨hrung in S-PLUS. Vielmehr werden im Kapitel 2.3 anhand der ele- mentaren Datenbehandlung die ersten Schritte in S-PLUS gezeigt. Dieses Konzept hat sich in Lehrveranstaltungen als erfolgreich erwiesen. Nachdem man dieses Kapitel durchgearbeitet hat, sollte man sich dann Kapitel A.3 widmen, in dem gezeigt wird, wie man die Matrizenrechnung in S-PLUS um- setzt. Bei der Erstellung eigener Funktionen ben¨otigt man diese Kenntnisse. Ansonsten bietet es sich an, einen Blick in die Lehrbuchliteratur zu werfen. Vorwort IX Hier sind Su¨selbeck (1993), Krause & Olson (2000) und Venables & Ripley (1999) zu empfehlen. Das Buch ist aus Skripten entstanden, die ich seit Mitte der Achtziger Jahre zu Vorlesungen an der Freien Universit¨at Berlin und der Universit¨at Bielefeld angefertigt habe. Ich danke an erster Stelle Herrn Prof. Dr. Her- bert Bu¨ning von der Freien Universit¨at Berlin, der mich ermutigt und un- terstu¨tzt hat, aus meinem Skript ein Lehrbuch zu erstellen. Er hat Teile des Manuskripts gelesen und korrigiert und mir sehr viele wertvolle Hin- weise gegeben. Dankbarbin ich auch Herrn Dipl.-Volkswirt WolfgangLemke von der Universit¨at Bielefeld, der die Kapitel u¨ber Regressionsanalyse und insbesondere Faktorenanalyse durch seine klugen Fragen und Anmerkungen bereichert hat. Ebenfalls danken m¨ochte ich Herrn Dr. Stefan Niermann, der das Skript schon seit einigen Jahren in seinen Lehrveranstaltungen an der Universit¨at Hannover verwendet und einer kritischen Wu¨rdigung unterzogen hat. Herrn Andreas Schleicher von der OECD in Paris danke ich fu¨r die Genehmigung, die Daten der PISA-Studie zu verwenden. Herrn Prof. Dr. Wolfgang H¨ardle von der Humboldt-Universit¨at zu Berlin und Herrn Prof. Dr. Holger Dette von der Ruhr-Universit¨at Bochum danke ich, dass sie das Buch in ihre Reihe aufgenommen haben. Vom Springer-Verlag erhielt ich jede nur denkbare Hilfe bei der Erstellung der druckreifen Version. Herr Holzwarth vom Springer-Verlag fand fu¨r jedes meiner LATEX-Probleme so- forteineL¨osungundFrauKehlgabmirvielewichtigeHinweiseinBezugauf das Layout. Abschließend m¨ochte ich an Herrn Professor Dr. Bernd Streitberg erin- nern, der ein großartiger Lehrer war. Er konnte schwierige Zusammenh¨ange einfach veranschaulichen und verstand es, Studenten und Mitarbeiter fu¨r die Datenanalyse zu begeistern. Auch ihm habe ich sehr viel zu verdanken. Bielefeld, im Juni 2002 Andreas Handl Table of Contents Part I Grundlagen 1 Beispiele multivariater Datens¨atze........................ 3 2 Elementare Behandlung der Daten ....................... 13 2.1 Beschreibung und Darstellung univariater Datens¨atze ....... 13 2.1.1 Beschreibung und Darstellung qualitativer Merkmale . 15 2.1.2 Beschreibung und Darstellung quantitativer Merkmale 17 2.2 Beschreibung und Darstellung multivariater Datens¨atze ..... 24 2.2.1 Beschreibung und Darstellung von Datenmatrizen quantitativer Merkmale ........................... 24 2.2.2 Beschreibung und Darstellung von Datenmatrizen qualitativer Merkmale ............................ 41 2.3 Datenbehandlung in S-PLUS............................. 46 2.3.1 Univariate Datenanalyse .......................... 46 2.3.2 Multivariate Datenanalyse......................... 57 2.4 Erg¨anzungen und weiterfu¨hrende Literatur ................ 68 2.5 U¨bungen .............................................. 68 3 Mehrdimensionale Zufallsvariablen ....................... 73 3.1 Problemstellung........................................ 73 3.2 Univariate Zufallsvariablen .............................. 73 3.3 Zufallsmatrizen und Zufallsvektoren ...................... 79 3.4 Die multivariate Normalverteilung ........................ 90 4 A¨hnlichkeits- und Distanzmaße ........................... 91 4.1 Problemstellung........................................ 91 4.2 Bestimmung der Distanzen und A¨hnlichkeiten aus der Datenmatrix........................................... 92 4.2.1 Quantitative Merkmale............................ 92 4.2.2 Bin¨are Merkmale................................. 97 4.2.3 Qualitative Merkmale mit mehr als zwei Merkmalsauspr¨agungen ........................... 101 4.2.4 Qualitative Merkmale, deren Merkmalsauspr¨agungen geordnet sind .................................... 101

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.