Statistik und ihre Anwendungen Carsten Dormann Parametrische Statistik Verteilungen, maximum likelihood und GLM in R 2. Auflage Reihenherausgeber Prof.Dr.HolgerDette (cid:2) Prof.Dr.WolfgangHärdle Statistik und ihre Anwendungen WeitereBändedieserReihefindenSieunter http://www.springer.com/series/5100 Carsten F. Dormann Parametrische Statistik Verteilungen, maximum likelihood und GLM in R 2., überarbeitete und erweiterte Auflage CarstenF.Dormann AbteilungfürForstlicheBiometrie UniversitätFreiburg Freiburg,Deutschland StatistikundihreAnwendungen ISBN978-3-662-54683-3 ISBN978-3-662-54684-0(eBook) DOI10.1007/978-3-662-54684-0 DieDeutscheNationalbibliothekverzeichnetdiesePublikationinderDeutschenNationalbibliografie;detaillier- tebibliografischeDatensindimInternetüberhttp://dnb.d-nb.deabrufbar. SpringerSpektrum ©Springer-VerlagGmbHDeutschland2013,2017 DasWerkeinschließlichallerseinerTeileisturheberrechtlichgeschützt.JedeVerwertung,dienichtausdrücklich vomUrheberrechtsgesetzzugelassenist,bedarfdervorherigenZustimmungdesVerlags.Dasgiltinsbesondere fürVervielfältigungen,Bearbeitungen,Übersetzungen,MikroverfilmungenunddieEinspeicherungundVerar- beitunginelektronischenSystemen. DieWiedergabevonGebrauchsnamen,Handelsnamen,Warenbezeichnungenusw.indiesemWerkberechtigt auchohnebesondereKennzeichnungnichtzuderAnnahme,dasssolcheNamenimSinnederWarenzeichen- undMarkenschutz-Gesetzgebungalsfreizubetrachtenwärenunddahervonjedermannbenutztwerdendürften. DerVerlag,dieAutorenunddieHerausgebergehendavonaus,dassdieAngabenundInformationenindiesem WerkzumZeitpunktderVeröffentlichungvollständigundkorrektsind.WederderVerlagnochdieAutorenoder dieHerausgeberübernehmen,ausdrücklichoderimplizit,GewährfürdenInhaltdesWerkes,etwaigeFehler oderÄußerungen.DerVerlagbleibtimHinblickaufgeografischeZuordnungenundGebietsbezeichnungenin veröffentlichtenKartenundInstitutionsadressenneutral. Planung:IrisRuhmann GedrucktaufsäurefreiemundchlorfreigebleichtemPapier. SpringerSpektrumistTeilvonSpringerNature DieeingetrageneGesellschaftistSpringer-VerlagGmbHDeutschland DieAnschriftderGesellschaftist:HeidelbergerPlatz3,14197Berlin,Germany Vorwort Scienceisinstitutionalisedscepticism. MarcRees,AstronomerRoyal Statistik,inmeinemVerständnis,istderformalisierteVersuch,sichnichtdurchArtefakte, ZufallundVoreingenommenheitvonechtemErkenntnisgewinnabbringenzu lassen. Sie istdassystematischeZweifelnandeneigenen(undanderer)Daten.WeralsWissenschaft- lersichselbstgegenüberehrlichist,derwillnichteinemRauschenodereinerTautologie1 aufsitzen. Jeder Datensatz hat irgendein Muster. Statistik stellt die Werkzeuge bereit zu testen, ob dieses Muster belastbar ist. Deshalb ist Churchills Ausspruch „Trau keiner Statistik, die Du nicht selbst gefälscht hast!“ ärgerlich. Er diskreditiert den Statistik-Betreiber als jemanden,dernurUnterschiedefindenwill.GrundvoraussetzungistEhrlichkeit.Wersich selbstundanderebetrügenwill,sollteseineDatenerfinden;mitaufwändigerStatistikzu lügenistselbstverständlichmöglich,aberineffizient.Nureinselbstkritischer,zweifelnder GeistwirdStatistiksinnvolleinsetzen–undeinEguteRWissenschaftlerIn.2Nurfürdiese MenschenistdasvorliegendeMachwerkgedacht. Dieses Buch wendet sich an Laien ohne Vorkenntnisse, die, freiwillig oder gezwun- genermaßen,dieGrundlagentypischerstatistischerVerfahrenverstehenundanzuwenden lernen wollen. Der typische Leser ist ein Student im Grundstudium/BSc in einem um- weltwissenschaftlichen FachgebietodereinewissenschaftlichorientiertePerson,dieden statistischenArbeitsbereichvonderPikeauflernenwill.DieStrukturdiesesBuchesistein Wechselspiel aus Grundlagen und Umsetzungsbeispielen. Der eilige Leser kann schnell sehen, wie etwas umgesetzt werden kann (in den geradzahligen Kapiteln), während das Kapitel davor das Verständnis für das Wieso schaffen soll (in den ungeradzahligen Ka- 1Tautologie (Logik), eine Aussage, die, unabhängigvom Wahrheitswert der zugrunde liegenden Bestandteile,immerwahrist(z.B.:„Esregnetoderesregnetnicht.“,http://de.wikipedia.org/wiki/ Tautologie,3.8.2011). 2IchverzichteimweiterenaufdieGleichstellungvonMannundFrauinderGrammatik:dasgram- matikalischeGeschlechteinesWortesistunabhängigvomGeschlechtder/desBezeichneten. V VI Vorwort piteln). Dieses wieso ist nicht durch mathematische Beweise als mehr durch praktisch Nachvollziehbarkeitmotiviert.3 EineAusnahmebildendieKapitelzurWissenschaftsphilosophieundzumexperimen- tellen Design (Kap. 13 und 14). Sie benutzen Ausdrücke, die erst im Laufe des Buchs eingeführtwerden,sindabereigentlichso grundlegend,dasssieganzamAnfangstehen sollten. Vielleicht überfliegtder geneigteLeser diese Kapitel gleich zu Beginnund hebt sichdietechnischenDetailsfürspäterauf. Es gibt unzählige Quellen für statistische Verfahren. Viele Bücher (vor allem engli- sche)sindimLiteraturverzeichnisaufgeführt.Ergänzendwillichhieraufzwei„moderne“ Quellenverweisen:http://www.khanacademy.org/#statistics.DieseSeitebietetkurze(5– 10 Minuten lange) Videocasts zu einem Thema an. Für Manchen mag diese Form der Inhaltsvermittlungbzw.-wiederholunggenaugeeignetsein. Ebenso sind dieWikipedia- SeitenzurStatistikhäufigausgesprochengut(undwenneinmalnichtaufDeutsch,sodoch auf Englisch). Allerdings sind sie meist sehr mathematisch und erst im unteren Teil mit BeispielenauchfürAnfängerbrauchbar.Einfach’malreinklicken. Danksagung DiesesBucherwuchsauseinigenJahrenderLehrpraxismitverschiedens- ten Bachelor- und MasterstudentInnen und DoktorandInnen. Während sie Statistik ge- lernt haben, habeich viel über die Vermittlung von Statistik gelernt. Für die konstrukti- venRückmeldungenundfürdieToleranzgegenüberexperimentellenDarbietungsformen bin ich all diesen Menschen sehr dankbar. Das vorliegende Werk habe ich so an den Bachelor-StudentInnender Studiengänge Geographie, Waldwirschaft und Umweltnatur- wissenschaftenanderUniversitätFreiburg„getestet“–undsiehabenesfürgutbefunden. Danke! Danken möchte ich auch Prof. Dr. Peter Pfaffelhuber, Freiburg, und Dr. Katharina Gerstner, Leipzig, für eine Durchsicht auf mathematisch-statistische Korrektheit. Mög- licheweiterhinexistierendenFehlersindnatürlichalleinmiranzulasten.4 SchließlichdankeichmeinerFamilie,dasssieüberMonatedenAnblickertragenhat, wie ich allabendlich über einen Klapprechner gekrümmtwar. Auf diesem Rechner läuft (neben R) LATEX.5 Beiden open source-Projekten bin ich extrem dankbar dafür, dass sie eineunermesslichkompetenteSoftwareentwickelthaben. 3IchmacheaufdenfolgendenSeitenintensivvonFußnotenGebrauch.Siekonkretisierenzumeist einen Punkt oder erklären ein technisches oder mathematische Detail. Für mich stellen sie das schriftliche Pendant zum Senken der Stimme in der Vorlesung dar: einen Einschub, der für das Verständnisnicht notwendigist, der aber eine interessante oderfür manche Situationenwichtige Informationenthält. 4PS:Rückmeldungenzu Fehlern,Ungenauigkeiten,Unvollständigkeitenoderauchzu Wünschen fü[email protected]. 5LATEX(http://ctan.org)istfürdieTextverarbeitungdas,wasRfürdieStatistikist:Simplythebest. Undwowirgeradedabeisind:Wikipedia,Python,Windows,Excel,macOS,Google,Genstat,Stata, S-plus, Mathematica, Matlab und OpenOffice sind eingetragene Warenzeichen. Ihre Erwähnung bedeutetkeinGutheißendieserProdukte. Vorwort VII Vorwortzur2.Auflage Diese Auflageist vorallem eineÜberarbeitungderersten.TrotzintensivenKorrekturle- sens hatten sich einige (Tipp-)Fehler eingeschlichen, die hier korrigiert wurden. Allen, die Hinweise auf Fehler gegeben haben, sei hiermit herzlich gedankt, vor allem Gregor Didenko und Jan Hanspach, die über die Hälfte aller Fehler entdeckt haben! Hinzuge- kommen sind neben vielen kleinen Ergänzungen etwa zur Momentenmethode oder zur TransformationderAntwortvariableneineBoxzurResiduendiagnostikfürGLMsunddie Berücksichtigung der best-subset regression bei der Modellselektion. Vielen Dank auch anAgnesHerrmannvomSpringer-Verlag,diemichbeiderUmsetzungdesBuchsalsepub begleitete. Freiburg,2017 CarstenF.Dormann Die technische Seite und die Wahl der Statistiksoftware Lifeisrepetitive–usethecommandline. GitaBenadi AmEndediesesKapitels... ... sollteRaufDeinemRechnerlaufen. ... solltendieVor-undNachteilevonpoint-and-clickbzw.Code-basierterSoftware fürdiestatistischeAuswertungklarsein. ... solltederDrang,endlichetwasselbstzurechnen,brennendsein. EinfacheTests undBerechnungenkannmanmitHilfeeinesTaschenrechnersodereines Tabellenkalkulationsprogramms(vulgo:Excel)durchführen.Füretwas anspruchsvollere Analysen,etwaRegressionen,brauchenwirschonspezielleStatistiksoftware(Excelund Freundekönnendaszwaroftauch,aberdenErgebnissenwürdeichnichttrauen,z.B.we- gentrivialerProblemewieRechenfehler,Zeilenbegrenzungen,automatischeUmformun- gen).AndieStellederTabellenprogrammetrittdann„point-and-click“-Statistiksoftware (z.B. SPSS, Statistica, Minitab). Alternativ kann man auch in die Gruppe der Code- basiertenProgrammeeinsteigen(Stata,S-plus,Matlab,Mathematica,Genstat,R).Diese haben zwei große Vorteile: Ihr Funktionsumfang ist grundsätzlich nicht beschränkt, da er durch Programmierung erweitert werden können; und der Code macht eine Analyse nachvollziehbarundeinfachzuwiederholbar. Ich kann vor allem den zweiten Punkt gar nicht genug betonen. Wenn wir z.B. nach einerlängerenAnalyseeinenDatendreheroderTippfehlerindenRohdatenfinden,dann müssenwirunsbeipoint-and-click-SoftwareerneutdurchalleSchrittekämpfen.InCode- basiertenProgrammenführenwirdengespeichertenCodeeinfachnocheinmalaus–ein copy-pasteunddieAnalyseistaktualisiert. Code-basierteSoftwarefindetweiteAnwendungbeiallenautomatisiertenVorgängen. Der monatliche Bericht der Blutspendendatenbank wird ebenso wie sämtliche Google- Analysen mit Code-basierter Software erstellt. Welches Programm man dann konkret wählt,istvorallemGeschmacks-undKostensache. IX X DietechnischeSeiteunddieWahlderStatistiksoftware DieLernkurveistbeiCode-basierterSoftwarezunächststeiler.Manerlerntquasieine neue Sprache, mit vielen neuen Vokabeln, einer Grammatik und macht dabei, wie beim ErlernenvonSuaheli,bisansEndeseinesLebensFehler.Dafürerschließtmansicheine ganzeWeltanMöglichkeiten,diemittelspoint-and-clicknichtzugänglichsind.Undaus meinerSichtistesschlimm,etwasFalschestunzumüssen,nurweilwirzufaulist,etwas Neueszulernen. Umsonst(im Sinne von„ohneAufwand“) gibteskeineStatistik. Umsonst (im Sinne von„ohnedafürGeldzubezahlen“)gibtesvorallemzweiSysteme:RundPython.6 Im AugenblickbietetRdiegrößteFülleanFunktionen,diespeziellfürstatistischeAuswer- tungengeschaffenwurden.Vielleichtsetztsichindennächsten10Jahrenetwasanderes durch,aberderzeitgibtesnichtsNützlicheres. AlsoR. Hier eine ganz kurze Darstellung, wo man R erhält und wie man es installiert. Die relevantenBenutzungsschrittewerdendannindenjeweiligenKapitelnerklärt. Rherunterladenundinstallieren RisteineStatistik-undVisualisierungssoftware,diedurchdieRFoundationkoordiniert wird (R Core Team, 2017). Sie ist plattform-unabhängig(d.h. für verschiedene Linuxe, WindowsundMacOSzuerhalten).DerCodeistfreiverfügbar.ÜberdieGeschichteund vieletechnischeDetailsinformiertderzentraleAnlaufpunkt:www.r-project.org(Abb.1). Im Augenblick interessiert uns vor allem CRAN, das Comprehensive R Archive Net- work,aufdemesdieInstallationsdateiengibt.EinKlickaufCRAN(amlinkenBildrand) bringtunsaufeineSeitemitSpiegelservern,vondenenwirunseinennahegelegenenaus- suchen(etwa http://ftp5.gwdg.de/pub/misc/cran/).DerInhaltistaufallen Spiegelservern derGleichewieaufdemHauptserverinWien(deshalbmirror). ZurInstallationvonRbrauchenwirAdministratorenrechte! JenachBetriebssystemklickenwirjetztinderdoppelumrandetenBoxaufDownload for Linux/Mac OS X/Windows und in der neuen Seite auf base. Wir kommen zu einerneuenSeite,diejenachBetriebssystemandersaussieht. (cid:2) FürLinuxmüssenwirjetztzwischenDebian/UbuntuundRedHat/Suseauswählen(für Linuxe,dienicht.debbzw..rpmPaketebenutzen,kannmanaufdervorherigenSeite densource-Codeherunterladenundselbstkompilieren).Einfachergehtesmittelsder SoftwareverwaltunginLinuxselbst,vonwoausmaneinfachaller-baseundr-cran Pakete(nebstAbhängigkeiten)herunterlädtundinstalliert. 6www.python.org,mitPaketenNumPyundSciPy.EineguteenglischsprachigeEinführunginSta- tistikmitPythonistHaslwanter(2016).
Description: