Allen B. Downey Pravděpodobnost a statistika pro programátory Allen B. Downey Think Stats: Pravděpodobnost a statistika pro programátory verze 1.6.0 Milí čtenáři, první tištěné vydání knihy ThinkStats: Probability and Statistics for Programmers od Allena B. Downeyho vyšlo v nakladatelství O‘Reilly Media v roce 2011. Stejně tak jako Downey knihu psal pro své studenty, tak i my jsme při překladu mysleli na naše studenty Kabinetu informačních studií a knihovnictví (KISK). Kniha je urče- na především pro zájemce o specializaci Informační a datový management. Tuto specializací je možné na KISKu studovat od roku 2014. Svoje čtenáře si kniha najde i mezi studenty dalších vysokých škol, kteří se analytice, statistice nebo programo- vání v rámci studia věnují. Knihu ocení i čtenáři, pro které je datová analytika pouze koníčkem. Mnohé zajímavé poznatky však v textu najde i pokročilý datový analytik, datový žurnalista nebo datový vědec. Všem vám, kteří teď knihu držíte v rukou, přeji příjemné a poučné čtení. Tomáš Bouda – Garant specializace Informační a datový management na KISKu Copyright©2011AllenB.Downey. Prˇeklad©2014JaroslavaŽgánicˇová. Obálka©2014MateˇjMálek. CˇeskousazbupomocíLATEXprovedlJanMartinek. OdpoveˇdnýredaktorvydáníTomášBouda. VydalonakladatelstvíFlowvroce2014. Brno,Hochmanova2177/13 ICˇ:01549316 ISBN978-80-905480-4-6 Tentodokumentjemožnékopírovat,šírˇita/neboupravovatvsouladuspodmín- kami licence Creative Commons Attribution-NonCommercial 3.0 Unported, jejíž zneˇníjedostupnénahttp://creativecommons.org/licenses/by-nc/3.0/. OriginálníformoutétoknihyjezdrojovýkódLATEX.Kompilacítohotokóduvzniká zobrazení ucˇebnice, které je nezávislé na konkrétním zarˇízení a mu˚že být prˇeve- denodojinýchformátu˚ avytišteˇno. ZdrojovýkódLATEXcˇeskéhoprˇekladutétoknihujedostupnýnahttps://github. com/ThinkStatsCs/ThinkStatsCs. Zdrojový kód pu˚vodního textu knihy je do- stupnýnahttp://thinkstats.com. Prˇedmluva Procˇ jsem napsal tuto knihu ThinkStats:Pravdeˇpodobnostastatistikaproprogramátoryjeucˇebnicepronový typ kurzu poskytující úvod do pravdeˇpodobnosti a statistiky. Du˚raz je kla- den na využití statistických metod prˇi práci s velkými soubory dat. Výcho- diskemjevýpocˇetníprˇístup,kterýmáhnedneˇkolikprˇedností: • Psaní programu˚ slouží studentu˚m jako nástroj, jak rozvíjet a testovat porozumeˇní probírané látce. Píší naprˇíklad funkce pro výpocˇet me- tody nejmenších cˇtvercu˚, reziduí a determinacˇního koeficientu. Psaní atestovánítohotokóduseneobejdebezporozumeˇníprˇíslušnýmkon- ceptu˚maimplicitneˇ takékorigujeprˇípadnénepochopení. • Studenti provádeˇjí experimenty, jejichž cílem je otestovat statistické chování.Naprˇíkladprozkoumávajícentrálnílimitníveˇtutím,žegene- rují vzorky z ru˚zných rozdeˇlení. Ve chvíli, kdy vidí, že soucˇet hodnot z Paretova rozdeˇlení nekonverguje k normálnímu rozdeˇlení, si uveˇ- domíprˇedpoklady,nanichžjecentrálnílimitníveˇtazaložena. • Neˇkteré myšlenky, které je obtížné uchopit matematicky, je snadné pochopit na základeˇ simulace. Provádíme naprˇíklad aproximaci p- hodnot pomocí simulací Monte Carlo, cˇímž naru˚stá význam p- hodnoty. • Díky použití spojitých rozdeˇlení a výpocˇtu˚ je možné prˇedstavit také témata jako naprˇíklad bayesovský odhad, která nejsou beˇžneˇ sou- cˇástíúvodníchkurzu˚.Vjednomcvicˇeníjsoustudentinaprˇíkladpožá- dáni, aby vypocˇítali aposteriorní rozdeˇlení pro „problém neˇmeckého tanku“, což je složité v rámci analytického prˇístupu, ale prˇekvapiveˇ jednoduché,použijeme-livýpocˇetníprˇístup. vi Kapitola0. Prˇedmluva • Vzhledem k tomu, že studenti pracují v univerzálním programova- cím jazyku (Python), jsou schopni importovat data témeˇrˇ z jakého- koliv zdroje. Nemusí se omezit pouze na data, která byla ocˇišteˇna a naformátovánaprokonkrétnístatistickýnástroj. Kniha je vhodná pro projektový prˇístup. V mém kurzu pracují studenti na semestrálním projektu, v rámci kterého si mají položit statistickou otázku, najít soubor dat, který jim na ni mu˚že dát odpoveˇd’, a aplikovat každou zprobíranýchtechniknajejichvlastnídata. Jako ukázka typu analýzy, jaký od svých studentu˚ ocˇekávám, slouží prˇípa- dová studie, která se prolíná celou knihou. Tato prˇípadová studie využívá datazedvouzdroju˚: • Národní šetrˇení ru˚stu rodin (National Survey of Family Growth – NSFG), provádeˇné Americkými centry pro kontrolu a prevenci ne- mocí (U. S. Centers for Disease Control and Prevention – CDC), jehož cílem je shromáždit „informace o rodinném životeˇ, snˇatcích a rozvo- dech,teˇhotenstvích,neplodnosti,užíváníantikoncepceazdravímužu˚ ažen“.(Vizhttp://cdc.gov/nchs/nsfg.htm.) • Systém sledování rizikových faktoru˚ chování (Behavioral Risk Fac- tor Surveillance System – BRFSS), provádeˇný Národním centrem pro prevenci chronických onemocneˇní a podporu zdraví (National Cen- ter for Chronic Disease Prevention and Health Promotion) za úcˇelem „sledovánízdravotníchpodmínekarizikovéhochováníveSpojených státech“.(Vizhttp://cdc.gov/BRFSS/.) VostatníchprˇíkladechjsouvyužívánadatazprˇístupneˇnáDanˇovousprávou USA(IRS),AmerickýmúrˇademproscˇítáníliduaBostonskýmmaratonem. Jak jsem napsal tuto knihu Kdyžneˇkdopíšenovouucˇebnici,obvyklezacˇnetím,žeprˇecˇtestohystarých ucˇebnic. Ve výsledku pak veˇtšina ucˇebnic obsahuje stejný materiál v prak- tickystejnémporˇadí.Cˇastosevyskytujífrázeachyby,kterésešírˇíodjedné knihy k další. Stephen Jay Gould upozornil na jeden prˇíklad ve své eseji: „TheCaseoftheCreepingFoxTerrier(Prˇípadplíživéhofoxteriéra)1.“ Já jsem takto nepostupoval. Vlastneˇ jsem v pru˚beˇhu psaní této knihy nepo- užiltémeˇrˇ žádnétišteˇnémateriály,atozneˇkolikadu˚vodu˚: 1Psí plemeno zhruba polovicˇní velikosti Hyracotheria (viz http://wikipedia.org/ wiki/Hyracotherium). vii • Mým cílem bylo prozkoumat nový prˇístup k tomuto materiálu, a tak jsemnechteˇlbýtprˇílišvystavenexistujícímprˇístupu˚m. • Protože tuto knihu zprˇístupnˇuji pod volnou licencí, chteˇl jsem si být jistý tím, že žádná její cˇást nebude zatížena autorskoprávními omeze- ními. • Mnozí cˇtenárˇi mých knih nemají prˇístup ke knihovnám s tišteˇnými materiály, a tak jsem se snažil odkazovat na zdroje, které jsou volneˇ dostupnénainternetu. • Zastánci starých médií si myslí, že výlucˇné využívání elektronických zdroju˚ jeznakemlenostianespolehlivosti.Možnámajípravdu,pokud jdeotoprvní,alemyslímsi,žesemýlívtomdruhémbodeˇ,atakjsem chteˇlotestovatsvojiteorii. Zdroj, který jsem využíval víc než kterýkoliv jiný, je Wikipedie, postrach knihovníku˚ všude na sveˇteˇ. Obecneˇ mohu rˇíci, že cˇlánky, které jsem si prˇe- cˇetlostatistickýchtématech,bylyvelmidobré(ikdyžjsemvpru˚beˇhupsaní provedl neˇkolik drobných zmeˇn).Odkazy na stránky na Wikipedii uvádím na mnoha místech své knihy a doporucˇuji vám se na tyto odkazy podívat. V rˇadeˇ prˇípadu˚ uvedená stránka na Wikipedii pokracˇuje tam, kde jsem se svým výkladem skoncˇil. Termíny a zpu˚sob zápisu používané v této knize jsou obecneˇ konzistentní s Wikipedií, až na prˇípady, kdy jsem meˇl dobrý du˚vodproodchýleníse. Dalšíužitecˇnézdroje,nakteréjsemnarazil,jsouWolframMathWorlda(sa- mozrˇejmeˇ) Google. Také jsem použil dveˇ knihy, dílo Davida MacKaye In- formation Theory, Inference, and Learning Algorithms, což je kniha, která meˇ prˇivedla k bayesovské statistice, a dále dílo Press et al. Numerical Recipes in C.Obeˇ knihyjsoualedostupnétakéonline,atakjsembezobav. AllenB.Downey NeedhamMA Allen B. Downey je profesorem pocˇítacˇové veˇdy na Franklin W. Olin CollegeofEngineering. Seznam prˇispeˇvatelu˚ Máte-li neˇjakou prˇipomínku nebo návrh na opravu, kontaktujte meˇ prosím prostrˇednictvím e-mailu [email protected]. Jestliže na základeˇ vaší viii Kapitola0. Prˇedmluva zpeˇtné vazby provedu neˇjakou zmeˇnu, prˇidám vaše jméno na seznam prˇi- speˇvatelu˚ (pokudmeˇ nepožádáte,abychvašejménoneuvádeˇl). Když ve zpráveˇ uvedete alesponˇ cˇást veˇty, ve které se chyba objevuje, usnadníte mi tím hledání. Cˇíslo strany a oddílu jsou také dobré, ale nepra- cujesesnimitaksnadno.Díky! • Lisa Downey a June Downey si prˇecˇetly pocˇátecˇní verzi a provedly rˇadu opravaposkytlymispoustuprˇipomínek. • StevenZhangobjevilneˇkolikchyb. • Andy Pethan a Molly Farison mi pomohli odladit neˇkterá rˇešení a Molly si všimlaneˇkolikaprˇeklepu˚. • AndrewHeinenašelchybuvméchybovéfunkci. • Dr.NikolasAkerblomví,jakvelkéjeHyracotherium. • AlexMorrowvyjasniljedenzprˇíkladu˚ kódu. • JonathanStreetzachytilchybupráveˇ vcˇas. • GáborLiptáknašelprˇeklepvknizearˇešeníštafetovéhozápasu. • Velké díky patrˇí Kevinu Smithovi a Timu Arnoldovi za jejich práci na plas- TeXu,kterýjsempoužilkekonverzitétoknihynaDocBook. • GeorgeCaplanmiposlalneˇkoliknávrhu˚ prolepšísrozumitelnost. • JulianCeipeknašelchybuaneˇkolikprˇeklepu˚. • StijnDebrouwere,LeoMarihartIII,JonathanHammleraKentJohnsonnašli chybyvprvnímtišteˇnémvydání. • DanKearneynašelprˇeklep. • JeffPickhardtnašelnefunkcˇníodkazaprˇeklep. • Jörg Beyer našel v knize prˇeklepy a provedl rˇadu oprav v dokumentacˇních rˇeteˇzcích(docstrings)doprovodnéhokódu. • TommieGannertposlalopravnýsouborsrˇadouoprav. • AlexanderGryzlovnavrhlobjasneˇnívjednomcvicˇení. • MartinVeilletteminahlásilchybuvjednomzevzorcu˚ proPearsonovukore- laci. • ChristophLendenmannmeˇ upozornilnaneˇkoliktiskovýchchyb. Obsah Prˇedmluva v 1 Statistickémyšleníproprogramátory 1 1.1 Rodíseprvorozenédeˇtisezpoždeˇním? . . . . . . . . . . . . 2 1.2 Statistickýprˇístup . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 Národníšetrˇeníru˚sturodin . . . . . . . . . . . . . . . . . . . 4 1.4 Tabulkyazáznamy . . . . . . . . . . . . . . . . . . . . . . . . 6 1.5 Významnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.6 Glosárˇ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2 Popisnástatistika 13 2.1 Strˇedníhodnotyapru˚meˇry . . . . . . . . . . . . . . . . . . . 13 2.2 Rozptyl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.3 Rozdeˇlení . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4 Zobrazováníhistogramu˚ . . . . . . . . . . . . . . . . . . . . . 16 2.5 Grafickéznázorneˇníhistogramu˚ . . . . . . . . . . . . . . . . 17 2.6 Zobrazovánípravdeˇpodobnostníchfunkcí(PMFs) . . . . . . 19 2.7 Grafickéznázorneˇnípravdeˇpodobnostníchfunkcí(PMFs) . . 21 2.8 Odlehléhodnoty . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.9 Dalšívizualizace . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Description: