ebook img

Allen B. Downey Pravděpodobnost a statistika pro programátory PDF

150 Pages·2015·3.62 MB·Czech
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Allen B. Downey Pravděpodobnost a statistika pro programátory

Allen B. Downey Pravděpodobnost a statistika pro programátory Allen B. Downey Think Stats: Pravděpodobnost a statistika pro programátory verze 1.6.0 Milí čtenáři, první tištěné vydání knihy ThinkStats: Probability and Statistics for Programmers od Allena B. Downeyho vyšlo v nakladatelství O‘Reilly Media v roce 2011. Stejně tak jako Downey knihu psal pro své studenty, tak i my jsme při překladu mysleli na naše studenty Kabinetu informačních studií a knihovnictví (KISK). Kniha je urče- na především pro zájemce o specializaci Informační a datový management. Tuto specializací je možné na KISKu studovat od roku 2014. Svoje čtenáře si kniha najde i mezi studenty dalších vysokých škol, kteří se analytice, statistice nebo programo- vání v rámci studia věnují. Knihu ocení i čtenáři, pro které je datová analytika pouze koníčkem. Mnohé zajímavé poznatky však v textu najde i pokročilý datový analytik, datový žurnalista nebo datový vědec. Všem vám, kteří teď knihu držíte v rukou, přeji příjemné a poučné čtení. Tomáš Bouda – Garant specializace Informační a datový management na KISKu Copyright©2011AllenB.Downey. Prˇeklad©2014JaroslavaŽgánicˇová. Obálka©2014MateˇjMálek. CˇeskousazbupomocíLATEXprovedlJanMartinek. OdpoveˇdnýredaktorvydáníTomášBouda. VydalonakladatelstvíFlowvroce2014. Brno,Hochmanova2177/13 ICˇ:01549316 ISBN978-80-905480-4-6 Tentodokumentjemožnékopírovat,šírˇita/neboupravovatvsouladuspodmín- kami licence Creative Commons Attribution-NonCommercial 3.0 Unported, jejíž zneˇníjedostupnénahttp://creativecommons.org/licenses/by-nc/3.0/. OriginálníformoutétoknihyjezdrojovýkódLATEX.Kompilacítohotokóduvzniká zobrazení ucˇebnice, které je nezávislé na konkrétním zarˇízení a mu˚že být prˇeve- denodojinýchformátu˚ avytišteˇno. ZdrojovýkódLATEXcˇeskéhoprˇekladutétoknihujedostupnýnahttps://github. com/ThinkStatsCs/ThinkStatsCs. Zdrojový kód pu˚vodního textu knihy je do- stupnýnahttp://thinkstats.com. Prˇedmluva Procˇ jsem napsal tuto knihu ThinkStats:Pravdeˇpodobnostastatistikaproprogramátoryjeucˇebnicepronový typ kurzu poskytující úvod do pravdeˇpodobnosti a statistiky. Du˚raz je kla- den na využití statistických metod prˇi práci s velkými soubory dat. Výcho- diskemjevýpocˇetníprˇístup,kterýmáhnedneˇkolikprˇedností: • Psaní programu˚ slouží studentu˚m jako nástroj, jak rozvíjet a testovat porozumeˇní probírané látce. Píší naprˇíklad funkce pro výpocˇet me- tody nejmenších cˇtvercu˚, reziduí a determinacˇního koeficientu. Psaní atestovánítohotokóduseneobejdebezporozumeˇníprˇíslušnýmkon- ceptu˚maimplicitneˇ takékorigujeprˇípadnénepochopení. • Studenti provádeˇjí experimenty, jejichž cílem je otestovat statistické chování.Naprˇíkladprozkoumávajícentrálnílimitníveˇtutím,žegene- rují vzorky z ru˚zných rozdeˇlení. Ve chvíli, kdy vidí, že soucˇet hodnot z Paretova rozdeˇlení nekonverguje k normálnímu rozdeˇlení, si uveˇ- domíprˇedpoklady,nanichžjecentrálnílimitníveˇtazaložena. • Neˇkteré myšlenky, které je obtížné uchopit matematicky, je snadné pochopit na základeˇ simulace. Provádíme naprˇíklad aproximaci p- hodnot pomocí simulací Monte Carlo, cˇímž naru˚stá význam p- hodnoty. • Díky použití spojitých rozdeˇlení a výpocˇtu˚ je možné prˇedstavit také témata jako naprˇíklad bayesovský odhad, která nejsou beˇžneˇ sou- cˇástíúvodníchkurzu˚.Vjednomcvicˇeníjsoustudentinaprˇíkladpožá- dáni, aby vypocˇítali aposteriorní rozdeˇlení pro „problém neˇmeckého tanku“, což je složité v rámci analytického prˇístupu, ale prˇekvapiveˇ jednoduché,použijeme-livýpocˇetníprˇístup. vi Kapitola0. Prˇedmluva • Vzhledem k tomu, že studenti pracují v univerzálním programova- cím jazyku (Python), jsou schopni importovat data témeˇrˇ z jakého- koliv zdroje. Nemusí se omezit pouze na data, která byla ocˇišteˇna a naformátovánaprokonkrétnístatistickýnástroj. Kniha je vhodná pro projektový prˇístup. V mém kurzu pracují studenti na semestrálním projektu, v rámci kterého si mají položit statistickou otázku, najít soubor dat, který jim na ni mu˚že dát odpoveˇd’, a aplikovat každou zprobíranýchtechniknajejichvlastnídata. Jako ukázka typu analýzy, jaký od svých studentu˚ ocˇekávám, slouží prˇípa- dová studie, která se prolíná celou knihou. Tato prˇípadová studie využívá datazedvouzdroju˚: • Národní šetrˇení ru˚stu rodin (National Survey of Family Growth – NSFG), provádeˇné Americkými centry pro kontrolu a prevenci ne- mocí (U. S. Centers for Disease Control and Prevention – CDC), jehož cílem je shromáždit „informace o rodinném životeˇ, snˇatcích a rozvo- dech,teˇhotenstvích,neplodnosti,užíváníantikoncepceazdravímužu˚ ažen“.(Vizhttp://cdc.gov/nchs/nsfg.htm.) • Systém sledování rizikových faktoru˚ chování (Behavioral Risk Fac- tor Surveillance System – BRFSS), provádeˇný Národním centrem pro prevenci chronických onemocneˇní a podporu zdraví (National Cen- ter for Chronic Disease Prevention and Health Promotion) za úcˇelem „sledovánízdravotníchpodmínekarizikovéhochováníveSpojených státech“.(Vizhttp://cdc.gov/BRFSS/.) VostatníchprˇíkladechjsouvyužívánadatazprˇístupneˇnáDanˇovousprávou USA(IRS),AmerickýmúrˇademproscˇítáníliduaBostonskýmmaratonem. Jak jsem napsal tuto knihu Kdyžneˇkdopíšenovouucˇebnici,obvyklezacˇnetím,žeprˇecˇtestohystarých ucˇebnic. Ve výsledku pak veˇtšina ucˇebnic obsahuje stejný materiál v prak- tickystejnémporˇadí.Cˇastosevyskytujífrázeachyby,kterésešírˇíodjedné knihy k další. Stephen Jay Gould upozornil na jeden prˇíklad ve své eseji: „TheCaseoftheCreepingFoxTerrier(Prˇípadplíživéhofoxteriéra)1.“ Já jsem takto nepostupoval. Vlastneˇ jsem v pru˚beˇhu psaní této knihy nepo- užiltémeˇrˇ žádnétišteˇnémateriály,atozneˇkolikadu˚vodu˚: 1Psí plemeno zhruba polovicˇní velikosti Hyracotheria (viz http://wikipedia.org/ wiki/Hyracotherium). vii • Mým cílem bylo prozkoumat nový prˇístup k tomuto materiálu, a tak jsemnechteˇlbýtprˇílišvystavenexistujícímprˇístupu˚m. • Protože tuto knihu zprˇístupnˇuji pod volnou licencí, chteˇl jsem si být jistý tím, že žádná její cˇást nebude zatížena autorskoprávními omeze- ními. • Mnozí cˇtenárˇi mých knih nemají prˇístup ke knihovnám s tišteˇnými materiály, a tak jsem se snažil odkazovat na zdroje, které jsou volneˇ dostupnénainternetu. • Zastánci starých médií si myslí, že výlucˇné využívání elektronických zdroju˚ jeznakemlenostianespolehlivosti.Možnámajípravdu,pokud jdeotoprvní,alemyslímsi,žesemýlívtomdruhémbodeˇ,atakjsem chteˇlotestovatsvojiteorii. Zdroj, který jsem využíval víc než kterýkoliv jiný, je Wikipedie, postrach knihovníku˚ všude na sveˇteˇ. Obecneˇ mohu rˇíci, že cˇlánky, které jsem si prˇe- cˇetlostatistickýchtématech,bylyvelmidobré(ikdyžjsemvpru˚beˇhupsaní provedl neˇkolik drobných zmeˇn).Odkazy na stránky na Wikipedii uvádím na mnoha místech své knihy a doporucˇuji vám se na tyto odkazy podívat. V rˇadeˇ prˇípadu˚ uvedená stránka na Wikipedii pokracˇuje tam, kde jsem se svým výkladem skoncˇil. Termíny a zpu˚sob zápisu používané v této knize jsou obecneˇ konzistentní s Wikipedií, až na prˇípady, kdy jsem meˇl dobrý du˚vodproodchýleníse. Dalšíužitecˇnézdroje,nakteréjsemnarazil,jsouWolframMathWorlda(sa- mozrˇejmeˇ) Google. Také jsem použil dveˇ knihy, dílo Davida MacKaye In- formation Theory, Inference, and Learning Algorithms, což je kniha, která meˇ prˇivedla k bayesovské statistice, a dále dílo Press et al. Numerical Recipes in C.Obeˇ knihyjsoualedostupnétakéonline,atakjsembezobav. AllenB.Downey NeedhamMA Allen B. Downey je profesorem pocˇítacˇové veˇdy na Franklin W. Olin CollegeofEngineering. Seznam prˇispeˇvatelu˚ Máte-li neˇjakou prˇipomínku nebo návrh na opravu, kontaktujte meˇ prosím prostrˇednictvím e-mailu [email protected]. Jestliže na základeˇ vaší viii Kapitola0. Prˇedmluva zpeˇtné vazby provedu neˇjakou zmeˇnu, prˇidám vaše jméno na seznam prˇi- speˇvatelu˚ (pokudmeˇ nepožádáte,abychvašejménoneuvádeˇl). Když ve zpráveˇ uvedete alesponˇ cˇást veˇty, ve které se chyba objevuje, usnadníte mi tím hledání. Cˇíslo strany a oddílu jsou také dobré, ale nepra- cujesesnimitaksnadno.Díky! • Lisa Downey a June Downey si prˇecˇetly pocˇátecˇní verzi a provedly rˇadu opravaposkytlymispoustuprˇipomínek. • StevenZhangobjevilneˇkolikchyb. • Andy Pethan a Molly Farison mi pomohli odladit neˇkterá rˇešení a Molly si všimlaneˇkolikaprˇeklepu˚. • AndrewHeinenašelchybuvméchybovéfunkci. • Dr.NikolasAkerblomví,jakvelkéjeHyracotherium. • AlexMorrowvyjasniljedenzprˇíkladu˚ kódu. • JonathanStreetzachytilchybupráveˇ vcˇas. • GáborLiptáknašelprˇeklepvknizearˇešeníštafetovéhozápasu. • Velké díky patrˇí Kevinu Smithovi a Timu Arnoldovi za jejich práci na plas- TeXu,kterýjsempoužilkekonverzitétoknihynaDocBook. • GeorgeCaplanmiposlalneˇkoliknávrhu˚ prolepšísrozumitelnost. • JulianCeipeknašelchybuaneˇkolikprˇeklepu˚. • StijnDebrouwere,LeoMarihartIII,JonathanHammleraKentJohnsonnašli chybyvprvnímtišteˇnémvydání. • DanKearneynašelprˇeklep. • JeffPickhardtnašelnefunkcˇníodkazaprˇeklep. • Jörg Beyer našel v knize prˇeklepy a provedl rˇadu oprav v dokumentacˇních rˇeteˇzcích(docstrings)doprovodnéhokódu. • TommieGannertposlalopravnýsouborsrˇadouoprav. • AlexanderGryzlovnavrhlobjasneˇnívjednomcvicˇení. • MartinVeilletteminahlásilchybuvjednomzevzorcu˚ proPearsonovukore- laci. • ChristophLendenmannmeˇ upozornilnaneˇkoliktiskovýchchyb. Obsah Prˇedmluva v 1 Statistickémyšleníproprogramátory 1 1.1 Rodíseprvorozenédeˇtisezpoždeˇním? . . . . . . . . . . . . 2 1.2 Statistickýprˇístup . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 Národníšetrˇeníru˚sturodin . . . . . . . . . . . . . . . . . . . 4 1.4 Tabulkyazáznamy . . . . . . . . . . . . . . . . . . . . . . . . 6 1.5 Významnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.6 Glosárˇ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2 Popisnástatistika 13 2.1 Strˇedníhodnotyapru˚meˇry . . . . . . . . . . . . . . . . . . . 13 2.2 Rozptyl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.3 Rozdeˇlení . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4 Zobrazováníhistogramu˚ . . . . . . . . . . . . . . . . . . . . . 16 2.5 Grafickéznázorneˇníhistogramu˚ . . . . . . . . . . . . . . . . 17 2.6 Zobrazovánípravdeˇpodobnostníchfunkcí(PMFs) . . . . . . 19 2.7 Grafickéznázorneˇnípravdeˇpodobnostníchfunkcí(PMFs) . . 21 2.8 Odlehléhodnoty . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.9 Dalšívizualizace . . . . . . . . . . . . . . . . . . . . . . . . . . 22

Description:
vání v rámci studia věnují. cím jazyku (Python), jsou schopni importovat data témer z jakého- .. zda se prvorozené deti opravdu rodí se zpoždením, a dalších otázek zacátek (start): Index pocátecního sloupce pro toto pole.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.