Biostatistika Citáty o statistice

Biostatistika

Statistika

Nač budete potřebovat znát statistiku?

Co je to biostatistika

A co je tedy statistika?

Cíle statistiky

Čím méně čísel získám

Díky ztrátě informace lze statistikou krásně lhát

A pomocí grafů ještě lépe:

Cíle statistiky

V biologii jde běžně o interferenční statistiku

“Statisticky lze dokázat vše”

“Lék funguje tím lépe, čím je pocientovi hůře.”

“Čápi nosí děti”

Důkaz škodlivost fluorizace (údaje z jednotlivých států USA)

2. Interpretace - ‘Čáp nosí děti”

Typy (nejen biologických) dat

Typy (nejen biologických) dat

Typy (nejen biologických) dat

Základní soubor (Population) a Náhodný výběr (Random sample)

Základní soubor (Population) a Náhodný výběr (Random sample)

Udělat náhodný výběr není obvykle triviální - v žádném případě to není výběr typických individuí- funguje rozumně v zemědělských pokusech

Podstatně složitější je to v přirozených populacích - nefunguje ani individuum nejbližší náhodnému bodu

Základní statistické chartakteristiky

Aritmetický průměr

Geometrický průměr

Harmonický průměr

Medián [lze užít i pro data na ordinální stupnici]

Horní a dolní kvartil

Rozlišuj mínění průměru a mediánu

Modus - nejčastěji se vyskytující hodnota - u spojitých dat “vrchol” histogramu četností - později zadefinujeme jako lokální maximum křivky hustoty pravděpodobnosti [může být víc než jeden]

Míry variability

Variance - průměrná hodnota druhé mocniny (čtverce) odchylky od průměru

Směrodatná odchylka (sx, často také s.d., S.D. - standard deviation) je odmocnina z variance

Porovnej variabilitu váhy slona a mravence

Střední chyba průměru (standard error of mean)

Grafické sumarizace - histogram četností

Box and whisker (doslova krabice s fousama, obvykle “krabicový” diagram)

Dostları ilə paylaş:

Biostatistika Citáty o statistice

Biostatistika

Statistika

Citáty o statistice

Statistika je věda o přesném nakládání s nepřesnými čísly

Známe tři druhy lži: úmyslnou, neúmyslnou a statistiku

Důvěřuji pouze té statistice, kterou jsem sám zfalšoval (připisuje se Churchilovi)

Statistika nuda je, má však cenné údaje...

Nač budete potřebovat znát statistiku?

Protože z ní máte zkoušku.

Protože bez statistického hodnocení neobhájíte diplomku, nevezmou vám článek do tisku, apod.

Protože bez statistiky není možné hodnotit kvantitativní výsledky žádného pokusu nebo pozorování. Bez základních znalostí statistiky neporozumíte plně většině biologických prací.

Co je to biostatistika

V podstatě neexistuje jako samostatný obor. Užíváním toho slova naznačujeme, že se jedná o aplikaci statistických metod na řešení biologických problémů. [a biologická data mají svoje specifika]

A co je tedy statistika?

(v laické mluvě) Uspořádaný soubor dat: statistika střel na bránu, statistika úrazů v jednotlivých krajích

(v odborné mluvě) Věda, co s těmi daty budeme dělat - (matematická) statistika jako věda

V rámci statistiky - nějaká hodnota, kterou z čísel získáme, která nám nějak “syntetizuje” vlastnosti daných čísel

Cíle statistiky

(1) Popisná statistika - zpřehlednit soubor dat, “kondenzovat” informaci z mnoha čísel do menšího počtu parametrů nebo do grafu

Čím méně čísel získám

tím je výsledek přehlednější a jednodušší

ale tím je také větší ztráta informace (z průměru, ale ani z histogramu už nikdy nedohledám, kolik měl František K., ani kolik byla všechna čísla)

- umění najít vhodnou míru, kdy je výsledek ještě přehledný, a přitom neztratil vypovídací schopnost

Díky ztrátě informace lze statistikou krásně lhát

A pomocí grafů ještě lépe:

Cíle statistiky

(2) Interferenční statistika - Statistika výběrových šetření

Některé soubory jsou moc velké [nebo potenciálně nekonečné] - všechny jejich členy nejsem schopen zkontrolovat

Co mohu říci o tom, jak dopadnou volby v celé republice, když se zeptám 1000 lidí?

Co mohu říci o obsahu Cd v krvi divokých husí v ČR, když se mi podaří odebrat krev deseti individuím?

V biologii jde běžně o interferenční statistiku

Nechci dělat závěry o svých deseti krysách na kterých jsem dělal pokus, ale na základě těch deseti chci něco říci o všech pokusech, které by byly prováděny stejným způsobem

Jestliže dělám nějaký výzkum, měl by být reprodukovatelný (srov. Journal of Irreproducible Research)

“Statisticky lze dokázat vše”

…zvláště lidem, kteří statistice nerozumění

“Je statisticky dokázáno, že vdovy žijí déle, než jejich manželé.”

Do grafů lze dát cokoliv, a grafy pak vypadají velmi sugestivně, zvlášť když jsou doprovozeny “vhodnou” interpretací (data jsou pro ilustraci vymyšlená, ale podle reality)

“Lék funguje tím lépe, čím je pocientovi hůře.”

“Čápi nosí děti”

Důkaz škodlivost fluorizace (údaje z jednotlivých států USA)

2. Interpretace - ‘Čáp nosí děti”

2. Interpretace - ‘Čáp nosí děti”

3. Predikce - odstraníme-li čápy, přestanou se rodit děti [nebo se sníží počet narozených, pokud děti nosí i vrány]

4. Experiment: V polovině okresů (náhodně vybrané!) vystřílíme čápy a sledujeme změnu porodnosti (v porovnání se změnou v okresech kontrolních)

5. (Po statistickém hodnocení) zjistíme, že ke změnám nedošlo, takže usoudíme, že čápi děti nenosí.

Typy (nejen biologických) dat

Data spojitá a diskrétní - matematická definice a realita měřených dat - v realitě měříme vždy data s určitou přesností (a tudíž by podle striktně matematické definice měla být považována za diskrétní; to však není potřeba)

Typy (nejen biologických) dat

Poměrná (poměrová) stupnice - Ratio scale

Intervalová stupnice - Interval scale

Ordinální stupnice - Ordinal scale

Nominální stupnice (kategoriální data) - Nominal scale

Typy (nejen biologických) dat

Poměrná (poměrová) stupnice - Ratio scale

Intervalová stupnice - Interval scale

Ordinální stupnice - Ordinal scale

Nominální stupnice (kategoriální data) - Nominal scale

Základní soubor (Population) a Náhodný výběr (Random sample)

Sampling; Sampling design

Náhodný výběr - každé individuum musí mít stejnou pravděpodobnost, že bude vybráno, nezávislou na tom, zda bude vybráno individuum jiné

Tabulky a generátory (pseudo)náhodných čísel

Základní soubor (Population) a Náhodný výběr (Random sample)

Téměř filosofická otázka - co je to náhoda

A co je to pravděpodobnost – v matematické statistice definována pomocí teorie míry – my si vystačíme s intuitivní představou (to opravdu není definice) „relativní zastoupení úspěchů v nekonečném počtu pokusů“

V statistice budeme (tady v té základní) užívat tzv. apriorní pravděpodobnost (existuje ještě Bayesovská - aposteriorní)

Udělat náhodný výběr není obvykle triviální - v žádném případě to není výběr typických individuí- funguje rozumně v zemědělských pokusech

Podstatně složitější je to v přirozených populacích - nefunguje ani individuum nejbližší náhodnému bodu

Základní statistické chartakteristiky

Většinou značíme N-velikost základního souboru, n - velikost výběru

řeckými písmeny se obvykle značí charakteristiky základního souboru, latinkou charakteristiky výběru

Charakteristiky polohy:

Průměry, medián a modus

Průměry jsou definovány pro kvantitativní data (tj. na poměrové a intervalové stupnici)

Aritmetický průměr

Geometrický průměr

Je to n-tá odmocnina součinu n hodnot (zde pro výběr)

Harmonický průměr

Je to převrácená hodnota průměru převrácených hodnot.

Medián [lze užít i pro data na ordinální stupnici]