Statistika

Variační koeficient Relativní průměrná odchylka

Yüklə 0,58 Mb.

səhifə	3/18
tarix	06.05.2018
ölçüsü	0,58 Mb.
	#43206

1 2 3 4 5 6 7 8 9 ... 18

Momentová charakteristika šikmosti
Charakteristiky špičatosti

Variační koeficient

Relativní průměrná odchylka

Charakteristiky šikmosti

Jsou založeny na srovnání koncentrace malých hodnot sledovaného znaku s koncentrací velkých hodnot tohoto znaku

koncentrace malých hodnot

=

>

<

koncentrace velkých hodnot

= symetrie rozdělení

< > nesymetrie rozdělení

Rozdělení četností souboru A		Rozdělení četností souboru B		Rozdělení četností souboru C
Obměny znaku x_i	Četnosti n_i	Obměny znaku x_i	Četnosti n_i	Obměny znaku x_i	Četnosti n_i
10	13	11	5	5	5
15	24	12	5	15	25
20	13	13	5	16	5
		14	5	17	5
		15	25	18	5
		25	5	19	5
celkem	50	celkem	50	celkem	50

Stupeň šikmosti rozdělení lze posuzovat řadou charakteristik. Nejčastěji se používá „momentová charakteristika šikmosti“.

Momentová charakteristika šikmosti

a = 0 => symetrické rozdělení

a > 0 => rozdělení zešikmené doleva = kladná četnost

a < 0 => rozdělení zešikmené doprava = záporná četnost

Charakteristiky špičatosti

Založeny na srovnání stupně koncentrace hodnot prostřední velikosti se stupněm koncentrace ostatních hodnot

Rozdělení četností D

Rozdělení četností E

Obměny znaku x_i

Četnosti n_i

Obměny znaku x_i

Četnosti n_i

225

550

225

100

800

100

U obou rozdělení četností je n = 1000, = 4, = 4, = 4, s² = 1,8 a a = 0 a přesto se soubory liší a to soustředěností (koncentrací) hodnot znaku kolem střední hodnoty.

b = 0 => normální rozdělení

b > 0 => rozdělení špičatější než normální

b < 0 => rozdělení plošší než normální

Teorie pravděpodobnosti
Je to vědní obor, který vznikl ve 2. polovině 17. století jako důsledek hazardních her a stal se oborem matematiky. Užívá se také ve fyzice a statistice.
Náhodný jev

Jev, který jako výsledek náhodného pokusu, může nebo nemusí nastat v závislosti na náhodných činitelích (nekontrolovatelných příčin). Charakterizuje výsledek náhodného pokusu kvalitativně (slovně). Značíme jej velkými písmeny ze začátku abecedy (A, B, C)

Předmětem zkoumání jsou náhodné jevy, které mohou být výsledky opakovaných realizací komplexu základních podmínek = hromadné jevy .
Krajní případy:

1. jev jistý (nastane vždy po provedení náhodného pokusu, P=1)

2. jev nemožný (nemůže nikdy nastat, P=0)
Náhodný pokus

Realizace určitého komplexu podmínek a vlivů, přičemž každý komplex obsahuje podmínky obecné (měřitelné, předvídatelné, ovlivnitelné) a podmínky náhodné.

Operace s náhodnými jevy

- mezi náhodnými jevy existují určité vztahy a lze s nimi provádět operace:

sjednocení = logický součet (A  B), nastoupení alespoň jednoho z jevů A a B,
př. A=0,7-1,5%, B=1,3-2,5%  sjednocení C= 0,7 –2,5%
průnik = logický součin (A  B), současná realizace jevu A a B
př. A  15%, B  8%  D=(8,15)
rozdíl (A - B) = nastane-li A, nenastane jev B

Dále existují: jevy neslučitelné (disjunktivní) - A a B se nemohou vyskytnout současně, jevy opačné - A  Ā = U, A  Ā= V.

Pravděpodobnost (P)

Výsledek u náhodného pokusu nelze předem předpovědět, ale při mnohonásobném opakování pokusu se ve výskytu jevu objevují určité zákonitosti. S rostoucím počtem pokusů vykazuje sledovaný jev tzv. statistickou stabilitu, která umožňuje kvantitativně ohodnotit realizaci náhodného jevu. Číslo charakterizující tuto realizaci se nazývá pravděpodobnost jevu. jevu A přiřazujeme číslo P(A).

Definice pravděpodobnosti:

1. klasická

P(A) = m/n

m = počet případů vztahujících se k jevu A

n = počet všech možných případů (výsledků pokusu)

2. statistická

Je založena na stabilitě relativních četností, která vzniká po provedení velkého počtu pokusů a vede k číslu P(A) = lim _N M/N

N = počet pokusů

M = počet výskytu náhodného jevu A

Vychází ze skutečných výsledků pokusu (klasická – neprovádí pokusy, ale vychází z rozboru objektivních vlastností zkoumaného jevu)

3. axiomatická

Nejobecnější definice, zahrnuje v sobě jak klasickou, tak statistickou definici.

4. geometrická
Základní vlastnosti pravděpodobnosti (P)

1. P(A)  <0,1>

2. P(U) =1  jev jistý

3. P(V) =0  jev nemožný

4. P(Ā) =1 – P(A)

5. A  B  P(A)  P(B), A je podmnožinou B

Věta o sčítání pravděpodobnosti

Pomocí této věty vyjádříme pravděpodobnost sjednocení u jevů P(A  B)

slučitelné jevy – pravděpodobnost jejich sjednocení je rovna součtu pravděpodobnosti jevů zmenšenému o pravděpodobnost jejich průniku.
P(A  B) = P(A) + P(B) - P(A  B)
neslučitelné jevy – průnik je nemožný
P(A  B) = P(A) + P(B)

Věta o násobení pravděpodobnosti

Pomocí této věty vyjádříme pravděpodobnost průniku jevů. A je nezávislý na B, jestliže výskyt B neovlivní pravděpodobnost výskytu jevu A. Závislost náhodných jevů je charakterizována pomocí podmíněné pravděpodobnosti, označované P(A/B), P(A) je nepodmíněná pravděpodobnost

podmínka nezávislosti pomocí podmíněné pravděpodobnosti  P(A/B) = P(A)
podmíněnou pravděpodobnost lze vyjádřit:
P(A/B) = P(A  B) / P(B)

P(B/A) = P(A  B) / P(A)
Náhodná veličina

Kvalitativní popsání výsledku náhodného pokusu (náhodný jev) není dostatečný, výsledek je třeba popsat kvantitativně. Libovolná kvantitativní charakteristika náhodného pokusu se nazývá náhodná veličina. Proměnná, která nabývá různých hodnot v závislosti na náhodě. Značíme ji velkými písmeny z konce abecedy (X, Y, Z) a jejich konkrétní hodnoty malými (x, y, z)

Členění dle hodnot, jakých náhodná veličina může nabývat:

diskrétní - nabývá navzájem oddělených hodnot z určitého konečného nebo spočetného množství (př. počet rostlin na pozemku)
spojité – nabývá libovolných hodnot z určitého intervalu, může být popsána desetinným číslem (př. výška a hmotnost zvířete)

Zákon rozdělení náhodné veličiny

Pravidlo, které každé hodnotě nebo množině hodnot z každého intervalu přiřazuje pravděpodobnost, že náhodná veličina nabude této hodnoty nebo hodnoty z tohoto intervalu.

Formy vyjádření zákona:

1. řada rozdělení – nejjednodušší forma, která se používá u diskrétních veličin

x_i: x₁, x₂ ......... x_ngrafem je polygon

p_i: p₁, p₂ ......... p_n

p_i= 1

2. distribuční funkce(F(x))

Integrální zákon rozdělení. Univerzální forma vhodná pro popis diskrétních i spojitých náhodných veličin. Funkce, která každému reálnému číslu přiřazuje pravděpodobnost, že náhodná veličina nabude hodnoty menší než toto číslo

F(x)=P(X  x) ; x  R
Základní vlastnosti F(x):

F(x) je pravděpodobnost a může nabývat hodnot v intervalu <0,1>
F(-) = P(x  -) =0
F() = P(x  ) =1
funkce je neklesající funkcí  pro x₁ x₂ platí F(x₁)  F(x₂)
funkce je funkcí spojitou zleva
P(x₁ X x₂) = F(x₁) - F(x₂)

Graf F(x):

diskrétní náhodné veličiny  nespojitá schodovitá čára
spojité náhodné veličiny  spojitá křivka

3. hustota pravděpodobnosti f(x)

Diferenciální zákon rozdělení. Vhodná forma pro spojité náhodné veličiny. Derivace distribuční funkce: f(x) = F‘(x)
Graficky  plocha pod spojitou funkcí(Gaussovou) mezi x₁a x₂.
Vlastnosti f(x):

f(x)=0
^S_- f(x)dx = 1
P(x₁ X x₂) = ^x2S_x1 f(x)dx=1

Číselné charakteristiky náhodné veličiny

Uvedené formy zákona rozdělení poskytují sice úplnou, ale nepřehlednou informaci o rozdělení náhodné veličiny x. Tento nedostatek odstraňují tzv. číselné charakteristiky náhodných veličin, jejichž úkolem je v koncentrované formě charakterizovat podstatné rysy a vlastnosti náhodné veličiny.

Členění: charakteristiky, polohy, charakteristiky variability, charakteristiky šikmosti, charakteristiky špičatosti
Charakteristiky polohy

Reprezentují jakýsi střed rozdělení, kolem kterého kolísají při opakování náhodného pokusu hodnoty náhodné veličiny.

Střední hodnota E(x):

pro veličiny - diskrétní E(x) =  x_i p_i

- spojité E(x) = ^S_- x f(x)dx
E(C) = C  střední hodnota konstanty je rovna konstantě
Charakteristiky variability

Ukazují jak jednotlivé hodnoty náhodné veličiny kolísají kolem střední hodnoty.

a) rozptyl D(x)
D(x) = E[ x - E(x) ]²= E(x²) - [ E(x) ]²
pro veličiny - diskrétní D(x) =  [x_iE(x) ]²* p_i

- spojité D(x) = ^S_-[ x - E(x) ]²f(x)dx
b) směrodatná odchylka

(x) = +

Normovaná veličina

Náhodná veličina U, kde E(U) = 0 a D(U) = 1. Pracuje se s ní výhodněji. Libovolnou veličinu můžeme převést na U normováním: U = [ X - E(x) ] / (x)

Rozdělení náhodných veličin

Existuje několik set druhů rozdělení

Rozdělení diskrétních náhodných veličin
Alternativní rozdělení – náhodná veličina (tzv. nula-jedničková) X může nabývat pouze dvou hodnot x₁=1 s pravděpodobností = p (nastává jev A) a x₂=0 s pravděpodobností 1-p = q (nastává jev opačný k jevu A), pak tato veličina se řídí alternativním rozdělením se střední hodnotou E(x) = p a rozptylu D(x) = p*q
Binomické rozdělení – mějme sérii n nezávislých pokusů, při nichž může nastat jev A s P(A) = p a nenastane s pravděpodobností = 1-p. Tzv. Bernoulliho schéma. Náhodná veličina X má binomické rozdělení s parametry n a p.

p_i= P(X=i) = (ⁿ) pⁱ(1-p)^n-1 - pravděpodobnost, že jev A nastane, kde i = 0,1,.....n

E(x) = np ; D(x) = np(1-p)
Poissonovo rozdělení = zákon vzácných jevů. Jestliže n   a p  0 (pravděpodobnost úspěchu je malá), přičemž np je konstantní hodnota, pak náhodná veličina X se řídí Poissonovým rozdělením s parametrem , kde λ = np, potom

, kde i=0,1.....n.

E(x) = λ ; D(x)= λ  E(x) = D(x). Lze jím nahradit rozdělení binomické.

Hypergeometrické rozdělení - V souboru N prvků má M prvků určitou vlastnost; počet prvků náhodně vybraných je n (parametry N, M, n)
Pravděpodobnost:

E(x) = np, kde p = M/N

D(x) = np*(1-p)* [(N-n) / (N-1)]
Rozdělení spojitých náhodných veličin
Normální rozdělení(Gaussovo) - náhodná veličina X s parametry µ a ², kde µ є (- ; ) a ²>0, se řídí normálním rozdělením, jestliže její hustota pravděpodobnosti:

Grafem f(x) normálního rozdělení je Gaussova (normální) křivka symetrická spojitá čára; křivka nabývá svého maxima v bodě µ, max=µ=E(x) a má 2 inflexní body: µ+  a µ - 
D(x)= ²
Při klasických výpočtech se využívá transformace náhodné veličiny X s normálním rozdělením do veličiny U s normovaným normálním rozdělením.
Normované normální rozdělení = speciální případ normálního rozdělení, kde µ=0 a ²=1

X...........N(µ,²)

U...........N(0,1)  nula-jedničkové rozdělení

XU......... U= (x-µ) / 
S normálním rozdělením souvisí pravidlo tří :

P( µ-  x  µ+) = 0,68268
P( µ-2  x  µ+2) = 0,95450:
P( µ-3  x  µ+3) = 0,99730

Rovnoměrné rozdělení

Parametry: a, b

E(x) = (a+b) / 2

D(x) = (b-a)² / 12

f(x) = 1 / (b-a)

F(x) = (x-a) / (b-Q)
Exponenciální rozdělení

Parametr: λ

E(x) = 1 / λ D(x) = 1 / λ²

f(x): pro x 0 = λ*e^-λx

x0 = 0

F(x): pro x 0 = 1-e^-λx

x0 = 0
Pearsonovo ² – rozdělení - nechť U₁, U₂, ...........U_n jsou nezávislé náhodné veličiny s rozdělením N(0,1). Součet jejich čtverců, označený ² = U₁²+ U₂², ..........+U_n² představuje náhodnou veličinu, jež má tzv. ² – rozdělení o n stupních volnosti.
Počet stupňů volnosti (f) = jediný parametr ² rozdělení a představuje počet nezávislých sčítanců ve výrazu ² .
Hustota pravděpodobnosti náhodné veličiny ² má pro různé počty stupňů volnosti různý průběh
Studentovo t-rozdělení - nechť U a ² jsou nezávislé náhodné veličiny t, z nichž U má rozdělení N(0,1) a veličina ² má ² rozdělení o n stupních volnosti (n....jediný parametr)
Kritické hodnoty t_ jsou tabelovány (stejně jako hodnoty ²)

Fischerovo – Suedecovo rozdělení (F-rozdělení) - rozdělení náhodné veličiny

²₁ a ²₂ = nezávislé náhodné veličiny, jež mají ² – rozdělení o n₁či n₂stupních volnosti

Teorie odhadu
Na základě zkoumání náhodného výběru lze učinit určité závěry o základním souboru. Souhrn metod, jež toto srovnání umožňuje se označuje statistická indukce, a ta se dále člení na teorii odhadu a testování statistických hypotéz.
Úloha teorie odhadu  určení typu rozdělení sledovaného znaku, respektive některých charakteristik, a to na základě výběrových dat.
Výběrový soubor

Použijeme ho, aby nám poskytl informace o celém základním souboru. Z vlastností výběrového souboru můžeme usuzovat o vlastnostech základního souboru. Zjišťování u VS je rychlejší a méně nákladné. Důvody, které nás vedou k upřednostňování výběrového zjišťování před zjišťováním u ZS jsou technické, ekonomické a časové.)

Kvalitní VS musí dobře zastupovat skupinu, nemusí být příliš velký. Musíme u něho hledat kompromis mezi dobrou vypovídací schopností a dobrou zpracovatelností.
Př. Dotazníky – důležité pro zjišťování veřejného mínění, většinou u 1000 osob. Návratnost dotazníků od určitého okruhu osob je 12 – 14%. Těchto 12 – 14% nám vytvoří VS.
Metody základního masivu

Použijeme je tehdy, pokud se soubor skládá z několika velkých (rozhodujících) jednotek a z mnoha malých (nerozhodujících či doplňkových) jednotek. Stačí vybrat pouze rozhodující jednotky.

Výběr záměrný - vybíráme s určitým záměrem. Provádí ho znalec dané problematiky = subjektivní výběr (vliv názoru znalce). Na základě tohoto výběru nelze pořizovat objektivně přesné odhady.
Výběr náhodný - spočívá v tom, že o tom, která jednotka bude zařazena do VS rozhoduje náhoda. Zmocňujeme se výhodných stránek náhody a na základě náhodného výběru jsme schopni stanovit objektivně přesné odhady a také jsme schopni určit chybu odhadu. Počítáme s chybou x v záměrném výběru může být chyba skrytá  vždy dáváme přednost náhodnému výběru.

prostý náhodný výběr – výběr se stejnými pravděpodobnostmi, všechny jednotky mají stejnou možnost dostat se do VS. Nejčastější, technicky nejjednodušší.
náhodný výběr s nestejnými pravděpodobnostmi – jednotky mají různou pravděpodobnost vybrání

Další členění náhodného výběru:

náhodný výběr z jednorozměrného rozdělení – na každé statistické jednotce zjišťujeme pouze jeden statistický znak
náhodný výběr z vícerozměrného rozdělení – na každé statistické jednotce zjišťujeme hodnoty k statistických znaků

Členění (prostého) náhodného výběru:

náhodný výběr s vracením, s opakováním – jednotku vracíme po výběru zpět do ZS. Nevýhoda: může se opakovat stejná jednotka několikrát. Výhoda: ZS je stále stejně velký.
náhodný výběr bez vracení, bez opakování – jednotku po výběru nevracíme zpět do ZS. Nevýhoda: ZS je stále menší. Výhoda: jednotka se nemůže opakovat. V některých případech lze zanedbat rozdíly mezi a) a b) např. velké množství rostlinných semen.

Techniky náhodného výběru

losování - nejjednodušší technika (z osudí, klobouku, čepice), lístky – opora výběru, musí být všechny naprosto stejné
mechanický (systematický) výběr - vybíráme n-tou jednotku z náhodně uspořádané posloupnosti. Např. z abecedního seznamu vybereme každého 10. studenta.
tabulka náhodných čísel, generátor náhodných čísel
oblastní výběr - nejprve náhodně vybereme oblasti a potom budeme náhodně vybírat jednotky ve vybrané oblasti
výběr vícestupňový - vybíráme náhodně na více stupních. Např. škola: 1. stupeň – zda je v Praze, 2. stupeň – konkrétní škola, 3. stupeň – fakulta.

Problematika charakteristik

Z VS spočítáme charakteristiky a na jejich základě odhadujeme charakteristiky ZS.

1. rozsah

VS........n
ZS........N

2. absolutní četnost

VS........n_i
ZS........N_i

3. relativní četnost

VS........f_i
ZS........F_i

4. aritmetický průměr

VS........ = (x_i) / n
ZS........ µ = (x_i) / N

5. rozptyl

VS........s_o² = (x_i–x)² / n
ZS........² = (x_i– µ)² / N

6. směrodatná odchylka

VS........s_o
ZS........ 

7. variační koeficient

VS........V = s_o/
ZS........V =  / µ

Veškeré informace o VS bychom měli obdržet ze ZS, který je charakterizován N, µ, ², . Ze ZS pořídíme všechny teoretické možné Vsy, kterých je nekonečně mnoho. v každém VS spočítáme a všechny tyto průměry nám vytvoří teoretický soubor výběrových průměrů  střední hodnota výběrových průměrů µ = E().

) = ² / n při výběru s vracením

D(

) = (² / n) * [(N - n) / (N - 1)] při výběru bez vracení

Předpoklady při konstrukci odhadů

provádět konstrukci odhadů

v případech, kde se jedná o výběry ze ZS s normálním rozdělením
rozdělení ZS je libovolné  výběr je proveden z libovolně rozděleného ZS, předpokladem je dostatečný rozsah VS (n  30)

konstrukce odhadů se opírá o veličinu:

µ = (x - µ) / (² / n) = normální normované rozdělení
N(0,1)  µ  0,  = 1
t = (x - µ) / [s_o² / (n – 1)] = studentovo t-rozdělení (t^(n-1))

Způsoby odhadu

Bodový odhad - spočívá v prohlášení hodnoty určité charakteristiky za náhradu neznámé charakteristiky ZS
Intervalový odhad - spočívá ve stanovení intervalu, ve kterém se neznámá charakteristika ZS vyskytuje s určitou, předem známou pravděpodobností

Bodový odhad

 µ - průměr je nejlepším nezkresleným odhadem ZS. Na bodový odhad klademe určité požadavky:

nestrannost odhadu
E(t) = T (t – použitá charakteristika, T – charakteristika ZS)
E(t)  T ......charakteristika dává pozitivně vychýlený odhad
E(t)  T.......charakteristika dává negativně vychýlený odhad
konzistentnost - s rostoucím rozsahem výběru se bude použitá charakteristika stále více blížit charakteristice ZS (T)
vydatnost - nejvydatnější (přesnější) je ta charakteristika, která má nejmenší rozptyl
postačující - pokud shrnuje všechny informace, které poskytuje daný VS

Bodový odhad průměru ZS
E(

) = µ D(

) = ² / n
Nestranný, vydatný, postačující  proto mu dáváme přednost před jakýmikoliv charakteristikami polohy.
Bodový odhad rozptylu ZS

s_o² – nesplňuje požadavek nestrannosti, je odhadem zkresleným ; proto ho nepoužíváme, ale použijeme s²

s²= odhad rozptylu ZS

s²= (x_i–

)² / (n – 1)  splňuje již požadavky na nestrannost a konzistenci
směrodatná odchylka s = s²

rozptyl použijeme i u variačního koeficientu V....v´ = s /

Yüklə 0,58 Mb.

Dostları ilə paylaş:

1 2 3 4 5 6 7 8 9 ... 18