Test (chí kvadrát) c2 iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiooooooooooooooooo oooooooooooooooooooooooooooooooooooooooooiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii Test (chí kvadrát) •Máme k dispozici náhodný výběr rozsahu n rozdělený do dvou znaků (znak 1, znak 2) •Úkolem testu je rozhodnout, zda jsou znaky na sobě závislé nebo nezávislé (zda znak 1 má vliv na znak 2) •Znak 1 •Znak 2 • c2 Surová data Kontingenční tabulka Hypotézy •Nulová hypotéza: znaky 1 a 2 jsou nezávislé •Alternativní hypotéza: mezi znaky 1 a2 existuje závislost • Chyby testu •Chyba 1. druhu - hladina významnosti –Chceme ji mít pod dostatečnou kontrolou. Požadujeme, aby pravděpodobnost chyby 1. druhu nepřekročila námi předem zvolenou mez α, tzv. hladinu testu, volíme zpravidla α = 0,05 nebo 0,01 •Chyba 2. druhu –Snažíme se ji minimalizovat •Obě chyby jsou vzájemně nepřímo úměrné. Jestliže H0 platí (tedy), pravděpodobnost zamítnuti H0 má být menší než α • 1.hypotéza H0 platí, hypotézu H0 zamítneme (chyba 1. druhu), 2.hypotéza H0 platí, hypotézu H0 nezamítneme, 3.hypotéza H0 neplatí, hypotézu H0 zamítneme, 4.hypotéza H0 neplatí, hypotézu H0 nezamítneme (chyba 2. druhu) Chyba testu •Podobná situace nastává u soudu, kde roli nulové hypotézy hraje presumpce neviny obžalovaného. Soudce na základě předložených důkazů zamítne jeho nevinu a odsoudí ho k trestu nebo naopak nezamítne jeho nevinu a neodsoudí ho, čímž však nijak netvrdí, že obžalovaný je skutečně nevinen. Buď je nevinen, nebo k prokázaní jeho viny nemá soudce dostatek důkazů. •Stejně ve statistice, jestliže nulovou hypotézu nezamítneme, neznamená to ještě, že H0 skutečně platí. Buď je pravdivá, nebo pro její zamítnutí nemáme dostatek potřebných měřeni, dostatek informaci. • Chyba testu 1.Nevinen, odsouzen - H0 platí, H0 zamítneme (chyba 1. druhu) 2.Nevinen, neodsouzen - H0 platí, H0 nezamítneme 3.Vinen, odsouzen - H0 neplatí, H0 zamítneme, 4.Vinen, neodsouzen - H0 neplatí, H0 nezamítneme (chyba 2. druhu). • Postup výpočtu •Sestaví se tabulka skutečných (naměřených) relativních četností •Sestaví se tabulka očekávaných četností •Podmínky pro použití testu nezávislosti v kontingenční tabulce: • - nejvíce 20 % teoretických četností může být menších než 5 - žádná teoretická četnost nesmí být menší než 1 Pro tabulku 2x2: - n > 40 - pokud 20 < n < 40, pak je nutná úprava testového kritéria pomocí Yatesovy korekce - pokud n < 20, pak použijeme Fisherův test •Vypočte se testové kritérium (dosazení do vzorce – výsledek hodnota) •Testové kritérium se srovná s kritickou hodnotou (tabulková hodnota, je potřeba zohlednit počet stupňů volnosti) •Je-li testové kritérium < kritická hodnota, potom nezamítáme hypotézu o nezávislosti a nezávislost lze předpokládat Skutečné četnosti Očekávané četnosti Testové kritérium Yatesova korekce (Yatesův chí-kvadrát test) Kritické hodnoty testového kritéria chí-kvadrát Výřez obrazovky Příklad 1 •2 vybrané otázky z dotazníku (2 znaky). Souvisí spolu dosažené vzdělání a péče o zrak? •1. Domníváte se, že se dostatečně pečujete o svůj zrak? a)ano b)ne c)někdy • •18. Nejvyšší dosažené vzdělání a)základní b)středoškolské c)vyšší odborné d)vysokoškolské základní SŠ VOŠ VŠ celkem ano 33 132 28 69 262 někdy 6 74 0 70 150 ne 11 128 6 103 248 celkem 50 334 34 242 660 Sestaví se tabulka skutečných (relativních) četností •http://www.milankabrt.cz/testNezavislosti/index.php • Výřez obrazovky Výřez obrazovky Výřez obrazovky Výřez obrazovky Výřez obrazovky Bakalářská práce •Z našeho dotazníku vyplynulo, že péče o zrak a vzdělání jsou na sobě závislé veličiny. Závislost jsme ověřili pomocí kontingenčních tabulek a použili jsme test chí kvadrát. Kritická mez pro hladinu významnosti byla zvolena 0,05. Vypočtená hodnota testového kritéria je 54,792. Počet stupňů volnosti je 6, kritická hodnota pro 6 stupňů volnosti je 12,592. Protože kritická hodnota je menší než vypočtená hodnota, z provedeného testu vyplývá, že veličiny jsou na sobě závislé. •Korigovaný koeficient kontingence pomocí Pearsona •Cramerův koeficient •Korelace mezi hodnotami je podle … středně silná. Příklad 2 •2 vybrané otázky z dotazníku (2 znaky). Souvisí spolu pohlaví a péče o zrak? •1. Domníváte se, že se dostatečně pečujete o svůj zrak? a)ano b)ne c)někdy • •16. Pohlaví a)žena b)muž Výřez obrazovky Výřez obrazovky Bakalářská práce •Z našeho dotazníku vyplynulo, že péče o zrak a pohlaví na sobě nezávisí. Závislost jsme ověřili pomocí kontingenčních tabulek a použili jsme test chí kvadrát. Kritická mez pro hladinu významnosti byla zvolena 0,05. Vypočtená hodnota testového kritéria je 3,253. Počet stupňů volnosti je 4, kritická hodnota pro 4 stupně volnosti je 5,991. Protože kritická hodnota je větší než vypočtená hodnota, z provedeného testu vyplývá, že veličiny jsou na sobě nezávislé. •Závislost •Skutečné četnosti • • •Očekávané četnosti • • • • • • • • •Testová statistika 200 •Kritická hodnota 3,841 •Pearsonův koeficient 1 •Cramerův koeficient 1 •Nezávislost •Skutečné četnosti • • •Očekávané četnosti ano ne celkem muži 100 0 100 ženy 0 100 100 celkem 100 100 200 ano ne celkem muži 50 50 100 ženy 50 50 100 celkem 100 100 200 ano ne celkem muži 50 50 100 ženy 50 50 100 celkem 100 100 200 ano ne celkem muži 50 50 100 ženy 50 50 100 celkem 100 100 200 Testová statistika 0 Kritická hodnota 3,841 Pearsonův koeficient 0 Cramerův koeficient 0 Korigovaný koeficient kontingence pomocí Pearsona Cramerův koeficient p hodnota - Excel •CHISQ.TEST (funkce) •Vrátí test nezávislosti. Funkce CHISQ.TEST vrátí hodnotu rozdělení chí-kvadrát (χ2) pro dané testové kritérium a příslušné stupně volnosti. Pomocí testů χ2 můžete určit, zda experiment potvrzuje předpokládané výsledky. • •Syntaxe •CHISQ.TEST(aktuální,očekávané) • •p<0,05 ® nezávislost zamítáme, určitá závislost existuje • • • p-hodnota je nejmenší hladina významnosti, při které ještě zamítneme nulovou hypotézu p-hodnota je pravděpodobnost, že při platnosti nulové hypotézy nabývá testová statistika své stávající hodnoty anebo hodnot ještě extrémnějších (nepříznivějších vůči nulové hypotéze) p-hodnota je pravděpodobnost, s jakou bychom mohli obdržet pozorovaná data nebo data stejné, či ještě více odporující nulové hypotéze, za předpokladu, že je nulová hypotéza pravdivá. Čím menší je p, tím neudržitelnější čili méně důvěryhodná je nulová hypotéza p-hodnota