Test (chí kvadrát) c2 iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiooooooooooooooooo oooooooooooooooooooooooooooooooooooooooooiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii Test (chí kvadrát) •Máme k dispozici náhodný výběr rozsahu n rozdělený do dvou znaků (znak 1, znak 2) •Normální (Gaussovo rozdělení) •Úkolem testu je rozhodnout, zda jsou znaky na sobě závislé nebo nezávislé (zda znak 1 má vliv na znak 2) •Znak 1 •Znak 2 • c2 Surová data Kontingenční tabulka Hypotézy •Nulová hypotéza: znaky 1 a 2 jsou nezávislé •Alternativní hypotéza: mezi znaky 1 a2 existuje závislost • Chyby testu •Chyba 1. druhu - hladina významnosti –Chceme ji mít pod dostatečnou kontrolou. Požadujeme, aby pravděpodobnost chyby 1. druhu nepřekročila námi předem zvolenou mez α, tzv. hladinu testu, volíme zpravidla α = 0,05 nebo 0,01 •Chyba 2. druhu –Snažíme se ji minimalizovat •Obě chyby jsou vzájemně nepřímo úměrné. Jestliže H0 platí (tedy), pravděpodobnost zamítnutí H0 má být menší než α • 1.Hypotéza H0 platí, hypotézu H0 zamítneme (chyba 1. druhu), 2.Hypotéza H0 platí, hypotézu H0 nezamítneme, 3.Hypotéza H0 neplatí, hypotézu H0 zamítneme, 4.Hypotéza H0 neplatí, hypotézu H0 nezamítneme (chyba 2. druhu) Chyba testu •Podobná situace nastává u soudu, kde roli nulové hypotézy hraje presumpce neviny obžalovaného. Soudce na základě předložených důkazů zamítne jeho nevinu a odsoudí ho k trestu nebo naopak nezamítne jeho nevinu a neodsoudí ho, čímž však nijak netvrdí, že obžalovaný je skutečně nevinen. Buď je nevinen, nebo k prokázaní jeho viny nemá soudce dostatek důkazů. •Stejně ve statistice, jestliže nulovou hypotézu nezamítneme, neznamená to ještě, že H0 skutečně platí. Buď je pravdivá, nebo pro její zamítnutí nemáme dostatek potřebných měření, dostatek informací. • Chyba testu 1.Nevinen, odsouzen - H0 platí, H0 zamítneme (chyba 1. druhu) 2.Nevinen, neodsouzen - H0 platí, H0 nezamítneme 3.Vinen, odsouzen - H0 neplatí, H0 zamítneme 4.Vinen, neodsouzen - H0 neplatí, H0 nezamítneme (chyba 2. druhu) 5. • Vinen Nevinen Odsouzen Pravda Nepravda - chyba 1. druhu Neodsouzen Nepravda – chyba 2. druhu Pravda Postup výpočtu •1. Sestaví se tabulka skutečných (naměřených) četností •2. Vypočítají se očekávané četnosti •3. Zkontrolují se podmínky pro použití testu •4. Vypočte se testové kritérium •5. Testové kritérium se srovná s kritickou hodnotou •6. Vysloví se rozhodnutí 1. Sestaví se tabulka skutečných (naměřených) četností Tabulka: Skutečné četnosti 2. Vypočítají se očekávané četnosti Tabulka: Očekávané četnosti 3. Zkontrolují se podmínky pro použití testu Podmínky pro použití testu nezávislosti v kontingenční tabulce: - nejvíce 20 % teoretických četností může být menších než 5 - žádná teoretická četnost nesmí být menší než 1 Pro tabulku 2x2: - n > 40 - pokud 20 < n < 40, pak je nutná úprava testového kritéria pomocí Yatesovy korekce - pokud n < 20, pak použijeme Fisherův test Možnost při nesplnění podmínek 18-20 let 21-25 let 26-30 let 31-35 let Znak 2 – 1. skupina 2 5 26 45 Znak 2 – 2. skupina 2 7 28 30 18-20 let 21-25 let 26-30 let 31-35 let Znak 2 – 1. skupina 2,15 6,46 29,05 40,34 Znak 2 – 2. skupina 1,85 5,54 24,95 34,66 Skutečné četnosti Očekávané četnosti Skutečné četnosti Skutečné četnosti 18-25 let 26-30 let 31-35 let Znak 2 – 1. skupina 7 26 45 Znak 2 – 2. skupina 9 28 30 18-25 let 26-30 let 31-35 let Znak 2 – 1. skupina 8,61 29,05 40,34 Znak 2 – 2. skupina 7,39 24,95 34,66 Test nelze použít, mohou se sloučit kategorie. Např. po sloučení Testové kritérium 4. Vypočte se testové kritérium (dosazení do vzorce – výsledek hodnota) 5. Testové kritérium se srovná s kritickou hodnotou (tabulková hodnota, je potřeba zohlednit počet stupňů volnosti) Výřez obrazovky Kritické hodnoty testového kritéria chí-kvadrát 6. Vysloví se rozhodnutí •Je-li testové kritérium < kritická hodnota, potom nezamítáme nulovou hypotézu o nezávislosti a nezávislost lze předpokládat. •Je-li testové kritérium > kritická hodnota, potom zamítáme nulovou hypotézu o nezávislosti a přijímáme alternativní hypotézu, která nám říká, že určitá závislost existuje. •Buď je pravdivá, nebo pro její zamítnutí nemáme dostatek potřebných měření, dostatek informací. • Yatesova korekce (Yatesův chí-kvadrát test) Příklad 1 •2 vybrané otázky z dotazníku (2 znaky) •1. pohlaví a)muž b)žena • •2. otázka a)ano b)ne ano ne celkem muž 54 52 106 žena 46 42 88 celkem 100 94 194 Sestaví se tabulka skutečných četností •http://www.milankabrt.cz/testNezavislosti/index.php • Výřez obrazovky Výřez obrazovky Bakalářská práce •Provedli jsme test nezávislosti chí-kvadrát. Zkoumali jsme, zda existuje vztah mezi pohlavím a odpovědí na otázku … Hladinu významnosti jsme zvolili 5 %. Vytvořili jsme kontingenční tabulku, tabulku skutečných četností, dále jsme vypočítali očekávané četnosti. V tabulce očekávaných četností jsme zkontrolovali podmínky pro použití testu. Podmínky byly splněny a test jsme mohli použít. Hodnota vypočteného testového kritéria je … Protože kritická hodnota je větší než vypočtená hodnota, z provedeného testu vyplývá, že nezamítáme nulovou hypotézu o nezávislosti. Příklad 2 •2 vybrané otázky z dotazníku (2 znaky) •1. pohlaví a)muž b)žena • •2. otázka a)ano b)ne ano ne celkem muž 90 10 100 žena 46 42 88 celkem 136 52 188 Sestaví se tabulka skutečných četností ano ne celkem muž 72,34 27,66 100 žena 63,66 24,34 88 celkem 136 52 188 Vypočítají se očekávané četnosti •Testové kritérium 32,299 •Kritická hodnota pro 1 stupeň volnosti a hladinu významnosti 5 % je 3,841 •32,299 > 3,841 •Rozhodnutí: Na hladině významnosti 5 % nulovou hypotézu (H0) o nezávislosti jednotlivých znaků zamítáme a přijímáme hypotézu H1, která nám říká, že zde určitá závislost existuje. Bakalářská práce •Provedli jsme test nezávislosti chí-kvadrát. Zkoumali jsme, zda existuje vztah mezi pohlavím a odpovědí na otázku … Hladinu významnosti jsme zvolili 5 %. Vytvořili jsme kontingenční tabulku, tabulku skutečných četností, dále jsme vypočítali očekávané četnosti. V tabulce očekávaných četností jsme zkontrolovali podmínky pro použití testu. Podmínky byly splněny a test jsme mohli použít. Hodnota vypočteného testového kritéria je … Protože kritická hodnota je menší než vypočtená hodnota, z provedeného testu vyplývá, že zamítáme nulovou hypotézu o nezávislosti a přijímáme alternativní hypotézu, která nám říká, že určitá závislost zde existuje. • Korigovaný koeficient kontingence pomocí Pearsona Cramerův koeficient p hodnota - Excel •CHISQ.TEST (funkce) •Vrátí test nezávislosti. Funkce CHISQ.TEST vrátí hodnotu rozdělení chí-kvadrát (χ2) pro dané testové kritérium a příslušné stupně volnosti. Pomocí testů χ2 můžete určit, zda experiment potvrzuje předpokládané výsledky. • •Syntaxe •CHISQ.TEST(aktuální, očekávané) • •p < 0,05 ® nezávislost zamítáme, určitá závislost existuje • • • ano ne celkem muž 54 52 106 žena 46 42 88 celkem 100 94 194 Skutečné četnosti Očekávané četnosti ano ne celkem muž 54,6 51,4 106 žena 45,4 42,6 88 celkem 100 94 194 p-hodnota = 0,862541 p > 0,05 ® přijímáme nulovou hypotézu o nezávislosti ano ne celkem muž 90 10 100 žena 46 42 88 celkem 136 52 188 Skutečné četnosti Očekávané četnosti ano ne celkem muž 72,3 27,7 100 žena 63,7 24,3 88 celkem 136 52 188 p-hodnota = 7,9 · 10-9 p < 0,05 ® nezávislost zamítáme, určitá závislost existuje p-hodnota je nejmenší hladina významnosti, při které ještě zamítneme nulovou hypotézu p-hodnota je pravděpodobnost, že při platnosti nulové hypotézy nabývá testová statistika své stávající hodnoty anebo hodnot ještě extrémnějších (nepříznivějších vůči nulové hypotéze) p-hodnota je pravděpodobnost, s jakou bychom mohli obdržet pozorovaná data nebo data stejné, či ještě více odporující nulové hypotéze, za předpokladu, že je nulová hypotéza pravdivá. Čím menší je p, tím neudržitelnější čili méně důvěryhodná je nulová hypotéza p-hodnota