STATISTICKÉ ZPRACOVÁNÍ DAT – FISHERŮV EXAKTNÍ TEST



Metoda chí kvadrát x Fisherův test
•Pro zjištění závislosti – metoda chí kvadrát
•V některých případech metodu chí kvadrát nelze použít
•rozsah souboru menší než 20
•očekávané četnosti jsou malé
•Lze použít Fisherův test - založen na jiném principu
•Fisherův exaktní test je založen na výpočtu přesné (exaktní)
pravděpodobnosti, se kterou bychom za platnosti nulové hypotézy o nezávislosti veličin získali naší
konkrétní realizaci kontingenční tabulky
•
•

Fisherův test
•Zjišťujeme závislost dvou kvalitativních veličin na prvcích téhož výběru
•Máme náhodný výběr rozsahu n rozdělený do dvou skupin (skupina 1, skupina 2)
•Skupiny mohou nabývat hodnotu jednoho ze dvou znaků (znak 1, znak 2)
•Příkladem - skupina ženy, muži, znak kouří, nekouří
•Úkolem testu je rozhodnout, zda znaky jsou na sobě závislé nebo nezávislé (zda znak 1 má vliv na
znak 2)
•Fisherův exaktní test odvozen pro kontingenční tabulku 2x2 tzv. čtyřpolní tabulku, ale existuje i
jeho zobecnění pro libovolnou kontingenční tabulku
•

ZÁKLADNÍ PRINCIP FISHEROVA TESTU
•Testujeme nulovou hypotézu proti alternativní hypotéze.
•Nulová hypotéza H0: znaky 1 a 2 jsou nezávislé (Pozorované četnosti by měly odpovídat očekávaným
četnostem
•Alternativní hypotéza H1: Mezi znaky 1, 2 je závislost
•
•Nepředpokládá se, že teoretické rozdělení četností je známé, ale počítá se přímo pravděpodobnost
odchylky od nulové hypotézy
•Při testování se generují varianty pozorované tabulky četností a určuje se pravděpodobnost výskytu
všech obměn, které mají stejné součty okrajových četností
•Hlavní myšlenkou testu je výpočet pravděpodobnosti, se kterou bychom získali čtyřpolní tabulky
stejně nebo více vzdálené od nulové hypotézy při zachování marginálních četností
•
•
•

VÝPOČET TESTOVÉ STATISTIKY
Znak 1
Znak 2
Součet
Skupina 1
a
b
a+b
Skupina 2
c
d
c+d
Součet
a+c
b+d
n
Čtyřpolní tabulka
•Z hodnot a, b, c, d se vybere hodnota a od té se postupně odečítá a po té přičítá hodnota 1, aby
součet okrajových četností zůstal stejný a byly vyčerpány všechny možné případy. Např. pokud se od
hodnoty a odečte 1, musí se k hodnotě b přičíst 1, k hodnotě c přičíst 1 a od hodnoty d odečíst 1,
aby okrajové četnosti zůstaly stejné
•Generují se všechny možné varianty tabulky četností
•Pro původní a každou vygenerovanou tabulku se vypočítá pravděpodobnost
a, b, c, d četnosti
a+b, c+d, a+c, b+d okrajové četnosti tzv. marginální četnosti.

Vzorec pro výpočet pravděpodobnosti



Hodnota testového kritéria



Příklad 1
•Skupina 1 a 2, znak 1 a 2, zkoumáme závislost mezi skupinami a znaky
•Hladina významnosti 5 %
•Ze získaných dat vytvoříme čtyřpolní tabulku
Znak 1
Znak 2
Součet
Skupina 1
2
5
7
Znak 2
3
2
5
Součet
5
7
12

•Z této tabulky vybereme hodnotu 2 (skupina 1, znak 1) a od hodnoty 2 postupně odečítáme 1 a po té
přičítáme hodnotu 1
•Ostatní hodnoty doplňujeme tak, aby součet okrajových četností zůstal stejný
•Dostaneme následující tabulky:
Znak 1
Znak 2
Součet
Skupina 1
0
7
7
Znak 2
5
0
5
Součet
5
7
12
Znak 1
Znak 2
Součet
Skupina 1
1
6
7
Znak 2
4
1
5
Součet
5
7
12
Znak 1
Znak 2
Součet
Skupina 1
3
4
7
Znak 2
2
3
5
Součet
5
7
12
Znak 1
Znak 2
Součet
Skupina 1
4
3
7
Znak 2
1
4
5
Součet
5
7
12
Znak 1
Znak 2
Součet
Skupina 1
5
2
7
Znak 2
0
5
5
Součet
5
7
12




•Generování všech možných variant tabulky četností je poměrně pracné, ale existuje řada programů,
kde stačí zadat hodnoty zjištěných četností do tabulky a výsledkem je hodnota testové statistiky
•Příkladem vhodného programu je odkaz na http://www.langsrud.com/fisher.htm
•Aplikaci, která umožnuje zobecnění na kontingenční tabulku max 2x5
https://quantitativeskills.com/sisa/statistics/fiveby2.htm
•

Příklad 2
•http://portal.matematickabiologie.cz/index.php?pg=aplikovana-analyza-klinickych-a-biologickych-dat
--analyza-a-management-dat-pro-zdravotnicke-obory--testovani-hypotez-o-kvalitativnich-promennych--f
isheruv-exaktni-test
•