Příloha I


Statistické zpracování dat – test nezávislosti chí-kvadrát (c^2)


Běžným způsobem sběru dat o nejrůznějších, často složitých jevech, je dotazníkové šetření.
Výsledkem je řada dat, z kterých se snažíme zjistit něco zajímavého a užitečného. Můžeme například
zjistit, jestli spolu souvisí dvě kvalitativní veličiny nebo zda jsou na sobě nezávislé a případně
jak silná je závislost. Při statistickém zpracování dat je často vhodné použít test nezávislosti
chí-kvadrát. Pro výpočet testu lze použít program, který si vytvoříme např. v Excellu nebo můžeme
použít již vytvořené programy. Velmi povedená je aplikace Milana Kábrta na
http://www.milankabrt.cz/testNezavislosti/index.php

Použitím této aplikace získáme rychle a snadno výsledky, které vyhodnotí statistický soubor. Pro
měření síly vztahu můžeme použít korelační koeficienty. Jednoduchým způsobem lze vypočítat např.
korigovaný koeficient kontingence pomocí Pearsona nebo Cramerův koeficient. Oba korelační
koeficienty jsou z intervalu (0, 1). Na základě vypočtené hodnoty můžeme určit korelaci mezi
hodnotami. Pokud je hodnota koeficientu 0, není mezi hodnotami žádný vztah. Je-li hodnota rovna 1,
je mezi hodnotami v kontingenční tabulce silná závislost.


Test nezávislosti – test chí-kvadrát (c^2)

Test nezávislosti chí-kvadrát se používá, pokud chceme zjistit závislost dvou kvalitativních
veličin, které zjišťujeme na prvcích téhož výběru. Máme náhodný výběr rozsahu n rozdělený do dvou
znaků (znak 1, znak 2). Úkolem testu je rozhodnout, zda znaky jsou na sobě závislé nebo nezávislé
(zda znak 1 má vliv na znak 2).


Test chí-kvadrát porovnává skutečné (naměřené) a očekávané četnosti. Skutečné (naměřené) četnosti
zjišťujeme z kontingenční tabulky. V kontingenční tabulce jsou ve sloupcích vyjádřené hodnoty znaku
1, v řádcích hodnoty znaku 2. Očekávané četnosti vypočítáme. Při výpočtu předpokládáme, že platí
nulová hypotéza. Nulová hypotéza předpokládá, že znaky jsou nezávislé. Velikost rozdílů mezi
skutečnými (naměřenými) a očekávanými četnosti se posuzuje pomocí testové statistiky chí-kvadrát.
Porovnává se vypočtená hodnota s kritickou hodnotou chí-kvadrát na dané hladině významnosti.
Hladina významnosti se volí obvykle 0,05 nebo 0,1. Hladina významnosti představuje pravděpodobnost
chyby při zamítnutí nulové hypotézy. Je-li hladina významnosti 0,05 (0,1), je pravděpodobnost, že
jsme se dopustili chyby 5 % (10 %). Kritickou hodnotu pro daný stupeň volnosti najdeme v tabulkách.
Počet stupňů volnosti zjistíme podle vztahu (a-1)*(b-1), kde a je počet řádků a b je počet sloupců.
Je-li kritická hodnota menší než vypočtená hodnota testového kritéria, zamítáme nulovou hypotézu a
na dané hladině významnosti a přijímáme hypotézu o závislosti. Je-li kritická hodnota větší než
vypočtená hodnota testového kritéria, nezamítáme nulovou hypotézu na dané hladině významnosti a
platí, že znaky jsou nezávislé.

Hypotézy

•    Nulová hypotéza: znaky 1 a 2 jsou nezávislé

•    Alternativní hypotéza: mezi znaky 1 a 2 existuje závislost


Postup výpočtu

•    Sestaví se tabulka skutečných (naměřených) relativních četností

•    Vypočte se tabulka očekávaných četností

•    Provede se kontrola podmínek pro použití testu nezávislosti v kontingenční tabulce:

     - nejvíce 20 % očekávaných četností může být menších než 5

     - žádná očekávaná četnost nesmí být menší než 1

Pozn. Platí pro náhodný výběr n > 40. Pro tabulku 2x2 je nutná úprava testového kritéria, pokud 20
< n < 40, provádí se pomocí Yatesovy korekce. Pokud n < 20, používá se Fisherův test.

•     Vypočte se testové kritérium (dosazení do vzorce – výsledek hodnota)

•     Testové kritérium se srovná s kritickou hodnotou (tabulková hodnota, je potřeba zohlednit
počet stupňů volnosti)

•     Je-li testové kritérium < kritická hodnota, potom nezamítáme hypotézu o nezávislosti a
nezávislost lze předpokládat

•     Je-li testové kritérium > kritická hodnota, potom zamítáme hypotézu o nezávislosti a lze
předpokládat závislost



Korigovaný koeficient kontingence pomocí Pearsona


Korigovaný koeficient kontingence pomocí Pearsona udává sílu vztahu. Nabývá hodnot z intervalu
(0,1). Hodnota 0 znamená, že mezi hodnotami v kontingenční tabulce není žádný vztah, hodnota 1
znamená silnou závislost.


Korigovaný koeficient kontingence pomocí Pearsona vypočteme podle vztahu

kde  je hodnota testového kritéria, n je rozsah souboru, m je počet řádků nebo počet sloupců
v kontingenční tabulce (je-li větší počet řádků, je m počet řádků; je-li větší počet sloupců, je m
počet sloupců).



Cramerův koeficient


Cramerův koeficient udává sílu vztahu. Nabývá hodnot z intervalu (0,1). Hodnota 0 znamená, že mezi
hodnotami v kontingenční tabulce není žádný vztah, hodnota 1 znamená silnou závislost.


Cramerův koeficient V vypočteme podle vztahu

kde  je hodnota testového kritéria, n je rozsah souboru, m je počet řádků nebo počet sloupců
v kontingenční tabulce (je-li větší počet řádků, je m počet řádků; je-li větší počet sloupců, je m
počet sloupců).


Pro lepší pochopení zpracování dat uvádíme dva příklady.


Příklad 1


Chceme zjistit, zda spolu souvisí péče o zrak a nejvyšší dosažené vzdělání. Máme k dispozici 660
dotazníků týkajících se vad a ochrany zraku (náhodný výběr o rozsahu n=660). Z dotazníku vybereme
otázky týkající se péče o zrak a dosaženého vzdělání.

Vybrané otázky z dotazníku:

Nejvyšší dosažené vzdělání

a)   základní

b)   středoškolské

c)   vyšší odborné

d)   vysokoškolské

Domníváte se, že se dostatečně pečujete o svůj zrak?

a)   ano

b)   ne

c)   někdy


Znak 1 – nejvyšší dosažené vzdělání

Znak 2 – péče o zrak


Úkol testu – rozhodnout, zda nejvyšší dosažené vzdělání má vliv na péči o zrak


Postup výpočtu

1. Sestavíme tabulku skutečných (naměřených) relativních četností


Tab. 1a Skutečné (relativní) četnosti

                                             základní

                                                SŠ

                                                VOŠ

                                                VŠ

                                              celkem

                                                ano

                                                33

                                                132

                                                28

                                                69

                                                262

                                               někdy

                                                 6

                                                74

                                                 0

                                                70

                                                150

                                                ne

                                                11

                                                128

                                                 6

                                                103

                                                248

                                              celkem

                                                50

                                                334

                                                34

                                                242

                                                660


Ve sloupcích tabulky jsou vyjádřené hodnoty znaku 1 – nejvyšší dosažené vzdělání, v řádcích hodnoty
znaku 2 – péče o zrak. V jednotlivých buňkách tabulky je zaznamenáno, jak odpovídali respondenti
z dané skupiny. Např. 33 respondentů se základním vzděláním odpovědělo, že se domnívá, že se
dostatečně pečuje o svůj zrak.

Pro výpočet použijeme následující odkaz:

http://www.milankabrt.cz/testNezavislosti/index.php

Spustíme aplikaci a podle pokynů aplikace doplníme počet skupin znaku 1 a počet skupin znaku 2.
Znak 1 má celkem 4 skupiny (základní, SŠ, VOŠ, VŠ), znak 2 má celkem 3 skupiny (ano, někdy, ne).
Dále musíme doplnit hladinu významnosti a. Obvykle se volí 0,1 nebo 0,05. Zvolíme 0,05 a  dále
stiskneme tlačítko pokračovat. V následujícím kroku zadáme do tabulky naměřené relativní četnosti a
dále stiskneme tlačítko pokračovat. Zobrazí se nám výsledky testu – tabulka očekávaných četností,
hodnota testového kritéria, kritická hodnota testového kritéria pro daný počet stupňů volnosti a
rozhodnutí.

Zkontrolujeme podmínky pro použití testu nezávislosti v kontingenční tabulce:

     - nejvíce 20 % očekávaných četností může být menších než 5

     - žádná očekávaná četnost nesmí být menší než 1


Tab. 1b Očekávané četnosti

                                             základní

                                                SŠ

                                                VOŠ

                                                VŠ

                                              celkem

                                                ano

                                               19,85

                                              132,59

                                               13,5

                                               96,07

                                                262

                                               někdy

                                               11,36

                                               75,91

                                               7,73

                                                55

                                                150

                                                ne

                                               18,79

                                               125,5

                                               12,78

                                               90,93

                                                248

                                              celkem

                                                50

                                                334

                                                34

                                                242

                                                660

Podmínky pro použití testu jsou v našem případě splněny a můžeme použít test nezávislosti
chí-kvadrát. Hodnota testového kritéria je 54,792. Počet stupňů volnosti je 6 (počet řádků 3, počet
sloupců 4, odtud (3-1) *(4-1)=2*3=6). Kritická hodnota pro hladinu významnosti 0,05 a počet stupňů
volnosti 6 je 12,592 (viz tabulka 3). Protože kritická hodnota je menší než vypočtená hodnota
testového kritéria, zamítáme nulovou hypotézu a na dané hladině významnosti a přijímáme hypotézu
o závislosti.


Závěr: Zjišťovali jsme, zda péče o zrak souvisí s nejvyšším dosaženým vzděláním. Pro testování jsme
použili test nezávislosti chí-kvadrát. Při výpočtu jsme použili program pro statistiku test
nezávislosti chí-kvadrát http://www.milankabrt.cz/testNezavislosti/index.php

Porovnali jsme skutečné (naměřené) a očekávané četnosti. Skutečné (naměřené) četnosti jsme
zaznamenali do kontingenční tabulky. Očekávané četnosti jsme vypočítali. Při výpočtu jsme
předpokládali, že platí nulová hypotéza.

Nulová hypotéza: Péče o zrak nesouvisí s nejvyšším dosaženým vzděláním.

Alternativní hypotéza: Péče o zrak souvisí s nejvyšším dosaženým vzděláním.

Velikost rozdílů mezi skutečnými (naměřenými) a očekávanými četnosti jsme posoudili pomocí testové
statistiky chí-kvadrát. Porovnali jsme vypočtenou hodnotu s kritickou hodnotou chí-kvadrát na
hladině významnosti 0,05. Hladina významnosti 5 % představuje pravděpodobnost chyby při zamítnutí
nulové hypotézy. Počet stupňů volnosti je v našem případě 6, kritická hodnota pro 6 stupňů volnosti
a hladinu významnosti 0,05 je 12,592. Vypočtená hodnota testového kritéria je 54,792. Kritická
hodnota je v našem případě menší než vypočtená hodnota testového kritéria, zamítáme nulovou
hypotézu a na hladině významnosti 0,1 (10 %) a přijímáme hypotézu, že mezi péčí o zrak a nejvyšším
dosaženým vzděláním existuje určitá závislost.


Výpočet korigovaného koeficientu kontingence pomocí Pearsona

Dosadíme do vztahu pro korigovaný koeficient kontingence pomocí Pearsona a dostaneme: 0,320


Výpočet Cramerova koeficientu

Dosadíme do vztahu pro Cramerův koeficient a dostaneme:

Získané hodnoty koeficientů naznačují, že mezi hodnotami v kontingenční tabulce je jenom slabá
závislost. Nejvyšší dosažené vzdělání má vliv na péči o zrak, ale tato závislost není silná.


Příklad 2


Chceme zjistit, zda spolu souvisí péče o zrak a pohlaví. Máme k dispozici 660 dotazníků týkajících
se vad a ochrany zraku (náhodný výběr o rozsahu n=660). Z dotazníku vybereme otázky týkající se
péče o zrak a pohlaví.

Vybrané otázky z dotazníku:

Pohlaví

a)   žena

b)   muž

Domníváte se, že se dostatečně pečujete o svůj zrak?

a) ano

b) ne

c) někdy


Znak 1 – pohlaví

Znak 2 – péče o zrak


Úkol testu – rozhodnout, zda pohlaví má vliv na péči o zrak


Postup výpočtu

1. Sestavíme tabulku skutečných (naměřených) relativních četností


Tab. 2a Skutečné (relativní) četnosti

                                                muž

                                               žena

                                              celkem

                                                ano

                                                58

                                                204

                                                262

                                               někdy

                                                40

                                                110

                                                150

                                                ne

                                                47

                                                201

                                                248

                                              celkem

                                                145

                                                515

                                                660


Ve sloupcích tabulky jsou vyjádřené hodnoty znaku 1 – pohlaví, v řádcích hodnoty znaku 2 – péče o
zrak. V jednotlivých buňkách tabulky je zaznamenáno, jak odpovídali respondenti z dané skupiny.
Např. 58 mužů odpovědělo, že se domnívá, že se dostatečně pečuje o svůj zrak.

Pro výpočet použijeme následující odkaz:

http://www.milankabrt.cz/testNezavislosti/index.php

Spustíme aplikaci a podle pokynů aplikace doplníme počet skupin znaku 1 a počet skupin znaku 2.
Znak 1 má celkem 2 skupiny (muž, žena), znak 2 má celkem 3 skupiny (ano, někdy, ne). Dále musíme
doplnit hladinu významnosti a. Obvykle se volí 0,1 nebo 0,05. Zvolíme 0,05 a dále stiskneme
tlačítko pokračovat. V následujícím kroku zadáme do tabulky naměřené relativní četnosti a dále
stiskneme tlačítko pokračovat. Zobrazí se nám výsledky testu – tabulka očekávaných četností,
hodnota testového kritéria, kritická hodnota testového kritéria pro daný počet stupňů volnosti
a rozhodnutí.

Zkontrolujeme podmínky pro použití testu nezávislosti v kontingenční tabulce:

     - nejvíce 20 % očekávaných četností může být menších než 5

     - žádná očekávaná četnost nesmí být menší než 1


Tab. 2b Očekávané četnosti

                                                muž

                                               žena

                                              celkem

                                                ano

                                               57,56

                                              204,44

                                                262

                                               někdy

                                               32,95

                                              117,05

                                                150

                                                ne

                                               54,48

                                              193,52

                                                248

                                              celkem

                                                145

                                                515

                                                660

Podmínky pro použití testu jsou v našem případě splněny a můžeme použít test nezávislosti
chí-kvadrát. Hodnota testového kritéria je 3,253. Počet stupňů volnosti je 2 (počet řádků 3, počet
sloupců 2, odtud (3-1) *(2-1)=2*1=2). Kritická hodnota pro hladinu významnosti 0,05 a počet stupňů
volnosti 2 je 5,991 (viz tabulka 3). Kritická hodnota je větší než vypočtená hodnota testového
kritéria, nezamítáme nulovou hypotézu a na dané hladině významnosti, platí, že znaky jsou
nezávislé.

Závěr: Z našeho šetření vyplynulo, že péče o zrak a pohlaví na sobě nezávisí. Závislost jsme
ověřili pomocí kontingenčních tabulek a použili jsme test chí kvadrát. Kritická mez pro hladinu
významnosti byla zvolena 0,05. Vypočtená hodnota testového kritéria je 3,253. Počet stupňů volnosti
je 2, kritická hodnota pro 2 stupně volnosti je 5,991. Protože kritická hodnota je větší než
vypočtená hodnota, z provedeného testu vyplývá, že veličiny jsou na sobě nezávislé.


Výpočet korigovaného koeficientu kontingence pomocí Pearsona

Dosadíme do vztahu pro korigovaný koeficient kontingence pomocí Pearsona a dostaneme:


Výpočet Cramerova koeficientu

Dosadíme do vztahu pro Cramerův koeficient a dostaneme:


Získané hodnoty koeficientů ukazují, že mezi hodnotami v kontingenční tabulce není závislost.
Pohlaví nemá vliv na péči o zrak.


Kritické hodnoty testového kritéria chí-kvadrát


Tab. 3 Kritické hodnoty testového kritéria chí-kvadrát pro hladinu významnosti 0,05 a 0,01

Výřez obrazovky

Zdroj: www.milankabrt.cz/testNezavislosti/index.php