Vyzkum_v_osetrovatelstvi

6.3 Analýza dat

6.3 Analýza dat
 
 
Cílem této kapitoly je seznámení s vybranými pojmy a metodami, které jsou používané v analýze dat v rámci kvantitativního výzkumu.
 
Analýzu rozumíme rozbor dat a jejich syntézu. Jejím úkolem je redukce, organizace, syntéza a sumarizace informací, aby bylo možné přisoudit získaným výsledkům význam.
Analýza dat v kvantitativním výzkumu slouží k vyvrácení nebo potvrzení výzkumníkových hypotéz a to především pomocí statické analýzy.
 
Rozlišujeme statistiku:
- popisnou (deskriptivní) -  zobrazuje a sumarizuje data, mezi charakteristiky deskriptivní statistiky patří např. střední hodnota nebo rozdělení četností
- inferenční (induktivní) - zobecňuje výsledky z výběrového vzorku na populaci
 
Proměnná se v rámci statistické analýzy označuje jako statistický znak, jinak řečeno statistické znaky jsou popisované vlastnosti jednotek statistického souboru.
 
V závislosti na počtu znaků, které se analyzují, rozdělujeme analýzu:
- jednorozměrnou – sleduje se jeden znak
- dvourozměrnou – sledují se dva znaky
- vícerozměrnou – sleduje se více znaků
 
Statistický znak může být (základní dělení):
- kvantitativní – vyjádřen číselně (např. věk, výška, hmotnost apod.)
a) spojitý – libovolná reálná čísla (hmotnost, výška, skóre apod.)
b) diskrétní (nespojitý) – veličiny (číselné hodnoty; např. počet dětí, počet let praxe apod.)
- kvalitativní – vyjádřen nenumericky (např. pohlaví, zkušenost s prodělaným onemocněním, zaměstnání apod.)
a) alternativní – jsou možné pouze dvě varianty (např. muž nebo žena)
b) množný – je možné více variant (např. léčba: medikamentózní, chirurgická, režimová opatření)
 
Mezi statistické metody, se kterými se v rámci výzkumu v ošetřovatelství setkáváme, patří:
1) Statistické třídění a organizace dat, které umožňuje zpřehlednění získaných dat a jejich uspořádání pomocí např.:
- třídění slovních znaků podle určitých kritérií (podle abecedy, podle četnosti výskytu apod.)
- třídění číselných znaků - převod dat např. do tabulek (tabulky neboli matice dat, se nejčastěji vytváří pomocí počítačových programů, jako je např. MS Excel; základní podoba matice dat se skládá ze sloupců – pro jednotlivé statistické znaky a řádků – pro jednotlivé případy neboli statistické jednotky)
 
K třídění a organizaci dat lze využít např.:
a) tabulky rozdělení četností
- číselný znak má určitou hodnotu (obecně k), ke každé hodnotě je přiřazen počet výskytu (četnost)
b) četnost lze vyjádřit jako absolutní (počtem výskytu) či relativní (často v %)
 
Vzorec pro výpočet relativní četnosti:
 
fi = ni / n
 
 
Četnost naměřených hodnot TK
Pacient
Hodnoty TK
(mm Hg)
Absolutní četnost (ni)
Relativní četnost (fi)
vyjádřená v %
1.
2.
3.
4.
5.
6.
> 180/100
> 160/100 - 180/100
> 110/70 - 120/75
> 145/90 - 160/100
˂110/70
> 120/75 – 145/90
18
21
24
29
37
50
10,1
11,7
13,4
16,2
20,7
27,9

Součet (n)

X
179
100,0
                                  
Obr. 1 Příklad jednorozměrného rozdělení četností (frekvenční rozdělení)
Zdroj: Autor
 
c) grafické znázornění pomocí grafů a diagramů lze znázornit:
- rozdělení četností
-- sloupcový graf/diagram (viz obr. 2 Příklad sloupcového diagramu)
-- pruhový
-- výsečový graf (viz obr. 3 Příklad výsečového grafu)
- znázornění vývoje
-- spojnicový graf (viz obr. 4 Příklad spojnicového grafu)
- znázornění umístění, rozptylu
-- XY bodový (viz obr. 5 Příklad XY bodového grafu)
 
 
Obr. 2 Příklad sloupcového diagramu
Zdroj: Autor
 
Obr. 3 Příklad výsečového grafu
Zdroj: Autor
 
Obr. 4 Příklad spojnicového grafu
Zdroj: Autor
 
Obr. 5 Příklad XY bodového grafu
Zdroj: Autor
 
d) míry polohy patří mezi základní popisné charakteristiky a jedná se o:
- maximum – nejvyšší hodnota
- minimum – nejnižší hodnota
- modus – hodnota, která se nejčastěji vyskytuje
- medián – hodnota nacházející se uprostřed pořadí
- aritmetický průměr – součet pozorovaných hodnot dělený jejich počtem
 
e) míry rozptýlenosti vypovídají o vyrovnanosti jednotek souboru, jak jsou hodnoty souboru rozptýleny a také jak je jednotlivé hodnoty znaku od sebe liší.
- variační řada – seřazení dat podle velikosti
- variační rozpětí (R) – jde o rozdíl maximální a minimální hodnoty sledovaného znaku; nevýhodou variačního rozpětí je, že výsledek může být zkreslen, jsou-li v daném souboru odlehlé hodnoty
 
Vzorec pro výpočet variačního rozpětí:
 
R = xmax - xmin
 
V souvislosti s mírou variability je třeba zmínit pojem percentil, se kterým se v odborné zdravotnické literatuře můžeme setkat (např. v grafech znázorňujících tělesný růst dětí apod.) Jedná se kvantil (hodnota variační řady, pod níž se nachází definované množství dat) s procentuálním vyjádřením. Jde o umístění daného znaku vůči ostatním na stupnici do 100.
- rozptyl (variace) – vyjadřuje odchýlení hodnot určitého souboru od svého průměru; jde o průměr druhých mocnin odchylek od průměru
- směrodatná odchylka (SD) – je druhá odmocnina rozptylu; jde o odhad rozmístění hodnot
- variační koeficient – srovnává variabilitu dvou či více souborů nezávisle na jednotkách měření; jde o procentuálně vyjádřený poměr směrodatné odchylky k aritmetickému průměru, jinak řečeno vyjadřuje jaké % aritmetického průměru je tvořeno směrodatnou odchylkou (čím vyšší variační koeficient, tím „hůře“ aritmetický průměr zastupuje data souboru)
 
Při analýze rozložení výsledků a popisu náhodných veličin se pracuje také s tzv. hustotou normálního rozdělení (základním rozdělením pravděpodobností náhodných veličin), které je charakterizováno Gaussovou křivkou, která je také označována jako zvonová křivka.
 
Tvar Gaussovy křivky určuje:
- střední hodnota (m) – určuje polohu maximální četnost výskytu veličiny
- směrodatná odchylka (s) – určuje tvar (šíři) křivky
 
Gaussovo normální rozdělení (m, s):
- v rozmezí hodnot m ± 1s se vyskytuje 68,3 % všech jedinců populace
- v rozmezí hodnot m ± 2s  se vyskytuje 95,5 % všech jedinců populace
- v rozmezí hodnot m ± 3s  se vyskytuje 99,7 % všech jedinců populace
- zbylé 0,3 % hodnot (na koncích osy x) jsou ze statistického hlediska považovány za odlehlé hodnoty a pro další analýzu jsou vyřazeny
 
Obr. 6 Gaussova křivka; Legenda: f(x) - četnost výskytu sledované veličiny; X – charakteristická hodnota sledované veličiny;  μ - střední hodnota, parametr polohy; σ - směrodatná odchylka charakteristické hodnoty sledované veličiny, parametr rozptýlení; inflexní bod – bod obratu křivky, je dán umístěním směrodatné odchylky
Zdroj: VFU Brno, rok neuveden
 
1) Analýza závislosti
a) korelační analýza – zkoumá vztahy proměnných; korelační analýza se nezabývá kauzalitou vztahů
- Pearsonův korelační koeficient (r) – určuje míru lineární závislosti mezi dvěma spojitými proměnnými X a Y   
 
Vzorec pro výpočet Pearsonova korelačního koeficientu:


 
Legenda: sx – směrodatná odchylka veličiny x; sy - směrodatná odchylka veličiny y;  - průměr znaků x;  - průměr znaků y
 
Korelační koeficient r nabývá hodnot [-1; 1], tento vztah je možné také popsat jako
 -1 < r < 1.
 
Hodnocení korelačního koeficientu:
1 = přímá závislost; pozitivní korelace; vzrůstající hodnota X i Y; hodnotu Y lze stanovit na základě znalosti hodnoty X
0 = naprostá nezávislost; neexistuje statisticky zjistitelná lineární závislost (fakticky mohou na sobě ale veličiny záviset); hodnotu Y nelze odhadnout na základě znalosti hodnot X
-1 = negativní korelace; nepřímá závislost; když hodnota X vzrůstá, tak hodnota Y klesá; hodnotu Y lze stanovit na základě znalosti hodnoty X (DISMAN, 2002)
 
- Spearmanův koeficient pořadové korelace (ρ nebo rs) – měří sílu vztahu mezi X a Y; výhodou této analýzy je, že zachycuje lineární vztahy a je rezistentní vůči odlehlým hodnotám; pro vypočet se užívá Pearsonův koeficient, ale místo původních hodnot se používají jejich pořadová čísla
 
b) regresní analýza – zkoumá vztahy mezi závisle proměnnou (Y) a nezávisle proměnnou (X)
 
2) Analýza kategoriálních dat – kategoriální data lze zachycovat do dvou a více rozměrných tabulek četností či relativních četností; klasifikace kategorií vždy odpovídá daným proměnným (závisle či nezávisle proměnné);
a) c2 (chí kvadrát) test dobré shody - používá se k zjištění, zda data odpovídají předpokládanému rozdělení nebo rozdílu mezi pozorovanými a očekávanými četnostmi;
- pro c2 je nutné mít stanovenou tzv. nulovou hypotézu (H0), tedy testovanou hypotézu, která se zabývá vztahem znaků (př. znak 1 a 2 jsou nezávislé);
- test dobré shody testuje nulovou hypotézu (H0) vůči alternativní (H1)
 
b) závislost kategoriálních proměnných – provádí se pomocí statistické analýzy četnostních tabulek, které zpřehledňují vztahy více statistických znaků
- kontingenční tabulky – tabulky vzniklé tříděním podle proměnných (každá jednotka statistického souboru může být klasifikována podle dvou kritérií – A, které mají r úrovní a B, které mají s úrovní; tento typ kontingenční tabulky je označován jako
r x s), viz obr 4 Příklad kontingenční tabulky; rozeznáváme různé druhy kontingenčních tabulek, kromě obecných r x s, dále např. čtyřpolní tabulku (typ 2 x 2)
 
Úrovně
B1        B2               Bs
Součty řádkové
A1
A2
.
.
.
Ar
n11       n12            ...          n15
n21       n22                    n25
.                       .          .
.         .               .          .
.         .               .          .
nr1     nr2                nrs
n1.
n2.
.
.
.
nr.
Součty sloupcové
n.1       n.2                  n.s
n
Obr. 7 Příklad kontingenční tabulky
Zdroj: HENDL, 2012, s. 321
 
Literatura:
BÁRLOVÁ, Sylva, SADÍLEK Petr a Valérie TÓTHOVÁ. Výzkum a ošetřovatelství. Brno: Národní centrum ošetřovatelství a nelékařských zdravotnických oborů, 2009. ISBN 978-80-7013-467-2.
DISMAN, Miroslav. Jak se vyrábí sociologická znalost. Příručka pro uživatele. Praha: Karolinum, 2002. ISBN 80-246-0139-7.
Gaussova křivka. In: VFU Brno [online]. © Veterinární a farmaceutická univerzita Brno, rok neuveden. [vid. 28. 10. 2013]. Dostupné z: http://cit.vfu.cz/stat/FVL/Teorie/Predn2/rozdelZS.htm
HENDL, Jan. Přehled statistických metod: analýza a metaanalýza dat. 4. rozšířené vyd. Praha: Portál, 2012. ISBN 978-80-262-0200-4.