Vyzkum_v_osetrovatelstvi
6.3 Analýza dat
6.3 Analýza dat
Cílem této kapitoly je seznámení s vybranými pojmy a metodami, které jsou používané v analýze dat v rámci kvantitativního výzkumu.
Analýzu rozumíme rozbor dat a jejich syntézu. Jejím úkolem je redukce, organizace, syntéza a sumarizace informací, aby bylo možné přisoudit získaným výsledkům význam.
Analýza dat v kvantitativním výzkumu slouží k vyvrácení nebo potvrzení výzkumníkových hypotéz a to především pomocí statické analýzy.
Rozlišujeme statistiku:
- popisnou (deskriptivní) - zobrazuje a sumarizuje data, mezi charakteristiky deskriptivní statistiky patří např. střední hodnota nebo rozdělení četností
- inferenční (induktivní) - zobecňuje výsledky z výběrového vzorku na populaci
Proměnná se v rámci statistické analýzy označuje jako statistický znak, jinak řečeno statistické znaky jsou popisované vlastnosti jednotek statistického souboru.
V závislosti na počtu znaků, které se analyzují, rozdělujeme analýzu:
- jednorozměrnou – sleduje se jeden znak
- dvourozměrnou – sledují se dva znaky
- vícerozměrnou – sleduje se více znaků
Statistický znak může být (základní dělení):
- kvantitativní – vyjádřen číselně (např. věk, výška, hmotnost apod.)
a) spojitý – libovolná reálná čísla (hmotnost, výška, skóre apod.)
b) diskrétní (nespojitý) – veličiny (číselné hodnoty; např. počet dětí, počet let praxe apod.)
- kvalitativní – vyjádřen nenumericky (např. pohlaví, zkušenost s prodělaným onemocněním, zaměstnání apod.)
a) alternativní – jsou možné pouze dvě varianty (např. muž nebo žena)
b) množný – je možné více variant (např. léčba: medikamentózní, chirurgická, režimová opatření)
Mezi statistické metody, se kterými se v rámci výzkumu v ošetřovatelství setkáváme, patří:
1) Statistické třídění a organizace dat, které umožňuje zpřehlednění získaných dat a jejich uspořádání pomocí např.:
- třídění slovních znaků podle určitých kritérií (podle abecedy, podle četnosti výskytu apod.)
- třídění číselných znaků - převod dat např. do tabulek (tabulky neboli matice dat, se nejčastěji vytváří pomocí počítačových programů, jako je např. MS Excel; základní podoba matice dat se skládá ze sloupců – pro jednotlivé statistické znaky a řádků – pro jednotlivé případy neboli statistické jednotky)
K třídění a organizaci dat lze využít např.:
a) tabulky rozdělení četností
- číselný znak má určitou hodnotu (obecně k), ke každé hodnotě je přiřazen počet výskytu (četnost)
b) četnost lze vyjádřit jako absolutní (počtem výskytu) či relativní (často v %)
Vzorec pro výpočet relativní četnosti:
fi = ni / n
Četnost naměřených hodnot TK | |||
Pacient |
Hodnoty TK
(mm Hg) |
Absolutní četnost (ni) |
Relativní četnost (fi)
vyjádřená v % |
1.
2.
3.
4.
5.
6. |
> 180/100
> 160/100 - 180/100
> 110/70 - 120/75
> 145/90 - 160/100
˂110/70
> 120/75 – 145/90 |
18
21
24
29
37
50 |
10,1
11,7
13,4
16,2
20,7
27,9 |
Součet (n) |
X | 179 |
100,0 |
Obr. 1 Příklad jednorozměrného rozdělení četností (frekvenční rozdělení)
Zdroj: Autor
c) grafické znázornění – pomocí grafů a diagramů lze znázornit:
- rozdělení četností
-- sloupcový graf/diagram (viz obr. 2 Příklad sloupcového diagramu)
-- pruhový
-- výsečový graf (viz obr. 3 Příklad výsečového grafu)
- znázornění vývoje
-- spojnicový graf (viz obr. 4 Příklad spojnicového grafu)
- znázornění umístění, rozptylu
-- XY bodový (viz obr. 5 Příklad XY bodového grafu)
Obr. 2 Příklad sloupcového diagramu
Zdroj: Autor
Obr. 3 Příklad výsečového grafu
Zdroj: Autor
Obr. 4 Příklad spojnicového grafu
Zdroj: Autor
Obr. 5 Příklad XY bodového grafu
Zdroj: Autor
d) míry polohy patří mezi základní popisné charakteristiky a jedná se o:
- maximum – nejvyšší hodnota
- minimum – nejnižší hodnota
- modus – hodnota, která se nejčastěji vyskytuje
- medián – hodnota nacházející se uprostřed pořadí
- aritmetický průměr – součet pozorovaných hodnot dělený jejich počtem
e) míry rozptýlenosti vypovídají o vyrovnanosti jednotek souboru, jak jsou hodnoty souboru rozptýleny a také jak je jednotlivé hodnoty znaku od sebe liší.
- variační řada – seřazení dat podle velikosti
- variační rozpětí (R) – jde o rozdíl maximální a minimální hodnoty sledovaného znaku; nevýhodou variačního rozpětí je, že výsledek může být zkreslen, jsou-li v daném souboru odlehlé hodnoty
Vzorec pro výpočet variačního rozpětí:
R = xmax - xmin
V souvislosti s mírou variability je třeba zmínit pojem percentil, se kterým se v odborné zdravotnické literatuře můžeme setkat (např. v grafech znázorňujících tělesný růst dětí apod.) Jedná se kvantil (hodnota variační řady, pod níž se nachází definované množství dat) s procentuálním vyjádřením. Jde o umístění daného znaku vůči ostatním na stupnici do 100.
- rozptyl (variace) – vyjadřuje odchýlení hodnot určitého souboru od svého průměru; jde o průměr druhých mocnin odchylek od průměru
- směrodatná odchylka (SD) – je druhá odmocnina rozptylu; jde o odhad rozmístění hodnot
- variační koeficient – srovnává variabilitu dvou či více souborů nezávisle na jednotkách měření; jde o procentuálně vyjádřený poměr směrodatné odchylky k aritmetickému průměru, jinak řečeno vyjadřuje jaké % aritmetického průměru je tvořeno směrodatnou odchylkou (čím vyšší variační koeficient, tím „hůře“ aritmetický průměr zastupuje data souboru)
Při analýze rozložení výsledků a popisu náhodných veličin se pracuje také s tzv. hustotou normálního rozdělení (základním rozdělením pravděpodobností náhodných veličin), které je charakterizováno Gaussovou křivkou, která je také označována jako zvonová křivka.
Tvar Gaussovy křivky určuje:
- střední hodnota (m) – určuje polohu maximální četnost výskytu veličiny
- směrodatná odchylka (s) – určuje tvar (šíři) křivky
Gaussovo normální rozdělení (m, s):
- v rozmezí hodnot m ± 1s se vyskytuje 68,3 % všech jedinců populace
- v rozmezí hodnot m ± 2s se vyskytuje 95,5 % všech jedinců populace
- v rozmezí hodnot m ± 3s se vyskytuje 99,7 % všech jedinců populace
- zbylé 0,3 % hodnot (na koncích osy x) jsou ze statistického hlediska považovány za odlehlé hodnoty a pro další analýzu jsou vyřazeny
Obr. 6 Gaussova křivka; Legenda: f(x) - četnost výskytu sledované veličiny; X – charakteristická hodnota sledované veličiny; μ - střední hodnota, parametr polohy; σ - směrodatná odchylka charakteristické hodnoty sledované veličiny, parametr rozptýlení; inflexní bod – bod obratu křivky, je dán umístěním směrodatné odchylky
Zdroj: VFU Brno, rok neuveden
1) Analýza závislosti
a) korelační analýza – zkoumá vztahy proměnných; korelační analýza se nezabývá kauzalitou vztahů
- Pearsonův korelační koeficient (r) – určuje míru lineární závislosti mezi dvěma spojitými proměnnými X a Y
Vzorec pro výpočet Pearsonova korelačního koeficientu:
Legenda: sx – směrodatná odchylka veličiny x; sy - směrodatná odchylka veličiny y; - průměr znaků x; - průměr znaků y
Korelační koeficient r nabývá hodnot [-1; 1], tento vztah je možné také popsat jako
-1 < r < 1.
Hodnocení korelačního koeficientu:
1 = přímá závislost; pozitivní korelace; vzrůstající hodnota X i Y; hodnotu Y lze stanovit na základě znalosti hodnoty X
0 = naprostá nezávislost; neexistuje statisticky zjistitelná lineární závislost (fakticky mohou na sobě ale veličiny záviset); hodnotu Y nelze odhadnout na základě znalosti hodnot X
-1 = negativní korelace; nepřímá závislost; když hodnota X vzrůstá, tak hodnota Y klesá; hodnotu Y lze stanovit na základě znalosti hodnoty X (DISMAN, 2002)
- Spearmanův koeficient pořadové korelace (ρ nebo rs) – měří sílu vztahu mezi X a Y; výhodou této analýzy je, že zachycuje lineární vztahy a je rezistentní vůči odlehlým hodnotám; pro vypočet se užívá Pearsonův koeficient, ale místo původních hodnot se používají jejich pořadová čísla
b) regresní analýza – zkoumá vztahy mezi závisle proměnnou (Y) a nezávisle proměnnou (X)
2) Analýza kategoriálních dat – kategoriální data lze zachycovat do dvou a více rozměrných tabulek četností či relativních četností; klasifikace kategorií vždy odpovídá daným proměnným (závisle či nezávisle proměnné);
a) c2 (chí kvadrát) test dobré shody - používá se k zjištění, zda data odpovídají předpokládanému rozdělení nebo rozdílu mezi pozorovanými a očekávanými četnostmi;
- pro c2 je nutné mít stanovenou tzv. nulovou hypotézu (H0), tedy testovanou hypotézu, která se zabývá vztahem znaků (př. znak 1 a 2 jsou nezávislé);
- test dobré shody testuje nulovou hypotézu (H0) vůči alternativní (H1)
b) závislost kategoriálních proměnných – provádí se pomocí statistické analýzy četnostních tabulek, které zpřehledňují vztahy více statistických znaků
- kontingenční tabulky – tabulky vzniklé tříděním podle proměnných (každá jednotka statistického souboru může být klasifikována podle dvou kritérií – A, které mají r úrovní a B, které mají s úrovní; tento typ kontingenční tabulky je označován jako
r x s), viz obr 4 Příklad kontingenční tabulky; rozeznáváme různé druhy kontingenčních tabulek, kromě obecných r x s, dále např. čtyřpolní tabulku (typ 2 x 2)
Úrovně |
B1 B2 … Bs |
Součty řádkové |
A1
A2
.
.
.
Ar |
n11 n12 ... n15
n21 n22 … n25
. . . .
. . . .
. . . .
nr1 nr2 … nrs |
n1.
n2.
.
.
.
nr. |
Součty sloupcové |
n.1 n.2 … n.s |
n |
Obr. 7 Příklad kontingenční tabulky
Zdroj: HENDL, 2012, s. 321
Literatura:
BÁRLOVÁ, Sylva, SADÍLEK Petr a Valérie TÓTHOVÁ. Výzkum a ošetřovatelství. Brno: Národní centrum ošetřovatelství a nelékařských zdravotnických oborů, 2009. ISBN 978-80-7013-467-2.
DISMAN, Miroslav. Jak se vyrábí sociologická znalost. Příručka pro uživatele. Praha: Karolinum, 2002. ISBN 80-246-0139-7.
Gaussova křivka. In: VFU Brno [online]. © Veterinární a farmaceutická univerzita Brno, rok neuveden. [vid. 28. 10. 2013]. Dostupné z: http://cit.vfu.cz/stat/FVL/Teorie/Predn2/rozdelZS.htm
HENDL, Jan. Přehled statistických metod: analýza a metaanalýza dat. 4. rozšířené vyd. Praha: Portál, 2012. ISBN 978-80-262-0200-4.