ANALÝZA DAT



ANALÝZA DAT
¢rozbor dat a jejich syntézu
¢
¢Cíl analýzy: redukce, organizace, syntéza a sumarizace informací, aby bylo možné přisoudit
získaným výsledkům význam
¢
¢V kvantitativním výzkumu slouží analýza dat k vyvrácení nebo potvrzení výzkumníkových hypotéz a to
především pomocí statické analýzy

STATISTICKÁ ANALÝZA
¢Rozdělení:
¢popisnou (deskriptivní) -  zobrazuje a sumarizuje data, mezi charakteristiky deskriptivní
statistiky patří např. střední hodnota nebo rozdělení četností
¢inferenční (induktivní) - zobecňuje výsledky z výběrového vzorku na populaci
¢
¢Proměnná se v rámci statistické analýzy označuje jako statistický znak = jinak řečeno statistické
znaky jsou popisované vlastnosti jednotek statistického souboru
¢

STATISTICKÁ ANALÝZA
¢Dělení analýzy dle počtu analyzovaných znaků:
¢jednorozměrnou – sleduje se jeden znak
¢dvourozměrnou – sledují se dva znaky
¢vícerozměrnou – sleduje se více znaků
¢
¢Dělení statistických znaků:
¢kvantitativní – vyjádřen číselně (např. věk, výška, hmotnost apod.)
¢ - spojitý – libovolná reálná čísla (hmotnost, výška, skóre apod.)
¢ - diskrétní (nespojitý) – veličiny (číselné hodnoty; např. počet   dětí, počet let praxe apod.)
¢kvalitativní – vyjádřen nenumericky (např. pohlaví, zkušenost s prodělaným onemocněním, zaměstnání
apod.)
¢ - alternativní – jsou možné pouze dvě varianty (např. muž nebo   žena)
¢ - množný – je možné více variant (např. léčba: medikamentózní,   chirurgická, režimová opatření)
¢
¢
¢

PŘÍKLADY STATISTICKÝCH METOD
¢1) Statistické třídění a organizace dat - umožňuje zpřehlednění získaných dat a jejich uspořádání
pomocí např.:
¢třídění slovních znaků podle určitých kritérií (podle abecedy, podle četnosti výskytu apod.)
¢třídění číselných znaků - převod dat např. do tabulek (tabulky neboli matice dat, se nejčastěji
vytváří pomocí počítačových programů, jako je např. MS Excel; základní podoba matice dat se skládá
ze sloupců – pro jednotlivé statistické znaky a řádků – pro jednotlivé případy neboli statistické
jednotky)
¢

TŘÍDĚNÍ A ORGANIZACE DAT
Øtabulky rozdělení četností
¢číselný znak má určitou hodnotu (obecně k), ke každé hodnotě je přiřazen počet výskytu (četnost)
¢četnost lze vyjádřit jako absolutní (počtem výskytu) či relativní (často v %)
¢Vzorec pro výpočet relativní četnosti:
¢ fi = ni / n
¢

PŘÍKLAD JEDNOROZMĚRNÉHO ROZDĚLENÍ ČETNOSTÍ (FREKVENČNÍ ROZDĚLENÍ)

Četnost naměřených hodnot TK
Pacient
Hodnoty TK
(mm Hg)
Absolutní četnost (ni)
Relativní četnost (fi)
vyjádřená v %
1.
2.
3.
4.
5.
6.
> 180/100
> 160/100 - 180/100
> 110/70 - 120/75
> 145/90 - 160/100
˂110/70
> 120/75 – 145/90
18
21
24
29
37
50
10,1
11,7
13,4
16,2
20,7
27,9
Součet (n)
r
179
100,0

TŘÍDĚNÍ A ORGANIZACE DAT
Øgrafické znázornění – pomocí grafů a diagramů lze znázornit:
¢rozdělení četností
¢-sloupcový graf/diagram
¢-pruhový
¢-výsečový graf
¢znázornění vývoje
¢- spojnicový graf (viz obr. 4 Příklad spojnicového grafu)
¢znázornění umístění, rozptylu
¢- XY bodový

PŘÍKLAD SLOUPCOVÉHO DIAGRAMU



PŘÍKLAD VÝSEČOVÉHO GRAFU



PŘÍKLAD SPOJNICOVÉHO GRAFU



PŘÍKLAD XY BODOVÉHO GRAFU



TŘÍDĚNÍ A ORGANIZACE DAT
¢
Ømíry polohy patří mezi základní popisné charakteristiky a jedná se o:
¢maximum – nejvyšší hodnota
¢minimum – nejnižší hodnota
¢modus – hodnota, která se nejčastěji vyskytuje
¢medián – hodnota nacházející se uprostřed pořadí
¢aritmetický průměr – součet pozorovaných hodnot dělený jejich počtem
¢
Ømíry rozptýlenosti vypovídají o vyrovnanosti jednotek souboru, jak jsou hodnoty souboru rozptýleny
a také jak je jednotlivé hodnoty znaku od sebe liší.
¢variační řada – seřazení dat podle velikosti
¢variační rozpětí (R) – jde o rozdíl maximální a minimální hodnoty sledovaného znaku; nevýhodou
variačního rozpětí je, že výsledek může být zkreslen, jsou-li v daném souboru odlehlé hodnoty
¢
¢Vzorec pro výpočet variačního rozpětí: R = xmax - xmin
¢

TŘÍDĚNÍ A ORGANIZACE DAT
¢
Ørozptyl (variace) – vyjadřuje odchýlení hodnot určitého souboru od svého průměru; jde o průměr
druhých mocnin odchylek od průměru
¢
Øsměrodatná odchylka (SD) – je druhá odmocnina rozptylu; jde o odhad rozmístění hodnot
¢
Øvariační koeficient – srovnává variabilitu dvou či více souborů nezávisle na jednotkách měření;
jde o procentuálně vyjádřený poměr směrodatné odchylky k aritmetickému průměru, jinak řečeno
vyjadřuje jaké % aritmetického průměru je tvořeno směrodatnou odchylkou (čím vyšší variační
koeficient, tím „hůře“ aritmetický průměr zastupuje data souboru)
¢

GAUSSOVA KŘIVKA
¢Hustota normálního rozdělení
¢Zvonová křivka
¢
¢Tvar Gaussovy křivky je dán:
¢- střední hodnotou (m) – určuje polohu maximální četnost výskytu veličiny
¢směrodatná odchylka (s) – určuje tvar (šíři) křivky
¢
¢
¢

GAUSSOVA KŘIVKA
Popis: obr 2


GAUSSOVA KŘIVKA –
NORMÁLNÍ ROZDĚLENÍ
¢Gaussovo normální rozdělení (m, s):
-v rozmezí hodnot m ± 1s se vyskytuje 68,3 % všech jedinců populace
-v rozmezí hodnot m ± 2s  se vyskytuje 95,5 % všech jedinců populace
-v rozmezí hodnot m ± 3s  se vyskytuje 99,7 % všech jedinců populace
-zbylé 0,3 % hodnot (na koncích osy x) jsou ze statistického hlediska považovány za odlehlé hodnoty
a pro další analýzu jsou vyřazeny
¢
¢

PŘÍKLADY STATISTICKÝCH METOD



PŘÍKLADY STATISTICKÝCH METOD
¢Hodnocení korelačního koeficientu:
¢1 = přímá závislost; pozitivní korelace; vzrůstající hodnota X i Y; hodnotu Y lze stanovit na
základě znalosti hodnoty X
¢0 = naprostá nezávislost; neexistuje statisticky zjistitelná lineární závislost (fakticky mohou na
sobě ale veličiny záviset); hodnotu Y nelze odhadnout na základě znalosti hodnot X
¢-1 = negativní korelace; nepřímá závislost; když hodnota X vzrůstá, tak hodnota Y klesá; hodnotu Y
lze stanovit na základě znalosti hodnoty X (DISMAN, 2002)
¢

PŘÍKLADY STATISTICKÝCH METOD
-Spearmanův koeficient pořadové korelace (ρ nebo rs) – měří sílu vztahu mezi X a Y; výhodou této
analýzy je, že zachycuje lineární vztahy a je rezistentní vůči odlehlým hodnotám; pro vypočet se
užívá Pearsonův koeficient, ale místo původních hodnot se používají jejich pořadová čísla
¢
Øregresní analýza – zkoumá vztahy mezi závisle proměnnou (Y) a nezávisle proměnnou (X)
¢
¢

PŘÍKLADY STATISTICKÝCH METOD
¢3) Analýza kategoriálních dat – kategoriální data lze zachycovat do dvou a více rozměrných tabulek
četností či relativních četností; klasifikace kategorií vždy odpovídá daným proměnným (závisle či
nezávisle proměnné);
Øc2 (chí kvadrát) test dobré shody - používá se k zjištění, zda data odpovídají předpokládanému
rozdělení nebo rozdílu mezi pozorovanými a očekávanými četnostmi;
—pro c2 je nutné mít stanovenou tzv. nulovou hypotézu (H0), tedy testovanou hypotézu, která se
zabývá vztahem znaků (př. znak 1 a 2 jsou nezávislé);
—test dobré shody testuje nulovou hypotézu (H0) vůči alternativní (H1)
¢

PŘÍKLADY STATISTICKÝCH METOD
Øzávislost kategoriálních proměnných – provádí se pomocí statistické analýzy četnostních tabulek,
které zpřehledňují vztahy více statistických znaků
¢- kontingenční tabulky – tabulky vzniklé tříděním podle proměnných (každá jednotka statistického
souboru může být klasifikována podle dvou kritérií – A, které mají r úrovní a B, které mají
s úrovní; tento typ kontingenční tabulky je označován jako (r x s), viz obr 4 Příklad kontingenční
tabulky; rozeznáváme různé druhy kontingenčních tabulek, kromě obecných r x s, dále např. čtyřpolní
tabulku (typ 2 x 2)
¢
¢

PŘÍKLAD KONTINGENČNÍ TABULKY