ANALÝZA DAT ANALÝZA DAT ¢rozbor dat a jejich syntézu ¢ ¢Cíl analýzy: redukce, organizace, syntéza a sumarizace informací, aby bylo možné přisoudit získaným výsledkům význam ¢ ¢V kvantitativním výzkumu slouží analýza dat k vyvrácení nebo potvrzení výzkumníkových hypotéz a to především pomocí statické analýzy STATISTICKÁ ANALÝZA ¢Rozdělení: ¢popisnou (deskriptivní) - zobrazuje a sumarizuje data, mezi charakteristiky deskriptivní statistiky patří např. střední hodnota nebo rozdělení četností ¢inferenční (induktivní) - zobecňuje výsledky z výběrového vzorku na populaci ¢ ¢Proměnná se v rámci statistické analýzy označuje jako statistický znak = jinak řečeno statistické znaky jsou popisované vlastnosti jednotek statistického souboru ¢ STATISTICKÁ ANALÝZA ¢Dělení analýzy dle počtu analyzovaných znaků: ¢jednorozměrnou – sleduje se jeden znak ¢dvourozměrnou – sledují se dva znaky ¢vícerozměrnou – sleduje se více znaků ¢ ¢Dělení statistických znaků: ¢kvantitativní – vyjádřen číselně (např. věk, výška, hmotnost apod.) ¢ - spojitý – libovolná reálná čísla (hmotnost, výška, skóre apod.) ¢ - diskrétní (nespojitý) – veličiny (číselné hodnoty; např. počet dětí, počet let praxe apod.) ¢kvalitativní – vyjádřen nenumericky (např. pohlaví, zkušenost s prodělaným onemocněním, zaměstnání apod.) ¢ - alternativní – jsou možné pouze dvě varianty (např. muž nebo žena) ¢ - množný – je možné více variant (např. léčba: medikamentózní, chirurgická, režimová opatření) ¢ ¢ ¢ PŘÍKLADY STATISTICKÝCH METOD ¢1) Statistické třídění a organizace dat - umožňuje zpřehlednění získaných dat a jejich uspořádání pomocí např.: ¢třídění slovních znaků podle určitých kritérií (podle abecedy, podle četnosti výskytu apod.) ¢třídění číselných znaků - převod dat např. do tabulek (tabulky neboli matice dat, se nejčastěji vytváří pomocí počítačových programů, jako je např. MS Excel; základní podoba matice dat se skládá ze sloupců – pro jednotlivé statistické znaky a řádků – pro jednotlivé případy neboli statistické jednotky) ¢ TŘÍDĚNÍ A ORGANIZACE DAT Øtabulky rozdělení četností ¢číselný znak má určitou hodnotu (obecně k), ke každé hodnotě je přiřazen počet výskytu (četnost) ¢četnost lze vyjádřit jako absolutní (počtem výskytu) či relativní (často v %) ¢Vzorec pro výpočet relativní četnosti: ¢ fi = ni / n ¢ PŘÍKLAD JEDNOROZMĚRNÉHO ROZDĚLENÍ ČETNOSTÍ (FREKVENČNÍ ROZDĚLENÍ) Četnost naměřených hodnot TK Pacient Hodnoty TK (mm Hg) Absolutní četnost (ni) Relativní četnost (fi) vyjádřená v % 1. 2. 3. 4. 5. 6. > 180/100 > 160/100 - 180/100 > 110/70 - 120/75 > 145/90 - 160/100 ˂110/70 > 120/75 – 145/90 18 21 24 29 37 50 10,1 11,7 13,4 16,2 20,7 27,9 Součet (n) r 179 100,0 TŘÍDĚNÍ A ORGANIZACE DAT Øgrafické znázornění – pomocí grafů a diagramů lze znázornit: ¢rozdělení četností ¢-sloupcový graf/diagram ¢-pruhový ¢-výsečový graf ¢znázornění vývoje ¢- spojnicový graf (viz obr. 4 Příklad spojnicového grafu) ¢znázornění umístění, rozptylu ¢- XY bodový PŘÍKLAD SLOUPCOVÉHO DIAGRAMU PŘÍKLAD VÝSEČOVÉHO GRAFU PŘÍKLAD SPOJNICOVÉHO GRAFU PŘÍKLAD XY BODOVÉHO GRAFU TŘÍDĚNÍ A ORGANIZACE DAT ¢ Ømíry polohy patří mezi základní popisné charakteristiky a jedná se o: ¢maximum – nejvyšší hodnota ¢minimum – nejnižší hodnota ¢modus – hodnota, která se nejčastěji vyskytuje ¢medián – hodnota nacházející se uprostřed pořadí ¢aritmetický průměr – součet pozorovaných hodnot dělený jejich počtem ¢ Ømíry rozptýlenosti vypovídají o vyrovnanosti jednotek souboru, jak jsou hodnoty souboru rozptýleny a také jak je jednotlivé hodnoty znaku od sebe liší. ¢variační řada – seřazení dat podle velikosti ¢variační rozpětí (R) – jde o rozdíl maximální a minimální hodnoty sledovaného znaku; nevýhodou variačního rozpětí je, že výsledek může být zkreslen, jsou-li v daném souboru odlehlé hodnoty ¢ ¢Vzorec pro výpočet variačního rozpětí: R = xmax - xmin ¢ TŘÍDĚNÍ A ORGANIZACE DAT ¢ Ørozptyl (variace) – vyjadřuje odchýlení hodnot určitého souboru od svého průměru; jde o průměr druhých mocnin odchylek od průměru ¢ Øsměrodatná odchylka (SD) – je druhá odmocnina rozptylu; jde o odhad rozmístění hodnot ¢ Øvariační koeficient – srovnává variabilitu dvou či více souborů nezávisle na jednotkách měření; jde o procentuálně vyjádřený poměr směrodatné odchylky k aritmetickému průměru, jinak řečeno vyjadřuje jaké % aritmetického průměru je tvořeno směrodatnou odchylkou (čím vyšší variační koeficient, tím „hůře“ aritmetický průměr zastupuje data souboru) ¢ GAUSSOVA KŘIVKA ¢Hustota normálního rozdělení ¢Zvonová křivka ¢ ¢Tvar Gaussovy křivky je dán: ¢- střední hodnotou (m) – určuje polohu maximální četnost výskytu veličiny ¢směrodatná odchylka (s) – určuje tvar (šíři) křivky ¢ ¢ ¢ GAUSSOVA KŘIVKA Popis: obr 2 GAUSSOVA KŘIVKA – NORMÁLNÍ ROZDĚLENÍ ¢Gaussovo normální rozdělení (m, s): -v rozmezí hodnot m ± 1s se vyskytuje 68,3 % všech jedinců populace -v rozmezí hodnot m ± 2s se vyskytuje 95,5 % všech jedinců populace -v rozmezí hodnot m ± 3s se vyskytuje 99,7 % všech jedinců populace -zbylé 0,3 % hodnot (na koncích osy x) jsou ze statistického hlediska považovány za odlehlé hodnoty a pro další analýzu jsou vyřazeny ¢ ¢ PŘÍKLADY STATISTICKÝCH METOD PŘÍKLADY STATISTICKÝCH METOD ¢Hodnocení korelačního koeficientu: ¢1 = přímá závislost; pozitivní korelace; vzrůstající hodnota X i Y; hodnotu Y lze stanovit na základě znalosti hodnoty X ¢0 = naprostá nezávislost; neexistuje statisticky zjistitelná lineární závislost (fakticky mohou na sobě ale veličiny záviset); hodnotu Y nelze odhadnout na základě znalosti hodnot X ¢-1 = negativní korelace; nepřímá závislost; když hodnota X vzrůstá, tak hodnota Y klesá; hodnotu Y lze stanovit na základě znalosti hodnoty X (DISMAN, 2002) ¢ PŘÍKLADY STATISTICKÝCH METOD -Spearmanův koeficient pořadové korelace (ρ nebo rs) – měří sílu vztahu mezi X a Y; výhodou této analýzy je, že zachycuje lineární vztahy a je rezistentní vůči odlehlým hodnotám; pro vypočet se užívá Pearsonův koeficient, ale místo původních hodnot se používají jejich pořadová čísla ¢ Øregresní analýza – zkoumá vztahy mezi závisle proměnnou (Y) a nezávisle proměnnou (X) ¢ ¢ PŘÍKLADY STATISTICKÝCH METOD ¢3) Analýza kategoriálních dat – kategoriální data lze zachycovat do dvou a více rozměrných tabulek četností či relativních četností; klasifikace kategorií vždy odpovídá daným proměnným (závisle či nezávisle proměnné); Øc2 (chí kvadrát) test dobré shody - používá se k zjištění, zda data odpovídají předpokládanému rozdělení nebo rozdílu mezi pozorovanými a očekávanými četnostmi; —pro c2 je nutné mít stanovenou tzv. nulovou hypotézu (H0), tedy testovanou hypotézu, která se zabývá vztahem znaků (př. znak 1 a 2 jsou nezávislé); —test dobré shody testuje nulovou hypotézu (H0) vůči alternativní (H1) ¢ PŘÍKLADY STATISTICKÝCH METOD Øzávislost kategoriálních proměnných – provádí se pomocí statistické analýzy četnostních tabulek, které zpřehledňují vztahy více statistických znaků ¢- kontingenční tabulky – tabulky vzniklé tříděním podle proměnných (každá jednotka statistického souboru může být klasifikována podle dvou kritérií – A, které mají r úrovní a B, které mají s úrovní; tento typ kontingenční tabulky je označován jako (r x s), viz obr 4 Příklad kontingenční tabulky; rozeznáváme různé druhy kontingenčních tabulek, kromě obecných r x s, dále např. čtyřpolní tabulku (typ 2 x 2) ¢ ¢ PŘÍKLAD KONTINGENČNÍ TABULKY