Krabicový graf (Box-Plot) ve statistické analýze



Jednou z možností, jak přehledně zobrazit data ve statistické analýze je použití krabicového grafu
neboli Box-Plotu
Existují různé typy krabicových grafů
Ukážeme si krabicový graf, pro jehož konstrukci jsou potřebné kvartily, průměrná hodnota, minimum a
maximum
Analogicky lze vytvořit graf s kvantily

Kvantily
•Kvantil je hodnota, která slouží k popisu dat
•Obecně můžeme kvantil označit Qp, kde p je počet procent
•Hodnota Qp je hodnota, která odděluje p % dat od (1 – p) % dat
•Kvantil, který rozděluje statistický soubor na dvě poloviny se nazývá medián
•Kvantily, které rozdělují statistický soubor na čtvrtiny se nazývají kvartily
•Kvantily, které rozdělují statistický soubor na desetiny se nazývají decily
•Dalšími speciálními kvantily jsou tercily (1/3), kvintily (1/5), percentily (1/100)
•Často používaný krabicový graf znázorňuje rozložení dat pomocí kvartilů, Q0, Q25, Q50, Q75, Q100.
Někdy se označují jako Q0, Q1, Q2, Q3, Q4 resp. minimum (0. kvartil), 1. kvartil (dolní kvartil),
2. kvartil (medián), 3. kvartil (horní kvartil), maximum (4. kvartil)

Výpočet kvartilů
Pořadí
1
2
3
4
5
6
7
8
9
10
11
12
Hodnota
9
10
11
12
12
13
13
14
14
14
15
16
•Kvartil Q50 (medián) je prostřední hodnota ze souboru hodnot seřazených podle velikosti
•Pokud má soubor sudý počet hodnot, je to průměr dvou prostředních hodnot
•12 hodnot, prostřední hodnoty jsou 6. a 7., tedy Q50 = 13
•V některých případech je lepší použít medián místo průměru. Příkladem může být mzda u skupiny
pracovníků, kde jednotlivci mají mimořádně velkou mzdu a většina nízkou. Pokud mzdu zprůměrujeme,
může vyjít všem vysoká mzda. Na medián mimořádně velká mzda jednotlivců ve velké skupině nemá vliv
•Kvartil Q25 (1. kvartil) je v našem případě 3. hodnota ze souboru hodnot seřazených podle
velikosti, tedy Q25 = 11. Tato hodnota odděluje 25 % dat od 75 % dat
•Kvartil Q75 (3. kvartil) je v našem případě 9. hodnota ze souboru hodnot seřazených podle
velikosti, Q75 = 14. Tato hodnota odděluje 75 % dat od zbývajících 25 % dat
•Dalším důležitým parametrem je mezikvartilové rozpětí, rozdíl horního a dolního kvartilu QR =
Q75 - Q25
•V našem případě je mezikvartilové rozpětí Q75 - Q25 = 14 – 11 = 3. Pokud se rozhodneme uvádět
medián místo průměru, je výhodné místo rozptylu udávat mezikvartilové rozpětí jako míru variability
dat

KVARTILY V KRABICOVÉM GRAFU
•V krabicovém grafu je kvartilové rozpětí výškou krabice
•kvartil X25 vymezuje spodní hranu krabice
•kvartil X75 vymezuje horní hranu krabice
•V grafu jsou pomocí úseček kolmých ke hraně krabice (tzv. vousy) vyznačeny koncové body
•Koncové body se počítají podle vzorců
•x25 – 1,5 · QR (spodní bod)
•x75 + 1,5 · QR (horní bod)
•V některých případech se koncové body nepočítají podle uvedených vzorců, ale místo nich se vynáší
minimum a maximum
•Uvnitř krabice je vodorovná čára, která vymezuje kvartil X50 (medián) a je vyznačen bod, který
udává střední hodnotu
•

Statistika
minimum
1.kvartil
medián
průměr
3.kvartil
maximum
Hodnota
9
11
13
12,75
14
16

ČTENÍ DAT V KRABICOVÉM GRAFU
•Pokud mají data normální rozdělení neboli Gaussovo rozdělení, je čára, která označuje medián,
uprostřed krabice
•Pokud je čára blízko 1. nebo 3. kvartilu, může to naznačovat, že data mají jiné než normální
rozdělení
•Pokud je rozdělní symetrické, pak průměr a medián splývají, ale nemusí to platit obráceně
•Pokud průměr a medián jsou stejné, nemusí být ještě rozdělení symetrické
•

•V krabici se nachází 50 % hodnot dat
•Na obr. nabývá polovina dat hodnoty od 11 do 14, čtvrtina dat nabývá hodnot od 9 a je menších než
11 a čtvrtina dat nabývá hodnot větších než 14 a menších než 16
•Čím je výška krabice větší, tím větší je rozptyl hodnot, které leží mezi 1. a 3. kvartilem
(polovina dat)
•Rozptyl si můžeme představit jako průměr míry vzdálenosti jednotlivých dat od průměru
•Zatímco mezikvartilové rozpětí si můžeme představit jako rozmezí možných hodnot, které nabývá
prostředních 50 % dat
•Na obrázku je oblast mezi 1. kvartilem a mediánem větší než mezi mediánem a 3. kvartilem. Znamená
to, že data v 3. kvartilu jsou méně rozptýlená než data v 2. kvartilu
•Můžeme si všimnout, že v třetím kvartilu nabývají pouze dvou hodnot a to 13 a 14. Průměrná hodnota
leží pod mediánem. Medián je hodnota, pro kterou platí, že polovina hodnot je menších než medián a
polovina hodnot je větších než medián. To znamená, že více jak polovina hodnot bude větších než
průměr
•

Porovnání dvou souborů dat
•Data 2 nabývají data vyšších hodnot, větší je průměrná hodnota i medián
•Data 1 větší rozptyl dat je v prvním souboru
•Data 1 je minimum a maximum od sebe hodně vzdálené, to znamená, že hodnoty se budou v souboru dat
hodně lišit, data 1 větší mezikvartilové rozpětí
•Data 1 maximum vysoko nad horním kvantilem, v souboru budou data, která nabývají mnohem větších
hodnot než průměr
•Data 1 minimum nízko pod dolním kvartilem, to znamená, že v oblasti mezi minimem a 1. kvartilem
mají hodnoty malé rozpětí
•Data 1 nabývají průměrně menší hodnoty a jsou více rozptýlená
•Data 2 nabývají data průměrně vyšší hodnoty a jsou více koncentrovaná kolem svého mediánu

KRABICOVÝ GRAF A EXCEL
•Krabicový graf je možné vytvořit pomocí Excelu
•Nalezneme ho v nabídce grafů
•Kliknutím na graf se formátuje datová řada
•Pro výpočet kvantilu se používá inkluzivní nebo exkluzivní medián
•V případě inkluzivního mediánu se do výpočtu kvantilů zahrnuje medián, v případě exkluzivního
mediánu se medián do výpočtu kvartilů nezahrnuje
•V Excelu se koncové body nepočítají, v grafu se zobrazuje minimum a maximum, ale v případě, že
některé hodnoty hodně vybočují, nejsou zahrnuty do výběru hodnot pro maximum a minimum a jsou
zobrazeny jako osamocené body nad minimem nebo nad maximem
•

ZDROJE
•Jak vytvořit krabicový graf, 2020 [online]. [cit. 2020-27-4]. Microsoft Office. Dostupné z:
https://support.office.com/cs-cz/article/jak-vytvo%c5%99it-krabicov%c3%bd-graf-62f4219f-db4b-4754-a
ca8-4743f6190f0d
•