SZKOŁA DZIENNIKARSTWA DANYCH #4: Matematyka dla opornych

Mediana, dominanta, odchylenia standardowe i bezwzględne – jeśli te pojęcia Was przerażają, najnowsza odsłona Szkoły Dziennikarstwa Danych jest dla Was. Dziś uczymy się podstaw analizy danych.

ROZDZIAŁ I: Podstawy dziennikarstwa danych
MODUŁ 1.4.: Oswajamy bestię – podstawy matematyki, które trzeba znać

Przed Wami czwarta odsłona Szkoły Dziennikarstwa Danych. Ci, którzy przeszli przez poprzednie lekcje, wiedzą: czym są dane i na jakie rodzaje je dzielimy, gdzie ich szukać oraz jak tworzyć i edytować arkusze kalkulacyjne. Dzisiejszy poradnik to wprowadzenie do bardziej zaawansowanej edycji arkuszy kalkulacyjnych. Porozmawiajmy o matematyce.

Kilka słów o tym module: Jeśli na samą myśl o cyfrach dostajecie gęsiej skórki, to świetnie trafiliście. W tym module oswajamy matematykę. Pokażemy, jak wiele można zdziałać mnożąc, dzieląc i dodając.

Z czym mamy do czynienia?

Zakres

Pierwszą rzeczą, jaką musimy wiedzieć o danych, którymi się zajmujemy, jest ich zakres, czyli gdzie się zaczynają i na czym kończą. Czy początkiem są liczby dodatnie, czy ujemne? Duże wartości czy małe? Wszystko to jest istotne, bo pozwala dostrzec ewentualne błędy w bazie. Naszą uwagę powinny przykuwać wszystkie niestandardowe odchyły, czyli wartości niepasujące do pozostałych. Jeśli zebraliśmy dane dotyczące wzrostu członków swojej rodziny i ich zakres wynosi od 127 do 322 cm, możemy być raczej pewni, że gromadząc dane popełniliśmy błąd (chyba że ktoś ma 3-metrowego wujka). Uszeregowanie wartości rosnąco lub malejąco ułatwia wyznaczanie zakresu – zakres to najmniejsza i największa wartość zbioru. W arkuszach kalkulacyjnych wyznaczamy je formułami “=MIN” i “=MAX”.

Jak dużo mamy?

Kolejne pytanie, które powinniśmy sobie zadać, brzmi: jak dużo rzeczy posiadamy? Np. jak wielu ludzi przebadaliśmy, albo ilu krajów dotyczy nasz zbiór. Odpowiedzenie na to pytanie jest proste, a ze statystycznego punktu widzenia – bardzo ważne.

Skąd mamy to wiedzieć? Po prostu policzmy, albo każmy komputerowi zrobić to za nas. Służy do tego formuła “=COUNT”, która zwraca liczbę wartości w określonym zbiorze danych.

Rozkład

Weźmy na warsztat taki zbiór danych: 163.1, 162.2, 210.5, 201.0, 188.7, 182.6, 153.0, 173.5, 146.6, 148.0. Jeśli chcielibyśmy odpowiedzieć na wcześniej zadane pytanie (Jak dużo mamy?), odpowiedź brzmiałaby: 10 – mamy 10 elementów zbioru. Zastanówmy się teraz, jak poszczególne elementy są rozłożone. Zakres wynosi 148.0-210.5. Ale to nam nie nakreśla rozkładu danych. Pomoże nam w tym histogram. To specyficzny rodzaj wykresu, który służy do zliczania częstości w poszczególnych zakresach danych.

Zakres                  Liczba elementów dla danego zakresu
140-160 3
160-180 3
180-200 2
200-220 2

histogram

Rysowanie histogramu dla tak niewielkiego zbioru danych oczywiście nie ma sensu, ale teraz wiecie już, jak powinien on wyglądać. Wyobraźcie sobie jednak zbiór złożony z np. tysiąca elementów. Wówczas histogram doskonale pokaże nam rozkład naszych danych.

Co jest normalne?

To kolejne pytanie, które powinniśmy zadać po przebrnięciu przez te opisane wyżej. Co powinno wzmagać naszą czujność? Skąd mamy wiedzieć, czy coś jest warte szczególnej uwagi? Istnieje kilka sposobów, by odpowiedzieć na to pytanie.

Średnia

Średnia to najczęściej stosowana metoda określania tego, co jest normalne, przeciętne. Liczy się ją bardzo prosto. Średnia jest sumą wartości wszystkich elementów zbioru podzieloną przez liczbę elementów tego zbioru. Średnią w zbiorze: 1, 2, 3, 4 będzie zatem 2.5 (bo [1+2+3+4]/4=10). Średnia sprawdza się doskonale w zbiorach, których wartości rozłożone są w miarę “stabilnie”, czyli jeśli wartości skrajne nie różnią się wyraźnie od wartości środkowych. W przeciwnym wypadku bardzo istotnie zniekształcają odbiór naszych danych. Ale jest na to sposób.

Mediana

Niedoskonałości średniej są podkreślane szczególnie w odniesieniu do zarobków. I słusznie, bo nieliczne grono milionerów bardzo wyraźnie ją zawyża, przez co staje się ona niemiarodajna. Jak już wspomnieliśmy, w przypadku zbiorów z wyraźnie odbiegającymi od normy wartościami skrajnymi, lepiej użyć mediany. Jak się ją liczy?

Nasz zbiór wygląda tak: 162.0, 159.1, 169.9, 191.3, 195.9, 139.8, 186.0.
Najpierw należy uporządkować elementy zbioru (rosnąco lub malejąco – to bez znaczenia): 139.8, 159.1, 162.0, 169.9, 186.0, 191.3, 195.9.

Mediana wynosi 169.9. Dlaczego? Bo to środkowa wartość naszego zbioru – na lewo od niej znajduje się tyle samo elementów co na prawo. Jeśli nasz zbiór zawiera parzystą liczbę elementów, wówczas medianą będzie średnia dwóch środkowych wartości.

Dominanta

Bardzo często obliczenie średniej lub mediany wystarcza, by odnaleźć odpowiedź na nurtujące nas pytanie. Ale czasem odpowiedź nas nie satysfakcjonuje. Przykład: zapytaliśmy dziesięciu przechodniów, ile mają rodzeństwa. Oto ich odpowiedzi: 0, 1, 1, 1, 1, 2, 2, 2, 3, 5. Średnia 1.8 i mediana 1.5 raczej nie są tym, czego szukamy. Chcielibyśmy wiedzieć, ile rodzeństwa ma większość przebadanych przez nas ludzi. 1 jest wartością najczęściej występującą w naszym zbiorze – i właśnie to jest wartość modalna, czyli dominanta.

Jak duże są różnice w danych?

To kolejne pytanie, jakie warto zadać w odniesieniu do naszej bazy danych. Jak duże są odchylenia w naszym zbiorze? Ustalimy to wykorzystując miary odchylenia standardowego i medianowe odchylenie bezwględne. To pierwsze bazuje na średniej, a drugie – jak sama nazwa wskazuje – na medianie.

Odchylenie standardowe

standard deviation
Fot. Mwtoews (Wikimedia)

Odchylenie standardowe mówi nam, jak bardzo nasze dane odbiegają od średniej. Im mniejsza wartość odchylenia, tym wartości naszego zbioru są bardziej skupione wokół średniej. Obliczmy odchylenie standardowe dla zbioru złożonego z czterech elementów: 1, 2, 3 i 4. Wiemy już, że średnia dla tego zbioru wynosi 2.5 ([1+2+3+4]/4=2.5). Teraz obliczmy odchylenia dla poszczególnych elementów zbioru:

Wartość           Odchylenie od średniej           Kwadrat odchylenia
1 -1.5 2.25
2 -0.5 0.25
3 0.5 0.25
4 1.5 2.25

Teraz sumujemy kwadraty odchylenia (5), dzielimy to przez liczbę elementów naszego zbioru minus 1 (4-1=3), a iloraz (5/3) bierzemy pod pierwiastek (wychodzi 1.291). Oznacza to, że większość elementów naszego zbioru (68,2 proc. przy założeniu, że mamy do czynienia z rozkładem normalnym) wynosi 2.5 +/- 1.291. Na szczęście odchylenia dla większych zbiorów nie musimy obliczać ręcznie – służy do tego formuła “=STDEV”.

Medianowe odchylenie bezwględne

Obliczanie tego typu odchylenia odbywa się podobnie, ale jest jeszcze łatwiejsze. Wystarczy obliczyć odchylenie wszystkich elementów od mediany zbioru i wyznaczyć medianę dla wyników. Brzmi jak masło maślane? Ale ma sens. Jako przykład niech posłuży nam zbiór złożony z pięciu elementów: 1, 2, 3, 4, i 5. Mediana tego zbioru wynosi 3. Odchylenia dla poszczególnych elementów zbioru wynoszą (po kolei): 2, 1, 0, 1, 2. Szeregujemy nasze wyniki rosnąco lub malejąco: 0, 1, 1, 2, 2 i wyznaczamy dla nich medianę: 1. Właśnie uzyskaliśmy medianowe odchylenie bezwględne.

Podsumowanie

To był dość długi wstęp do matematyki pomocnej przy pracy z danymi. Dowiedzieliśmy się dziś, czym są zakres, rozkład, średnia, mediana i dominanta, a ponadto nauczyliśmy się obliczać dwa rodzaje odchyleń. W następnej części zajmiemy się bardziej szczegółową analizą danych zawartych w naszej bazie.

Wszystkie kursy z cyklu Szkoła Dziennikarstwa Danych znajdziecie tutaj: Darmowe kursy dziennikarstwa danych.

Tłumaczenie: Piotr Kozłowski – Datablog.pl
Tekst został opublikowany na licencji CC BY-SA 3.0.

Źródło: School of Data

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *