Jak przemienić dane w informacje? Co to są dane ustrukturyzowane? Czym różnią się dane jakościowe od ilościowych? Dlaczego już niedługo znienawidzicie PDF-y? Tego i znacznie więcej dowiecie się z pierwszego kursu Szkoły Dziennikarstwa Danych.
ROZDZIAŁ I: Podstawy dziennikarstwa danych
MODUŁ 1.1.: Czym są dane?
Witajcie w pierwszej odsłonie Szkoły Dziennikarstwa Danych. Kurs przygotowała School of Data, będąca projektem Open Knowledge Foundation. Podzielono go na 7 rozdziałów:
– Podstawy dziennikarstwa danych.
– Wprowadzenie do “czyszczenia danych” (data cleaning).
– Wprowadzenie do eksploracji danych (data exploring).
– Wprowadzenie do “wyodrębniania danych” (data extracting).
– Wprowadzenie do geokodowania (geocoding).
– Praca z budżetem i danymi dotyczącymi wydatków (budgets and spending data).
– Szkoła dziennikarstwa danych (School of Data Journalism) – wideokursy.
Każdy z nich zawiera po kilka modułów, które na Datablogu nazwaliśmy “SZKOŁĄ DZIENNIKARSTWA DANYCH”. Kursy zostały przetłumaczone przez nas. Wzbogaciliśmy je o dodatkowe informacje, które pozwolą polskim Czytelnikom lepiej zrozumiem poszczególne kwestie. Materiały z cyklu Szkoła Dziennikarstwa Danych publikujemy na licencji CC BY-SA 3.0. Będziemy wdzięczny, jeśli po skopiowaniu ich na własny blog/stronę podlinkujecie materiał do Databloga.
Moduł “Czym są dane?” przeznaczony jest dla początkujących, którzy stawiają pierwsze kroki w dziedzinie data journalism, czyli dziennikarstwa danych.
Kilka słów o tym module: Zaczniemy od zadania pytania i przejdziemy do eksploracji zestawów danych (wciąż pamiętając o zadanym wcześniej pytaniu). Zobaczymy, czy w danych, którymi się zajmiemy, są jakieś ukryte historie.
Pytanie matką tematów
Większość ludzi nie eksploruje danych dla zabawy. Najczęściej robią to, by przy ich udziale opowiedzieć jakąś historię lub rozwiązać jakiś problem. Zazwyczaj wszystko zaczyna się od postawienia pytania w myślach: “Czy w moim mieście częściej świeci słońce, czy pada deszcz?”, “Czym zajmują się urzędnicy w mojej dzielnicy?”, “Na co rząd wydaje pieniądze?”, etc. Pytanie to dobry punkt wyjścia do eksploracji danych. W gąszczu danych bardzo łatwo się zgubić. Wcześniej zadane pytanie wyznacza ścieżkę i nie pozwala zbaczać z obranego kursu. Dzięki temu łatwiej znaleźć to, czego szukamy. Równie ważne jest zrozumienie, dla kogo nasze dane mogą być interesujące. Pozwoli to zdefiniować grupę odbiorców i odpowiednio ukształtować historię, której szukamy w eksplorowanych danych.
Co jeśli nie zaczniemy od zadania pytania? Wówczas będziemy eksplorować bazy danych bez wyznaczonego celu. Czy to bez sensu? Oczywiście, że nie. Nietrudno jest trafić na interesujące dane, do których bez trudu można postawić ciekawe pytanie. Zestawienie tego pytania (ciekawej bazy danych, na którą się przypadkowo natknęliśmy) z innym (inną bazą danych) może ujawnić zależności, którym warto się przyjrzeć. Właśnie to jest najpiękniejsze w pracy z danymi – nigdy nie wiadomo, co się w nich znajdzie.
Bez względu na to, czy pracę z danymi zaczęło się od zadania pytania, czy od eksploracji, zawsze trzeba mieć szeroko otwarte oczy. Szczególną uwagę powinny zwracać wszelkie niespodziewane zależności i wyniki, czyli wszystko to, co zaskakuje. Często to właśnie one mogą być ciekawsze i ważniejsze od tego, czego szukaliśmy pierwotnie.
ZADANIE: Wymyślcie pytanie, na które chcielibyście odpowiedzieć za pośrednictwem danych.
Czym są dane?
Dane to wartość przypisana do jakiejś rzeczy. Nie chodzi wyłącznie o cenę. Wartość to znacznie szersze pojęcie. Jak zatem konkretniej odpowiedzieć na pytanie: Czym są dane? Wyobraźcie sobie piłkę tenisową. Co możecie o niej powiedzieć? Zapewne to, że służy do gry w tenisa. Mamy już zatem pierwszą daną na jej temat. Piłka jest zielona, ma określoną wielkość i wspomnianą wcześniej wartość pieniężną – to kolejne dane na jej temat. Ale to nie wszystko. Pójdźmy o krok dalej: Tenis to dyscyplina sportowa, co pozwala nam usytuować piłkę tenisową w pewnej sferze zależności – to składowa tenisa, podstawa każdego meczu, swego rodzaju element centralny i podstawowy tej dyscypliny sportu.
Jak widać, nawet najprostsze obiekty skrywają wiele danych na swój temat. A pomyślcie o sobie. Macie imiona, nazwiska, wzrost, wiek, wagę, kolor oczu, skóry, etc. Wszystko to są dane.
Powyższe przykłady pokazują wyraźnie, że nie wszystkie dane można przypisać do tej samej grupy. Dlatego podzielono je na dwie główne kategorie: dane jakościowe i ilościowe.
– Dane jakościowe to wszystkie te odnoszące się do kolorów, tekstur, opisu doświadczeń, etc.
– Dane ilościowe odnoszą się do liczb – są nimi cena, wielkość (wyrażona w jednostkach miary), liczba np. piłek tenisowych, etc.
Jednakże istnieją jeszcze inne kategorie , na które natkniecie się podczas pracy z danymi:
– Dane kategoryczne to dane, które przypisują obiekt do konkretnej kategorii. W przypadku naszej piłki tenisowej jej stan, np. “używana” będzie daną kategoryczną (z takimi kategoriami jak nowa, używana, zepsuta, etc.); to informacje o rodzaju przedmiotu.
– Dane dyskretne to dane numeryczne, w których ciągu istnieją pewne luki, puste przestrzenie. Taką pustą przestrzenią są np. dziesiąte części cyfr/liczb. W praktyce nie istnieje przecież coś takiego jak 2,3 piłki tenisowej. Daną dyskretną będzie zatem liczba piłek tenisowych: 56 piłek, 78 piłek, etc.
– Dane ciągłe to dane liczbowe z zakresu ciągłego. Przykład: Wielkość stopy. Może mieć ona długość 15,2 cm, 18,345 cm, 195 mm, etc. W tym przykładzie nie istnieją wspomniane luki. Pojawiają się one natomiast w przypadku numeracji butów. Jeśli uznamy ją za miarę wielkości stopy, wówczas długość stopy będzie daną dyskretną, a nie ciągłą, np. rozmiar 37, 43, etc.
ZADANIE: Skupcie się na wspomnianej piłce tenisowej: Czy potraficie znaleźć dane odpowiadające wszystkim powyższym kategoriom?
Od danych, przez informacje, po wiedzę
Dane, gdy zostaną zebrane i uporządkowane, nagle stają się o wiele bardziej użyteczne. Tym razem weźmy na warsztat piłkę golfową:
Kolor | Biała |
Kategoria | Sport – Golf |
Stan | Używana |
Średnica | 43 mm |
Cena (za sztukę) | 0,5 $ |
Dane zostały uporządkowane, ale wciąż każda z wartości pozostaje mało znacząca. By pozyskać informacje z danych, musimy je zinterpretować.
Pozostańmy przy przykładzie opisanej piłki golfowej. Zajmijmy się jej rozmiarem. Średnica 43 mm mówi nam niewiele. Wartość ta nabiera znaczenia, gdy ją do czegoś porównamy. W sporcie często zdarza się, że przepisy dokładnie określają, jaki rodzaj sprzętu może być używany podczas oficjalnych zawodów w konkretnej dyscyplinie. W golfie na przykład minimalna średnica piłeczki musi wynosić 42,67 mm. Zapytacie pewnie: Po co gość pisze o piłce golfowej, skoro kurs miał dotyczyć dziennikarstwa danych? Odpowiadam: Możemy użyć naszej piłki w turnieju golfowym – to jest informacja. Właśnie wykonaliśmy krok w stronę zdobycia wiedzy.
Dane nieustrukturyzowane vs dane ustrukturyzowane
Dane dla ludzi
Zdanie: “Mamy 5 białych, używanych piłek golfowych o średnicy 43 mm w cenie 0,5 $ za sztukę” – jest dla człowieka proste do zrozumienia. Inaczej jest w przypadku komputerów. Powyższe zdanie jest tym, co nazywa się danymi nieustrukturyzowanymi. Nie ma ono stałej struktury – zdanie może być w prosty sposób zmienione, a dla komputera nie jest jasne, do czego odnoszą się poszczególne wartości (człowiek – w przeciwieństwie do komputera – wie, że przymiotnik “używany” odnosi się do stanu). Podobnie jest z plikami PDF lub zeskanowanymi obrazami – drukarka wie, co ma z nimi zrobić, a ludzkie oko może się cieszyć z ładnego zdjęcia. Spróbujcie jednak przekonwertować zeskanowaną tabelkę na plik Excela. A teraz pomyślcie, jak biedny komputer ma zinterpretować zdanie: “Mamy 5 białych, używanych piłek golfowych o średnicy 43 mm w cenie 0,5 $ za sztukę”…
Dane dla komputerów
Komputery z natury różnią się od ludzi. Zmuszenie komputera do pozyskania wiedzy z pewnych źródeł może być bardzo trudne lub wręcz niemożliwe. Niektóre zadania, które człowiek rozwiązuje bez trudu ręcznie, mogą być trudne do zautomatyzowania przy użyciu komputera. Na przykład interpretacja obrazów to dla nich wciąż spore wyzwanie. Jeśli chcemy, by nasz komputer przetworzył i przeanalizował dostarczone przez nas dane, musimy dostarczyć mu bazę w odpowiednim formacie. Najczęściej używanym jest CSV (comma separated values, czyli wartości oddzielone przecinkami).
Nasze zdanie dotyczące piłek golfowych w formacie CSV wyglądałoby tak:
“quantity”, “color”, “condition”, “item”, “category”, “diameter (mm)”, “price per unit (AUD)” 5,”white”,”used”,”ball”,”golf”,43,0.5
Taki ciąg znaków jest dla komputera zrozumiały i pozwala programom do odczytu arkuszy kalkulacyjnych na jego przetworzenie. Zwróćcie uwagę, że słowa umieszczone są w cudzysłowach, a wartości liczbowe są ich pozbawione. Może się to kiedyś przydać podczas edycji tego typu plików. Warto jednak pamiętać, że CSV nie jest jedynym ustrukturyzowanym formatem.
ZADANIE: Pomyślcie o ostatniej książce, którą przeczytaliście, lub którą właśnie czytacie. Jakie dane są z nią związane i jak można je przemienić w dane ustrukturyzowane?
Podsumowanie
W tym kursie (module) omówiliśmy podstawowe pojęcia, które pojawiają się raz po raz w dyskusjach dotyczących dziennikarstwa danych i danych w ogóle. Dowiedzieliście się, czym są dane, jak się je kategoryzuje i jak zamieniać je na wiedzę. W następnej odsłonie Szkoły Dziennikarstwa Danych przyjrzymy się źródłom danych i opowiemy o tym, gdzie warto ich szukać.
Tłumaczenie: Piotr Kozłowski – Datablog.pl
Tekst został opublikowany na licencji CC BY-SA 3.0.
Źródło: School of Data
Po prostu wow. Swietne szkolenie. Ten blog coraz bardziej mi sie podoba. Jestem z toba prawie od poczatku i widze skok jakosciowy. Oby tak dalej! Czekam na kolejne odslony kursu.
Miło mi to słyszeć.:) Jeśli wszystko pójdzie zgodnie z planem, latem na DataBlogu zajdą spore zmiany. Na lepsze.:)