Nie wiecie, od czego i gdzie zacząć poszukiwanie danych? W drugiej odsłonie “Szkoły Dziennikarstwa Danych” poznacie rozbudowane portale i inne źródła informacji.
ROZDZIAŁ I: Podstawy dziennikarstwa danych
MODUŁ 1.2.: Gdzie szukać danych?
Wiemy już, czym są dane, co odróżnia je od informacji i na jakie pytania poszczególne dane potrafią odpowiadać. Poznaliśmy też różne rodzaje danych – od jakościowych po ilościowe. Jeśli chcecie sobie to wszystko przypomnieć, zajrzyjcie do pierwszej części kursu: Czym są dane? Dziś zajmiemy się polowaniem na dane w Internecie.
Kilka słów o tym module: Z tej części kursu dowiecie się, gdzie szukać interesujących Was danych. Przyjrzymy się też różnym metodom pozyskiwania danych.
Źródła danych
Istnieją trzy podstawowe sposoby pozyskiwania danych:
1) Poszukiwanie danych – to zwyczajne poszukiwanie danych, które zostały już wcześniej opublikowane.
2) Docieranie do “nowych” danych – to pozyskiwanie nowych, nieopublikowanych wcześniej danych np. od instytucji publicznych. Metoda ta polega najczęściej na wysyłaniu prośby o udostępnienie danych publicznych.
Zdarza się, że informacje publikowane np. na stronach rządowych nie mają opcji pobierania, co uniemożliwia ich modyfikację i wizualizację. Ale nie przejmujcie się. Scrapingu (po polsku: skrobania), bo tak nazywa się pozyskiwanie poszczególnych informacji ze stron internetowych, nauczycie się w innych odsłonach Szkoły dziennikarstwa danych.
3) Tworzenie własnych baz danych – to sposób wymagający największego nakładu pracy. Polega na kolekcjonowaniu danych np. w arkuszach kalkulacyjnych lub na dysku zewnętrznym. Metoda ta stosowana jest przez niektóre redakcje zajmujące się materiałami z dziedziny data journalism.
W tej części cyklu “Szkoła Dziennikarstwa Danych” przyjrzymy się bliżej metodzie numer 1. Docieraniem do nowych baz danych i tworzeniem własnych baz danych zajmiemy się w następnych modułach.
Krok 1.: Identyfikacja źródła danych
Wiele źródeł publikuje dane do użytku publicznego. Oto kilka przykładów:
1) Rządy – w ostatnich latach rządy wielu państw zaczęły “uwalniać” dane publiczne i udostępniać je za pośrednictwem dedykowanych portali internetowych. Np. wiele cennych informacji dotyczących rządu Wielkiej Brytanii znajdziecie na data.gov.uk. Bezcennym źródłem informacji o rządzie USA jest natomiast portal data.gov. Nieocenionym narzędziem, które przefiltruje za Was dane i wyświetli tylko te, które dotyczą interesującego Was kraju, jest datacatalogs.org. Na próżno szukać tam jednak danych dotyczących Polski.
Wpisanie w okno wyszukiwarki adresu data.gov.pl też na niewiele się sprawdzi, bo przekieruje nas on do systemu Insigos – nieczytelnego i ograniczonego tematycznie Internetowego Systemu Informacji Gospodarczej. Danych publicznych dostarczają jednak instytucje pozarządowe, takie jak Fundacja ePaństwo, tworząca projekt mojepanstwo.pl, udostępniający dane publiczne.
2) Organizacje – kolejnym źródłem danych są duże organizacje. World Bank czy WHO często publikują raporty i duże porcje interesujących danych.
3) Instytucje/Organizacje naukowe – np. NASA, która publikuje wiele otwartych danych. Danych naukowych warto szukać chociażby tutaj: Dryad.
Trudno jest szukać danych w wielu źródłach, dlatego coraz większym zainteresowaniem cieszą się takie serwisy jak np. data repositories czy słynny datahub.io. Znajdziecie tam mnóstwo danych z wielu różnych źródeł, które uporządkowano i udostępniono do łatwego użytku. To zarówno zbiory źródeł danych, jak i samych danych.
Krok 2.: Pozyskiwanie danych w formacie, jakiego potrzebujecie
W module “Czym są dane?” omawialiśmy dokładniej, czym różnią się dane ustrukturyzowane od nieustrukturyzowanych. Innymi słowy – mówiliśmy o sposobach zapisywania danych. To bardzo ważne, by od samego początku pozyskiwać dane w odpowiednim formacie. Pozwoli to zaoszczędzić mnóstwo czasu podczas ich “czyszczenia”, analizowania i wizualizacji.
WSKAZÓWKA: By odnaleźć dane w konkretnym formacie, wpiszcie w okno wyszukiwarki Google’a np.: bezrobocie 2014 +filetype:csv. To konkretne hasło pozwoli Wam wyszukać dane dotyczące bezrobocia w 2014 roku w formacie CSV (dzięki formule +filetype:). Tym sposobem możecie też poszukać dokumentów w formacie np. PDF (+filetype:pdf) czy xls (+filetype:xls).
Podsumowanie
W tym module poznaliście różne sposoby docierania do danych oraz dowiedzieliście się, gdzie ich szukać. Teraz możecie zacząć poszukiwania na własną rękę.
ZADANIE: Znajdźcie informacje dotyczące jakości polskiej służby zdrowia w formacie xls.
Tłumaczenie: Piotr Kozłowski – Datablog.pl
Tekst został opublikowany na licencji CC BY-SA 3.0.
Źródło: School of Data