Jak tworzyć arkusze kalkulacyjne? Jak sortować i filtrować zawarte w nich dane? W trzeciej odsłonie Szkoły Dziennikarstwa Danych uczymy podstaw obróbki danych.
ROZDZIAŁ I: Podstawy dziennikarstwa danych
MODUŁ 1.3.: Sortowanie i filtrowanie – podstawy pracy na arkuszach kalkulacyjnych
W poprzednich modułach Szkoły Dziennikarstwa Danych pisaliśmy o tym, czym są dane (Moduł 1.1: Czym są dane?), dzieliliśmy je na poszczególne typy i podpowiadaliśmy, gdzie ich szukać (Moduł 1.2: Gdzie szukać danych?). Dziś wejdziemy w pierwszą fazę ich obróbki. Za przykład posłuży nam podstawowy format danych, jakim jest arkusz kalkulacyjny. Arkusze kalkulacyjne to zbiory ustrukturyzowane, a zatem służące do odczytu maszynowego – przyjazne dla komputerów.
Kilka słów o tym module: W tej części Szkoły Dziennikarstwa Danych nauczycie się, jak pobierać dane, jak tworzyć z nich arkusze kalkulacyjne, jak rozpocząć ich czyszczenie oraz interpretację przy wykorzystaniu funkcji sortowania i filtrowania.
Arkusze kalkulacyjne: Przegląd
Arkusze kalkulacyjne to znany prawie wszystkim format przechowywania danych. Excelowskie pliki to właśnie arkusze kalkulacyjne. Microsoft nie jest jednak jedynym dostawcą oprogramowania służącego do ich obróbki. Apache OpenOffice (dawne OpenOffice) udostępnia program Calc, Google pozwala tworzyć arkusze kalkulacyjne na Google Drive, a The Document Foundation dostarcza darmowe Libre Office. Programów i aplikacji jest więcej, ale skupmy się na wyżej wymienionych.
Google Spreadsheets | Open (Libre) Office | Microsoft Excel (wersja tradycyjna) | |
Korzystanie | Bezpłatne | Bezpłatne | Płatne |
Miejsce przechowywania danych | Google Drive | Dysk twardy komputera | Dysk twardy komputera |
Dostęp do internetu | Wymagany | Niewymagany | Niewymagany |
Instalacja | Niewymagana | Wymagana | Wymagana |
Funkcja współpracy | Tak | Nie | Nie |
Dzielenie się arkuszami | Proste | Trudniejsze | Trudniejsze |
Wizualizacje | Duży wybór | Podstawowe wykresy | Podstawowe wykresy |
Do nauki podstaw obróbki danych posłuży nam Google Spreadsheet. Dlaczego? Bo nie wymaga instalacji – od razu możecie zacząć ćwiczyć, a jego funkcje są analogiczne z innymi programami. W omawianym przez nas przykładzie będziemy korzystać z publicznych danych, dlatego nie musimy przejmować się tym, że będą one zapisane w chmurze.
Tworzenie arkusza kalkulacyjnego i przesyłanie danych
1) Przejdźcie na dysk Google (Google Drive).
2) Jeśli nie macie konta Google (np. poczty Gmail), załóżcie je.
3) Stwórzcie arkusz kalkulacyjny klikając “Utwórz” i wybierając z listy “Arkusz”.
4) Właśnie utworzyliście arkusz kalkulacyjny. Na razie jest pusty. Zapełnijmy go danymi. Pobierzcie przykładowy zestaw danych World Banku, który znajdziecie pod tym linkiem. Na jego przykładzie wytłumaczymy Wam, jak korzystać z wybranych funkcji Google Spreadsheets.
5) By otworzyć jego zawartość w arkuszu, kliknijcie w zakładki “Plik” i “Otwórz”, a następnie wybierzcie pobrany przed chwilą plik. Wasza tabela wypełni się danymi.
Podstawowe funkcje arkusza kalkulacyjnego
Blokowanie wierszy
Jak widzicie, wygląd arkusza Google jest bardzo zbliżony do znanego nam panelu Microsoft Excel. Poruszanie się po nim jest równie proste. Działają tu standardowe skróty klawiszowe jak Ctrl+c (kopiuj), Ctrl+v (wklej), Ctrl+z (undo – cofnięcie akcji), Shift+kursor (zaznaczanie komórek w wybranym kierunku), etc. Przejdźmy do funkcji mniej oczywistych, które ułatwią nam pracę na naszym arkuszu.
Pobrana przez Was baza jest dość spora – ma wiele wierszy i kolumn. Łatwo się w niej pogubić. W nawigacji pomoże zablokowanie pierwszego wiersza – etykiety wierszy nie będą przewijały się wraz z przechodzeniem do niżej usytuowanych komórek, czyli będą zawsze widoczne. By zablokować pierwszy wiersz, przejdźcie na samą górę tabeli. Kursor myszy skierujcie na granicę pustego pola (pod fx) i komórki z numerem 1. Gdy kursor przemieni się na “łapkę”, przeciągnijcie go pod pierwszy wiersz. Powinna pojawić się pod nim szara linia.
Sortowanie danych
Blokowanie wierszy pomaga sprawnie poruszać się po arkuszu, ale dane zwarte w naszym pliku wciąż są nieuporządkowane. Jeśli chcemy szybko poznać zakres danych, musimy je posortować. Spróbujmy uszeregować kraje zgodnie z wartością PKB: od najmniejszego do największego. Jak to zrobić?
1) Zaznaczcie cały arkusz, klikając w szare pole w lewym górnym rogu tabeli (pod fx).
2) Wybierzcie zakładkę “Dane”, a z listy wybierzcie “Sortuj zakres…”.
3) W oknie dialogowym zaznaczcie opcję “Dane mają wiersz nagłówka” (chodzi o pierwszy wiersz z etykietami kolumn), a z listy “sortuj według” wybierzcie interesującą Was kolumnę (w naszym przypadku GDP, czyli PKB). Funkcja A->Z uszereguje wartości rosnąca, a Z->A – malejąco.
To bardzo ważne, by przed szeregowaniem danych zaznaczyć cały arkusz. W przeciwnym wypadku uszeregowane zostaną komórki wyłącznie jednej kolumny. Reszta pozostanie na swoich miejscach, tworząc oderwaną od rzeczywistości bazę danych.
ZADANIE: Uszeregujcie dane tak, by na samej górze znalazły się kraje o największej liczbie mieszkańców, a na dole – najmniejszej.
Filtrowanie danych
Pomimo uporządkowania danych, wciąż znajduje się w niej wiele niepotrzebnych danych. Zwróćcie uwagę, że w kolumnie “Country Name” (Nazwa kraju) znajdują się takie komórki jak “World” (Świat) czy “North America” (Ameryka Północna). Zaburzają one odbiór danych i utrudniają porównywanie poszczególnych krajów. Używając filtrów, możemy się pozbyć zbędnych elementów naszej bazy danych. Jak to zrobić?
1) Zaznaczcie cały arkusz.
2) Wybierzcie zakładkę “Dane”, a z listy “Filtr”.
3) W komórkach pierwszego wiersza pojawiły się kwadraty z wpisanymi w nie trójkątami. Kliknijcie w ten znajdujący się w komórce “Country name”. W oknie dialogowym wybierzcie obszary, które nie są krajami, i kliknijcie “OK”.
Pamiętajcie, że filtrowanie nie usuwa zaznaczonych przez Was danych, a jedynie sprawia, że nie są one wyświetlane. W każdej chwili możecie je przywrócić.
Podsumowanie
Dziś dowiedzieliście się lub przypomnieliście sobie, jak sortować i filtrować dane w arkuszach kalkulacyjnych. W następnej odsłonie Szkoły Dziennikarstwa Danych porozmawiamy o analizie danych, ćwicząc podstawowe formuły. Zobaczycie, jak wiele informacji można pozyskać z pobranej dziś przez Was bazy danych.
Wszystkie kursy z cyklu Szkoła Dziennikarstwa Danych znajdziecie tutaj: Darmowe kursy dziennikarstwa danych.
Tłumaczenie: Piotr Kozłowski – Datablog.pl
Tekst został opublikowany na licencji CC BY-SA 3.0.
Źródło: School of Data