Uczenie maszynowe – automatyzacja przyszłością dziennikarstwa?

Automatyzacja analizy danych w czasach big data to jedno z zagadnień, które właśnie jest podejmowane w największych mediach i instytucjach badawczych.

Nowe technologie coraz głębiej zmieniają podejście do dziennikarstwa danych. Wykładniczo zwiększające się zbiory danych nie tylko publicznych powodują, że do efektywnej ich analizy należy stosować automatyczne ich przetwarzanie. Program komputerowy może jednak nie tylko zanalizować potężne zbiory danych, ale także znaleźć wzorce i pomóc w ich interpretacji.

Metodą, która może pomóc na wydobycie informacji z danych, pomóc w ich strukturyzacji i grupowaniu jest uczenie maszynowe.

Nazwę machine learning wymyślił Arthur Samuel w 1959 roku i zdefiniował ją jako zdolność komputerów do uczenia się bez programowania nowych umiejętności wprost. Innymi słowy, uczenie maszynowe to technologia, która zamiast precyzyjnie programować komputery, uczy je wykonywania zadań na podstawie analizy danych. Technologia uczenia maszynowego wykorzystuje zaawansowane algorytmy do „uczenia się” z olbrzymich zasobów big data. Im większe są zasoby tych danych, do których algorytmy mają dostęp, tym więcej mogą się nauczyć. Przykładów na rzeczywiste zastosowanie uczenia maszynowego jest mnóstwo – wystarczy spojrzeć rozpoznawanie twarzy na Facebooku czy sugerowanie najszybszej trasy w Mapach Google.

Uczenie maszynowe może odbywać się na trzy sposoby, jako:

1. uczenie nadzorowane – maszyna uczy się na podstawie dostarczonych przykładów. Algorytm uczący analizuje dane treningowe i generuje wynikową funkcję, którą można wykorzystać do mapowania nowych przykładów. Czyli np. podajemy jako dane wejściowe zdjęcia z posłami i ich imionami i nazwiskami, następnie kolejne zdjęcia maszyna analizuje już bez tych dodatkowych informacji (mapuje nowe przykłady na podstawie wygenerowanej funkcji)
2. uczenie nienadzorowane –  nie dostarczamy maszynie żadnych odpowiedzi, tylko sam zestaw danych. Na przykład dostarczamy zdjęcia domów, ale nie mamy na ich temat żadnych więcej informacji. Maszyna sama grupuje zdjęcia (zazwyczaj powinniśmy podać na ile grup chcemy zbiór podzielić). Dodając kolejne zdjęcia domów maszyna będzie je odpowiednio grupować.
3. uczenie przez wzmacnianie – w tym rodzaju uczenia nie ma nadzorcy, lecz tylko sygnały nagrody. Maszyna podejmuje działania zgodnie z nagrodą zwrotną, a działania wpływają na otrzymywane później dane. Metodę tę można inaczej nazwać metodą prób i błędów, np. nauka w grę, której nie znamy zasad. Z każdą kolejną rozgrywką powinno nam iść coraz lepiej. To ten rodzaj uczenia pozwolił na pokonanie mistrza świata w grze planszowej GO.

Jak już wspomnieliśmy uczenie maszynowe wykorzystywane jest obecnie przez wiele firm technologicznych (Google, Facebook, SAP). Żeby jednak korzystać z machine learning potrzebne są wielkie zbiory danych. Najwięksi giganci internetowi oczywiście dysponują takimi zbiorami. Inaczej jest w przypadku danych ogólnie dostępnych oraz publicznych. Aby maszyna mogła uczyć się prawidłowo dane wejściowe powinny być ustrukturyzowane. Dlatego, aby maszynowe uczenie mogło być coraz szerzej stosowane w dziennikarstwie potrzebne są wielkie zbiory danych ustrukturyzowanych. Obecnie zbieranie i przekształcanie danych nieustrukturyzowanych w ustrukturyzowane uważa się za jedno z najważniejszych wyzwań na najbliższe lata dla dziennikarstwa (w szczególności dziennikarstwa danych).

Uczenie maszynowe może przyspieszyć prace newsroomów, ale nie tylko. W analizach dużych zbiorów danych, maszynowe uczenie może wykonać za nas mnóstwo godzin pracy całego zespołu redakcyjnego. Wykorzystywanie tej technologii nie jest jeszcze zbytnio popularne w mediach i zapewne jest to spowodowane świadomością technologiczną mediów. Świetnym przykładem wykorzystania maszynowego uczenia jest cykl artykułów dziennikarzy BuzzFeed News na temat wykorzystywania samolotów szpiegowskich przez władze USA (https://www.buzzfeednews.com/article/christianstork/spy-planes-over-american-cities, https://www.buzzfeednews.com/article/peteraldhous/us-marshals-spy-plane-over-mexico)
Jak można się domyśleć władze dbają, aby samoloty obserwacyjne były jak najbardziej tajne, a ich loty nie rzucały się w oczy, dlatego np. FBI rejestruje swoje samoloty na fikcyjne prywatne firmy. Przeloty tego typu można jednak znaleźć na stronie https://www.flightradar24.com/. Dziennikarze i programiści z BuzzFeed News postanowili napisać program i przeszkolić go, aby celnie rozpoznawał samoloty szpiegowskie. Wykorzystując uczenie nadzorowane do napisanego programu (maszyny), dostarczono dane 100 zidenftyfikowanych wcześniej lotów FBI i DHS (Department of Homeland Security). Dane samolotów rządowych uzyskano z publicznych baz danych, następnie połączono je z danymi z Flightradar24. Najpierw dziennikarze wykonali serię obliczeń, aby opisać charakterystykę lotu prawie 20 000 samolotów, których dane pobrano z okresu czterech miesięcy z serwisu Flightradar24, jak np. ich prędkości zawracania, prędkości i wysokości etc.. W swoich bazach zawarli również informacje o producencie i modelu każdego samolotu oraz czterocyfrowe kody emitowane przez transpondery samolotów. Do rozróżnienia dwóch grup samolotów: szpiegowskich i reszty, posłużono się algorytmem “random forest”, który otrzymał na wejściu wspomniane dane 100 zidentyfikowanych samolotów. Następnie tak nauczoną maszynę zasilono całą stworzoną bazą, dzięki obliczono prawdopodobieństwo zgodności danego lotu/samolotu z modelem lotów samolotów szpiegowskich (FBI i DHS).
Był to początek dalszych analiz samych samolotów i terminów ich przelotów w aspekcie ochrony prawa do prywatności obywateli USA.
Przykładem wykorzystywania uczenia maszynowego jest rozpoznawanie obrazów. New York Times stworzył aplikację pozwalającą na automatyczne rozpoznawanie kongresmenów, która okazała się niezwykle przydatna w samej pracy dziennikarzy (nie każdy potrafi zapamiętać 535 członków Kongresu USA). New York Times wykorzystał do swojej aplikacji produkt Amazona. Aplikacja jest także wykorzystywania w odnajdywaniu powiązań pomiędzy politykami, czy uczestniczeniu w różnego rodzaju wydarzeniach, z których często publikowanych jest wiele zdjęć w mediach społecznościowych.

Jak się jednak okazuje uczenie maszynowe, może przyczynić się także do zwiększenia wiarygodności mediów w ogóle, a mianowicie technologię tę można z powodzeniem zastosować do walki z tzw. fake newsami. Z uczenia maszynowego korzysta serwis https://www.fakerfact.org/. Tak jak w poprzednim przypadku, skorzystano z uczenia nadzorowanego. Najpierw algorytm otrzymał zbiór potwierdzonych fake newsów, następnie sam nauczył się rozróżniać informacje prawdziwe od tych fałszywych. Oczywiście, choć naukowcy przyznają, że skuteczność ta sięga nawet 80%, to trzeba jednak pamiętać, że przetwarzanie informacji tekstowych (wykorzystując do tego natuarlne przetwarzanie języka – NLP), informacyjnych, niejednokrotnie polega na ich interpretacji i odnalezieniu tej jednej nieprawdziwej informacji.
Podczas konferencji Datajconf 2019 Francisco Lopez Valverde z Uniwersytetu Malagi przedstawiał projekt badawczy, w który zaangażowane są największe uniwersytety hiszpańskie. Naukowcy tworzą model wykrywania fake newsów w oparciu o szereg meta informacji zawartych w newsach. Wstępna skuteczność hiszpańskich modeli sięga ponad 80%.
W przypadku wykrywania fake newsów na końcu zawsze musi być jednak człowiek, aczkolwiek uczenie maszynowe może w znacznym stopniu ułatwić tę pracę i w 80% ją zautomatyzować.
Decydując się na wykorzystanie uczenia maszynowego w pracy dziennikarza powinniśmy się skoncentrować na takich językach programowania jak Python, C++, Java. Istnieją także gotowe narzędzia (framework), które są dedykowane uczeniu maszynowego jak Tensor Flow, Theano, PyTorch.

Materiał powstał dzięki udziałowi w konferencji Datajconf 2019. Sfinansowano przez Narodowy Instytut Wolności – Centrum Rozwoju Społeczeństwa Obywatelskiego ze środków Programu Rozwoju Organizacji Obywatelskich na lata 2018 – 2030.

proo

 

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *