22-24 września, Gdynia data Marek Zmuda, PhD Software Architect @ Intel Corporation
Agenda (1) Czym są dane a czym informacja? (2) Klasyczne podejście do analizy danych (3) Dlaczego stare metody nie wystarczają? (4) Big Data - o co tu chodzi? (5) Korelacja pomiędzy danymi kluczem do sukcesu (6) Big? czyli właściwie ile tych danych ma być? (7) data jakie dane nas interesują? (8) Życiowe przykłady wykorzystania technologii Big Data (9) Zagrożenia (10) Jak Ty możesz zacząć swoją przygodę z Big Data?
Czym są dane, czym informacja? Informacja (łac. łac. informatio przedstawienie, wizerunek; informare kształtować, przedstawiać) właściwość pewnych obiektów, relacja między elementami zbiorów pewnych obiektów, której istotą jest zmniejszanie niepewności (nieokreśloności) Dane (ang. data, łac. datum) zbiór liczb, tekstów, znaków, wykresów, sygnałów dostarczających informację Uwaga! Zbiory danych mogą zawierać informację Jeśli nie wiemy co reprezentują zbiory danych, nie możemy wydobyć z nich informacji
Klasyczne podejście do zbierania danych Pierwsze spisy ludności Pierwsze udokumentowane spisy ludności 7000 lat pne Uzyskiwano przybliżone dane Były bardzo kosztowne Czas zbierania danych był bardzo długi (cykl ~5 10 lat) Finalne dane były. już nieaktualne Przełomowe podejście Londyn XVII wiek, epidemia dżumy podejście statystyczne Opanowano problem przetwarzania dużych ilości danych wybierając jedynie małą, losową próbę Kluczowy wniosek: jakość danych znacznie szybciej rośnie wraz ze wzrostem losowości próby niż z jej wielkością Przeprowadzano częściowe wpisy zmniejszyło to czas i koszt
Klasyczne podejście do zbierania danych Pierwsze spisy ludności Pierwsze udokumentowane spisy ludności 7000 lat pne Uzyskiwano przybliżone dane Były bardzo kosztowne Czas zbierania danych był bardzo długi (cykl ~5 10 lat) Finalne dane były. już nieaktualne Przełomowe podejście Londyn XVII wiek, epidemia dżumy podejście statystyczne Opanowano problem przetwarzania dużych ilości danych wybierając jedynie małą, losową próbę Kluczowy wniosek: jakość danych znacznie szybciej rośnie wraz ze wzrostem losowości próby niż z jej wielkością Przeprowadzano częściowe wpisy zmniejszyło to czas i koszt Próba losowa jest jednak tylko uproszczeniem problemu. Najbardziej wiarygodne rezultaty uzyskuje się przetwarzając wszystkie dane
Klasyczne podejście do zbierania danych Wady podejścia klasycznego: Proces jest długotrwały i pracochłonny Zamknięty zbiór pytań/pomiarów Jak określić reprezentatywną próbę losową? Brak możliwości post-analiz np. sub-kategorii (inicjalna próba przestaje być reprezentatywna) Brak możliwości tworzenia analiz w czasie rzeczywistym
Klasyczne podejście do analizy danych 8 maja 2016r, słoneczny poniedziałek, o godzinie 7:30 rano, 25-letni matematyk, ubrany w żółtą koszulkę, niebieskie jeansy i pomarańczowe trampki, wyrusza swoim dwuletnim granatowym Fordem Mondeo z przedmieścia Sopotu do oddalonego o 13km centrum Gdańska. Na miejsce dojeżdża o godzinie 8:00. W tą samą trasę w kierunku przeciwnym wyrusza o godzinie 16:00 i dojeżdża do Sopotu o godzinie 16:20. O której godzinie Adam dotrze z Sopotu do Gdańska w czwartek 11 sierpnia 2016 jeśli wyjedzie o 8:00? O której godzinie Adam dotrze z Gdańska do Sopotu w środę 21 września 2016 jeśli wyjedzie o 19:00?
Klasyczne podejście do analizy danych 8 maja 2016r, słoneczny poniedziałek, o godzinie 7:30 rano, 25-letni matematyk, ubrany w żółtą koszulkę, niebieskie jeansy i pomarańczowe trampki, wyrusza swoim dwuletnim granatowym Fordem Mondeo z przedmieścia Sopotu do oddalonego o 13km centrum Gdańska. Na miejsce dojeżdża o godzinie 8:00. W tą samą trasę w kierunku przeciwnym wyrusza o godzinie 16:00 i dojeżdża do Sopotu o godzinie 16:20. O której godzinie Adam dotrze z Sopotu do Gdańska w czwartek 11 sierpnia 2016 jeśli wyjedzie o 8:00? O której godzinie Adam dotrze z Gdańska do Sopotu w środę 21 września 2016 jeśli wyjedzie o 19:00?
Klasyczne podejście do analizy danych Strategia: (1) Zrozumienie natury zjawiska (2) Określenie minimalnego modelu matematycznego opisującego problem (3) Wyłuskanie dokładnych danych i podanie ich do modelu (4) Wyznaczenie rozwiązania na podstawie modelu i podanych danych Ograniczenia: (1) Musimy dobrze rozumieć naturę zjawiska nie zawsze jest to możliwe!!! (2) Model musi uwzględniać wszystkie istotne czynniki - nie zawsze jest to możliwe!!! (3) Potrzebne są dokładnie określone dane
Big Data A gdyby tak zbierać, analizować, archiwizować wszystkie dostępne dane? Nowe podejście: N = całość video
Big Data Cechy: (1) Przetwarzanie danych o rozmiarach bliskich n=całość pozwala nam dostrzec zjawiska, których nie dostrzegaliśmy przy analizie metodą próby losowej (2) Nie musimy być zbyt dokładni przy zbieraniu i porządkowaniu danych, gdy w grę wchodzi n=całość (3) Inicjalne odejście od poszukiwania przyczyn na rzecz zrozumienia tego co się dzieje
Podejście Big Data 8 maja 2016r, słoneczny poniedziałek, o godzinie 7:30 rano, 25-letni matematyk, ubrany w żółtą koszulkę, niebieskie jeansy i pomarańczowe trampki, wyrusza swoim dwuletnim granatowym Fordem Mondeo z przedmieścia Sopotu do oddalonego o 13km centrum Gdańska. Na miejsce dojeżdża o godzinie 8:00. W tą samą trasę w kierunku przeciwnym wyrusza o godzinie 16:00 i dojeżdża do Sopotu o godzinie 16:20. O której godzinie Adam dotrze z Sopotu do Gdańska w czwartek 11 sierpnia 2016 jeśli wyjedzie o 8:00? O której godzinie Adam dotrze z Gdańska do Sopotu w środę 21 września 2016 jeśli wyjedzie o 19:00?
Podejście Big Data Strategia: (1) Zebrać jak najwięcej danych (historyczne statystyki ruchu drogowego o różnych porach dnia, roku, informacje o wydarzeniach itp) (2) Badanie korelacji pomiędzy zebranymi danymi znalezienie kluczowych czynników dla rozwiązania problemu (3) Stworzenie prototypowego algorytmu do rozwiązania problemu (4) Kalibracja i sprawdzenie poprawności działania algorytmu na podstawie danych historycznych (5) Zastosowanie algorytmu do rozwiązania problemu (przewidywanie) Warunki: (1) Musimy mieć dużo danych (2) Potrzebujemy sporych zasobów obliczeniowych
Big Data - korelacja Współczynnik korelacji - współczynnik określający poziom zależności liniowej między zmiennymi losowymi. Zwyczajowo normalizowany <-1, 1>: -1 zupełna korelacja ujemna 0 brak korelacji +1 zupełna korelacja dodatnia
Big Data - korelacja Współczynnik korelacji - współczynnik określający poziom zależności liniowej między zmiennymi losowymi. Zwyczajowo normalizowany <-1, 1>: -1 zupełna korelacja ujemna 0 brak korelacji +1 zupełna korelacja dodatnia Korelacja to nie przyczynowość!!!
data jakie dane są ciekawe? Dedykowane zbiory danych: Dane zaprojektowane specjalnie do rozwiązania problemu Dane resztkowe: Dane zebrane w celu wykonania innych analiz i właśnie tutaj zaczyna się robić ciekawie
Big Data - przykłady 2009 pojawia się nowy wirus grypy H1N1
Big Data - przykłady 2009 pojawia się nowy wirus grypy H1N1 Google Flu Trends Ocena aktualnego zagrożenia wirusem grypy na świecie, na podstawie analizy zapytań użytkowników do wyszukiwarki Google wyodrębniono 45 istotnych elementów we frazach zapytań i wykorzystano je do analizy
Big Data - przykłady Płatności
Big Data - przykłady Transport
Big Data - przykłady Translatory i sprawdzanie pisowni
Big Data - przykłady Giełda Nowojorska 2/3 z 7mld operacji jest wykonywana przez komputery
Big Data - przykłady Nie jestem robotem - Captcha
Big Data - przykłady Branża rozrywkowa
Big Data - przykłady Zagrożenia. Naruszenia prywatności jakie dane możemy udostępniać? Dane osobowe stają się towarem Czy można kogoś karać za coś czego (jeszcze) nie zrobił?
Big Data jak Ty możesz zacząć? (1) Dane wiele ogólnodostępnych, otwartych baz danych 93% danych na świecie jest w postaci cyfrowej duża część na www (2) Zasoby obliczeniowe Wiedza. www.coursera.com Twój komputer być może wystarczy Darmowe konta edukacyjne Python, R, Excel (3) Problemy do rozwiązania
Podsumowanie (1) Przetwarzanie zbiorów danych liczności n=całość pozwala nam na zaobserwowanie zjawisk niedostrzegalnych przy analizach klasycznych (2) Dokładność zbierania danych nie jest tak istotna jak w metodach klasycznych. (3) BigData pozwala nam dokładnie powiedzieć co się dzieje zamiast dlaczego (4) Analiza BigData bazuje na określeniu korelacji poszczególnych danych (5) BigData sukcesywnie dociera do wszystkich obszarów gospodarki i naszego życia (6) Ty też możesz zacząć!