Big Data w strategii przedsiębiorstwa Warszawa, 2016-03-17 1
Czemu stoję przed Paostwem? Przez przeszło 12 lat odpowiadałem za systemy raportujące w portalu Onet.pl. Odpowiadałem za wybór narzędzi do analizy danych. W tym za przejście z rozwiązao komercyjnych na rozwiązania open source. Brałem czynny udział w jednym z najciekawszych projektów Big Data w Alior Bank. Pracowałem przy wdrożeniu systemu rekomendacji treści w TVN. Obecnie w Allegro odpowiadam za rozwój platformy eksperymentacyjnej. Czynnie zajmuję się analizą dużych zbiorów danych i doborem narzędzi analitycznych od początku tego stulecia 2
O czym nie chcę mówid Nie chcę opowiadad o tym, o czym czytałem w Internecie tylko o czymś, co robiłem w praktyce. 3
Big Data vs Small Data Kategoria Big Data Small Data źródła danych media społeczne mierniki/czujniki logi dane tekstowe materiały wideo, streamy Internet rzeczy klasyczne systemy transakcyjne Systemy CRM (Customer Relationship Management) transakcje na stronach www dane finansowe wielkośd (Volume) Tera/Peta/Exa/Zetta Mega/Giga/Tera szybkośd pozyskiwania (Velocity) często czas rzeczywisty wymagają reakcji w czasie rzeczywistym zmiennośd (Variety) ustrukturyzowane nieustrukturyzowane częściowo ustrukturyzowane przetwarzanie wsadowe nie zawsze wymagają reakcji w czasie rzeczywistym ustrukturyzowane 4
Big Data vs Small Data Kategoria Big Data Small Data wartośd (Value) możliwośd przetworzenia w nowy sposób danych z przeszłości wyszukiwanie nowych wzorców technologie Hadoop Spark Cassandra elasticsearch sposób gromadzenia danych klastry tanich serwerów Business Intelligence klasyczne raportowanie klasyczne bazy relacyjne (SQL) drogie wyspecjalizowane serwery główny cel przewidzied przyszłośd wyjaśnid przeszłośd zawód Data Engineer Data Scientist analityk danych Częściowo w oparciu o materiały z kursu BerkeleyX: CS100.1x Introduction to Big Data with Apache Spark https://courses.edx.org/courses/berkeleyx/cs100.1x/1t2015/info 5
Big Data definicja Gartnera http://www.rosebt.com/blog/data-veracity 6
Data Science http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram 7
Data Science Communication skills http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram 8
Ale tak na koniec dnia Możliwośd stworzenia spójnego obrazu potrzeb klientów. Na podstawie wielu zróżnicowanych źródeł danych. Nadającego się do praktycznego wykorzystania. W rozsądnym czasie. Przy rozsądnych kosztach. Po co? Data driven company 9
A tak konkretniej Chcemy połączyd dane o zachowaniu naszych klientów: Systemy transakcyjne Co robią na naszych stronach Co piszą w mediach społecznych Jakich treści szukają w Internecie W jakiej sprawie dzwonili do call center Czy zainteresował ich mailling Jak korzystają z telefonu komórkowego 10
Jeszcze konkretniej Musimy przejśd z danych typu: identyfikator klienta data zdarzenia opis zdarzenia wartośd opłata rachunku za 1 2009-01-01 gaz 315 zł zakup w sklepie internetowym 1 2009-01-01 artykuły sportowe 124 zł do danych o postaci: identyfika tor klienta data zdarzenia url useragent iip Mozilla/5.0 (Windows NT 5.1; rv:26.0) 23456781 2009-01- www.wp. 01 pl Gecko/20100101 Firefox/26.0 217.67.211.123 identyfikator klienta wartośd rachunku za gaz M-6 wartośd rachunku za gaz M-5 rachunek za gaz ile dni przed/po terminie M-6 wartośd bilety lotnicze M-6 Kwota wydana na benzynę M-5 Kwota wydana na zakupy żywnościowe w sklepach wyższej półki M-5 Czas spędzony na serwisach o tematyce biznesowej M-6 Wydatki na edukację dziecka M-5 Klasa posiadanego telefonu 1 315 zł 320 zł 10 0 zł 300 zł 20 zł 3:40 140 zł Wysoka 2 420 zł 350 zł 5 800 zł 500 zł 550 zł 0:15 0 zł średnia 11
Co mnie pociąga w analizie danych 1. Prawdziwy obraz zjawiska: nie ma podstawie deklaracji, nie na podstawie panelu, nie na podstawie sztucznego eksperymentu. 2. Możliwośd przekładu problemów biznesowych na język danych. 12
Miejsce Hadoop w ekosystemie firmy Systemy produkcyjne Systemy analityczne Systemy raportujące 13
Miejsce Hadoop w ekosystemie firmy Systemy produkcyjne Tysiące miliardy użytkowników Kilka typów użytkowników Zoptymalizowane pod utrzymanie usług Odporne na ataki z zewnątrz i wewnątrz Przeważnie nie wymagają korzystania z danych z przeszłości Działają na bardzo szczegółowych danych Poziom dostępności > 99,999% 14
Miejsce Hadoop w ekosystemie firmy Systemy raportujące Kilku kilkuset użytkowników Dziesiątki typów użytkowników Odporne na ataki z zewnątrz i wewnątrz Zapewniające detaliczną kontrolę dostępu Możliwość wycofywania transakcji i modyfikowania zapisów Rozbudowana wizualizacja wyników Jednolity interface zarówno dla komputerów jak i tabletów i urządzeń mobilnych Możliwość łatwego personalizowania widzianych treści na poziomie pojedynczych użytkowników i grup użytkowników Działają na bardzo zagregowanych danych Niskie umiejętności techniczne użytkowników 15
Miejsce Hadoop w ekosystemie firmy Systemy analityczne Kilku kilkuset użytkowników Kilka typów użytkowników Odporne na ataki z wewnątrz Zapewniające ogólną kontrolę dostępu Możliwość modyfikowania zapisów Działają na bardzo detalicznych danych Im dłuższy okres, za który mamy dane, tym lepiej Łatwość podpięcia narzędzi statystycznych Wysokie umiejętności techniczne użytkowników 16
Miejsce Hadoop w ekosystemie firmy Czemu wydzielać systemy analityczne? Zapytania mogą bardzo obciążać system i pojawiać w trudnych do przewidzenia momentach w czasie. Konieczność dostępu do dużej ilości bardzo detalicznych danych Nie muszą mieć wyrafinowanych mechanizmów bezpieczeństwa Nie muszą mieć bardzo wysokiego poziomu dostępności Nie muszą zapewniać bardzo krótkiego czasu odpowiedzi 17
Miejsce Hadoop w ekosystemie firmy Hadoop jako podstawa systemu analitycznego Słabe mechanizmy bezpieczeństwa (praktycznie tylko na poziomie systemu operacyjnego) Brak możliwości wycofania transakcji Stosunkowo długi i trudny do przewidzenia czas odpowiedzi Wymaga umiejętności technicznych od użytkowników 18
Miejsce Hadoop w ekosystemie firmy Hadoop jako podstawa systemu analitycznego Łatwo skalowalny Oparty o tani sprzęt Open Source Radzi sobie z dużymi zbiorami danych Może przejmować zarówno dane o wyraźnej strukturze (np.: z baz relacyjnych), pseudostrukturze (XML, JSON), czy bez struktury 19
Przykładowe rozwiązania Zabierzcie się ze swoją analityką Drogi ale spełniający najwyższe standardy jakości system transakcyjny Dane 1-1 przenoszone do Hadoop Analiza tylko w Hadoop Dane z systemów zewnętrznych pozyskiwane w nieregularnych odcinkach czasu, duże zróżnicowanie danych, różna identyfikacja użytkownika 20
Przykładowe rozwiązania Zabierzcie się ze swoją analityką Tani w utrzymaniu system analityczny Możliwość prowadzenia dowolnie skomplikowanych lub eksperymentalnych analiz Bezpieczeństwo (?!) 21
Przykładowy problem Chcemy połączyć dane o zachowaniu użytkownika w Internecie z danymi z systemów transakcyjnych. Problemy? 22
Przykładowy problem Chcemy połączyć dane o zachowaniu użytkownika w Internecie z danymi z systemów transakcyjnych. Problemy? 1. Jednolita identyfikacja użytkownika w Internecie i w naszych systemach. 23
Przykładowy problem Chcemy połączyć dane o zachowaniu użytkownika w Internecie z danymi z systemów transakcyjnych. Zapewnienie jednolitej identyfikacji użytkownika między stronami web (naszymi i instytucji, z którymi współpracujemy): 1. Wspólne międzydomenowe cookie 2. Przekazywanie parametru w url 24
Przykładowy problem Chcemy połączyć dane o zachowaniu użytkownika w Internecie z danymi z systemów transakcyjnych. Przejście od cookie do identyfikatora w naszych systemach: Regularne współwystępowanie user-agent i adresu IP w obu systemach 25
Przykładowe rozwiązania Hadoop jako podstawa gromadzenia danych Dane z systemów transakcyjnych są zapisywane do Hadoopa poprzez serwery Kafki Dane nie są przechowywane nigdzie więcej poza Hadoopem W Hadoop następuje agregacja danych dla systemów raportujących (opartych o bazy relacyjne i systemy klasy Business Intelligence) 26
Przykładowe rozwiązania Hadoop jako podstawa gromadzenia danych Możliwe różne modele dostępu do danych: od niewielki zespół analityków do praktycznie cała firma Potencjalne źródło wycieku danych Ryzyko redundancji danych zespoły mogą utrzymywać kopie dużych wolumenów danych Ryzyko używania różnych definicji biznesowych 27
Przykładowe rozwiązania Hadoop jako podstawa gromadzenia danych Duża innowacyjność Duża elastyczność co do zakresu gromadzonych danych W przypadku problemów z jakością danych przetworzonych jest do czego sięgać Można prowadzić analizy według nowych wytycznych na danych przeszłości 28
Architektura Lambda/Kappa 29
Strata+Hadoop World 2015 30
Dwa światy Szybkie analizy (czas odpowiedzi < minuta) Przetwarzanie wsadowe 31
Szybka analiza https://storm.apache.org/ https://spark.apache.org/ https://flink.apache.org/ 32
Hadoop + http://drill.apache.org/ dostęp do czystego JSON, praca na samoopisujących się danych http://tez.apache.org/ lepsze zarządzanie zadaniami 33
Różne mechanizmy wykonywania zapytań 34
Różne mechanizmy wykonywania zapytań 35
Big Data technologia pierwsze wrażenie Klasyczne systemy Big data 36
Small @ Big Data - kooperacja 1. Big Data: wydajniejsza kontrola jakości danych. 2. Big Data: możliwośd integracji danych pochodzących z różnych źródeł. 3. Big Data: szybki dostęp do danych z dowolnie długiego okresu czasu i dla dowolnie dużej grupy klientów. 4. Zaawansowane techniki analizy tekstu. 5. Analiza danych grafowych. 6. A wszystko to, żeby zmienid Big w Small 37
Big Data To nie jest coś co się dopiero może wydarzy. Dla wielu firm, to codziennośd od wielu lat. Dla innych firm, to bardzo pociągająca przyszłośd. Coś co musi się wydarzyd. Tam, gdzie pojawia się Big Data, zmieniają warunki gry. 38
Dziękuję za uwagę. 39