Big Data. Chwilowe zauroczenie czy trwały element krajobrazu? 26 listopada 2014 1
Czemu stoję przed Państwem? Przez przeszło 12 lat odpowiadałem za systemy raportujące w portalu Onet.pl. Odpowiadałem za wybór narzędzi do analizy danych. W tym za przejście z rozwiązań komercyjnych na rozwiązania open source. Brałem czynny udział w jednym z najciekawszych projektów Big Data w Alior Bank. Obecnie odpowiadam za budowę systemu rekomendacji treści w TVN. Czynnie zajmuję się analizą dużych zbiorów danych i doborem narzędzi analitycznych. 2
Dylemat prelegenta Chciałbym opowiedzieć o swoich praktycznych doświadczeniach, a nie o tym co wyczytałem w Internecie. Ale 3
Dylemat osoby odpowiadającej za wybór technologii Osobiście nie mam nic przeciwko temu, żeby nasza konkurencja wydała 3 mln na technologię, która im się do niczego nie przyda. 4
Tu mówią prawdę i tylko prawdę 5
O co chodzi w tym całym Big Data? Możliwość stworzenia spójnego obrazu potrzeb klientów. Na podstawie wielu źródłem danych. Nadającego się do praktycznego wykorzystania. W rozsądnym czasie. Przy rozsądnych kosztach. Po co? Lepsze adresowanie usług. Ograniczenie kosztów. Zapobieganie niekorzystnym zdarzeniom. 6
A tak konkretniej Chcemy połączyć dane o zachowaniu naszych klientów: Systemy transakcyjne Co robią na naszych stronach Co piszą w mediach społecznych Jakich treści szukają w Internecie W jakiej sprawie dzwonili do call center Czy zainteresował ich mailling Jak korzystają z telefonu komórkowego Definicja Big Data (Gartner, 2001): Volume, Velocity, Variety 7
Jeszcze konkretniej identyfikator klienta Musimy przejść z danych typu: data zdarzenia opis zdarzenia wartość opłata rachunku za 1 2009-01-01 gaz 315 zł zakup w sklepie internetowym 1 2009-01-01 artykuły sportowe 124 zł do danych o postaci: identyfikator klienta data zdarzenia url useragent Mozilla/5.0 (Windows NT 5.1; rv:26.0) 23456781 2009-01-01 www.wp.pl Gecko/20100101 Firefox/26.0 identyfikator klienta wartość rachunku za gaz M-6 wartość rachunku za gaz M-5 rachunek za gaz wartość ile dni przed/po bilety terminie M-6 lotnicze M-6 Kwota wydana na benzynę M-5 Kwota wydana na zakupy żywnościowe w sklepach wyższej półki M-5 Czas spędzony na serwisach o tematyce biznesowej M-6 Wydatki na edukację dziecka M-5 Klasa posiadanego telefonu 1 315 zł 320 zł 10 0 zł 300 zł 20 zł 3:42 140 zł Wysoka 2 420 zł 350 zł 5 800 zł 500 zł 550 zł 2:15 0 zł średnia 8
Co mnie pociąga w Big Data 1. Prawdziwy obraz zjawiska: nie ma podstawie deklaracji, nie na podstawie próbki danych, nie na podstawie sztucznego eksperymentu, ciągły dostęp do danych szczegółowych. 2. Możliwość przekładu problemów biznesowych na język danych i modele matematyczne. 3. Konieczność rozwiązywania łamigłówek. 9
Świat portali Mnóstwo danych technicznych: Rodzaj przeglądarki Rodzaj urządzenia mobilnego Typ systemu operacyjnego Czy akceptuje java script Wielkość ekranu Położenie geograficzne O której godzinie zwykł czytać wiadomości W której sekundzie przestał oglądać dany film Jakie treści szukał zanim znalazł się na naszych stronach Jakie strony odwiedził W jakie reklamy kliknął Z kim koresponduje/jak często 10
Świat portali Ale: Ile ma lat? Jakiej jest płci? W jakiej miejscowości mieszka na stałe? 11
Świat portali wyzwanie nr 1 Odtworzenie cech demograficznych Znamy cechy części użytkowników (podają je w momencie rejestracji) Korzyści: wiemy dla kogo produkujemy treści, bardzo przydatna informacja przy różnicowaniu treści 12
Świat portali wyzwanie nr 2 Wyższa klikalność reklam/mailingów Potrafimy odnaleźć grupy zainteresowane określonym typem treści Korzyści: Prezentujemy użytkownikom reklamy, które są dla nich bardziej interesujące przez to reklamy są odbierane jako mniej irytujące Podnosi się CTR klienci zlecający kampanie reklamowe są zadowoleni 13
Świat portali wyzwanie nr 3 Personalizacja treści stron Redakcje produkują/otrzymują setki wiadomości dziennie dziennie. Nasze strony mają bardzo ograniczoną pojemność. Użytkownicy wchodzą na strony z różną częstotliwością. Często muszą przewinąć stronę, żeby odnaleźć interesującą informację. Korzyści: Użytkownicy odbierają serwis jako lepiej dostosowany do swoich potrzeb. Potrafimy zmieścić więcej informacji redakcja jest zadowolona. Lepszy kontekst dla reklam. 14
Świat portali wyzwanie nr 4 Rekomendacja treści Niewiele punktów wejścia Stosunkowo płytka penetracja Korzyści: Efektywniej wykorzystujemy wizytę użytkownika. Większa ilość odwiedzonych serwisów/usług. Dłuższy czas spędzony z nami więcej okazji do wyświetlenia reklam. 15
Świat banków Mnóstwo danych o operacjach bankowych: Jak korzysta z karty debetowej Czy ma kredyt Jak korzysta z karty kredytowej Od kogo otrzymuje przelewy Na jakie konta przelewa pieniądze 16
Świat banków Ale: Scroring kredytowy tylko jeśli ma u nas kredyt, lub starał się o taki Słaby opis transakcji bankowych Brak znajomości potrzeb klientów Nie wiemy o ważnych wydarzeniach (zmiana pracy, narodziny dziecka, przejście dziecka na kolejny etap edukacji, planowana przeprowadzka) Niewielu klientów przelewa wynagrodzenie 17
Świat banków wyzwanie nr 1 Kategoryzacja operacji bankowych Niewiele ma jawnie wpisany tytuł przelewu ale można się oprzeć na numerze konta bankowego Kategoryzacja płatności kartami: położenie geograficzne, kategoria wydatków (kody MCC), kategoryzacja miejsc Korzyści: podstawa do dalszych analiz 18
Świat banków wyzwanie nr 2 Użytkownicy bez historii kredytowej Młodzi ludzie ubiegający się o pierwszy kredyt lub pierwszy poważny kredyt. Bezcenne możliwość sięgnięcia do danych pochodzących spoza banku (firmy telekomunikacyjne, portale internetowe, media społeczne) ale również do danych bankowych Korzyści: Święty Graal scoring w oparciu o dane poza bankowe 19
Świat banków wyzwanie nr 3 Zwiększenie wartości klienta Ludzie słabo znają ofertę banku. Niewiele okazji do interakcji z klientem. Wiedza o szykujących się zmianach w życiu klienta (przeprowadzka, narodziny dziecka, zmiana samochodu) Korzyści: Oferujemy usługi, które mogą być interesujące dla klienta Oferujemy je we właściwym momencie Wykorzystujemy do maksimum krótkie momenty kontaktu 20
Świat banków wyzwanie nr 4 Zapobieganie odejściom Szybsza spłata kredytu. Likwidacja karty kredytowej. Likwidacja lokaty. Korzyści: Utrzymujemy klienta przy sobie. Klient wie, że jest dla nas ważny. Reagujemy w sytuacji rzeczywistego zagrożenia odejściem. 21
Inne światy 1. Towarzystwa ubezpieczeniowe 2. Sprzedaż towarów i usług 3. Opieka medyczna 22
Wyzwania 1. Zgromadzenie dużych ilości danych w sposób umożliwiający korzystanie z nich w rozsądnym czasie. 2. Zapewnienie spójnej identyfikacji klienta w danych pochodzących z różnych źródeł. 3. Przetłumaczenie danych technicznych na zdarzenia mające znaczenie z punktu widzenia biznesu. 4. Przygotowanie analiz statystycznych. 23
Gromadzenie danych pułapki Szybkie zapisywanie danych, to jedno, a agregacja na potrzeby analiz to drugie. W Hadoop łatwo zapisać dane, trudniej wycofać raz zapisane rzetelny ETL. Analizowanie danych czy uzyskiwanie odpowiedzi w czasie rzeczywistym. To wbrew pierwszemu wrażeniu całkiem skomplikowane środowisko, wymagające uruchomienia i utrzymania wielu usług. Hadoop działa na klastrze to naturalne środowisko dla niektórych firm, ale zupełna nowość dla innych. Trzeba go zintegrować z zewnętrznymi źródłami danych i systemami do prezentacji raportów. 24
Czy zawsze Hadoop? Potrzeba analizowania danych w czasie rzeczywistym: Storm (http://storm.incubator.apache.org/) Szybkie analizy w pamięci operacyjnej: Spark (http://spark.incubator.apache.org/) Apache Top-Level Project od lutego 2014 Riak Cassandra Całkowita elastyczność jeśli chodzi o strukturę danych: mongodb (https://www.mongodb.org/) mysql, PostreSQL, 25
Czy zawsze Hadoop? Niewielki wolumen danych. Niewielkie zróżnicowanie danych. Dane o wyraźnej strukturze. Dane niewymagające łączenia jednolite źródło. Nikłe zasoby po stronie IT (zasilanie danymi, zarządzanie dostępami, utrzymanie systemu). Niewielki zespół analityczny. Czasem podejście relacyjne jest lepsze. 26
Spójna identyfikacja klienta Ograniczenia prawne. Pozyskanie danych ze źródeł zewnętrznych łączy się z kosztami - przemyślany model biznesowy. Identyfikacja użytkownika w różnych systemach ma różny czas ważności. Różne systemy posługują się różnymi walutami: numer konta bankowego, identyfikator przeglądarki internetowej, adres IP, numer telefonu, login do Facebook, adres poczty e-mail, 27
Zanim zajmiemy się analizą zgromadzenie danych w składnicy danych/hurtowni danych kontrola poprawności danych (braki danych, wartości wprowadzane jako domyślne) zaprojektowanie struktury danych, które mają być poddane analizie wygenerowanie zbioru danych kontrola poszczególnych zmiennych (braki danych, częstotliwość występowania poszczególnych wartości, korelacja pomiędzy poszczególnymi zmiennymi, wartości odstające) właściwa analiza Przygotowanie danych zajmuje 80% czasu 28
Big Data To nie jest coś co się dopiero może wydarzy. Dla wielu firm, to codzienność od wielu lat. Dla innych firm, to bardzo pociągająca przyszłość. Coś co musi się wydarzyć. Tam, gdzie pojawia się Big Data, zmieniają warunki gry. 29
Dziękuję za uwagę Radosław Kita 30