Jak wdrożyć i wykorzystać data mining w Twojej firmie Rafał Latkowski Director of Analytics, emnos/payback
emnos, pomaga firmom handlu i usług detalicznych wzmacniać relację z ich klientami USA UK France & Spain Germany Russia Mexico Poland 2
PAYBACK na świecie PART OF USA 2015 GERMANY - 2000 POLAND - 2009 ITALY 2014 MEXICO 2012 INDIA 2011 3
Przewaga pomysłu nad technologią 4 Presentation label - change over INSERT in HEADER AND FOOTER
Podejście do realizacji projektu Data Mining 1 Co chcemy osiągnąć? Jaki problem chcemy rozwiązać? Jaki jest Business Case zagadnienia? Jakie są oczekiwane efekty? 2 Audyt (uproszczony/pełny) dostępnych danych i źródeł informacji 3 Dobór technologii (dostawcy, narzędzia), metod (algorytmy, podejścia), sprzętu (chmura, istniejąca/nowa infrastruktura), zasobów (eksperci biznesowi i analitycy, ) 5 Presentation label - change over INSERT in HEADER AND FOOTER
Jaki chcemy osiągnąć rezultat? Data Mining to narzędzie do optymalizacji. Sprawdźmy czy taka optymalizacja jest zasadna Perspektywa Finansowa Metody Data Mining zazwyczaj nie uzyskują 100% skuteczności Sprawdźmy jaki rezultat finansowy możemy uzyskać 1%-5%-10%-50% usprawnieniem w odniesieniu do obrotu, marży i kosztów Perspektywa Organizacyjna Czy proponowana optymalizacja jest możliwa do wdrożenia? Aktualny planogram kategorii produktowej na regale Zoptymalizowany planogram na podstawie metod analitycznych 6 Presentation label - change over INSERT in HEADER AND FOOTER
Data Mining, ani żadna inna metoda działania nie daje 100% pewności Weźmy przykład: Mamy bazę 100 klientów, spośród nich 10% kupuje nasz produkt, czyli jest 10 klientów kupujących Baza początkowa: 1 Baza po scoringu: 5 1 2 1 1 1 0 1 1 1 0 1 0 1 0 1 0 1 1 100 klientów 10 kupiło 100 klientów 10 kupiło 5.0 3.5 2.7 2.0 1.8 1.5 1.3 1.1 1.0 1.0 Kumulatywny Lift 7 Presentation label - change over INSERT in HEADER AND FOOTER
Dostępne informacje to zazwyczaj więcej niż wynika z pobieżnej analizy Powiedz mi kiedy robisz zakupy, a powiem Ci kim jesteś Geolokalizacja "bo ja muszę wdrożyć aplikację mobilną i beacony, żeby wiedzieć gdzie są moi użytkownicy" Device Fingerprint Wersja systemu operacyjnego, format&rozdzielczość monitora, itp. to stanardowe dane przesyłane przez przeglądarkę Duże korporacje Istnienie danych nie oznacza zawsze dostępności danych Zapomniane logi na innym kontynencie 8 Presentation label - change over INSERT in HEADER AND FOOTER
Danych mamy więcej komponent geolokalizacyjny jest wszędzie Dane deklaratywne Dane transakcyjne Dane internetowe Dane mobilne Geokodowanie adresów klientów Geokodowanie adresów sklepów Geokodowanie IP Mikro-lokalizacja Czasami Często Częściej Real-Time Forbes Insights The Eureka Moment. Location Intelligence and Competitive Insight 9
Dostępne informacje to zazwyczaj więcej niż wynika z pobieżnej analizy Powiedz mi kiedy robisz zakupy, a powiem Ci kim jesteś Geolokalizacja "bo ja muszę wdrożyć aplikację mobilną i beacony, żeby wiedzieć gdzie są moi użytkownicy" Device Fingerprint Wersja systemu operacyjnego, format&rozdzielczość monitora, itp. to stanardowe dane przesyłane przez przeglądarkę Duże korporacje Istnienie danych nie oznacza zawsze dostępności danych Zapomniane logi na innym kontynencie 10 Presentation label - change over INSERT in HEADER AND FOOTER
Zastosowanie klasycznych metod Machine Learning na Big Data Sposób korzystania ze strony i aplikacji mobilnej Model "temperatury uczuć" klienta wobec firmy Chęć konsumowania treści o określonej tematyce Aktywność na forach, tematyka i proaktywność/responsywność Wybór sposobu obsługi, opakowań, kanałów kontaktów Umiejętność udziału w promocjach, preferencje kanałów i narzędzi marketingowych Dodatkowe informacje i logi gromadzone na poziomie klienta Wysoka predyktywność dalszego zachowania niska korelacja z danymi transakcyjnymi Silne zróżnicowanie optymalnego komunikatu 11
Przygotowanie danych w dużym uproszczeniu Znormalizowany OLTP Znormalizowany DWH Datamarty Płaska tabela Niezbędny przy projektowaniu wydajnych systemów transakcyjnych Niezbędny przy wykorzystaniu systemów BI automatyzujących zapytania na fizycznej bazie danych Wskazany przy ręcznej pracy analityków Nakład pracy i błędogenność głównie zależy od liczby złączeń niezależnie od języka Analytical Base Table jest wymaganym modelem danych przez większość metod DM/DS Postęp w zakresie in-database mining jest ograniczony Feature Creation to nie jest silna strona nawet najnowszych algorytmów 12
Wybór platformy rozwiązań Data Mining nie zależy tylko od 5V Development time Runtime Rozmiar danych Różnorodność analiz, zastosowań Wiarygodność danych Sprzęt Interfejsy narzędzi Różnorodność danych Runtime Szybkość napływu/zmiany Wartość do uzyskania 13
Miara zaangażowania Jak budować modele? Pomysł jest w dalszym ciągu ważniejszy niż technologia POTENTIAL Akwizycja Czas Kto to jest nowy klient? NEW CUSTOMERS Czy tak samo rozmawiam z nowo poznaną osobą, jak ze znajomym od 10 lat? CHURNED Odzyskanie Rozwój i edukacja ACTIVE Utrzymanie i rozwój ACTIVE AT RISK Utrzymanie 14
Jakie to ma znaczenie? Lepszy insight i lepsze narzędzie samo podpowiada operacjonalizację 1 2 3 4 5 NEW CUSTOMERS Rozwój i edukacja 15
Przykłady jak nie robić modeli: Churn/Retencja Firmy borykają się z problemem odchodzenia klientów (churn) Z uwagi na koszty pozyskania (i ew. inne koszty) taniej jest utrzymywać klientów niż pozyskiwać na to miejsce nowych Oferowanie dodatkowej nagrody/zniżki/benefitu klientom, którzy nie chcą odejść pogrąża kosztowo kampanie utrzymaniowe Modele przewidujące odejście pomagają lepiej targetować klientów 16 Präsentationskennung
Przykład 1: Operator telefonii komórkowej w Polsce Duży churn, szczególnie na koniec okresu umowy Budowa systemu analitycznego i modelu anty-churn na koniec umowy Wszyscy polscy operatorzy telefonii komórkowej komunikują wszystkich klientów na koniec okresu promocji, ponieważ jest to działanie opłacalne model nie został użyty do prowadzenia kampanii Sprawdź opłacalność przedsięwzięcia 17
Przykład 2: Dwóch innych operatorów telekomunikacyjnych w Polsce Dane przygotowane z dużym wysiłkiem. Zwyczajowo problemy z jakością danych i/lub dostępem do danych. Pierwszy taki projekt w firmie lub dane uzyskane w drodze negocjacji z innymi projektami kluczowymi w firmie. Model przewidujący odejścia cechuje zaskakująco duża skuteczność, która po dalszych ulepszeniach poprawia się do skuteczności maksymalnej teoretycznej. Analiza reguł modelu ujawnia zastanawiające fakty Dodatkowa szansa Umiejętne i ręczne analizowanie danych dostarcza czasem informacji o poprawności przetwarzań Realne zagrożenie Zła jakość danych lub brak wystarczających informacji może uczynić projekt wadliwym lub nieopłacalnym 18 Präsentationskennung
Przykłady jak nie robić modeli X-Sell Firmy borykają się z problemem niskiego uproduktowienia/przychodowości klientów. Z uwagi na wysokie koszty pozyskania nowego klienta taniej jest dosprzedać nowy produkt istniejącemu klientowi Skoro działamy w oparciu o bazę własną klientów, to możemy dodatkowo wykorzystać wiedzę o ich zachowaniach w celu zwiększenia skuteczności takich akcji. Akcje marketingowe na własnej bazie klientów mają kilkakilkadziesiąt-kilkaset razy większe skuteczności niż na bazie obcej. 19
Przykład 3: Bank w Polsce Warto zapytać się danych o odpowiedź zamiast samemu zgadywać z pozycji X-lat doświadczenia Mało kart kredytowych w portfelu banku Pomysł, aby wybrać klientów najlepszych (skłonność & ryzyko) klienci najlepsi to już mają kartę w innych bankach Najlepsza metoda to kampania testowa 20
Przykład 4: Firma ubezpieczeniowa w Polsce Planowane wprowadzenie pierwszego produktu konkurencyjnego dla klasycznego ubezpieczenia komunikacyjnego na rynku polskim. Planowane wsparcie pierwszych akcji modelem scoringowym. Z uwagi na zachowanie tajemnicy/innowacji prace prowadzone w tajemnicy brak możliwości kampanii testowej. Model scoringowy przygotowany na oryginalnym produkcie, dla którego ten ma być konkurencyjny W ostatniej chwili przed kampanią z nowego produktu została usunięta ochrona przed najważniejszym ryzykiem produktu wejściowego Nie zmieniaj produktu Nie stosuj innego modelu Nie stosuj innych danych Fatalne wyniki sprzedażowe (akcji na własnej bazie) 21
Nie zawsze najnowsza metoda daje lepsze wyniki (przed lub po uwzględnieniu kosztów) 22 Presentation label - change over INSERT in HEADER AND FOOTER
Pozostałe dobre praktyki budowy modeli Stabilność zmiennych wejściowych Ilość reguł w TOP-X% listy scoringowej Binaryzacja zmiennych Zmienne skorelowane, czy nie skorelowane? Testowanie wielu parametrów, stratyfikacja to też parametr 23 Presentation label - change over INSERT in HEADER AND FOOTER
THANK YOU! PAYBACK Rafał Latkowski Director of Data, Delivery & Technology Złota 59 00-120 Warszawa rafal.latkowski@payback.net 24