Skuteczna operacjonalizacja środowiska analitycznego Komponenty Integracja Pomiar wartości Budowa i wykorzystanie wiedzy Mariusz Gromada, MathSpace.PL mariuszgromada.org@gmail.com 2015-10- rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora. 1
Komponenty środowiska analitycznego środowisko analityczne to znacznie więcej niż narzędzia do budowania predykcyjnych. Analityka predykcyjna, choć bardzo ważna, jest tylko jednym z elementów cyklu analitycznego Dane klienta 2
Cykl analityczny zrozumienie pełnego cyklu analitycznego jest kluczowe dla zdefiniowania komponentów środowiska, jak też interakcji między nimi. efektywności modelu Alerty modelu Analizy biznesowo ekonomiczne Stawianie i weryfikacja hipotez Analiza problemu reestymacja Problem biznesowy Ocena potencjału Definicja zdarzenia i sukcesu Wykorzystanie modelu + monitoring Definicja i wstępna analiza Wdrożenie modelu Cykl Analityczny Przygotowanie modelu Harmonogram owanie Wdrożenie algorytmu Definicja zależności Ocena Budowa Historia + preselekcja atrybutów Wybór modelu + Potwierdzenie potencjału Weryfikacja Analityka predykcyjna 3
Response Leady, oferty, kanały Response Architektura funkcjonalna środowiska analitycznego cykl analityczny jest procesem end-to-end, który powinien być odzwierciedlony w postaci odpowiednio zintegrowanych komponentów. Stopień integracji jest wyznacznikiem dojrzałości środowiska. Hurtownia 0 13 15 5b Normalizacja Surowe scoringi 1 Dane analityczne 4 Silnik scoringowy Surowe scoringi 5a Optymalizacja 7 Odkrywanie 2 wiedzy 3 Dane klienta 5c Definicje przebudowa Scoringi 10 Kanały 9 Treatmenty 8 Grupy kontrolne 11 Campaign Management 4
Response Leady, oferty, kanały Response Obszar budowy / odkrywania wiedzy (architektura funkcjonalna środowiska analitycznego) Hurtownia 0 5b Normalizacja Hurtownia Zintegrowane, wersjonowane (historyzowane dane), dane detaliczne, bądź struktury 10 pochodne w data martach. Kanały Jest źródłem dla analiz adhoc (wszelkie analizy biznesowo-ekonomiczne), jak też stanowi podstawę do naliczania data martów analitycznych (tzw. ABT). 1 Dane analityczne 4 Silnik scoringowy Surowe scoringi Odkrywanie 2 wiedzy 3 13 przebudowa Surowe 5a scoringi Scoringi Analizy Ad-hoc Dane klienta predykcyjne 5c Optymalizacja Definicje Duży nacisk 7 na technologię Budowanie in-memory oraz możliwość predykcyjnych (SAS, SPSS pracy lokalnie na 9 własnym PC Modeler, 8 SAP / KXEN), R. (np. Tableau, Grupy Treatmenty QlikView). Najistotniejsze elementy to Ekstremalnie istotna kontrolne łatwość łączenia do różnych ergonomia 11 pracy, szybkość źródeł oraz działania, łatwość generowanie kodów wizualizacji. scoringowych do postaci Campaign Management języków w różnych silnikach scoringowych. Analizy 5
Response Leady, oferty, kanały Response Obszar wdrażania przygotowanych predykcyjnych (architektura funkcjonalna środowiska analitycznego) 0 Hurtownia Silnik scoringowy Definicja zależności, harmonogramowanie procesu naliczania scoringu, cykliczne uruchamianie kodów 5b Normalizacja scoringowych. Silnik dodatkowo przekazuje surowe wartości wyliczonych wskaźników do repozytorium scoringowego. 10 Kanały Surowe scoringi 1 Dane analityczne 4 Silnik scoringowy 5a Optymalizacja 7 9 Treatmenty 11 Surowe scoringi Odkrywanie 2 wiedzy 3 Dane klienta 5c Definicje 8 Grupy kontrolne Campaign Management 13 przebudowa Scoringi Przechowuje metadane (np. wykorzystywane zmienne, nazwę i wersję modelu, itp.) oraz algorytmy (kody scoringowe).
Response Leady, oferty, kanały Response Obszar repozytorium scoringowego (architektura funkcjonalna środowiska analitycznego) 0 Hurtownia Normalizacja Sprowadzenie surowych wartości scoringowych do interpretacji prawdopodobieństwa. Tylko wartości prawdopodobieństwa mogą być skutecznie wykorzystywane w trakcie procesu optymalizacji. 5b Normalizacja Surowe scoringi 1 Dane analityczne 4 Silnik scoringowy Surowe scoringi 5a Optymalizacja 7 Odkrywanie 2 wiedzy 3 Dane klienta 5c Definicje 13 przebudowa Przechowuje aktualne wartości (wyliczone przez silnik scoringowy), w szczególności ich Scoringi znormalizowaną postać celem wykorzystania w procesie optymalizacji. 10 Kanały 9 Treatmenty 11 8 Grupy kontrolne Campaign Management Rozpoznawanie odpowiedzi Klienta oraz sukcesu. Wykorzystywane do raportowania oraz normalizacji. 7
Response Leady, oferty, kanały Response Obszar definicji oraz uruchomienia (architektura funkcjonalna środowiska analitycznego) Dane Klienta 0 + Hurtownia Master / marketing data mart atrybuty klienta wykorzystywane podczas definicji. Definicje Scenariusze, reguły, selekcje Klientów jako wynik lista działań / ofert przypisana do Klienta. Kanały Uruchomienie Treatmenty Jaka oferta, kiedy, w 5b Normalizacja jakim kanale 10 Kanały Optymalizacja Surowe scoringi 1 Dane analityczne 4 Silnik scoringowy 5a Optymalizacja 7 9 Treatmenty 11 Surowe scoringi Odkrywanie 2 wiedzy 3 Dane klienta 5c Definicje 8 Grupy kontrolne Campaign Management Element wybierający najbardziej efektywne scenariusze komunikacji, 13 wybór dokonywany jest spośród wielu dostępnych scenariuszy przy za kryteriach brzegowych (koszty, spodziewane efekty, cele) Grupy kontrolne kontrolne przebudowa Podział klientów na grupy docelowe i 8 Scoringi odpowiedzi klienta, jak też sukcesu (tzw. response wywiedziony)
Response Leady, oferty, kanały Response Obszar monitoringu predykcyjnych (architektura funkcjonalna środowiska analitycznego) 0 Hurtownia efektywności predykcyjnych. Ocena skuteczności : stan bieżący, jak też w czasie. Dostarcza różnego typu statystyki owe wykorzystywanych. Jest źródłem raportowania i dla wyzwalania alertów. 5b Normalizacja 10 Kanały Surowe scoringi 1 Dane analityczne 4 Silnik scoringowy 5a Optymalizacja 7 9 Treatmenty 11 Surowe scoringi prezentujące efektywność w czasie. Odkrywanie 2 wiedzy 3 Dane klienta 5c Definicje 8 Grupy kontrolne Campaign Management 13 przebudowa Scoringi przebudowa W sytuacji niespełnienia kryteriów owych wyzwalana jest automatyczna reestymacja parametrów modelu. 9
Response Leady, oferty, kanały Response Obszar raportowania (architektura funkcjonalna środowiska analitycznego) Hurtownia 0 13 5b Normalizacja 10 Kanały Hurtowania 1 Dane analityczne 4 Silnik scoringowy Całość ze Surowe scoringi środowiska Surowe 5a analitycznego scoringi oraz systemu Campaign Management powinna trafiać do hurtowni. Optymalizacja 7 9 Treatmenty 11 Odkrywanie 2 wiedzy 3 Dane klienta 5c Definicje 8 Grupy kontrolne Campaign Management przebudowa Scoringi Narzędzia BI Efektywność w postaci raportów oraz dashboardów (Bussiness Objects, QlikView, Tableau, IBM Cognos, MicroStrategy, itp.) 10
Pełny (30st) obraz klienta kilka dobrych praktyk Obsługa klienta Dane zewnętrzne (social, biura gospodarcz e) Reklamacje Ryzyko Windykacje Demografia 30 Geografia Aplikacje o produkty Posiadane produkty Użycie produktów Rezygnacje Liczba zmiennych nie jest najważniejsza Starajmy się aby liczba zmiennych była pochodną pokrytych obszarów, a nie wynikiem posiadania różnych wariantów tej samej informacji. Rozwój data martu Projektując nowe zmienne zawsze pamiętajmy o konieczności naliczenia również odpowiedniej historii. W przeciwnym wypadku nowe zmienne będą mogły być wykorzystane dopiero za okres kilku / kilkunastu miesięcy, powodując w okresie przejściowym szereg problemów (np. przypadkowe uwzględnienie nowej zmiennej w modelu poprzez fałszywą korelację z brakiem faktycznie będzie to korelacja z czasem) Im częściej tym lepiej Miesięczny data mart z dużą liczbą zmiennych jest zawsze potrzebny. Polecam utworzenie mniejszych struktur naliczanych w cyklach tygodniowych lub nawet dziennych. 2015-10- Customer Experience Interakcje klienta Komunikacja marketingowa Wartość klienta Dostępna historia ma znaczenie 2 lata historii to minimum, 3 lata jest optymalnym wyborem. rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora. 11
Zakup oferta przedstawiona zakupu jeśli oferta przedstawiona Uplift inkrementalna sprzedaż jest wyznacznikiem skuteczności prowadzonej komunikacji. Separacja grup Awersja vs Sympatia do komunikacji może znacząco wpłynąć na efektywność kosztową kanałów. Sympatia do komunikacji Kupują pod wpływem stymulacji komunikacją ta grupa jest najcenniejsza z punktu widzenia poniesionego kosztu (kanału komunikacji, oferty) w stosunku do dodatkowego (inkrementalnego) sukcesu. Zakup oferta nie przedstawiona Nie Tak zakupu jeśli oferta nie przedstawiona Nie Tak Awersja do produktu Sympatia do komunikacji Awersja do komunikacji Sympatia do produktu Awersja do komunikacji Komunikat obniża skłonność do skorzystania z oferty ważne, aby grupę poprawnie zidentyfikować i usunąć z działań aktywnych.
Komunikacja marketingowa Grupy kontrolne kluczowy aspekt w zakresie oceny skuteczności aktywnych marketingowych. Grupy kontrolne (różne typy) umożliwiają raportowanie oraz stanowią podstawę do przygotowania upliftu. Toruję ponadto drogę do rygoru analizy w trakcie wspierania procesu decyzyjnego. Efekt dodatkowy komunikacji w całej populacji Wybór modelem Nie (wybór losowy) Tak (wybór modelem) Wskaźnik siły modelu Nie (brak aktywnej komunikacji) Tak (aktywna komunikacja) Holdout group Control group Model Holdout group Target group Inkrementalny wpływ komunikacji marketingowej w grupie wysoko skłonnej Dodatkowy wpływ doboru modelem w grupie komunikowanej 13
Analityka kilka rad na koniec Cechy i zachowania Klientów 30 degress view Wydajne i skalowalne środowisko Elastycznie, szybko i powtarzalnie Ludzie Proces decyzyjny Ciągły monitoring Analiza produktów z dużym potencjałem / popytem jest zawsze bardzo ważna. Jednak jeśli naszym celem jest promowanie spersonalizowanych ofert w różnych kanałach sprzedaży niezbędne staje się rozszerzenie analizy o cechy / nawyki klientów. Z pomocą przychodzą metody analizy biznesowo-ekonomicznej oraz analityki predykcyjnej. Metody te dają najlepsze efekty gdy są stosowane na poziomie pojedynczego klienta, to zaś wymaga konstrukcji pełnego data martu (30 degrees view), opisującego niemal każdy aspekt relacji klienta z firmą. Stworzenie takiego data martu jest trudnym zadaniem, jednak w nagrodę otrzymamy możliwość obniżenia kosztu działań. Przygotowanie predykcyjnych wymaga posiadania dużej historii, dlatego należy brać pod uwagę konieczność utworzenia adekwatnego wyseparowanego środowiska, zawsze z rezerwą zasobów oraz z łatwością przyszłego skalowania wraz ze wzrostem biznesu. Są to kluczowe słowa przy dążeniu do skutecznej operacjonalizacji analityki. Dlatego z uwagą należy wybierać narzędzia do analizy, pamiętając, że te obecnie niezwykle szybko się rozwijają. Równie ważny jest dobór odpowiednich ludzi. Poszukujcie data scientists ów to oni posiadają kompetencje techniczne niezbędne do rozwiązywania złożonych problemów, i ciekawość odkrywania rozwiązań. Ich profil to częściowo matematycy, częściowo specjaliści IT, częściowo wizjonerzy. Dodatkowo są to osoby płynnie poruszające się w realiach biznesowych, jak też nie mające problemu w kontaktach z zespołami IT nie możemy zatem się dziwić, że są dobrze wynagradzani. Zawsze pamiętajmy o rygorze analizy w trakcie wspierania procesu decyzyjnego tu warto wspomnieć o często pomijanym efekcie inkrementalnym, który obok łącznych efektów, powinien być zawsze optymalizowany. Dlatego tak ważny jest dobór odpowiednich grup kontrolnych. Nie zapomnijcie o cyklicznej walidacji wykorzystywanych wszystko zmienia się w czasie, a tempo zmian rośnie. Niestety modele dostatecznie silne dziś w jakimś punkcie przyszłości będą wymagały przebudowy.
Dziękuję za uwagę 2015-10- rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora. 15