Customer Attribution Models czyli o wykorzystaniu machine learning w domu mediowym.
Proces decyzyjny MAILING SEO SEM DISPLAY RETARGETING PRZEGRANI??? ZWYCIĘZCA!!!
Modelowanie atrybucja > Słowo klucz: wpływ > Dopasowane do potrzeb 1 2 3 Prosta heurystyka Analiza ścieżek Pełny model
Wyzwanie technologiczne ~2 dni obliczeń na analizy i przetwarzanie danych
Jest co optymalizować Średni czas od pierwszego wyświetlenia reklamy do konwersji ~2,5 h Średnia długość ścieżki zakończona konwersją ~217 interakcji
Dwa podejścia 1 2
Dwa podejścia 1 2
Random Forest jak działa? 1 2 3
Random Forest czemu to takie dobre? 1. 1 Jest najlepszy jeśli chodzi o dokładność klasyfikacji wśród pozostałych algorytmów. 2. 2 Poszczególne lasy mogą być zapisane, połączone, wykorzystane w przyszłości do innych zbiorów danych. 3. 3 Skuteczny na dużych bazach danych. 4. 4 Łatwo dostępny praktycznie we wszystkich językach programowania. 5 5. Łatwy do przeniesienia na maszyny wieloprocesorowe. 6. 6 Nie wymaga wiedzy eksperckiej.
Random Forest. Modelowanie Atrybucji Początkowa baza zmiennych (~500) Random Forest Wyselekcjonowana baza (~ 90) Błąd klasyfikacji dla typów konwersji: A: 8 % B: 3 % Ranking zmiennych wg wpływu na klasyfikację do typu konwersji
Random Survival Forest Najbardziej czasochłonna analiza. Służąca do oceny wpływu poszczególnych zmiennych na prawdopodobieństwo konwersji oraz krzywych przeżycia (czyli nie konwersji). Tutaj w wyniku również otrzymamy ranking zmiennych, ale również możemy wyznaczyć krzywe przeżycia dla wszystkich ciasteczek.
Random Survival Forest Krzywe przeżycia dla przykładowych zmiennych i ich wpływ na prawdopodobieństwo konwersji: Konieczne zwiększenie intensywności tej zmiennej w kampanii
Random Survival Forest Krzywe przeżycia dla przykładowych zmiennych i ich wpływ na prawdopodobieństwo konwersji: Optymalna wartość intensywności zmiennej w ścieżce = 13
Random Survival Forest Krzywe przeżycia dla przykładowych zmiennych i ich wpływ na prawdopodobieństwo konwersji: Konieczna obecność zmiennej w ścieżce
Random Survival Forest Krzywe przeżycia dla przykładowych zmiennych i ich wpływ na prawdopodobieństwo konwersji: Jeżeli zmienna jest uwzględniana w planowaniu to jej intensywność >5
Random Survival Forest Krzywe przeżycia dla przykładowych zmiennych i ich wpływ na prawdopodobieństwo konwersji: Tą zmienną należy pominąć przy planowaniu
Dwa podejścia 1 2
Łańcuchy Markova 1. 1 Wyznaczanie macierzy przejścia z wagami przejścia odpowiadającymi prawdopodobieństwu przejścia ze stanu i do stanu j. 2. 2 Wykorzystanie łańcuchów Markova wyższego rzędu, mających symulować pamięć poprzednich stanów. 3. 3 Wyliczanie Efektu Wykreślenia dla każdego węzła, będącego średnią zmianą w prawdopodobieństwie dotarcia do węzła KONWERSJA w n krokach z każdego węzła w grafie.
Łańcuchy Markova czemu to takie dobre? Co przemawia za? 1. 1 Pozwala na bardzo dokładne wyznaczenie efektów oraz wzajemnych relacji w grafie. 2. 2 Elastyczny wyników. pod względem dokładności uzyskiwanych 3. 3 Łatwo dostępny programowania. praktycznie we wszystkich językach 4. 4 Łatwy do przeniesienia na maszyny wieloprocesorowe. 5. 5 Nie wymaga wiedzy eksperckiej.
Case study branża finansowa Display Affiliate marketing Display Programmatic SEM Display Mailing
Case study branża finansowa Wizualizacja wszystkich relacji pomiędzy węzłami
Jak to przetłumaczyć na ludzki? Najwięksi wspieracze Najmocniejsze relacje Type Site Removed size Average Effect click Site 1 135 836 644-23,8% click Site 2 4 145 104-16,5% click Site 3 359 900-14,3% click Site 4 1 402 312-10,6% click Site 5 675 196-9,9% click Site 6 20 666 048-8,6% click Site 7 5 051 108-5,2% impression Site 8 38 546 884 180-3,9% click Site 9 446 040-3,8% click Site 10 613 600-3,7% Type Removed Type Affected Removed size Effect click Site 1 impression Site 1 5 942-18,6% click Site 2 impression Site 2 87 568-17,1% click Site 3 impression Site 3 5 942-18,2% impression Site 4 impression Site 4 4 235 857-100,0% click Site 5 impression Site 5 87 568-17,3% click Site 6 impression Site 6 5 942-19,1% click Site 7 click Site 7 3 402-100,0% click Site 8 click Site 8 2 861-23,7% click Site 9 click Site 9 1 525-88,2% impression Site 10 impression Site 10 135 989 302-26,6%
Wyniki 42% Wyniki muszą być dostarczane z opóźnieniem 24h, ze względu na dynamikę kampanii prowadzonych w Internecie 20% 45%
Narzędzia wykorzystane w analizach
Dziękujemy za uwagę Krzysztof Struś krzysztof.strus@zenithoptimedia.pl Tomasz Lechowicz tomasz.lechowicz@performics.com