Być data driven company w erze Big Data. Jak wybrać 45 najlepszych prezentacji na FORUM? Doświadczenia z budowy platformy do prowadzenia na dużą skalę eksperymentów A/B Joanna Radosław Komuda, Kita, IAB Allegro Polska
Właściwie po co te testy? Przecież wszyscy. Ludzie zazwyczaj Nikt rozsądny Moje dziecko to zawsze Popatrz jakie to słodkie. Jak mam coś znaleźć, to robię to tak Nie, nie, nie. To się nie sprawdzi. Stary, 8 lat w branży.
Właściwie po co te testy? Zróbmy ankietę Pokażmy ekspertom makietę Zróbmy badanie fokusowe Pozwólmy naszym ideom umierać za nas Karl Popper Data driven company
Co powinniśmy testować? Wszystko Nie no serio, prawie wszystko Efektywność systemów rekomendacji Efektywność algorytmów wyszukiwania Zmiany w budowie stron Zmiany w aplikacjach Każdą nową funkcjonalność
1. Definicja testu 2. Plan eksperymentalny 3. Podział na grupy Jak to działa? 4. Zebranie danych 5. Dobór statystyki 6. Od testu do wdrożenia na całym serwisie 7. Dużo jednoczesnych testów -> kiedy uruchomić kolejny Czyli trochę wyzwań: od technologicznych poprzez programistyczne aż po statystyczne.
Definicja testu Osoba definiująca test musi mieć dostęp do graficznego interface. Musimy przekazać dalej definicję której funkcjonalności dotyczy eksperyment identyfikowanie użytkowników, którzy rzeczywiście mieli kontakt z naszą funkcjonalnością. Co jeśli trzeba przewinąć ekran albo rozklikać jakieś menu?
Definicja testu Miara sukcesu: Przychodowość wiadomo Ilość kliknięć? Jednorodność koszyka zakupowego? Długość ścieżki zakupowej? Aktywizacja nowych użytkowników?
Co porównujemy: Średnia? Mediana? 75 centyl/percentyl? Definicja testu
Plan eksperymentalny Jak Jak wybrać Grupa testowa 45 45 najlepszych Użytkownicy Grupa kontrolna Początek pomiaru Koniec pomiaru
Plan eksperymentalny Tak to działa przy jednym pomiarze. Co jeśli dwa lub więcej? Szczególnie jeśli pomiar odbywa się w jawny dla użytkownika sposób. Np. zmiana świadomości marki wskutek kontaktu z reklamą.
Grupa kontrolna 1 Plan eksperymentalny Pierwszy pomiar Drugi pomiar Grupa kontrolna 2 Jak Jak wybrać 45 45 Drugi najlepszych pomiar Grupa testowa 1 Pierwszy pomiar Drugi pomiar Grupa testowa 2 Drugi pomiar
Podział na grupy 1. Losowy 2. Rozłączność grup w obrębie eksperymentu 3. Rozłączność grup między eksperymentami o ile to konieczne prezentacji (eksperymenty na na dotyczą FORUM? tego samego elementu lub mogą na siebie wpływać)
Podział na grupy - wyzwania Losowość: każdy z użytkowników powinien mieć jednakowe prawdopodobieństwo znalezienia się w grupie. Dwa możliwe podejścia: prezentacji na na 1.1 nadreprezentacja bardziej aktywnych FORUM? 1. Dzielimy on-line w miarę jak się pojawiają 2. Dzielimy off-line przed eksperymentem na podstawie bazy danych 2.1 nie wiemy kiedy kolejny raz się pojawią i czy w ogóle się pojawią (eksperyment nie może trwać dowolnie długo) 2.2 problem z nowymi użytkownikami
Podział na grupy - wyzwania Kilka sposobów identyfikacji użytkownika: 1. cookie 2. zarejestrowani użytkownicy 3. identyfikatory w aplikacjach mobilnych Rozłączność!! Tak, tak. Nie zważając na to, że jeden użytkownik może się ukrywać pod kilkoma identyfikatorami.
Podział na grupy - wyzwania Czasem trzeba sprawdzić dodatkowe warunki: położenie geograficzne profil demograficzny dotychczasową historię zakupów Szybkość!!
Podział na grupy - wyzwania Utrzymanie równoliczności grup przydzielonych do wariantów!
Czy eksperyment powinien odbywać się na wszystkich użytkownikach? Tak, ale 4 testowanych algorytmów + grupa kontrolna (5x20%) oznacza: 80% użytkowników ma do czynienia z mało optymalnymi strategiami czyli: mniejszy przychód
Czy eksperyment powinien odbywać się na wszystkich użytkownikach? Multi Armed Bandits
Zebranie danych
Dobór statystyki W statystyce musimy sobie odpowiedzieć na jedno zasadnicze pytanie
Dobór statystyki No może nieco więcej niż jedno 1. Czy próby są od siebie zależne czy niezależne? 2. Ile mam grup? 3. Na jakiej skali pomiarowej jest zmienna zależna?
Dobór statystyki I jeszcze 4. Czy rozkład zmiennej zależnej jest normalny? Witamy w świecie rozkładów prawostronnie skośnych
Dobór statystyki I tak znaleźliśmy się w świecie statystyk nieparametrycznych. Tak, macie rację. Nie uczyli o tym zbyt wiele na studiach. Test Manna-Whitneya Test Kołmogorowa-Smirnowa Test Kruskala-Wallisa Nie tylko stwierdzenie czy jest różnica, ale która grupa wygrywa.
Od testu do wdrożenia na całym serwisie Dobra praktyka przełączamy małymi grupkami (np.: po 5% dziennie) i obserwujemy.
Id testu Początek testu 1 2016-01-01 00:00:00 2 2016-07-01 00:00:00 3 2016-06-20 14:21:00 4 2016-10-03 Dużo jednoczesnych testów -> kiedy uruchomić kolejny Koniec testu Jak 2016-11-30 23:59:59 Jak wybrać 45 45 najlepszych 2016-12-31 23:59:59 2016-10-20 15:29:59 2016-10-31 11:59:59 Wskaż optymalny moment do przeprowadzenia testu, który ma trwać dwa 12:00:00 tygodnie. Ma się pokrywać z jak najmniejszą ilością zaplanowanych testów. Złożoność wielomianowa lub liniowa mile widziana.
Dziękuję za uwagę radoslaw.kita@allegrogroup.com rkita@sgh.waw.pl