Odczarowujemy modele predykcyjne Teoria i Praktyka Mariusz Gromada, MathSpace.PL mariuszgromada.org@gmail.com 1
Kilka słów o mnie 1999 2004 Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych Kierunek: Matematyka 2008 2009 Uniwersytet Warszawski Wydział Nauk Ekonomicznych Kierunek: Metody Statystyczne w Biznesie 2003 2014 Departament Business Intelligence Kierownik Zespołu Analiz Data Mining, Architekt Rozwiązań BI, Analityk 2014 Departament Zarządzania Kampaniami Kierownik Zespołu Analitycznego Wsparcia Kampanii 2
hobby / projekty / publikacje http://mathparser.org 3
Agenda O czym będę mówił, a o czym mówił nie będę Analityka Predykcyjna Model Predykcyjny Confusion Matrix / Macierz błędu Strategie doboru punktu odcięcia Ocena jakości klasyfikacji Krzywa zysku Krzywa Lift Krzywa ROC i wskaźnik Giniego Krzywa Zysku vs ROC - równoważność? Modele teoretycznie idealne Dalsze materiały - Ocena jakości klasyfikacji - MathSpace.pl 4
O czym będę mówił, a o czym mówił nie będę Przedstawię najczęstsze obszary wykorzystania modeli predykcyjnych w procesach biznesowych (na styku z Klientem), nie będę omawiał całej gamy możliwości płynących z analityki predykcyjnej. Przybliżę szereg intuicji związanych z problemem klasyfikacji binarnej, nie będę omawiał algorytmów, technik i narzędzi służących do budowy modeli. Podzielę się własnym doświadczeniem z zakresu oceny jakości klasyfikacji, nawiążę do kwestii teoretycznych i praktycznych, pomijając obszar weryfikacji założeń wstępnych niezbędnych (w teorii) do zastosowania danej metody (abstrahujemy od metody). Materiał w dużej mierze oparty na tekstach, które opublikowałem w okresie 2015 2017 pod adresem: http://mathspace.pl/tag/ocena-jakosci-klasyfikacji/ 5
Analityka Predykcyjna Mariusz Gromada, MathSpace.PL 6
Analityka predykcyjna Analityka predykcyjna to analiza bieżących lub historycznych faktów w celu dokonania predykcji co do przyszłych zdarzeń lub zdarzeń nieznanych (np. scenariusze what-if ). W zastosowaniach biznesowych najczęściej poszukuje się trendów / wzorców w danych historycznych i transakcyjnych w celu identyfikacji szans i ryzyk. Analityka predykcyjna jest częścią szerszej gałęzi metod wydobywania wiedzy z danych zwanej Data Mining. Podstawowym narzędziem stosowanym w analityce predykcyjnej jest statystyczny model predykcyjny często nazywany modelem scoringowym. 7
Analityka predykcyjna vs Statystyka matematyczna Niskie ryzyko / niski potencjał Analityka Predykcyjna Statystyka Analityka Predykcyjna Wysokie ryzyko / Wysoki potencjał 8
Analityka predykcyjna w zastosowaniach biznesowych!!! tylko najważniejsze obszary, z którymi faktycznie pracowałem!!! Pozyskanie klienta Modele oceny ryzyka kredytowego Modele ryzyka nadużyć CRM głównie x-sell Modele skłonności do zakupu produktu Modele up-lift (wpływ inkrementalny komunikacji marketingowej) Modele oceny ryzyka kredytowego Modele churn (modele atrycji) Systemy rekomendacji Wartości oczekiwane - plany sprzedażowe / cele sprzedażowe SNA Social Network Analysis Windykacja Prognoza optymalnej ścieżki windykacyjnej 9
Model Predykcyjny Mariusz Gromada, MathSpace.PL 2017-04-25 rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora. 10
Model predykcyjny podstawowe pojęcia Model statystyczny to reguła wiążąca zmienne objaśniające ze zmienną objaśnianą. Przykład - jeśli chcemy wyjaśnić zależność wagi ciała od wzrostu i płci to waga nazywana jest zmienną objaśnianą (zmienną celu lub targetem) natomiast wzrost i płeć stanowią zmienne objaśniające (predyktory). Podstawową własnością modelu jest jakość modelu, na którą składają się dwa główne czynniki: błąd przewidywań modelu (bezpośredni wpływ na efekty wykorzystania modelu) stabilność modelu w czasie (wpływ na możliwość wykorzystania modelu w dłuższym horyzoncie czasowym) Jakość / interpretowalność współczynników modelu, choć ważna, to w zastosowaniach biznesowych często stanowi jedynie dodatkowy element. Modele bezbłędne w praktyce nie są możliwe do skonstruowania i z tego też powodu nazywane są teoretycznymi modelami idealnymi. 11
Model predykcyjny i Problem klasyfikacji binarnej - identyfikacja szans i ryzyk Szansa / Ryzyko czyli to czego szukamy (np. szansa - klient skłonny do skorzystania z oferty, ryzyko potencjalny fraud) Model budowany jest na binarnej zmiennej celu (złożonej z dwóch klas): Klasa 1 (TAK - pozytywna) stan faktyczny pozytywny (np. klient skorzystał z oferty, klient dokonał nadużycia) Klasa 0 (NIE - negatywna) stan faktyczny negatywny W tym przypadku model predykcyjny szacuje prawdopodobieństwo wystąpienia szansy / ryzyka zwracana jest wartość ciągła. X - przestrzeń obiektów (np. baza Klientów) p 1 x : X [0,1] model Klasyfikacja do jednej z powyższych klas odbywa się za pomocą ustalonego punktu decyzji (punkt odcięcia, cut-off) i niesie za sobą 4 możliwe decyzje. 12
Confusion Matrix / Macierz błędu Precyzja wskazania pozytywnego Precyzja wskazania negatywnego Czułość Zasięg / pokrycie klasy faktycznie pozytywnej Specyficzność Zasięg / pokrycie klasy faktycznie negatywnej 13
Confusion Matrix Optymalizacja Medyczny test przesiewowy PPV niekoniecznie duże Potencjalnie chorych kierujemy do dalszej diagnostyki Czułość wysoka False-Negative kosztuje życie Chcemy wyłapać możliwie wszystkich chorych Bardzo wysokie NPV Odsiewamy zdrowych Specyficzność mniejsza False-Positive kosztuje mniej Kierujemy tylko do dalszej diagnostyki 14
Confusion Matrix Optymalizacja Medyczny test diagnostyczny PPV bardzo duże Musimy wiedzieć, że (i co) trzeba leczyć Bardzo wysokie NPV Musimy mieć pewność, że leczenie jest zbędne Czułość wysoka Wykrywamy niemal wszystkich chorych Specyficzność wysoka Wychwytujemy niemal wszystkich zdrowych 15
Model + Confusion Matrix + Cut-off 16
Cut-off: Niska, średnia, wysoka skłonność 17
Dobór punktu cut-off Mariusz Gromada, MathSpace.PL 2017-04-25 rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora. 18
Strategie doboru punktu odcięcia Strategie, z którymi miałem do czynienia w pracy zawodowej Całkowicie biznesowa - metoda najprostsza, nadal popularna, jednak coraz rzadziej stosowana. Wyłącznie analityczna - rzadko stosowane w biznesie, częściej widoczna pracach / badaniach naukowych. Hybryda powyższych - wariant dziś preferowany przez różne jednostki CRM. 19
Dobór całkowicie biznesowy Nadal częsta praktyka, która przy wnikliwej analizie okazuje się nie być najbardziej optymalną. Dobór punktu odcięcia jest pochodną zasobów (np. dostępność / pojemność kanałów komunikacji). Przykład: współpracujemy z Call Center, które miesięcznie może zadzwonić do 100 tys. Klientów. W takiej sytuacji dosyć naturalnie powstaje potrzeba wybrania "100 tys. najlepszych Klientów" (najlepszych do danej akcji). Model predykcyjny posłuży więc do "posortowania" Klientów, a punkt odcięcia będzie zależny od wskazanej oczekiwanej liczby 100 tys. Problem ze strategią całkowicie biznesową polega na tym, że "najlepszy" mylony jest z "dobry". Dodatkowo zdarza się, że siła modelu jest błędnie interpretowana jako zdolność do znalezienie większej liczby "dobrych" klientów - w rzeczywistości jest na odwrót - im lepszy model, tym mniejsze optymalne bazy. Równie istotna kwestia to skąd się właściwie wzięła liczba 100 tys.? 20
Dobór wyłącznie analityczny Dobór wyłącznie analityczny polega na optymalizacji błędów klasyfikacji. W nieco bardziej zgeneralizowanym podejściu optymalizuje się funkcję kosztu błędów (najczęściej jeśli koszty są mocno asymetryczne). Podejście analityczne jest zupełnie poprawna i uzasadnione, jednak w biznesie prawie nieobecne ze względu na brak uwzględnionego aspektu celu biznesowego, priorytetów, zasobów, itp. 21
Dobór analityczno-biznesowy Dobór analityczno-biznesowy najlepiej sprawdza się w sytuacji analizy szerszego portfela produktów (tzn. bazy i cut-off y dobierane do różnych działań stanowią element realizacji szerszej polityki CRM). Zaczynamy od celów biznesowych, priorytetów, analizy zasobów, pojemności kanałów. Następnie weryfikujemy Klientów, ich potrzeby w kontekście możliwie wielu produktów. Ostatecznie - w wyniku kilku iteracji - dążymy do "zmapowania" segmentów Klientów na cele i zasoby, zawsze koniecznie modyfikując obie strony równania. Jest to trudne i wielowymiarowe zadanie, zadanie zawsze "niedokończone", coraz bardziej opierające się na różnego rodzaju eksperymentach. 22
Ocena jakości klasyfikacji Model predykcyjny Separacja klas Korelacja rangowa Mariusz Gromada, MathSpace.PL 23
Prawdopodobieństwo a-priori cecha populacji a-priori Liczba obiektów z klasy faktycznie pozytywnej P(1) = # klasa = 1 # klasa = 1 lub klasa = 0 Łączna liczba obiektów 24
Przypadek 1 brak separacji klas Prawdopodobieństwo w przedziale P 1 q = # klasa = 1 q q # q q Prawdopodobieństwo w przedziale Zwielokrotnienie prawdopodobieństwa Lift( q) = P(1 q) P(1) Prawdopodobieństwo w całej bazie 25
Przypadek 2 niska separacja klas Prawdopodobieństwo w przedziale P 1 q = # klasa = 1 q q # q q Prawdopodobieństwo w przedziale Zwielokrotnienie prawdopodobieństwa Lift( q) = P(1 q) P(1) Prawdopodobieństwo w całej bazie 26
Przypadek 3 wysoka separacja klas Prawdopodobieństwo w przedziale P 1 q = # klasa = 1 q q # q q Prawdopodobieństwo w przedziale Zwielokrotnienie prawdopodobieństwa Lift( q) = P(1 q) P(1) Prawdopodobieństwo w całej bazie 27
Przypadek 4 maksymalna separacja klas Prawdopodobieństwo w przedziale P 1 q = # klasa = 1 q q # q q Prawdopodobieństwo w przedziale Zwielokrotnienie prawdopodobieństwa Lift( q) = P(1 q) P(1) Prawdopodobieństwo w całej bazie 28
Przypadek 5 ujemna separacja klas Prawdopodobieństwo w przedziale P 1 q = # klasa = 1 q q # q q Prawdopodobieństwo w przedziale Zwielokrotnienie prawdopodobieństwa Lift( q) = P(1 q) P(1) Prawdopodobieństwo w całej bazie 29
Zatem model predykcyjny to zmiana porządku Analogia: Siła modelu jako siła podmuchu wiatru 30
Krzywa zysku (Gain Curve, Captured Response, TPR) 31
Krzywa Lift 32
Krzywa ROC i wskaźnik Giniego Mariusz Gromada, MathSpace.PL 33
Krzywa ROC - Receiver Operating Characteristic W statystyce matematycznej krzywa ROC jest graficzną reprezentacją efektywności modelu predykcyjnego. ROC to wykreślenie charakterystyki jakościowej klasyfikatorów binarnych powstałych z modelu przy zastosowaniu wielu różnych punktów odcięcia. ROC = 1 TNR TPR 34
Krzywa ROC - Receiver Operating Characteristic Klasyfikator idealny to maksymalne pokrycie klasy faktycznie pozytywnej przy jednocześnie zerowym błędzie na klasie faktycznie negatywnej: TPR = 100%, FPR = 0% = 100% - TNR. Inaczej czułość = 100%, specyficzność = 100%. Klasyfikatory losowe to punkty leżące na prostej TPR = FPR. Jak zawsze chodzi o pewien kompromis, tzn. dobierając "cut-off" chcemy maksymalizować TPR "trzymając w ryzach" błąd FPR. 35
AUROC Area Under ROC AUROC Area Under ROC 0 AUROC 1 AUROC - p-ństwo, że ocena losowo wybranego elementy z klasy 1 będzie wyższa niż ocena losowo wybranego obiektu z klasy 0. AUROC = 1 dla modelu teoretycznie idealnego AUROC = ½ dla modelu losowego (rzut monetą?) 36
Wskaźnik Giniego na bazie ROC 0 Gini 1 Gini - % idealności: modelu. Gini = 1 dla modelu teoretycznie idealnego. Gini = 0 dla modelu losowego 37
Krzywa Zysku (TPR, Captured Response) = ROC x apriori 38
Wskaźnik Giniego na bazie Krzywej zysku 39
Modele teoretycznie idealne Mariusz Gromada, MathSpace.PL 40
Model teoretycznie idealny a prawdopodobieństwo a-priori Model teoretycznie idealny to taki model, który daje najlepsze możliwe uporządkowanie - inaczej mówiąc najlepszą możliwą separację klas. Taki model nie myli się przy założeniu, że punkt odcięcia odpowiada prawdopodobieństwu a-priori. Wtedy faktycznie cała klasa pozytywna jest po jednej stronie, a cała klasa negatywna po drugiej stronie punktu cut-off. 41
Model teoretycznie idealny również popełnia błąd Przy każdym innym cut-off model teoretycznie idealny popełnia mniejszy lub większy błąd. 42
Model teoretycznie idealny i Przestrzeń na model Krzywa zysku / Captured Response / TPR 43
Model teoretycznie idealny i Przestrzeń na model Krzywa zysku / Captured Response / TPR 44
Model teoretycznie idealny i Przestrzeń na model Krzywa ROC 45
Model teoretycznie idealny i Przestrzeń na model Lift / prawdopodobieństwo nieskumulowane 46
Model teoretycznie idealny i Przestrzeń na model Lift / prawdopodobieństwo skumulowane 47
Cykl Ocena jakości klasyfikacji na blogu MathSpace.pl zapraszam Mariusz Gromada, MathSpace.PL 48
Cykl Ocena jakości klasyfikacji MathSpace.pl 1. Confusion matrix, Macierz błędu 2. Zasięg (TPR - czułość / TNR - specyficzność) i precyzja (PPV / NPV) 3. Model predykcyjny i punkt odcięcia (cut-off point) 4. Model predykcyjny i siła separacji klas 5. Strategie doboru punktów odcięcia 6. Skumulowane miary siły modelu predykcyjnego 7. Receiver Operating Characteristic - Krzywa ROC 8. TPR = ROC x apriori 9. Analiza estymacji prawdopodobieństwa 10.Model teoretycznie idealny 11.TPR vs Lift 12.Wskaźnik Giniego na bazie TPR 13.Lift nieskumulowany jako gęstość, TPR jako dystrybuanta 14.Wskaźnik KS na bazie TPR 15.Dwie klasy, ale jeden wskaźnik Giniego 16."Sympatyczny" punkt przecięcia 17.PPV i FDR na bazie TPR 18.TPR i FNR na bazie Liftu Skumulowanego 19.Wskaźnik Giniego na bazie wartości oczekiwanej 49
Dziękuję za uwagę Mariusz Gromada, MathSpace.PL 50