Odczarowujemy modele predykcyjne Teoria i Praktyka

Podobne dokumenty
Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Indukowane Reguły Decyzyjne I. Wykład 8

StatSoft profesjonalny partner w zakresie analizy danych

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

9. Praktyczna ocena jakości klasyfikacji

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Scoring kredytowy w pigułce

Analiza danych. TEMATYKA PRZEDMIOTU

Baza dla predykcji medycznej

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Narzędzia IT we współczesnych strategiach utrzymaniowych

166 Wstęp do statystyki matematycznej

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Metody scoringowe w regresji logistycznej

Spis treści 3 SPIS TREŚCI

10/15/2016. Reguła. Czułość PV(+) Bayesa. Swoistość PV(-)

Skuteczna operacjonalizacja środowiska analitycznego

Jak wybrać 45 najlepszych. prezentacji na FORUM?

Testowanie hipotez statystycznych

Miary jakości w Call Center

Statystyka opisowa. Robert Pietrzykowski.

Ocena dokładności diagnozy

Biznes plan innowacyjnego przedsięwzięcia

Krzywe ROC i inne techniki oceny jakości klasyfikatorów

Data Mining Wykład 4. Plan wykładu

Wykorzystanie i monitorowanie scoringu

Statystyka matematyczna dla leśników

Systemy uczące się wykład 2

PRAKTYCZNY SKORING - NIE TYLKO KREDYTOWY

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Konstrukcja miernika szans na bankructwo firmy

z wyszczególnieniem usług automatyzacji procesów mgr inż. Adam Smółkowski mgr inż. Marcin Wójciuk Aspartus (Grupa ProService FINTECO)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Analiza Popytu. Metody analizy rynku produktowego

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

3. Modele tendencji czasowej w prognozowaniu

Sposoby prezentacji problemów w statystyce

Algorytmy klasyfikacji

Statystyka i Analiza Danych

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną

Model Matematyczny Call Center

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

STATYSTYKA MATEMATYCZNA

Proces i narzędzia analizy potencjału wybranych obszarów rynku farmaceutycznego

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

TRENING KOMPETENCJI MENEDŻERSKICH

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

PRZEWODNIK PO PRZEDMIOCIE

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Digital Analytics vs Business Analytics Jak łączyć by osiągnąć maksimum korzyści? Maciej Gałecki

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Z poprzedniego wykładu

Zarządzanie sprzedażą Doradztwo strategiczne Restrukturyzacje

Zintegrowane Systemy Informatyczne analiza, projektowanie, wdrażanie

Imię, nazwisko i tytuł/stopień KOORDYNATORA przedmiotu zatwierdzającego protokoły w systemie USOS Jacek Marcinkiewicz, dr

Analityka predykcyjna w marketingu i sprzedaży

Analiza współzależności dwóch cech I

Analiza składowych głównych. Wprowadzenie

Statystyka matematyczna i ekonometria

Po co w ogóle prognozujemy?

STATISTICA DECISIONING PLATFORM, CZYLI JAK PODEJMOWAĆ DECYZJE W EPOCE BIG DATA

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Odzyskać pożyczone. Przyjrzyjmy się praktycznym aspektom modelowania ryzyka kredytowego. Grzegorz Migut StatSoft Polska sp. z o.o., Dział Konsultingu

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Wprowadzenie do uczenia maszynowego

Co matematyka może dać bankowi?

Optymalizacja Automatycznych Testów Regresywnych

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Wprowadzenie do analizy korelacji i regresji

Walidacja metod wykrywania, identyfikacji i ilościowego oznaczania GMO. Magdalena Żurawska-Zajfert Laboratorium Kontroli GMO IHAR-PIB

Statystyczna analiza Danych

SYSTEMY WCZESNEGO OSTRZEGANIA W BIZNESIE

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka I. Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy)

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Modelowanie glikemii w procesie insulinoterapii

Jak długo żyją spółki na polskiej giełdzie? Zastosowanie statystycznej analizy przeżycia do modelowania upadłości przedsiębiorstw

Nadajemy pracy sens. Raport Zbiorczy ANALIZA RENTOWNOŚCI. Klient / Klient testowy

Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2010/2011

Statystyka Matematyczna Anna Janicka

Wykład ze statystyki. Maciej Wolny

Pobieranie prób i rozkład z próby

Jakość procedury klasyfikacyjnej:

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Zarządzanie ryzykiem finansowym

Regresja liniowa wprowadzenie

Transkrypt:

Odczarowujemy modele predykcyjne Teoria i Praktyka Mariusz Gromada, MathSpace.PL mariuszgromada.org@gmail.com 1

Kilka słów o mnie 1999 2004 Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych Kierunek: Matematyka 2008 2009 Uniwersytet Warszawski Wydział Nauk Ekonomicznych Kierunek: Metody Statystyczne w Biznesie 2003 2014 Departament Business Intelligence Kierownik Zespołu Analiz Data Mining, Architekt Rozwiązań BI, Analityk 2014 Departament Zarządzania Kampaniami Kierownik Zespołu Analitycznego Wsparcia Kampanii 2

hobby / projekty / publikacje http://mathparser.org 3

Agenda O czym będę mówił, a o czym mówił nie będę Analityka Predykcyjna Model Predykcyjny Confusion Matrix / Macierz błędu Strategie doboru punktu odcięcia Ocena jakości klasyfikacji Krzywa zysku Krzywa Lift Krzywa ROC i wskaźnik Giniego Krzywa Zysku vs ROC - równoważność? Modele teoretycznie idealne Dalsze materiały - Ocena jakości klasyfikacji - MathSpace.pl 4

O czym będę mówił, a o czym mówił nie będę Przedstawię najczęstsze obszary wykorzystania modeli predykcyjnych w procesach biznesowych (na styku z Klientem), nie będę omawiał całej gamy możliwości płynących z analityki predykcyjnej. Przybliżę szereg intuicji związanych z problemem klasyfikacji binarnej, nie będę omawiał algorytmów, technik i narzędzi służących do budowy modeli. Podzielę się własnym doświadczeniem z zakresu oceny jakości klasyfikacji, nawiążę do kwestii teoretycznych i praktycznych, pomijając obszar weryfikacji założeń wstępnych niezbędnych (w teorii) do zastosowania danej metody (abstrahujemy od metody). Materiał w dużej mierze oparty na tekstach, które opublikowałem w okresie 2015 2017 pod adresem: http://mathspace.pl/tag/ocena-jakosci-klasyfikacji/ 5

Analityka Predykcyjna Mariusz Gromada, MathSpace.PL 6

Analityka predykcyjna Analityka predykcyjna to analiza bieżących lub historycznych faktów w celu dokonania predykcji co do przyszłych zdarzeń lub zdarzeń nieznanych (np. scenariusze what-if ). W zastosowaniach biznesowych najczęściej poszukuje się trendów / wzorców w danych historycznych i transakcyjnych w celu identyfikacji szans i ryzyk. Analityka predykcyjna jest częścią szerszej gałęzi metod wydobywania wiedzy z danych zwanej Data Mining. Podstawowym narzędziem stosowanym w analityce predykcyjnej jest statystyczny model predykcyjny często nazywany modelem scoringowym. 7

Analityka predykcyjna vs Statystyka matematyczna Niskie ryzyko / niski potencjał Analityka Predykcyjna Statystyka Analityka Predykcyjna Wysokie ryzyko / Wysoki potencjał 8

Analityka predykcyjna w zastosowaniach biznesowych!!! tylko najważniejsze obszary, z którymi faktycznie pracowałem!!! Pozyskanie klienta Modele oceny ryzyka kredytowego Modele ryzyka nadużyć CRM głównie x-sell Modele skłonności do zakupu produktu Modele up-lift (wpływ inkrementalny komunikacji marketingowej) Modele oceny ryzyka kredytowego Modele churn (modele atrycji) Systemy rekomendacji Wartości oczekiwane - plany sprzedażowe / cele sprzedażowe SNA Social Network Analysis Windykacja Prognoza optymalnej ścieżki windykacyjnej 9

Model Predykcyjny Mariusz Gromada, MathSpace.PL 2017-04-25 rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora. 10

Model predykcyjny podstawowe pojęcia Model statystyczny to reguła wiążąca zmienne objaśniające ze zmienną objaśnianą. Przykład - jeśli chcemy wyjaśnić zależność wagi ciała od wzrostu i płci to waga nazywana jest zmienną objaśnianą (zmienną celu lub targetem) natomiast wzrost i płeć stanowią zmienne objaśniające (predyktory). Podstawową własnością modelu jest jakość modelu, na którą składają się dwa główne czynniki: błąd przewidywań modelu (bezpośredni wpływ na efekty wykorzystania modelu) stabilność modelu w czasie (wpływ na możliwość wykorzystania modelu w dłuższym horyzoncie czasowym) Jakość / interpretowalność współczynników modelu, choć ważna, to w zastosowaniach biznesowych często stanowi jedynie dodatkowy element. Modele bezbłędne w praktyce nie są możliwe do skonstruowania i z tego też powodu nazywane są teoretycznymi modelami idealnymi. 11

Model predykcyjny i Problem klasyfikacji binarnej - identyfikacja szans i ryzyk Szansa / Ryzyko czyli to czego szukamy (np. szansa - klient skłonny do skorzystania z oferty, ryzyko potencjalny fraud) Model budowany jest na binarnej zmiennej celu (złożonej z dwóch klas): Klasa 1 (TAK - pozytywna) stan faktyczny pozytywny (np. klient skorzystał z oferty, klient dokonał nadużycia) Klasa 0 (NIE - negatywna) stan faktyczny negatywny W tym przypadku model predykcyjny szacuje prawdopodobieństwo wystąpienia szansy / ryzyka zwracana jest wartość ciągła. X - przestrzeń obiektów (np. baza Klientów) p 1 x : X [0,1] model Klasyfikacja do jednej z powyższych klas odbywa się za pomocą ustalonego punktu decyzji (punkt odcięcia, cut-off) i niesie za sobą 4 możliwe decyzje. 12

Confusion Matrix / Macierz błędu Precyzja wskazania pozytywnego Precyzja wskazania negatywnego Czułość Zasięg / pokrycie klasy faktycznie pozytywnej Specyficzność Zasięg / pokrycie klasy faktycznie negatywnej 13

Confusion Matrix Optymalizacja Medyczny test przesiewowy PPV niekoniecznie duże Potencjalnie chorych kierujemy do dalszej diagnostyki Czułość wysoka False-Negative kosztuje życie Chcemy wyłapać możliwie wszystkich chorych Bardzo wysokie NPV Odsiewamy zdrowych Specyficzność mniejsza False-Positive kosztuje mniej Kierujemy tylko do dalszej diagnostyki 14

Confusion Matrix Optymalizacja Medyczny test diagnostyczny PPV bardzo duże Musimy wiedzieć, że (i co) trzeba leczyć Bardzo wysokie NPV Musimy mieć pewność, że leczenie jest zbędne Czułość wysoka Wykrywamy niemal wszystkich chorych Specyficzność wysoka Wychwytujemy niemal wszystkich zdrowych 15

Model + Confusion Matrix + Cut-off 16

Cut-off: Niska, średnia, wysoka skłonność 17

Dobór punktu cut-off Mariusz Gromada, MathSpace.PL 2017-04-25 rozpowszechnianie, przeniesienie na osoby trzecie wymaga zgody autora. 18

Strategie doboru punktu odcięcia Strategie, z którymi miałem do czynienia w pracy zawodowej Całkowicie biznesowa - metoda najprostsza, nadal popularna, jednak coraz rzadziej stosowana. Wyłącznie analityczna - rzadko stosowane w biznesie, częściej widoczna pracach / badaniach naukowych. Hybryda powyższych - wariant dziś preferowany przez różne jednostki CRM. 19

Dobór całkowicie biznesowy Nadal częsta praktyka, która przy wnikliwej analizie okazuje się nie być najbardziej optymalną. Dobór punktu odcięcia jest pochodną zasobów (np. dostępność / pojemność kanałów komunikacji). Przykład: współpracujemy z Call Center, które miesięcznie może zadzwonić do 100 tys. Klientów. W takiej sytuacji dosyć naturalnie powstaje potrzeba wybrania "100 tys. najlepszych Klientów" (najlepszych do danej akcji). Model predykcyjny posłuży więc do "posortowania" Klientów, a punkt odcięcia będzie zależny od wskazanej oczekiwanej liczby 100 tys. Problem ze strategią całkowicie biznesową polega na tym, że "najlepszy" mylony jest z "dobry". Dodatkowo zdarza się, że siła modelu jest błędnie interpretowana jako zdolność do znalezienie większej liczby "dobrych" klientów - w rzeczywistości jest na odwrót - im lepszy model, tym mniejsze optymalne bazy. Równie istotna kwestia to skąd się właściwie wzięła liczba 100 tys.? 20

Dobór wyłącznie analityczny Dobór wyłącznie analityczny polega na optymalizacji błędów klasyfikacji. W nieco bardziej zgeneralizowanym podejściu optymalizuje się funkcję kosztu błędów (najczęściej jeśli koszty są mocno asymetryczne). Podejście analityczne jest zupełnie poprawna i uzasadnione, jednak w biznesie prawie nieobecne ze względu na brak uwzględnionego aspektu celu biznesowego, priorytetów, zasobów, itp. 21

Dobór analityczno-biznesowy Dobór analityczno-biznesowy najlepiej sprawdza się w sytuacji analizy szerszego portfela produktów (tzn. bazy i cut-off y dobierane do różnych działań stanowią element realizacji szerszej polityki CRM). Zaczynamy od celów biznesowych, priorytetów, analizy zasobów, pojemności kanałów. Następnie weryfikujemy Klientów, ich potrzeby w kontekście możliwie wielu produktów. Ostatecznie - w wyniku kilku iteracji - dążymy do "zmapowania" segmentów Klientów na cele i zasoby, zawsze koniecznie modyfikując obie strony równania. Jest to trudne i wielowymiarowe zadanie, zadanie zawsze "niedokończone", coraz bardziej opierające się na różnego rodzaju eksperymentach. 22

Ocena jakości klasyfikacji Model predykcyjny Separacja klas Korelacja rangowa Mariusz Gromada, MathSpace.PL 23

Prawdopodobieństwo a-priori cecha populacji a-priori Liczba obiektów z klasy faktycznie pozytywnej P(1) = # klasa = 1 # klasa = 1 lub klasa = 0 Łączna liczba obiektów 24

Przypadek 1 brak separacji klas Prawdopodobieństwo w przedziale P 1 q = # klasa = 1 q q # q q Prawdopodobieństwo w przedziale Zwielokrotnienie prawdopodobieństwa Lift( q) = P(1 q) P(1) Prawdopodobieństwo w całej bazie 25

Przypadek 2 niska separacja klas Prawdopodobieństwo w przedziale P 1 q = # klasa = 1 q q # q q Prawdopodobieństwo w przedziale Zwielokrotnienie prawdopodobieństwa Lift( q) = P(1 q) P(1) Prawdopodobieństwo w całej bazie 26

Przypadek 3 wysoka separacja klas Prawdopodobieństwo w przedziale P 1 q = # klasa = 1 q q # q q Prawdopodobieństwo w przedziale Zwielokrotnienie prawdopodobieństwa Lift( q) = P(1 q) P(1) Prawdopodobieństwo w całej bazie 27

Przypadek 4 maksymalna separacja klas Prawdopodobieństwo w przedziale P 1 q = # klasa = 1 q q # q q Prawdopodobieństwo w przedziale Zwielokrotnienie prawdopodobieństwa Lift( q) = P(1 q) P(1) Prawdopodobieństwo w całej bazie 28

Przypadek 5 ujemna separacja klas Prawdopodobieństwo w przedziale P 1 q = # klasa = 1 q q # q q Prawdopodobieństwo w przedziale Zwielokrotnienie prawdopodobieństwa Lift( q) = P(1 q) P(1) Prawdopodobieństwo w całej bazie 29

Zatem model predykcyjny to zmiana porządku Analogia: Siła modelu jako siła podmuchu wiatru 30

Krzywa zysku (Gain Curve, Captured Response, TPR) 31

Krzywa Lift 32

Krzywa ROC i wskaźnik Giniego Mariusz Gromada, MathSpace.PL 33

Krzywa ROC - Receiver Operating Characteristic W statystyce matematycznej krzywa ROC jest graficzną reprezentacją efektywności modelu predykcyjnego. ROC to wykreślenie charakterystyki jakościowej klasyfikatorów binarnych powstałych z modelu przy zastosowaniu wielu różnych punktów odcięcia. ROC = 1 TNR TPR 34

Krzywa ROC - Receiver Operating Characteristic Klasyfikator idealny to maksymalne pokrycie klasy faktycznie pozytywnej przy jednocześnie zerowym błędzie na klasie faktycznie negatywnej: TPR = 100%, FPR = 0% = 100% - TNR. Inaczej czułość = 100%, specyficzność = 100%. Klasyfikatory losowe to punkty leżące na prostej TPR = FPR. Jak zawsze chodzi o pewien kompromis, tzn. dobierając "cut-off" chcemy maksymalizować TPR "trzymając w ryzach" błąd FPR. 35

AUROC Area Under ROC AUROC Area Under ROC 0 AUROC 1 AUROC - p-ństwo, że ocena losowo wybranego elementy z klasy 1 będzie wyższa niż ocena losowo wybranego obiektu z klasy 0. AUROC = 1 dla modelu teoretycznie idealnego AUROC = ½ dla modelu losowego (rzut monetą?) 36

Wskaźnik Giniego na bazie ROC 0 Gini 1 Gini - % idealności: modelu. Gini = 1 dla modelu teoretycznie idealnego. Gini = 0 dla modelu losowego 37

Krzywa Zysku (TPR, Captured Response) = ROC x apriori 38

Wskaźnik Giniego na bazie Krzywej zysku 39

Modele teoretycznie idealne Mariusz Gromada, MathSpace.PL 40

Model teoretycznie idealny a prawdopodobieństwo a-priori Model teoretycznie idealny to taki model, który daje najlepsze możliwe uporządkowanie - inaczej mówiąc najlepszą możliwą separację klas. Taki model nie myli się przy założeniu, że punkt odcięcia odpowiada prawdopodobieństwu a-priori. Wtedy faktycznie cała klasa pozytywna jest po jednej stronie, a cała klasa negatywna po drugiej stronie punktu cut-off. 41

Model teoretycznie idealny również popełnia błąd Przy każdym innym cut-off model teoretycznie idealny popełnia mniejszy lub większy błąd. 42

Model teoretycznie idealny i Przestrzeń na model Krzywa zysku / Captured Response / TPR 43

Model teoretycznie idealny i Przestrzeń na model Krzywa zysku / Captured Response / TPR 44

Model teoretycznie idealny i Przestrzeń na model Krzywa ROC 45

Model teoretycznie idealny i Przestrzeń na model Lift / prawdopodobieństwo nieskumulowane 46

Model teoretycznie idealny i Przestrzeń na model Lift / prawdopodobieństwo skumulowane 47

Cykl Ocena jakości klasyfikacji na blogu MathSpace.pl zapraszam Mariusz Gromada, MathSpace.PL 48

Cykl Ocena jakości klasyfikacji MathSpace.pl 1. Confusion matrix, Macierz błędu 2. Zasięg (TPR - czułość / TNR - specyficzność) i precyzja (PPV / NPV) 3. Model predykcyjny i punkt odcięcia (cut-off point) 4. Model predykcyjny i siła separacji klas 5. Strategie doboru punktów odcięcia 6. Skumulowane miary siły modelu predykcyjnego 7. Receiver Operating Characteristic - Krzywa ROC 8. TPR = ROC x apriori 9. Analiza estymacji prawdopodobieństwa 10.Model teoretycznie idealny 11.TPR vs Lift 12.Wskaźnik Giniego na bazie TPR 13.Lift nieskumulowany jako gęstość, TPR jako dystrybuanta 14.Wskaźnik KS na bazie TPR 15.Dwie klasy, ale jeden wskaźnik Giniego 16."Sympatyczny" punkt przecięcia 17.PPV i FDR na bazie TPR 18.TPR i FNR na bazie Liftu Skumulowanego 19.Wskaźnik Giniego na bazie wartości oczekiwanej 49

Dziękuję za uwagę Mariusz Gromada, MathSpace.PL 50