Wst p 1 Wprowadzenie do systemów decyzyjnych Elementy systemów decyzyjnych Sprawy organizacyjne 2 Problem klasykacji i klasykatory Wprowadzenie Przegl d metod klasykacji 3 Metody oceny klasykatorów Skuteczno± predykcji Przedziaª ufno±ci miar ocen Metody walidacji danych Krzywy Lift i ROC H.S. Nguyen (MIM UW) SYD 30 listopada 2017 29 / 297
Problem klasykacji Zaªo»enie: Dany jest sko«czony zbiór obiektów T = {x 1,..., x n }. Ten zbiór nazywamy zbiorem treningowym Ka»dy obiekt (rekord) jest opisany wektorem informacyjnym, skªadaj cym si z warto±ci pochodz cych z dziedziny pewnych atrybutów warunkowych. Wyró»niony jest jeden atrybut, zwany te» atrybutem decyzyjnym x i ( x i 1,..., x ik, d i ) Cel: wyznaczy klas decyzyjn, do której nale»y nowy nieznany dot d obiekt. Jak? Znale¹ zale»no± (najlepiej funkcyjn ) mi dzy atrybutem decyzyjnym a atrybutami warunkowymi. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 30 / 297
Dwuetapowy proces klasykacji 1 Tworzenie modelu: opisywanie klas decyzyjnych Klasa decyzyjna = zbiór obiektów maj cych tak sam warto± na atrybucie decyzyjnym Klasykator: algorytm okre±lenia klasy decyzyjnej obiektów za pomoc ich warto±ci na atrybutach warunkowych. Klasykatory mog by opisane za pomoc formuª logicznych, drzew decyzyjnych lub formuª matematycznych. 2 Korzystanie z modelu do przypisanie nowym nieznanym obiektom ich klasy decyzyjne. Problem: Jak ocenia model? H.S. Nguyen (MIM UW) SYD 30 listopada 2017 31 / 297
Systemy wspomagaj ce podejmowania decyzji - DSS Wiele problemów decyzyjnych mo»na opisa jako problem klasykacji DSS (Decision Support System) jest systemem komputerowym dostarczaj cym narz dzia do rozwi zywania problemów klasykacji. Wej±cie: Zbiór treningowy Wyj±cie: Klasykator(y) Wymagania: Szybko± podejmowania decyzji, skalowalno± Skuteczno± Racjonalno± Mo»liwo± wspóªpracy z ekspertem: doradztwo, adaptacja, negocjacja, adopcja wiedzy eksperskiej,... H.S. Nguyen (MIM UW) SYD 30 listopada 2017 32 / 297
Schemat 10 Tid Refund Marital Status Taxable Income Class 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Zbiór treningowy Uczenie klasyfikatorów Model Zbiór testowy Klasyfikacja/ Podejmowanie decyzji H.S. Nguyen (MIM UW) SYD 30 listopada 2017 33 / 297
Podziaª metod klasykacji H.S. Nguyen (MIM UW) SYD 30 listopada 2017 34 / 297
Metody oparte o przykªady (Instance-Based Methods) S to metody leniwej klasykacji, które opó¹niaj proces przetwarzania danych a» do momentu kiedy pojawi si nowy obiekt do klasykowania Typowe metody: k-nearest neighbor approach Przykªady treningowe s przedstawione jako punkty w metrycznej przestrzeni. Locally weighted regression Konstruuje lokalne aproksymacje poj Case-based reasoning Korzysta z symbolicznych reprezentacji i metod wnioskowania w oparciu o baz wiedzy H.S. Nguyen (MIM UW) SYD 30 listopada 2017 35 / 297
Algorytm knn algorytm najbli»szych s siadów Input: Tablica decyzyjna D, nowy obiekt x q Output: Klasa decyzyjna, do której nale»y x q (czyli Dec(x q )) Krok 1: Szukaj w zbiorze D, k najbli»ej poªo»onych obiektów R(x q ) = {x 1, x 2,..., x k } Krok 2: Wyznacz klas dla x q na podstawie Dec(x 1 ), Dec(x 2 ),..., Dec(x k ) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 36 / 297
Algorytm knn Najcz ±ciej wykorzystany dla danych z atrybutami numerycznymi Wymagania: Zbiór treningowy Funkcja odlegªo±ci mi dzy obiektami Warto± parametru k, liczba rozpatrywanych s siadów Podczas klasykacji: Wyznaczanie k najbli»szych s siadów Wyznaczenie klasy decyzyjnej nowego obiektu na podstawie klas decyzyjnych najbli»szych s siadów (np. przez gªosowanie). H.S. Nguyen (MIM UW) SYD 30 listopada 2017 37 / 297
Metoda knn: uwagi Jest to przykªad metody leniwej, gdy» Nie buduje jawnego modelu wiedzy Proces klasykacji mo»e by czasochªonny Je±li k jest za maªa, klasykator b dzie wra»liwa na drobne szumy w danych Je±li k jest zbyt du»a: Wysoka zªo»ono± obliczeniowa Otoczenia mog zawiera obiekty z innych klas Algorytm k-nn dla ci gªej decyzji Wystarczy obliczy ±redni z decyzji najbli»szych s siadów H.S. Nguyen (MIM UW) SYD 30 listopada 2017 38 / 297
Metoda knn: Problemy z funkcj odlegªo±ci Problem skalowania atrybutów Np. opis czªowieka: (Wzrost [m], Waga [kg], Klasa) Wzrost odchyla si od 1.5 m do 1.85 m Waga mo»e mie warto± od 45 kg do 120 kg Odlegªo± euklidesowa jest bardziej wra»liwa na ró»nic wag ni» ró»nic wzrostu. Przekle«stwo wymiarów Mo»e produkowa wyniki niezgodne z intuicj (np. klasykacji dokumentów) Rozwi zanie: Normalizacja S siedzi wa»eni wzgl dem odlegªo±c Wpªyw s siada x i na obiekt testowy x q jest wa»ony przez 1 w i = d 2 (x q, x i ) Bli»si s siedzi maj wi kszy wpªyw H.S. Nguyen (MIM UW) SYD 30 listopada 2017 39 / 297
Twierdzenie Bayesa Dany jest zbiór treningowy D, prawdopodobie«stwo posteriori hipotezy h P(h D) mo»na liczy wzorem Bayesa. P(h D) = P(D h)p(h) P(D) MAP (maximum posteriori) hypothesis h MAP = arg max P(h D) = arg max P(D h)p(h) h H h H Trudno±ci: ta metoda wymaga znajomo±ci wielu rozkªadów prawdopodobie«stw = wysoki koszt obliczeniowy H.S. Nguyen (MIM UW) SYD 30 listopada 2017 40 / 297
Klasykatory Bayesa Klasykacja obiektu opisanego przez x P(dec = c x) = P(x dec = c) P(dec = c) P(x) P(x) jest wspólna dla wszystkich hipotez; P(dec = c) cz sto± wyst powania klasy c; Znale¹ c tak,»e P(dec = c x) byªo maksymalne, czyli, aby P(x dec = c) P(dec = c) byªo maksymalne; Problem: obliczenie P(x dec = c) jest czasochªonne! H.S. Nguyen (MIM UW) SYD 30 listopada 2017 41 / 297
Klasykatory Naive Bayes" Naiwne zaªo»enie: atrybuty s warunkowo niezale»ne! Wówczas P(x 1,..., x k C) = P(x 1 C)... P(x k C) Czyli P(dec = c x) P(dec = c) k P(x i dec = c) i=1 To zaªo»enie znacznie obni»a zªo»ono± obliczeniowy. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 42 / 297
Przykªad Nowy obiekt x = rain, hot, high, false P(X p)p(p) = P(rain p)p(hot p)p(high p)p(false p)p(p) = 0.010582 P(X n)p(n) = P(rain n)p(hot n)p(high n)p(false n)p(n) = 0.018286 X jest klasykowany do klasy n (donñt play) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 43 / 297
Sieci Bayesowskie Zaªo»enie o niezale»no±ci:... powoduje,»e obliczenia staje si mo»liwe... optymalny klasykator o ile ono jest prawdziwe... ale warunek bardzo rzadko speªniony w praktyce (atrybuty s cz sto korelowane). Próby pokonania te ograniczenia: Sieci Bayesowskie, które ª cz metody wnioskowania Bayesowskiego z zale»no±ciami mi dzy atrybutami Drzewa decyzyjne, które przeprowadzaj dedukcyjne kroki na pojedy«czych atrybutach, pocz wszy od najwa»niejszego H.S. Nguyen (MIM UW) SYD 30 listopada 2017 44 / 297
Sieci Bayesowskie Sieci Bayesowskie dopuszczaj warunkow niezale»no± podzbiorów zmiennych. Jest to graczny model zale»no±ci przyczynowo-skutkowych Naive Bayes jest szczególnym przypadkiem sieci Bayesowskiej (jakim?) Problemy zwi zane uczeniem sieci Bayesowskich: Prypadek najªatwiejszy: zarówno struktura sieci, jak i wszystkie zmienne s znane. Znana jest struktura, ale brakuje rozkªadów zmiennych. Nawet struktura sieci nie jest z góry zadana. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 45 / 297
Przykªad Ogólna formuªa P(x 1,..., x k C) = k i=1 P(x i parent(x i ), C) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 46 / 297
Wst p 1 Wprowadzenie do systemów decyzyjnych Elementy systemów decyzyjnych Sprawy organizacyjne 2 Problem klasykacji i klasykatory Wprowadzenie Przegl d metod klasykacji 3 Metody oceny klasykatorów Skuteczno± predykcji Przedziaª ufno±ci miar ocen Metody walidacji danych Krzywy Lift i ROC H.S. Nguyen (MIM UW) SYD 30 listopada 2017 47 / 297
Bª d klasykacji Bª d klasykacji = liczba bª dów liczba obiektów testowych gdzie: Sukces: gdy obiekt jest prawidªowo klasykowany Bª d: gdy obiekt jest ¹le klasykowany Bª d klasykacji (lub odsetka bª dów podczas klasykacji) powinien by wyznaczony na losowych i nieznanych danych. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 48 / 297
Macierz bª du (ang. confusion matrix) S dwa rodzaje bª du: W systemach ucz cych si : minimalizujemy FP+FN lub miar skuteczno±ci (ang. Accuracy) (ACC): ACC = (TP + TN)/(TP + FP + TN + FN) W marketingu: maksymalizujemy TP. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 49 / 297
Proces klasykacji Podziaª zbioru danych na cz ± treningow i testow ; Uczenie lub poszukiwanie modelu Ocena klasykatora H.S. Nguyen (MIM UW) SYD 30 listopada 2017 50 / 297
Problem strojenia parametrów Niektóre metody uczenia dziaªaj w dwóch etapach: Etap 1: Buduje struktur Etap 2: Optymalizuje parametry Uwaga: Nie u»ywaj danych testowych do budowy klasykatorów! Wªa±ciwa procedura powinna zawiera 3 zbiory: treningowe, walidacyjne i testowe Dane walidacyjne u»ywane s do optymalizacji parametrów H.S. Nguyen (MIM UW) SYD 30 listopada 2017 51 / 297
Klasykacja: Zbiory treningowe, walidacyjne i testowe H.S. Nguyen (MIM UW) SYD 30 listopada 2017 52 / 297
Przedziaª ufno±ci Przykªad: S = 750 sukcesów w N = 1000 próbach Estymowana skuteczno± : 75% Jak bliska jest ta estymacja do prawdziwej skuteczno±ci p? Odp: z 80% pewno±ci mo»emy twierdzi,»e p [73.2, 76.7] Inny przykªad: S=75 i N=100 Estymowana skuteczno± : 75%; p [69.1, 80.1] z 80% pewno±ci. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 53 / 297
Przypomnienia ze statystyki Rozpatrujemy rozkªad Bernoulliego: p, p(1 p) Oczekiwany odsetek sukcesu w N próbach: f = S/N Warto± oczekiwana i wariancja dla f : p, p(1 p)/n Dla du»ych N, zm.l. f ma rozkªad zbli»ony do rozkªadu normalnego; [z X z] nazywamy przedziaªem ufno±ci na poziomie c% dla zm.l. X o zerowej warto±ci oczekiwanej wtw: P[ z X z] = c Dla rozkªadu symetrycznego mamy: P[ z X z] = 1 2P[X z] H.S. Nguyen (MIM UW) SYD 30 listopada 2017 54 / 297
Granice ufno±ci H.S. Nguyen (MIM UW) SYD 30 listopada 2017 55 / 297
Granice ufno±ci dla rozkªadu Bernoulliego Warto± oczekiwana i wariancj dla f : p, p(1 p)/n Normalizacja zm. f : Mamy równanie na p: ( Pr z f p p(1 p)/n ) f p z = c p(1 p)/n Rozwi zanie dla p: p [p 1, p 2 ], gdzie p 1,2 = f + z2 2N ± z f N f 2 N + z2 4N 2 1 + z2 N H.S. Nguyen (MIM UW) SYD 30 listopada 2017 56 / 297
Jak korzysta maksymalnie z danych Ogólna zasada: Im wi kszy zbiór treningowy, tym lepszy jest klasykator Im wi kszy jest zbiór testowy, tym lepiej mo»na aproksymowa bª d klasykacji. Praktyczna rada: Kiedy proces oceniania si zako«czy, wszystkie dane mog by wykorzystywane do skonstruowania ostatecznego klasykatora H.S. Nguyen (MIM UW) SYD 30 listopada 2017 57 / 297
Walidacja krzy»owa (ang. CV = Cross-Validation) Walidacja krzy»owa nie pozwala na wielokrotne testowanie tego samego obiektu Krok 1: Podziaª zbioru danych na k równych podzbiorów Krok 2: Testowanie ka»dego podzbioru u»ywaj c pozostaªych jako zbiór treningowy To si nazywa k-cv = k-fold cross-validation Zwykle obiekty s przetasowane przed dokonaniem podziaªu. Bª dy wszystkich iteracji s u±rednione, aby otrzyma bª d globalny. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 58 / 297
Walidacja krzy»owa H.S. Nguyen (MIM UW) SYD 30 listopada 2017 59 / 297
Walidacja krzy»owa (c.d.) Standardowa metoda ocena klasykatorów: 10-krotna walidacja krzy»owa Liczba 10 zostaªa wyznaczona w wyniku wielu do±wiadcze«. Walidacja pozwala na zmniejszenie dªugo±ci przedziaªu ufno±ci Jeszcze lepsza metoda oszacowania parametrów: Walidacja z powtórzeniami! H.S. Nguyen (MIM UW) SYD 30 listopada 2017 60 / 297
Inne metody walidacji Leave-one-out: przypadek szczególny walidacji krzy»owej Liczba grup = liczba przykªadów Dla n obiektów budujemy klasykator n razy Najlepiej ocenia klasykatora Obliczeniowo kosztowna metoda (wyj tek: knn) Bootstraping: próbkuje ze zwracaniem,»eby stworzy ró»ne zbiory treningowe i testowe Próbkuje ze zwracaniem n razy Wybrane obiekty tworz zbiór treningowy Reszta Ž zbiór testowy. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 61 / 297
Inne miary ocen klasykatorów Miara sensitivity lub true positive rate (TPR) TPR = TP/(TP + FN) czasem nazywa si te» recall lub hit rate. Specicity (SPC) lub True Negative Rate SPC = TN/(FP + TN) false positive rate (FPR): FPR = FP/(FP + TN) = 1 FPC positive predictive value (PPV) lub precision: PPV = TP/(TP + FP) negative predictive value (NPV): NPV = TN/(TN + FN) false discovery rate (FDR): FDR = FP/(FP + TP) Matthew's correlation coecient (MCC) MCC = TP TN FP FN (TP + FN)(TP + FP)(FN + TN)(FP + TN) F1 score: F 1 = 2TP/[(TP + FN) + (TP + FP)] lub 1 1 F 1 = recall + 1 precision H.S. Nguyen (MIM UW) SYD 30 listopada 2017 62 / 297 2
Lista rankingowa H.S. Nguyen (MIM UW) SYD 30 listopada 2017 63 / 297
Wykres traenia (Gain chart) Funkcje p - parametr okre±laj cy pocz tek listy rankingowej CPH - (ang. Cumulative Percentage Hit) CPH(p) = cz ± klasy docelowej znajduj ca si wsród p% pierwszych obiektów z listy rankingowej. zysk (ang. lift): Lift(p) = CPH(p)/p Traenie lub true positive rate: TPR(p) = TP/(TP + FN) Odsetek faªszywych alarmów FPR(p) = FP/(FP + TN) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 64 / 297
Krzywy Wyró»nione krzywy Gain chart: Ox : p Oy : CPH(p) Lift chart: Ox : p Oy : Lift(p) ROC (receiver operating characteristic): Ox : FPR(p) Oy : TPR(p) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 65 / 297
Przykªad: krzywa CPH H.S. Nguyen (MIM UW) SYD 30 listopada 2017 66 / 297
Przykªad: krzywa Lift H.S. Nguyen (MIM UW) SYD 30 listopada 2017 67 / 297
Przykªad: krzywa ROC H.S. Nguyen (MIM UW) SYD 30 listopada 2017 68 / 297
Wªasno±ci krzywej ROC Krzywy ROC s podobne do wykresu pokrycia Jest to skrót od: žreceiver operating characteristic Pokazuje zale»no± mi dzy stopniem traenia a stopniem faªszywych alarmów Jednak ró»ni si od krzywy pokrycia (gain chart): O± Oy: pokazuje TP rate w danej próbce zamiast pokrycia: TPrate = TP/(TP + FN) O± Ox: pokazuje FP rate w danej próbce zamiast wielko±ci próbki FPrate = FP/(FP + TN) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 69 / 297