Indukowane Reguły Decyzyjne I. Wykład 8

Transkrypt

1 Indukowane Reguły Decyzyjne I Wykład 8

2 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne Istotność zmiennych 2

3 W trakcie budowy drzewa Braki danych Pomijamy obserwacje przy budowie i ocenie testów Tworzymy odrębny wynik testu NULL Wypełniamy brak danych Wartością kodującą Stałą wartością (mediana, średnia, moda itp.) Według rozkładu Przypisujemy obserwacje do wszystkich węzłów potomnych z odpowiednimi wagami 3

4 Przykład mammografia 4

5 Przykład mammografia 5

6 Braki danych Przy klasyfikacji nowych obserwacji gdy nie ma odrębnej wartości "null" Przypisujemy obserwację do wszystkich węzłów potomnych z wagami równymi proporcjom węzłów Odczytujemy rozkłady we wszystkich liściach, do których trafiają obserwacje z wagami Wyznaczamy średnią ważoną odczytanych rozkładów 6

7 Liczba kategorii 2 kategorie >2 kategorii Ocena jakości klasyfikatora - Klasa pozytywna (np. d=1, TAK itd.) - Klasa negatywna (np. d=0, NIE itd.) - Odrębne klasy tylko macierz błędów - Klasa pozytywna 1 wybrana kategoria, której rozpoznawalność jest szczególnie istotna - Klasa negatywna pozostałe kategorie 7

8 Macierz błędów Real Predicted Klasa 1 Klasa 2 Klasa k Klasa 1 n 11 n 12 n 1k Klasa 2 n 21 n 22 n 2k Klasa k N k1 n k2 n kk Idealny klasyfikator to taki, dla którego n ij =0 jeżeli i j 8

9 Podstawowe statystyki TP True Positive Liczba obserwacji poprawnie zaklasyfikowanych do klasy pozytywnej FP False Positive Liczba obserwacji błędnie zaklasyfikowanych do klasy pozytywnej TN True Negative Liczba obserwacji poprawnie zaklasyfikowanych do klasy negatywnej FN False Negative Liczba obserwacji błędnie zaklasyfikowanych do klasy negatywnej 9

10 Statystyki pochodne SE Sensitivity (czułość) = TPR True Positive Rate SE= TP TP+FN zdolność klasyfikatora do prawidłowego określania klasy pozytywnej Predicted Real TP FN 0 FP TN 10

11 Statystyki pochodne SP Specificity (specyficzność) = TNR True Negative Rate SP= TN TN+FP zdolność klasyfikatora do prawidłowego określania klasy negatywnej Predicted Real TP FN 0 FP TN 11

12 Statystyki pochodne cd. FPR False Positive Rate FPR= FP FP+TN =1 SP częstość błędnej klasyfikacji do klasy pozytywnej Predicted Real TP FN 0 FP TN 12

13 Statystyki pochodne cd. FNR False Negative Rate FNR= FN FN+TP =1 SE częstość błędnej klasyfikacji do klasy negatywnej Predicted Real TP FN 0 FP TN 13

14 Statystyki pochodne cd. ACC Accuracy, sprawność klasyfikatora ACC= TP+TN TP+TN+FP+FN prawdopodobieństwo poprawnej klasyfikacji Predicted Real TP FN 0 FP TN 14

15 Macierz błędów 3 klasy: Predicted Real Klasa 1 Klasa 2 Klasa 3 Klasa 1 n 11 n 12 n 13 Klasa 2 n 21 n 22 n 23 Klasa 3 n 31 n 32 n 33 2 klasy: Real Predicted Klasa 1 Klasa 2 Klasa 1 n 11 n 12 Klasa 2 n 21 n 22 Predicted Real Klasa 1 Klasa 2 Klasa 1 TP FN Klasa 2 FP TN 15

16 Macierze kosztów i zysków Macierz kosztów Real Predicted Klasa 1 Klasa 2 Klasa Klasa Macierz zysków i strat Real Predicted Klasa 1 Klasa 2 Klasa Klasa

17 Macierze kosztów i zysków Liczymy koszty błędnej klasyfikacji Predicted Real Klasa 1 Klasa 2 Klasa Klasa * Predicted Real Klasa 1 Klasa 2 Klasa Klasa Predicted Real Klasa 1 Klasa 2 Klasa Klasa Koszt =

18 Macierze kosztów i zysków Liczymy zyski i straty z klasyfikacji Predicted Real Klasa 1 Klasa 2 Klasa Klasa * Predicted Real Klasa 1 Klasa 2 Klasa Klasa Predicted Real Klasa 1 Klasa 2 Klasa Klasa Zysk = 90 18

19 Etykietowanie ( ) Próg odcięcia: Liść dostaje etykietę "+", jeżeli udział obserwacji z tą etykietą przekracza próg odcięcia α 0.8 < α 0.75 < α < α < α 0.4 α

20 Krzywa ROC SE SP Porządkujemy liście według odsetka trafień Każdy liść jest reprezentowany przez odcinek łącząc je otrzymujemy krzywą ROC. 20

22 Etykiety i krzywa ROC Przykład: 100 obserwacji, dwie klasy: 0 (60), 1(40) Real Predicted, α= Real Predicted, α= Real Predicted, α= Real Predicted, α=

23 Krzywa ROC Real Predicted, α= SE 1 α = 0.75 α = 0.5 α = 0.1 Real Predicted, α= Real Predicted, α= Real Predicted, α= α = SP 23

24 24 Przykład choroba serca

25 Krzywa ROC przykład 90,8% 9,9% 79,2% 19,4% 85,7% 58,3% 25 11,8%

26 90,8% 9,9% 79,2% 19,4% 85,7% 58,3% 11,8% α 0 26

27 Macierze błędów α < actual /predicted α < actual /predicted SE= =1 1 SP= =1 SE= = SP= =

28 Macierze błędów α < actual /predicted α < actual /predicted SE= =0.9 1 SP= =0.29 SE= = SP= =

29 Macierze błędów α < actual /predicted SE= = SP= =0.09 α < actual /predicted SE= = SP= =

30 Macierze błędów α < actual /predicted α actual /predicted SE= = SP= =0.04 SE= =0 1 SP= =0 30

31 Konstrukcja krzywej ROC α < SE 1-SP ROCA = 0,89 31

32 Plan Powtórka Krzywa ROC IRD Wykład 8 Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne Istotność zmiennych 32

33 Krzywa ROC Separacja: 1. Bardzo dobra 2. Dobra 3. Słaba 4. Zła 5. Przypadkowa 33

34 Krzywa ROC SE 1 Najlepszy klasyfikator Najsłabszy klasyfikator 1 1-SP 34

36 Krzywa ROC Pole pod krzywą ROC = AUC Współczynnik Gini ego SE 1 Gini = 2AUC-1 AUC AUC Klasyfikator 0.9 < AUC znakomity 0.8 < AUC <= 0.9 bardzo dobry 0.7 < AUC <= 0.8 dobry 0.5 < AUC <= 0.7 słaby AUC = 0.5 losowy 1 1-SP 36

37 Przykład - Irysy predicted --> / actual Iris-versicolor Other Iris-versicolor 47 3 Other 1 99 SE=TPR 0,94 SP=TNR 0,99 FPR 0,01 FNR 0,06 ACC 0,

38 Iris-versicolor Przykład - Irysy ROC Area = Gini Coefficient =

39 Przykład - Irysy predicted --> / actual Iris-setosa Other Iris-setosa 50 0 Other SE=TPR 1 SP=TNR 1 FPR 0 FNR 0 ACC 1 39

40 Iris-setosa Przykład - Irysy ROC Area = 1 Gini Coefficient = 1 Klasyfikator idealny 40

41 Krzywa ROC SE 1 Najlepszy klasyfikator Najsłabszy klasyfikator 1 1-SP 41

42 Krzywa ROC ocena modelu Sytuacja oczywista SE 1 AUC1>AUC2 Sytuacja problematyczna SE SP AUC1=AUC2 1 1-SP 42

43 Choroba serca drzewo 1 Entropia Wszystkie zmienne ROCA =

44 Choroba serca drzewo 2 Entropia Bez zmiennej " thal" ROCA =

45 Porównanie drzew

46 Choroba serca drzewo 3 Gain ratio Wszystkie zmienne ROCA =

48 Choroba serca drzewo 4 Gain ratio Bez zmiennej " thal" ROCA =

52 Macierz kosztów Koszty łączne Wybór punktu odcięcia actual /predicted Macierz kosztów * macierz błędów, np.: α<0.099 actual /predicted * actual /predicted

53 Wybór punktu odcięcia koszty α < α < α < suma 150 α < suma

56 Wybór punktu odcięcia koszty α < α α < suma 316 α suma

57 Trafienia i omyłki - ROC 57

58 Przykład mammografia Liczność %0 Liczność %1 70,00% 60,00% 50,00% 40,00% 30,00% 20,00% 10,00% 0,00% 58

59 Choroba serca drzewo 3 Prawidłowe decyzje Błędne decyzje 59

61 Reguły decyzyjne W dowolnej ścieżce (od korzenia do liścia) niech: t 1, t 2,..., t m testy występujące na tej ścieżce r 1, r 2,..., r m wyniki testów odpowiadające gałęziom na tej ścieżce, gdzie r 1 T t1, r 2 T t2,..., r m T tm d C etykieta związana z liściem Wtedy ścieżka jest równoważna z regułą decyzyjną: t 1 (x)=r 1 t 2 (x)=r 2... t m (x)=r m c(x)=d Uwaga! Ponieważ dla każdego liścia istnieje ścieżka łącząca ten liść z korzeniem, więc zbiór reguł związanych ze ścieżkami klasyfikuje wszystkie przykłady z dziedziny X. 61

62 Reguły decyzyjne Tworzone podczas budowy klasyfikatora Określają kategorię dla każdego obiektu Przypisanie danej kategorii dla obiektu zależy od prawdopodobieństwa a posteriori, że obiekt do niej należy Zatem reguły możemy także zapisać w postaci: Jeżeli P(kategoria X=d)>α, to kategoria X=d 62

63 Reguły decyzyjne Przykład 2 kategorie o etykietach 0, 1 Reguły decyzyjne mogą mieć postać Jeżeli P(kategoria X=1)>0.5, to kategoria X=1 Jeżeli P(kategoria X=1)>0.75, to kategoria X=1 Jeżeli P(kategoria X=1)>0.95, to kategoria X=1 Liczba α punkt (próg) odcięcia / cut-off Dla różnych punktów odcięcia uzyskujemy różne macierze błędów i RÓŻNE REGUŁY DECYZYJNE 63

64 Przykład choroba serca 58,3% 64 α =?

65 Przykład choroba serca α = 0.5 => Reguła: If thal IN (6, 7) AND major_vessels < AND exerc_ind_angina IN (0) AND age < then 2 Inne progi: α = 0.4 / α = 0.3 / α = 0.2 / α = 0.55 α = 0.6 => Reguła: If thal IN (6, 7) AND major_vessels < AND exerc_ind_angina IN (0) AND age < then 1 Inne progi: α = 0.65 / α = 0.7 / α =

66 Własności krzywej ROC Krzywa obrazuje jakość metody / modelu na zbiorze testowym dla różnych progów wykorzystywanych w klasyfikacji Krzywa agreguje wszystkie możliwe progi Nachylenie krzywej reprezentuje rozkład prawdopodobieństwa Przekątna -> Klasyfikator losowy Wypukłość reprezentuje gorsze efekty klasyfikacji niż w wypadku klasyfikatora losowego 66

67 Podsumowanie ważne pojęcia Braki danych Uzupełnianie Nie uzupełnianie Ważenie Ocena jakości klasyfikatora Macierz błędów Macierz kosztów / zysków Statystyki TPR, FPR, TNR, FNR, SE, SP, ACC Krzywa ROC Wnioskowanie o jakości klasyfikatora na podstawie ROC Porównywanie różnych klasyfikatorów 67

69 Choroby serca - dane resting_electroc_res resting_electroc_res Id Value Count Count % Target Target % , , , , , Count Target % thal Count Target % , , ,00 50,00 40,00 30,00 20,00 10,00 0,00 thal Id Value Count Count % Target Target % , , , , , ,96 69

70 Choroby serca - dane chest_pain_type Id Value Count Count % Target Target % , , , , , ,52 chest_pain_type , , Count Target % 80, , , ,00 40, , , , ,00 70

71 Istotność zmiennych - ROC ROCA Name (heart_disease=2) heart_disease 1 Thal 0,7637 chest_pain_type 0,7614 major_vessels 0,7491 max_heart_rate 0,7443 oldpeak 0,7332 exerc_ind_angina 0,7002 slope_peak_st 0,6997 age 0,6752 serum_cholest 0,6645 sex 0,6407 resting_electroc_res 0,5925 resting_blood_pres 0,5853 fasting_blood_sug 0,

72 72

73 Macierz błędów Obliczanie interpretacja Kolokwium Współczynniki TPR, FPR, TNR, FNR, SE, SP, ACC ROC Dobór etykiet w drzewie decyzyjnym 73