Wrocław University of Technology WYKŁAD 7 Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria autor: Maciej Zięba Politechnika Wrocławska
Testowanie modeli klasyfikacyjnych Dobór odpowiedniego kryterium: poprawność klasyfikacji nie zawsze jest wystarczającym kryterium; Konieczność stosowania pomocniczych kryteriów; Dobór odpowiedniej techniki testowania: nie można stosować do uczenia i testowania jakości tych samych danych; Zależy od liczności i stopnia skomplikowania danych którymi dysponujemy; 2/13
Poprawność klasyfikacji Poprawność klasyfikacji definiuje się następująco: Acc = 1 N N I(h(x n ) = y n ) Dla przykładu mamy więc: Acc = 6 10 Rzeczywista Predykowana ID Wartość Wartość Klasy Klasy 1 1 1 2 2 2 3 2 3 4 1 2 5 1 1 6 1 3 7 3 3 8 2 2 9 3 1 10 3 3 3/13
NALEŻY DO KLASY Macierz konfuzji Bardzo pomocnym narzędziem do oceny jakości modelu klasyfikacyjnego jest tzw. macierz konfuzji. Elementy macierzy definiuje następująco: n i,j = N I(y n = i) I(h(x n = j)) Macierz dostarcza pełnej wiedzy odnośnie testowania. ura macierzy konfuzji. KLASYFIKOWANY JAKO 1 2 C n 1,1 n 1,2 n 1,C 1 n 2,1 n 2,2 n 2,C 2 n C,1 n C,2 n C,C C 4/13
NALEŻY DO KLASY Macierz konfuzji Spośród 3 obiektów należących do klasy 3, dwa zostały zaklasyfikow klasy 3, a jeden błędnie do klasy 1 (trzeci wiersz). Na bazie macierzy konfuzji łatwo jest policzyć poprawność klasyfikacji za sumując wartości na przekątnej (poprawne klasyfikacje) i dzieląc przez nawykiem jest uczenie modelu klasyfikatora i testowanie go na tym samym elementów macierzy (wszystkie klasyfikacje). Dla rozpatrywanego przyk Rzeczywista Predykowana klasyfikacji wynosi 0.6. ID Wartość Wartość Klasy Klasy Macierz konfuzji dla przykładu: 1 1 Tabela 4 Uzupełniona tabela konfuzji na podstawie przykładowego zestawienia z Tabeli Tabela 3. 1 2 2 2 KLASYFIKOWANY JAKO 3 2 3 1 2 3 4 1 2 2 1 1 1 5 1 1 0 2 1 2 6 1 3 1 0 2 3 7 3 3 8 2 2 Kluczowym elementem w testowaniu jakości klasyfikatora jest to, jakie o 9 3 1 10 3 wybrać do 3 uczenia, a jakie powinny zostać wyselekcjonowane do testowa Jednym z głównych problemów klasyfikacji jest problem zbytniego dopasow uczącego (ang. overfitting). W praktyce oznacza to, że uczony mode 5/13
Zadanie Rzeczywista Predykowana ID Wartość Wartość Klasy Klasy 1 0 1 2 0 1 3 1 2 4 1 1 5 0 0 6 2 2 7 1 2 8 1 1 9 1 1 10 2 2 11 0 0 12 2 1 13 2 2 14 0 1 15 1 0 Dla podanych danych: wyznacz poprawność klasyfikacji; wyznacz macierz konfuzji; 6/13
TP Macierz konfuzji dla dwóch TP rate = klas TP + FN. (1.19) Zaklasyfikowany Zaklasyfikowany do klasy pozytywnej do klasy negatywnej Należy do TP FN klasy pozytywnej (True positive) (False negative) Należy do FP TN klasy negatywnej (False positive) (True negative) Tabela 1.1: Macierz konfuzji dla dychotomicznego zadania klasyfikacji. TP (ang. true positive) - liczba obiektów z klasy pozytywnej poprawnie klasyfikowanych jako obiekty z klasy pozytywnej; Wartości TP (ang. true positive), FN (ang. false negative), FP (ang. false positive), TN (ang. true negative), stanowią elementy macierzy konfuzji (ang. confusion matrix, Tabela 1.1). Macierz konfuzji, nazywana również macierzą kontyngencji, określa, w jaki sposób TN (ang. true negative) - liczba obiektów z klasy negatywnej siępoprawnie w następujący sposób: klasyfikowanych jako obiekty z klasy negatywnej; klasyfikowane były obiekty z poszczególnych klas. Poszczególne pozycje macierzy definiuje TP = I(Ô(x n )=+1)I(y n =+1), (1.20) FP (ang. false positive) - liczba obiektów z klasy negatywnej błędnie klasyfikowanych jako obiekty z klasy pozytywnej; FN = FN (ang. false negative) - liczba obiektów z klasy pozytywnej I(Ô(x n )= 1) I(y n =+1), (1.21) błędnie klasyfikowanych jako obiekty z klasy negatywnej; FP = I(Ô(x n )=+1)I(y n = 1), (1.22) 7/13
Wskaźniki do oceny jakości ROZDZIAŁ klasyfikacji 1. WSTĘP dla dwóch klas poprawność klasyfikacji: T P + T N Acc = T P + T N + F P + F N gdzie TNrate oznacza wskaźnik specyficzności (znamienności, ang. specificity), nazyw również wskaźnikiem TN (ang. TN rate), i definiuje się go w następujący sposób: TN TNrate = TN + FP, (1 natomiast TPrate nazywany jest w literaturze wskaźnikiem czułości (ang. sensitivity), b też wskaźnikiem TP (ang. TP rate), i wyrażony jest wzorem: TP TPrate = TP + FN. (1 Czułość (wrażliwość): T P rate = Specyficzność: T N rate = T P T P + F N T N T N + F P Wartości TP (ang. true positive), FN (ang. false negative), FP (ang. false positive), (ang. true negative), stanowią elementy macierzy konfuzji (ang. confusion matrix, Ta 1.1). Macierz konfuzji, nazywana również macierzą kontyngencji, określa, w jaki spo klasyfikowane były obiekty z poszczególnych klas. Poszczególne pozycje macierzy defin Zaklasyfikowany Zaklasyfikowany do klasy pozytywnej do klasy negatywnej Należy do TP FN klasy pozytywnej (True positive) (False negative) Należy do FP TN klasy negatywnej (False positive) (True negative) Tabela 1.1: Macierz konfuzji dla dychotomicznego zadania klasyfikacji. się w następujący sposób: TP = I(Ô(xn) =+1)I(yn =+1), (1 FN = I(Ô(xn) = 1) I(yn =+1), (1 8/13
Wskaźniki do oceny jakości ROZDZIAŁ klasyfikacji 1. WSTĘP dla dwóch klas błąd I rodzaju: F P rate = błąd II rodzaju: F N rate = F P F P + T N F N F N + T P gdzie TNrate oznacza wskaźnik specyficzności (znamienności, ang. specificity), nazywa natomiast TPrate nazywany jest w literaturze wskaźnikiem czułości (ang. sensitivity), b również wskaźnikiem TN (ang. TN rate), i definiuje się go w następujący sposób: TN TNrate = TN + FP, (1. też wskaźnikiem TP (ang. TP rate), i wyrażony jest wzorem: TP TPrate = TP + FN. (1. Zaklasyfikowany Zaklasyfikowany do klasy pozytywnej do klasy negatywnej Należy do TP FN klasy pozytywnej (True positive) (False negative) Należy do FP TN klasy negatywnej (False positive) (True negative) Tabela 1.1: Macierz konfuzji dla dychotomicznego zadania klasyfikacji. GMean: GMean = T P rate T N rate Wartości TP (ang. true positive), FN (ang. false negative), FP (ang. false positive), T (ang. true negative), stanowią elementy macierzy konfuzji (ang. confusion matrix, Tab 1.1). Macierz konfuzji, nazywana również macierzą kontyngencji, określa, w jaki spo klasyfikowane były obiekty z poszczególnych klas. Poszczególne pozycje macierzy defini się w następujący sposób: TP = I(Ô(xn) =+1)I(yn =+1), (1. FN = I(Ô(xn) = 1) I(yn =+1), (1. 9/13
Krzywa ROC i wskaźnik AUC Krzywa ROC obrazuje zależność pomiędzy wskaźnikami T P rate i F P rate. Bardzo ważnym wskaźnikiem do oceny klasyfikatorów jest AUC. Posiada on interpretację pola pod krzywą ROC. Okazuje się, że da się ją wyznaczyć ze wzoru: AUC = 1 2 (T P rate + T N rate ) 10/13
Krzywa ROC i wskaźnik AUC Rzeczywista Predykowana ID Wartość Wartość Klasy Klasy 1 0 1 2 0 1 3 1 1 4 1 1 5 0 0 6 1 1 7 0 1 8 1 1 9 1 1 10 0 0 11 0 0 12 1 1 13 1 1 14 0 1 15 1 0 Dla rozpatrywanych danych wyznacz: Acc; T P rate ; T N rate ; F P rate ; F N rate ; AUC; GMean; 11/13
Metodyka oceny jakości modeli klasyfikacyjnych Podział procentowy: Zakładamy, że pewien procent obserwacji przeznaczymy na testowanie; Losujemy obserwacje bez zwracania aby osiągnąć pożądany procent obserwacji; Model uczymy na pozostałych obserwacjach; Oceniamy jakość modelu na wylosowanych danych; Walidacja krzyżowa. Procedura leave-one-out: Szczególny przypadek walidacji krzyżowej z podziałem na tyle podzbiorów, ile jest obserwacji; 12/13
zbiorze sk adajπcym sií N 1czÍúci i przetestowaniu go na N-tej, nie wykor Íúci. Walidacja Istotπ tej metodyki krzyżowa testowania jest to, øe wkaødym kroku proces testowa j czíúci zbioru, a kaøda obserwacja ze zbioru bídzie dok adnie raz przetestowana Przyk ad dzia ania metody walidacji krzyøowej (dla 4 foldów) obrazuje rysunek wszym kroku () klasyfikator jest uczony z wykorzystaniem elementów 1,2,3 estowanie odbywa sií na elemencie 4 (kolor czerwony). W nastípnym kroku brany jest zbiór, który nie by jeszcze testowany, przyk adowo ten o indeksie 3 13/13