Wst p. Elementy systemów decyzyjnych Sprawy organizacyjne. Wprowadzenie Przegl d metod klasykacji

Podobne dokumenty
Metody bioinformatyki (MBI)

Wnioskowanie Boolowskie i teoria zbiorów przybli»onych

Metody numeryczne i statystyka dla in»ynierów

In»ynierskie zastosowania statystyki wiczenia

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Biostatystyka, # 5 /Weterynaria I/

Wst p. Elementy systemów decyzyjnych Sprawy organizacyjne. Wprowadzenie Przegl d metod klasykacji

Elementarna statystyka Wnioskowanie o regresji (Inference 2 czerwca for regression) / 13

Metody probablistyczne i statystyka stosowana

Wst p do sieci neuronowych, wykªad 06, Walidacja jako±ci uczenia. Metody statystyczne.

9. Praktyczna ocena jakości klasyfikacji

Lab. 02: Algorytm Schrage

Elementy modelowania matematycznego

Metody numeryczne. Wst p do metod numerycznych. Dawid Rasaªa. January 9, Dawid Rasaªa Metody numeryczne 1 / 9

Data Mining Wykład 4. Plan wykładu

Ekonometria Bayesowska

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

DREAM5 Challenges. Metody i rezultaty. Praktyki wakacyjne 2010 sesja sprawozdawcza

Systemy decyzyjne Wprowadzenie

Uczenie Maszynowe: reprezentacja wiedzy, wybór i ocena modelu, drzewa decyzjne

Indukowane Reguły Decyzyjne I. Wykład 8

Wnioskowanie Boolowskie i teoria zbiorów przybli»onych

Ekonometria. wiczenia 2 Werykacja modelu liniowego. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Jednowarstwowe Sieci Neuronowe jako. klasykatory do wielu klas. (c) Marcin Sydow

Podstawy statystycznego modelowania danych Analiza prze»ycia

1 Metody iteracyjne rozwi zywania równania f(x)=0

Eksploracja Danych. Wprowadzenie. (c) Marcin Sydow

Przykªady problemów optymalizacji kombinatorycznej

Ekonometria. wiczenia 1 Regresja liniowa i MNK. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Systemy uczące się wykład 2

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Algorytm grupowania K-Means Reprezentacja wiedzy Selekcja i ocena modeli

Systemy decyzyjne Wykªad 5: Drzewa decyzyjne

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

Klasyfikacja metodą Bayesa

Uczenie Wielowarstwowych Sieci Neuronów o

Metody statystyczne w biologii - Wykªad 8. Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t

Wprowadzenie do uczenia maszynowego

Agnieszka Nowak Brzezińska Wykład III

Ekonometria Bayesowska

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

Metody numeryczne i statystyka dla in»ynierów

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Wst p do sieci neuronowych 2010/2011 wykªad 7 Algorytm propagacji wstecznej cd.

1 Bª dy i arytmetyka zmiennopozycyjna

wiczenie nr 3 z przedmiotu Metody prognozowania kwiecie«2015 r. Metodyka bada«do±wiadczalnych dr hab. in». Sebastian Skoczypiec Cel wiczenia Zaªo»enia

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Ekonometria. wiczenia 4 Prognozowanie. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Wykorzystanie lokalnej geometrii danych w Maszynie Wektorów No±nych

2 Liczby rzeczywiste - cz. 2

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Statystyka matematyczna

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

Modele wielorównaniowe. Problem identykacji

COLT - Obliczeniowa teoria uczenia si

Liniowe zadania najmniejszych kwadratów

Elementarna statystyka Dwie próby: porównanie dwóch proporcji (Two-sample problem: comparing two proportions)

Agnieszka Nowak Brzezińska Wykład III

Laboratorium 7. Support Vector Machines (klasyfikacja).

Metodydowodzenia twierdzeń

CAŠKOWANIE METODAMI MONTE CARLO Janusz Adamowski

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Twierdzenie Wainera. Marek Czarnecki. Warszawa, 3 lipca Wydziaª Filozoi i Socjologii Uniwersytet Warszawski

Sztuczna inteligencja : Algorytm KNN

Metody probabilistyczne klasyfikatory bayesowskie

Bash i algorytmy. Elwira Wachowicz. 20 lutego

5. (8 punktów) EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

Janusz Adamowski METODY OBLICZENIOWE FIZYKI Zastosowanie eliptycznych równa«ró»niczkowych

Rozdzia 5. Uog lniona metoda najmniejszych kwadrat w : ::::::::::::: Podstawy uog lnionej metody najmniejszych kwadrat w :::::: Zastos

Wykªad 4. Funkcje wielu zmiennych.

Elementarna statystyka

Podstawy modelowania w j zyku UML

Ekonometria Przestrzenna

Biostatystyka, # 4 /Weterynaria I/

Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska

Metody dowodzenia twierdze«

Krzywe ROC i inne techniki oceny jakości klasyfikatorów

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 6

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Relacj binarn okre±lon w zbiorze X nazywamy podzbiór ϱ X X.

Wykªad 7. Ekstrema lokalne funkcji dwóch zmiennych.

Wstęp do sieci neuronowych, wykład 09, Walidacja jakości uczenia. Metody statystyczne.

METODY INŻYNIERII WIEDZY

Podstawy statystycznego modelowania danych - Wykªad 7

przewidywania zapotrzebowania na moc elektryczn

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

Elementarna statystyka Test Istotno±ci (Tests of Signicance)

Równania ró»niczkowe I rz du (RRIR) Twierdzenie Picarda. Anna D browska. WFTiMS. 23 marca 2010

Wprowadzenie do klasyfikacji

Statystyka opisowa. Wykªad II. Elementy statystyki opisowej. Edward Kozªowski.

Prawdopodobieństwo czerwonych = = 0.33

Twierdzenie Bayesa. Indukowane Reguły Decyzyjne Jakub Kuliński Nr albumu: 53623

Przykªadowe analizy. Grzegorz Kemski. 26 listopada 2008

Ekonometria Przestrzenna

Zadania z kolokwiów ze Wst pu do Informatyki. Semestr II.

Ukªady równa«liniowych - rozkªady typu LU i LL'

Transkrypt:

Wst p 1 Wprowadzenie do systemów decyzyjnych Elementy systemów decyzyjnych Sprawy organizacyjne 2 Problem klasykacji i klasykatory Wprowadzenie Przegl d metod klasykacji 3 Metody oceny klasykatorów Skuteczno± predykcji Przedziaª ufno±ci miar ocen Metody walidacji danych Krzywy Lift i ROC H.S. Nguyen (MIM UW) SYD 30 listopada 2017 29 / 297

Problem klasykacji Zaªo»enie: Dany jest sko«czony zbiór obiektów T = {x 1,..., x n }. Ten zbiór nazywamy zbiorem treningowym Ka»dy obiekt (rekord) jest opisany wektorem informacyjnym, skªadaj cym si z warto±ci pochodz cych z dziedziny pewnych atrybutów warunkowych. Wyró»niony jest jeden atrybut, zwany te» atrybutem decyzyjnym x i ( x i 1,..., x ik, d i ) Cel: wyznaczy klas decyzyjn, do której nale»y nowy nieznany dot d obiekt. Jak? Znale¹ zale»no± (najlepiej funkcyjn ) mi dzy atrybutem decyzyjnym a atrybutami warunkowymi. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 30 / 297

Dwuetapowy proces klasykacji 1 Tworzenie modelu: opisywanie klas decyzyjnych Klasa decyzyjna = zbiór obiektów maj cych tak sam warto± na atrybucie decyzyjnym Klasykator: algorytm okre±lenia klasy decyzyjnej obiektów za pomoc ich warto±ci na atrybutach warunkowych. Klasykatory mog by opisane za pomoc formuª logicznych, drzew decyzyjnych lub formuª matematycznych. 2 Korzystanie z modelu do przypisanie nowym nieznanym obiektom ich klasy decyzyjne. Problem: Jak ocenia model? H.S. Nguyen (MIM UW) SYD 30 listopada 2017 31 / 297

Systemy wspomagaj ce podejmowania decyzji - DSS Wiele problemów decyzyjnych mo»na opisa jako problem klasykacji DSS (Decision Support System) jest systemem komputerowym dostarczaj cym narz dzia do rozwi zywania problemów klasykacji. Wej±cie: Zbiór treningowy Wyj±cie: Klasykator(y) Wymagania: Szybko± podejmowania decyzji, skalowalno± Skuteczno± Racjonalno± Mo»liwo± wspóªpracy z ekspertem: doradztwo, adaptacja, negocjacja, adopcja wiedzy eksperskiej,... H.S. Nguyen (MIM UW) SYD 30 listopada 2017 32 / 297

Schemat 10 Tid Refund Marital Status Taxable Income Class 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Zbiór treningowy Uczenie klasyfikatorów Model Zbiór testowy Klasyfikacja/ Podejmowanie decyzji H.S. Nguyen (MIM UW) SYD 30 listopada 2017 33 / 297

Podziaª metod klasykacji H.S. Nguyen (MIM UW) SYD 30 listopada 2017 34 / 297

Metody oparte o przykªady (Instance-Based Methods) S to metody leniwej klasykacji, które opó¹niaj proces przetwarzania danych a» do momentu kiedy pojawi si nowy obiekt do klasykowania Typowe metody: k-nearest neighbor approach Przykªady treningowe s przedstawione jako punkty w metrycznej przestrzeni. Locally weighted regression Konstruuje lokalne aproksymacje poj Case-based reasoning Korzysta z symbolicznych reprezentacji i metod wnioskowania w oparciu o baz wiedzy H.S. Nguyen (MIM UW) SYD 30 listopada 2017 35 / 297

Algorytm knn algorytm najbli»szych s siadów Input: Tablica decyzyjna D, nowy obiekt x q Output: Klasa decyzyjna, do której nale»y x q (czyli Dec(x q )) Krok 1: Szukaj w zbiorze D, k najbli»ej poªo»onych obiektów R(x q ) = {x 1, x 2,..., x k } Krok 2: Wyznacz klas dla x q na podstawie Dec(x 1 ), Dec(x 2 ),..., Dec(x k ) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 36 / 297

Algorytm knn Najcz ±ciej wykorzystany dla danych z atrybutami numerycznymi Wymagania: Zbiór treningowy Funkcja odlegªo±ci mi dzy obiektami Warto± parametru k, liczba rozpatrywanych s siadów Podczas klasykacji: Wyznaczanie k najbli»szych s siadów Wyznaczenie klasy decyzyjnej nowego obiektu na podstawie klas decyzyjnych najbli»szych s siadów (np. przez gªosowanie). H.S. Nguyen (MIM UW) SYD 30 listopada 2017 37 / 297

Metoda knn: uwagi Jest to przykªad metody leniwej, gdy» Nie buduje jawnego modelu wiedzy Proces klasykacji mo»e by czasochªonny Je±li k jest za maªa, klasykator b dzie wra»liwa na drobne szumy w danych Je±li k jest zbyt du»a: Wysoka zªo»ono± obliczeniowa Otoczenia mog zawiera obiekty z innych klas Algorytm k-nn dla ci gªej decyzji Wystarczy obliczy ±redni z decyzji najbli»szych s siadów H.S. Nguyen (MIM UW) SYD 30 listopada 2017 38 / 297

Metoda knn: Problemy z funkcj odlegªo±ci Problem skalowania atrybutów Np. opis czªowieka: (Wzrost [m], Waga [kg], Klasa) Wzrost odchyla si od 1.5 m do 1.85 m Waga mo»e mie warto± od 45 kg do 120 kg Odlegªo± euklidesowa jest bardziej wra»liwa na ró»nic wag ni» ró»nic wzrostu. Przekle«stwo wymiarów Mo»e produkowa wyniki niezgodne z intuicj (np. klasykacji dokumentów) Rozwi zanie: Normalizacja S siedzi wa»eni wzgl dem odlegªo±c Wpªyw s siada x i na obiekt testowy x q jest wa»ony przez 1 w i = d 2 (x q, x i ) Bli»si s siedzi maj wi kszy wpªyw H.S. Nguyen (MIM UW) SYD 30 listopada 2017 39 / 297

Twierdzenie Bayesa Dany jest zbiór treningowy D, prawdopodobie«stwo posteriori hipotezy h P(h D) mo»na liczy wzorem Bayesa. P(h D) = P(D h)p(h) P(D) MAP (maximum posteriori) hypothesis h MAP = arg max P(h D) = arg max P(D h)p(h) h H h H Trudno±ci: ta metoda wymaga znajomo±ci wielu rozkªadów prawdopodobie«stw = wysoki koszt obliczeniowy H.S. Nguyen (MIM UW) SYD 30 listopada 2017 40 / 297

Klasykatory Bayesa Klasykacja obiektu opisanego przez x P(dec = c x) = P(x dec = c) P(dec = c) P(x) P(x) jest wspólna dla wszystkich hipotez; P(dec = c) cz sto± wyst powania klasy c; Znale¹ c tak,»e P(dec = c x) byªo maksymalne, czyli, aby P(x dec = c) P(dec = c) byªo maksymalne; Problem: obliczenie P(x dec = c) jest czasochªonne! H.S. Nguyen (MIM UW) SYD 30 listopada 2017 41 / 297

Klasykatory Naive Bayes" Naiwne zaªo»enie: atrybuty s warunkowo niezale»ne! Wówczas P(x 1,..., x k C) = P(x 1 C)... P(x k C) Czyli P(dec = c x) P(dec = c) k P(x i dec = c) i=1 To zaªo»enie znacznie obni»a zªo»ono± obliczeniowy. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 42 / 297

Przykªad Nowy obiekt x = rain, hot, high, false P(X p)p(p) = P(rain p)p(hot p)p(high p)p(false p)p(p) = 0.010582 P(X n)p(n) = P(rain n)p(hot n)p(high n)p(false n)p(n) = 0.018286 X jest klasykowany do klasy n (donñt play) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 43 / 297

Sieci Bayesowskie Zaªo»enie o niezale»no±ci:... powoduje,»e obliczenia staje si mo»liwe... optymalny klasykator o ile ono jest prawdziwe... ale warunek bardzo rzadko speªniony w praktyce (atrybuty s cz sto korelowane). Próby pokonania te ograniczenia: Sieci Bayesowskie, które ª cz metody wnioskowania Bayesowskiego z zale»no±ciami mi dzy atrybutami Drzewa decyzyjne, które przeprowadzaj dedukcyjne kroki na pojedy«czych atrybutach, pocz wszy od najwa»niejszego H.S. Nguyen (MIM UW) SYD 30 listopada 2017 44 / 297

Sieci Bayesowskie Sieci Bayesowskie dopuszczaj warunkow niezale»no± podzbiorów zmiennych. Jest to graczny model zale»no±ci przyczynowo-skutkowych Naive Bayes jest szczególnym przypadkiem sieci Bayesowskiej (jakim?) Problemy zwi zane uczeniem sieci Bayesowskich: Prypadek najªatwiejszy: zarówno struktura sieci, jak i wszystkie zmienne s znane. Znana jest struktura, ale brakuje rozkªadów zmiennych. Nawet struktura sieci nie jest z góry zadana. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 45 / 297

Przykªad Ogólna formuªa P(x 1,..., x k C) = k i=1 P(x i parent(x i ), C) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 46 / 297

Wst p 1 Wprowadzenie do systemów decyzyjnych Elementy systemów decyzyjnych Sprawy organizacyjne 2 Problem klasykacji i klasykatory Wprowadzenie Przegl d metod klasykacji 3 Metody oceny klasykatorów Skuteczno± predykcji Przedziaª ufno±ci miar ocen Metody walidacji danych Krzywy Lift i ROC H.S. Nguyen (MIM UW) SYD 30 listopada 2017 47 / 297

Bª d klasykacji Bª d klasykacji = liczba bª dów liczba obiektów testowych gdzie: Sukces: gdy obiekt jest prawidªowo klasykowany Bª d: gdy obiekt jest ¹le klasykowany Bª d klasykacji (lub odsetka bª dów podczas klasykacji) powinien by wyznaczony na losowych i nieznanych danych. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 48 / 297

Macierz bª du (ang. confusion matrix) S dwa rodzaje bª du: W systemach ucz cych si : minimalizujemy FP+FN lub miar skuteczno±ci (ang. Accuracy) (ACC): ACC = (TP + TN)/(TP + FP + TN + FN) W marketingu: maksymalizujemy TP. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 49 / 297

Proces klasykacji Podziaª zbioru danych na cz ± treningow i testow ; Uczenie lub poszukiwanie modelu Ocena klasykatora H.S. Nguyen (MIM UW) SYD 30 listopada 2017 50 / 297

Problem strojenia parametrów Niektóre metody uczenia dziaªaj w dwóch etapach: Etap 1: Buduje struktur Etap 2: Optymalizuje parametry Uwaga: Nie u»ywaj danych testowych do budowy klasykatorów! Wªa±ciwa procedura powinna zawiera 3 zbiory: treningowe, walidacyjne i testowe Dane walidacyjne u»ywane s do optymalizacji parametrów H.S. Nguyen (MIM UW) SYD 30 listopada 2017 51 / 297

Klasykacja: Zbiory treningowe, walidacyjne i testowe H.S. Nguyen (MIM UW) SYD 30 listopada 2017 52 / 297

Przedziaª ufno±ci Przykªad: S = 750 sukcesów w N = 1000 próbach Estymowana skuteczno± : 75% Jak bliska jest ta estymacja do prawdziwej skuteczno±ci p? Odp: z 80% pewno±ci mo»emy twierdzi,»e p [73.2, 76.7] Inny przykªad: S=75 i N=100 Estymowana skuteczno± : 75%; p [69.1, 80.1] z 80% pewno±ci. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 53 / 297

Przypomnienia ze statystyki Rozpatrujemy rozkªad Bernoulliego: p, p(1 p) Oczekiwany odsetek sukcesu w N próbach: f = S/N Warto± oczekiwana i wariancja dla f : p, p(1 p)/n Dla du»ych N, zm.l. f ma rozkªad zbli»ony do rozkªadu normalnego; [z X z] nazywamy przedziaªem ufno±ci na poziomie c% dla zm.l. X o zerowej warto±ci oczekiwanej wtw: P[ z X z] = c Dla rozkªadu symetrycznego mamy: P[ z X z] = 1 2P[X z] H.S. Nguyen (MIM UW) SYD 30 listopada 2017 54 / 297

Granice ufno±ci H.S. Nguyen (MIM UW) SYD 30 listopada 2017 55 / 297

Granice ufno±ci dla rozkªadu Bernoulliego Warto± oczekiwana i wariancj dla f : p, p(1 p)/n Normalizacja zm. f : Mamy równanie na p: ( Pr z f p p(1 p)/n ) f p z = c p(1 p)/n Rozwi zanie dla p: p [p 1, p 2 ], gdzie p 1,2 = f + z2 2N ± z f N f 2 N + z2 4N 2 1 + z2 N H.S. Nguyen (MIM UW) SYD 30 listopada 2017 56 / 297

Jak korzysta maksymalnie z danych Ogólna zasada: Im wi kszy zbiór treningowy, tym lepszy jest klasykator Im wi kszy jest zbiór testowy, tym lepiej mo»na aproksymowa bª d klasykacji. Praktyczna rada: Kiedy proces oceniania si zako«czy, wszystkie dane mog by wykorzystywane do skonstruowania ostatecznego klasykatora H.S. Nguyen (MIM UW) SYD 30 listopada 2017 57 / 297

Walidacja krzy»owa (ang. CV = Cross-Validation) Walidacja krzy»owa nie pozwala na wielokrotne testowanie tego samego obiektu Krok 1: Podziaª zbioru danych na k równych podzbiorów Krok 2: Testowanie ka»dego podzbioru u»ywaj c pozostaªych jako zbiór treningowy To si nazywa k-cv = k-fold cross-validation Zwykle obiekty s przetasowane przed dokonaniem podziaªu. Bª dy wszystkich iteracji s u±rednione, aby otrzyma bª d globalny. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 58 / 297

Walidacja krzy»owa H.S. Nguyen (MIM UW) SYD 30 listopada 2017 59 / 297

Walidacja krzy»owa (c.d.) Standardowa metoda ocena klasykatorów: 10-krotna walidacja krzy»owa Liczba 10 zostaªa wyznaczona w wyniku wielu do±wiadcze«. Walidacja pozwala na zmniejszenie dªugo±ci przedziaªu ufno±ci Jeszcze lepsza metoda oszacowania parametrów: Walidacja z powtórzeniami! H.S. Nguyen (MIM UW) SYD 30 listopada 2017 60 / 297

Inne metody walidacji Leave-one-out: przypadek szczególny walidacji krzy»owej Liczba grup = liczba przykªadów Dla n obiektów budujemy klasykator n razy Najlepiej ocenia klasykatora Obliczeniowo kosztowna metoda (wyj tek: knn) Bootstraping: próbkuje ze zwracaniem,»eby stworzy ró»ne zbiory treningowe i testowe Próbkuje ze zwracaniem n razy Wybrane obiekty tworz zbiór treningowy Reszta Ž zbiór testowy. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 61 / 297

Inne miary ocen klasykatorów Miara sensitivity lub true positive rate (TPR) TPR = TP/(TP + FN) czasem nazywa si te» recall lub hit rate. Specicity (SPC) lub True Negative Rate SPC = TN/(FP + TN) false positive rate (FPR): FPR = FP/(FP + TN) = 1 FPC positive predictive value (PPV) lub precision: PPV = TP/(TP + FP) negative predictive value (NPV): NPV = TN/(TN + FN) false discovery rate (FDR): FDR = FP/(FP + TP) Matthew's correlation coecient (MCC) MCC = TP TN FP FN (TP + FN)(TP + FP)(FN + TN)(FP + TN) F1 score: F 1 = 2TP/[(TP + FN) + (TP + FP)] lub 1 1 F 1 = recall + 1 precision H.S. Nguyen (MIM UW) SYD 30 listopada 2017 62 / 297 2

Lista rankingowa H.S. Nguyen (MIM UW) SYD 30 listopada 2017 63 / 297

Wykres traenia (Gain chart) Funkcje p - parametr okre±laj cy pocz tek listy rankingowej CPH - (ang. Cumulative Percentage Hit) CPH(p) = cz ± klasy docelowej znajduj ca si wsród p% pierwszych obiektów z listy rankingowej. zysk (ang. lift): Lift(p) = CPH(p)/p Traenie lub true positive rate: TPR(p) = TP/(TP + FN) Odsetek faªszywych alarmów FPR(p) = FP/(FP + TN) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 64 / 297

Krzywy Wyró»nione krzywy Gain chart: Ox : p Oy : CPH(p) Lift chart: Ox : p Oy : Lift(p) ROC (receiver operating characteristic): Ox : FPR(p) Oy : TPR(p) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 65 / 297

Przykªad: krzywa CPH H.S. Nguyen (MIM UW) SYD 30 listopada 2017 66 / 297

Przykªad: krzywa Lift H.S. Nguyen (MIM UW) SYD 30 listopada 2017 67 / 297

Przykªad: krzywa ROC H.S. Nguyen (MIM UW) SYD 30 listopada 2017 68 / 297

Wªasno±ci krzywej ROC Krzywy ROC s podobne do wykresu pokrycia Jest to skrót od: žreceiver operating characteristic Pokazuje zale»no± mi dzy stopniem traenia a stopniem faªszywych alarmów Jednak ró»ni si od krzywy pokrycia (gain chart): O± Oy: pokazuje TP rate w danej próbce zamiast pokrycia: TPrate = TP/(TP + FN) O± Ox: pokazuje FP rate w danej próbce zamiast wielko±ci próbki FPrate = FP/(FP + TN) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 69 / 297