9. Praktyczna ocena jakości klasyfikacji

Podobne dokumenty
Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

7. Maszyny wektorów podpierajacych SVMs

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Jakość uczenia i generalizacja

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Data Mining Wykład 4. Plan wykładu

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Wprowadzenie do uczenia maszynowego

Indukowane Reguły Decyzyjne I. Wykład 8

Systemy uczące się wykład 2

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa.

Ocena dokładności diagnozy

Wprowadzenie do uczenia maszynowego

Pattern Classification

Krzywe ROC i inne techniki oceny jakości klasyfikatorów

Eksploracja danych OCENA KLASYFIKATORÓW. Wojciech Waloszek. Teresa Zawadzka.

Wprowadzenie do klasyfikacji

Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska

2. Ocena dokładności modelu klasyfikacji:

Testowanie modeli predykcyjnych

Wstęp do sieci neuronowych, wykład 09, Walidacja jakości uczenia. Metody statystyczne.

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

Wstęp do sieci neuronowych, wykład 13-14, Walidacja jakości uczenia. Metody statystyczne.

Laboratorium 4. Naiwny klasyfikator Bayesa.

2. Empiryczna wersja klasyfikatora bayesowskiego

5. Analiza dyskryminacyjna: FLD, LDA, QDA

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA REALIZACJA W ROKU AKADEMICKIM 2016/2017

Laboratorium 6. Indukcja drzew decyzyjnych.

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

ALGORYTM RANDOM FOREST

Klasyfikacja LDA + walidacja

Barycentryczny układ współrzędnych

Zaawansowana eksploracja danych: Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska

10. Redukcja wymiaru - metoda PCA

Metody eksploracji danych 4. Klasyfikacja

ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH

Laboratorium 5. Adaptatywna sieć Bayesa.

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Odczarowujemy modele predykcyjne Teoria i Praktyka

METODY INŻYNIERII WIEDZY

Ćwiczenie 12. Metody eksploracji danych

Grupowanie stron WWW. Funkcje oceniające.

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Ocena możliwości wykorzystania deskryptorów cech lokalnych obrazu twarzy w zadaniu automatycznej identyfikacji osób

KRZYWE ROC, CZYLI OCENA JAKOŚCI KLASYFIKATORA I POSZUKIWANIE OPTYMALNEGO PUNKTU ODCIĘCIA

Elementy modelowania matematycznego

SYSTEMY UCZĄCE SIĘ WYKŁAD 1. INFORMACJE WSTĘPNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Metody klasyfikacji danych - część 1 p.1/24

Stanisław Cichocki. Natalia Nehrebecka

Rok akademicki: 2017/2018 Kod: JIS AD-s Punkty ECTS: 5. Kierunek: Informatyka Stosowana Specjalność: Modelowanie i analiza danych

Sieci neuronowe w Statistica

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

OCENA KLASYFIKACYJNYCH MODELI DATA MINING (wybrane miary oceny algorytmów uczenia maszynowego)

Modelowanie interakcji helis transmembranowych

Metody Sztucznej Inteligencji II

ALGORYTMY SZTUCZNEJ INTELIGENCJI

BADANIE JAKOŚCI PREDYKCYJNEJ SEGMENTACJI RYNKU

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Jakość procedury klasyfikacyjnej:


Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Biometryczna Identyfikacja Tożsamości

Przykładowa analiza danych

PRZEWODNIK PO PRZEDMIOCIE


Metody eksploracji danych Laboratorium 4. Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Metody eksploracji danych Laboratorium 2. Weka + Python + regresja

Drzewa decyzyjne i lasy losowe

Testowy dokument raz dwa trzy

Algorytmy klasyfikacji

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

SZTUCZNA INTELIGENCJA

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

Wybór modelu i ocena jakości klasyfikatora

Agnieszka Nowak Brzezińska Wykład III

Wprowadzenie. Data Science Uczenie się pod nadzorem

Matlab podstawy + testowanie dokładności modeli inteligencji obliczeniowej

Wykład 8. Testowanie w JEE 5.0 (1) Autor: Zofia Kruczkiewicz. Zofia Kruczkiewicz

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

Wprowadzenie do programu RapidMiner, część 2 Michał Bereta 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów

Autostopem przez galaiktykę: Intuicyjne omówienie zagadnień. Tom II: Uczenie maszynowe. Nie panikuj!

SZTUCZNA INTELIGENCJA

Projekt Sieci neuronowe

Biometryczna Identyfikacja Tożsamości

Metody i modele statystyczne w wykrywaniu nieubezpieczonych posiadaczy pojazdów mechanicznych

Komputerowa diagnoza medyczna tworzenie i interpretowanie. prof. dr hab. inż. Andrzej Walczak

Stanisław Cichocki. Natalia Nehrebecka

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

Ewelina Dziura Krzysztof Maryański

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

Transkrypt:

Algorytmy rozpoznawania obrazów 9. Praktyczna ocena jakości klasyfikacji dr inż. Urszula Libal Politechnika Wrocławska 2015 1

1. Zbiór uczacy i zbiór testowy 1. Zbiór uczacy służy do konstrukcji (treningu) klasyfikatora w procesie uczenia 2. Zbiór testowy służy do weryfikacji jakości klasyfikatora Podział zbioru danych na zbiór uczący i testowy zależy od liczności tego zbioru. Zbiory uczący i testowy są rozłączne (zawierają inne obrazy). Częsty podział dla dużych zbiorów danych to: 2/3 (zbiór uczący), 1/3 (zbiór testowy). 2

2. Metody oceny jakości klasyfikatora Ocena klasyfikacji na podstawie zbioru testowego: 1. Macierz pomyłek (confusion matrix) 2. Miary oceny jakości klasyfikacji: ryzyko, błąd klasyfikacji, trafność klasyfikacji, współczynniki TP, TN, FP, FN,... 3. Krzywa ROC 4. Kroswalidacja (cross-validation) 3

3. Macierz pomyłek Przypadek klasyfikacji do wielu klas M = {1, 2,,..., m}: klasa wskazana przez klasyfikator klasa pochodzenia obrazu C 1 C 2 C m C 1 r 11 r 12 r 1m C 2 r 21 r 22 r 2m....... C m r m1 r m2 r mm r i j - liczba obrazów testowych z klasy C i, przypisana do klasy C j, N i - liczność obrazów z klasy C i (zbiór testowy) 4

Liczność zbioru testowego: #test = m N i i=1 Łączna liczba poprawnie zaklasyfikowanych obrazów testowych: #correct = m r ii i=1 Łączna liczba błędnie zaklasyfikowanych obrazów testowych: #error = #test #correct 5

Przypadek klasyfikatora binarnego: klasa wskazana przez klasyfikator klasa pochodzenia obrazu C 1 (+) C 2 (-) C 1 (+) r 11 (TP) r 12 (FN) C 2 (-) r 21 (FP) r 22 (TN) TP (true positive) - liczba poprawnie zaklasyfikowanych obrazów z klasy C 1 FP (false positive) - liczba błędnie zaklasyfikowanych obrazów z klasy C 2 do klasy C 1 FN (false negative) - liczba błędnie zaklasyfikowanych obrazów z klasy C 1 do klasy C 2 TN (true negative) - liczba poprawnie zaklasyfikowanych obrazów z klasy C 2 6

Rysunek 1. Współczynniki TP, FP, FN i TN dla klasyfikacji binarnej. Źródło: [4] 7

4. Miary oceny jakości klasyfikacji Miary uniwersalne (dla dowolnej liczby klas): trafność (accuracy) #correct #test bład klasyfikacji (error rate) #error #test = 1 #correct #test 8

Miary w przypadku klasyfikacji binarnej: trafność bład klasyfikacji T P + T N T P + T N = N 1 + N 2 T P + FN + FP + T N FP + FN FP + FN = N 1 + N 2 T P + FN + FP + T N Ryzyko klasyfikatora szacujemy za pomoca błędu klasyfikacji (patrz rys. 1) 9

współczynnik TP (TP rate, czułość) T PR = T P T P = N 1 T P + FN współczynnik TN (TN rate, specyficzność) T NR = T N N 2 = T N FP + T N współczynnik FP (FP rate) FPR = FP FP = N 2 FP + T N 10

5. Krzywa ROC Rysunek 2. Krzywa ROC. Źródło: [1] 11

6. K-krotna kroswalidacja Dzielimy dane na k możliwie równych, wzajemnie rozłącznych, części. Do uczenia wykorzystujemy k 1 części, do testowania pozostałą jedną część. Procedurę powtarzamy k razy, za każdym razem zmieniając zbiór testowy na kolejną niewykorzystaną dotychczas część. Rysunek 3. K-krotna kroswalidacja: U-uczenie, T-testowanie. Źródło: opracowanie własne 12

Sumaryczna liczba poprawnych klasyfikacji podzielona przez liczność zbioru danych N stanowi oszacowanie trafności klasyfikacji. Szczególny przypadek: N-krotna kroswalidacja (leave-one-out cross-validation), gdzie N to liczność zbioru danych przed podziałem na zbiór uczący i testowy. 13

Literatura [1] T. Morzy, Eksploracja danych. Metody i algorytmy, Wydawnictwo Naukowe PWN, Warszawa (2013) [2] M. Krzyśko, W. Wołyński, T. Górecki, M. Skorzybut, Systemy uczace się. Rozpoznawanie wzorców, analiza skupień i redukcja wymiarowości. WNT, Warszawa (2008) [3] R.O. Duda, P.E. Hart, D.G. Stork, Pattern Classification, 2nd ed., Wiley, (2000) [4] http://en.wikipedia.org/wiki/receiver_operating_characteristic 14