Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Podobne dokumenty
Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Indukowane Reguły Decyzyjne I. Wykład 8

9. Praktyczna ocena jakości klasyfikacji

Data Mining Wykład 4. Plan wykładu

Krzywe ROC i inne techniki oceny jakości klasyfikatorów

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

Ocena dokładności diagnozy

Systemy uczące się wykład 2

Wprowadzenie do uczenia maszynowego

Podstawy Sztucznej Inteligencji (PSZT)

KRZYWE ROC, CZYLI OCENA JAKOŚCI KLASYFIKATORA I POSZUKIWANIE OPTYMALNEGO PUNKTU ODCIĘCIA

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Widzenie komputerowe

Metody systemowe i decyzyjne w informatyce

Metody Sztucznej Inteligencji II

Popularne klasyfikatory w pakietach komputerowych

Wprowadzenie do uczenia maszynowego

Elementy inteligencji obliczeniowej

Optymalizacja optymalizacji

Odczarowujemy modele predykcyjne Teoria i Praktyka

Optymalizacja systemów

Agnieszka Nowak Brzezińska Wykład III

10/15/2016. Reguła. Czułość PV(+) Bayesa. Swoistość PV(-)

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Metody eksploracji danych 4. Klasyfikacja

8. Neuron z ciągłą funkcją aktywacji.

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Fetuina i osteopontyna u pacjentów z zespołem metabolicznym

Wstęp do sztucznych sieci neuronowych

Rozpoznawanie obrazów

Stanisław Cichocki. Natalia Nehrebecka

Politechnika Warszawska

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Podstawy sztucznej inteligencji

Optymalizacja ciągła

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści

Modelowanie interakcji helis transmembranowych

Inteligentne systemy przeciw atakom sieciowym

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Rozpoznawanie obrazów

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Metody systemowe i decyzyjne w informatyce

6. Perceptron Rosenblatta

Ćwiczenie 12. Metody eksploracji danych

Metody scoringowe w regresji logistycznej

Laboratorium 4. Naiwny klasyfikator Bayesa.

Regresja logistyczna. Regresja logistyczna. Wymagania. Przykłady DV

Przykładowa analiza danych

Laboratorium 6. Indukcja drzew decyzyjnych.

TEORETYCZNE PODSTAWY INFORMATYKI

Deep Learning na przykładzie Deep Belief Networks

Wstęp do sieci neuronowych, wykład 09, Walidacja jakości uczenia. Metody statystyczne.

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

Wprowadzenie do klasyfikacji

Sztuczne sieci neuronowe

MATLAB Neural Network Toolbox przegląd

Uczenie sieci neuronowych i bayesowskich

Zastosowania sieci neuronowych

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2013/2014

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

A Zadanie

SIECI NEURONOWE Liniowe i nieliniowe sieci neuronowe

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Uczenie sieci typu MLP

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Agnieszka Nowak Brzezińska Wykład III

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Wstęp do sieci neuronowych, wykład 13-14, Walidacja jakości uczenia. Metody statystyczne.

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Sieci neuronowe w Statistica

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Jakość uczenia i generalizacja

Regresja logistyczna

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Technologie Informacyjne

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka ADALINE.

ALGORYTM RANDOM FOREST

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

DEKOMPOZYCJA HIERARCHICZNEJ STRUKTURY SZTUCZNEJ SIECI NEURONOWEJ I ALGORYTM KOORDYNACJI

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Projekt Sieci neuronowe

Mail: Pokój 214, II piętro

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym, kontynuacja badań

HAŁASU Z UWZGLĘDNIENIEM ZJAWISK O CHARAKTERZE NIELINIOWYM

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Jakość procedury klasyfikacyjnej:

Laboratorium 5. Adaptatywna sieć Bayesa.

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Definicja perceptronu wielowarstwowego

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Przydatność oznaczania NGAL w surowicy i w moczu u niemowląt we wczesnym rozpoznawaniu zakażenia układu moczowego

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Transkrypt:

Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład III bogumil.konopka@pwr.edu.pl 2016/2017

Wykład III - plan Regresja logistyczna Ocena skuteczności klasyfikacji Macierze pomyłek Krzywe ROC Sieci neuronowe Propagacja informacji Algorytm gradientu prostego Wsteczna propagacja błędu 2

Klasyfikacja, a model liniowy Problemy z modelem liniowym: W modelu liniowym f x może być >1 lub < od 0 Interpretacja jest trudna Problemem jest również określenie parametru odcięcia Przy klasyfikacji chcemy żeby: 0 f x 1 3

Regresja logistyczna Przy klasyfikacji chcemy żeby: 0 f x 1 Funkcja logistyczna: f x = 1 1 + e z f x = 1 1 + e (β 0+β 1 x 1 + +β p x p ) 4

Interpretacja modelu logistycznego f x = P y = 1 X - prawdopodobieństwo, tego że y = 1 przy zadanych wartościach x Przykład: Jeżeli, dla modelu klasyfikującego nowotwory f x = 0.7 To możemy powiedzieć: Jest 70% szans na to, że nowotwór jest złośliwy 5

Graficzna interpretacja z Dane w przestrzeni atrybutów f x = 1 1 + e (β 0+β 1 x 1 +β 2 x 2 ) 3 Model dopasowany do danych: x 2 f x = 1 1 + e ( 3+x 1+x 2 ) Kiedy y = 1? Granica decyzji: x 1 3 6

Dopasowanie współczynników Najczęściej współczynniki modelu dopasowuje się metodą maksymalnej wiarygodności (maximum likelihood) Intuicja algorytmu: Wyszukiwane są takie wartości współczynników, dla których prawdopodobieństwo uzyskania danego przyporządkowania do klas jest największe Maksymalizowana funkcja ma postać: l β = p(x i ; β) (1 p(x j ; β)) i:y i =1 j:y j =0 7

Ocena dokładności współczynników Współczynniki ocenia tak jak dla regresji liniowej: Przedziały ufności Test t-studenta f(z) z f x = 1 1 + e (β 0+β 1 x 1 +β 2 x 2 ) 8

Zadanie domowe na punkt z aktywności Jaka jest interpretacja współczynników w modelu regresji logistycznej? Wskazówki: β 0 :Wychodząc od f x = pamiętając, że f x = p(y = 1 x) 1 1+e (β 0+β1x1) wyprowadzić β 0 lub e β 0dla x=0, β 1 : Wyprowadzić e β 1 wylicząjc stosunek e (β 0+β1x1) e (β 0+β1x 1), gdy x 1 = x 1 + 1 9

Ocena dokładności klasyfikatora (klasyfikator binarny) x 2 3 Dane w przestrzeni atrybutów Możliwe wyniki klasyfikacji: TP True Positive Prawidłowo zaklasyfikowany przypadek pozytywny FP False Positive Fałszywy pozytywny Przypadek negatywny zaklasyfikowany jako pozytywny TN True Negative Prawidłowo zaklasyfikowany przypadek negatywny FN False Negative Fałszywy negatywny Przypadek pozytywny zaklasyfikowany jako negatywny Próbka pozytywna x 1 3 Próbka negatywna 10

Ocena dokładności klasyfikatora (klasyfikator binarny) x 2 3 Dane w przestrzeni atrybutów Możliwe wyniki klasyfikacji: TP True Positive Prawidłowo zaklasyfikowany przypadek pozytywny FP False Positive Fałszywy pozytywny Przypadek negatywny zaklasyfikowany jako pozytywny TN True Negative Prawidłowo zaklasyfikowany przypadek negatywny FN False Negative Fałszywy negatywny Przypadek pozytywny zaklasyfikowany jako negatywny Próbka pozytywna x 1 3 Próbka negatywna 11

Przewidywana klasa Negatywna Pozytywna Macierz pomyłek Rzeczywista klasa Pozytywna Negatywna TP FP TP P predicted Positive Predictive Value/Precision celność przewidywania przypadków pozytywnych TN FN TP TN TN N predicted TP + TN Negative Predictive Value celność przewidywania przypadków negatywnych P total N total P total + N total Accuracy (ACC) dokładność Sensitivity - czułość Specificity - swoistość 12

Przewidywana klasa Negatywna Pozytywna Macierz pomyłek FP False Positive Rate N odsetek predykcji total fałszywie pozytywnych Rzeczywista klasa Pozytywna TP Negatywna FP TP P predicted Positive Predictive Value/Precision celność przewidywania przypadków pozytywnych FN TP TN TN TN N predicted TP + TN Negative Predictive Value celność przewidywania przypadków negatywnych P total N total P total + N total Accuracy (ACC) dokładność Sensitivity - czułość Specificity - swoistość 13

Pełna macierz pomyłek z wszystkimi parametrami http://en.wikipedia.org/wiki/sensitivity_and_specificity 14

Przewidywana klasa N P Przewidywana klasa N P Dlaczego ogólna skuteczność klasyfikacji (ACC) nie wystarcza? Zbiór liczy 50 pacjentów chorych (P) oraz 50 zdrowych (N) Zbiór liczy 1000 pacjentów chorych (P) oraz 100 zdrowych (N) Rzeczywista klasa Rzeczywista klasa P = 50 N = 50 P = 1000 N = 100 45 997 47 1 15

Przewidywana klasa N P Przewidywana klasa N P Dlaczego ogólna skuteczność klasyfikacji (ACC) nie wystarcza? Zbiór liczy 50 pacjentów chorych (P) oraz 50 zdrowych (N) Zbiór liczy 1000 pacjentów chorych (P) oraz 100 zdrowych (N) Rzeczywista klasa Rzeczywista klasa P = 50 N = 50 P = 1000 N = 100 45 997 47 1 Przy równolicznych zbiorach próbek pozytywnych i negatywnych Acc jest ok. Jeżeli jedna klasa jest zdecydowanie nadreprezentowana, wówczas Acc może przeceniać lub nie doceniać klasyfikator. 16

Krzywa ROC (Receiver Operating Characteristic) Cel stosowania: Ocena klasyfikatora Porównywanie klasyfikatorów Wybór optymalnego progu odcięcia Pole pod krzywą (Area Under Curve - AUC) mówi o ogólnej skuteczności klasyfikatora 1.0 0.9 bardzo dobry 0.9 0.8 dobra 0.8 0.7 dość dobra 0.7 0.6 słaby 0.6 0.5 bardzo słaby 17

True Positive Rate Krzywa ROC - algorytm Negative Positive Uszeregować od największego do najmniejszego Obliczać TPR i FPR przy kolejnych wartościach stężenia hormonu jako progach podziału na klasy TPR = TP P total FPR = FP N total P total = 3 N total = 3 1 2 3 Jaki jest optymalny próg klasyfikacji? False Positive Rate 18

Dobór optymalnego progu klasyfikacji Minimalizacja odległości od punktu (0,1) na krzywej ROC Maksymalizacja różnicy pomiędzy True Positive Rate i False Positive Rate tzw. Indeks Youden a Perkins NJ, Schisterman EF. The Inconsistency of Optimal Cut-points Using Two ROC Based Criteria. American journal of epidemiology. 2006;163(7):670-675. doi:10.1093/aje/kwj063. 19

Klasyfikacja nieliniowa x 2 3 Dane w przestrzeni atrybutów Liniowa granica decyzji: 1 f x = 1 + e (β 0+β 1 x 1 +β 2 x 2 ) Nieliniowa granica decyzji: f x = 1 1 + e (β 0+β 1 x 1 +β 2 x 1 2 +β 3 x 2 +β 4 x 2 2 ) 3 x 1 Jak wybrać formułę funkcji? 20

Sztuczne sieci neuronowe - inspiracja Inspiracja biologiczna Neuron otrzymuje bodźce od innych neuronów Bodźce mogą podwyższać lub obniżać poziom potencjału elektrycznego Jeżeli poziom przekroczy określony próg, neuron jest aktywowany i wyzwala impuls Siła wpływu impulsu na inne neurony zależy od warunków chemicznych w synapsie pomiędzy neuronami Modyfikacja połączeń umożliwia sieci uczenie się i rozpoznawanie wzorców pobudzeń http://askabiologist.asu.edu/neuron-anatomy 21

Sztuczna sieć neuronowa - architektura http://www.codeproject.com/articles/175777/financial-predictor-via-neural-network GtIDA, 2010 22

Sztuczna sieć neuronowa - obliczenia Obliczenia w sieci feed-forward +1 w I 01 +1 w II 01 x 1 x 2 w I 11 w I 21 w II 11 w II 21 w II 31 x 3 w I 31 w II 41 (część połączeń na rysunku pominięto dla zachowania czytelności) 23

Algorytm gradientu prostego (gradient descent) dla regresji liniowej

Algorytm gradientu prostego dla sieci neuronowych i wsteczna propagacja błędu +1 +1 w I 01 w I 11 w II 11 x 1 w I 21 w I 31 w II 12 x 2 x 3 (część połączeń na rysunku pominięto dla zachowania czytelności)

Algorytm gradientu prostego znajduje lokalne minima funkcji www.coursera.org, Stanford, Machine learning, Andrew Ng

Ocena skuteczności sieci neuronowej W przypadku regresji: RSE R2 F-statystyka W przypadku klasyfikacji: Macierze pomyłek Krzywe ROC

Uczenie sieci w środowisku MATLAB

Ocena sieci w środowisku MATLAB

Najważniejsze dzisiaj: Regresja logistyczna modeluje prawdopodobieństwo przynależności obiektu do klasy Do oceny klasyfikatorów mogą służyć: Macierze pomyłek Krzywe ROC Sieci neuronowe to rodzina modeli nieparametrycznych i nieinterpretowalnych Algorytm spadku gradientu algorytm poszukiwania minimum funkcji Wsteczna propagacja błędu pozwala wykorzystać algorytm spadku gradientu do ustalenia wag w sieci neuronowej

Plan wykładów - podsumowanie 1. Wykład I Podstawowe pojęcia, wprowadzenie do metod uczenia maszynowego 2. Wykład II Regresja liniowa, regresja logistyczna (WIII), ocena skuteczności modelu (WIII) 3. Wykład III Sieci neuronowe, algorytm spadku gradientu, algorytm wstecznej propagacji błędu 31