Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Podobne dokumenty
Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Indukowane Reguły Decyzyjne I. Wykład 8

Data Mining Wykład 4. Plan wykładu

9. Praktyczna ocena jakości klasyfikacji

Ocena dokładności diagnozy

Rozdział 8. Regresja. Definiowanie modelu

Statystyczna analiza danych 1

Wprowadzenie do uczenia maszynowego

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Stanisław Cichocki. Natalia Nehrebecka

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

Krzywe ROC i inne techniki oceny jakości klasyfikatorów

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka

Testowanie hipotez statystycznych

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Wstęp do sieci neuronowych, wykład 13-14, Walidacja jakości uczenia. Metody statystyczne.

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Weryfikacja hipotez statystycznych

Systemy uczące się wykład 2

Wstęp do sieci neuronowych, wykład 09, Walidacja jakości uczenia. Metody statystyczne.

Testowanie hipotez statystycznych

Stosowana Analiza Regresji

Stanisław Cichocki. Natalia Nehrebecka

Testowanie hipotez statystycznych

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Metody scoringowe w regresji logistycznej

Regresja logistyczna. Regresja logistyczna. Wymagania. Przykłady DV

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Czasowy wymiar danych

Ćwiczenie 12. Metody eksploracji danych

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Metody systemowe i decyzyjne w informatyce

Regresja liniowa wprowadzenie

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

Popularne klasyfikatory w pakietach komputerowych

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

WYKŁAD 8 ANALIZA REGRESJI

Rozpoznawanie obrazów

KORELACJE I REGRESJA LINIOWA

Jakość uczenia i generalizacja

Testowanie hipotez statystycznych

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Własności statystyczne regresji liniowej. Wykład 4

Wprowadzenie do uczenia maszynowego

KRZYWE ROC, CZYLI OCENA JAKOŚCI KLASYFIKATORA I POSZUKIWANIE OPTYMALNEGO PUNKTU ODCIĘCIA

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Analiza niepewności pomiarów

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Stosowana Analiza Regresji

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa.

SPOTKANIE 3: Regresja: Regresja liniowa

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Metody Ekonometryczne

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Regresja logistyczna

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

Metody systemowe i decyzyjne w informatyce

Optymalizacja systemów

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

WYKŁAD 2. Problem regresji - modele liniowe

Laboratorium 6. Indukcja drzew decyzyjnych.

Regresja logistyczna (LOGISTIC)

Wybór modelu i ocena jakości klasyfikatora

Laboratorium 4. Naiwny klasyfikator Bayesa.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Odczarowujemy modele predykcyjne Teoria i Praktyka

10/15/2016. Reguła. Czułość PV(+) Bayesa. Swoistość PV(-)

(LMP-Liniowy model prawdopodobieństwa)

1.9 Czasowy wymiar danych

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Agnieszka Nowak Brzezińska Wykład III

ALGORYTM RANDOM FOREST

Wprowadzenie do analizy korelacji i regresji

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

BADANIE ZALEśNOŚCI CECHY Y OD CECHY X - ANALIZA REGRESJI PROSTEJ

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Rozpoznawanie obrazów

3. Modele tendencji czasowej w prognozowaniu

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH

Transkrypt:

Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład II bogumil.konopka@pwr.edu.pl 2017/2018

Określenie rzeczywistej dokładności modelu Zbiór treningowym vs zbiór testowy Zbiór treningowy zbiór wykorzystywany przy budowie modelu Zbiór testowy zbiór niedostępny przy budowie modelu 2

Elastyczność modelu przy danych liniowych Model liniowy (dwa parametry) mała elastyczność ( flexibility), mały błąd treningowy mały błąd testowy Wielomian z kilkoma parametrami umiarkowana elastyczność mały błąd treningowy mały błąd testowy Wielomian z dużą liczbą parametrów duża elastyczność mały błąd treningowy duży błąd testowy Rzeczywista zależność MSE testowy MSE treningowy ITSL, James et al. 2013 3

Elastyczność modelu, a MSE (przykład 2) Model liniowy (dwa parametry) mała elastyczność ( flexibility), duży błąd treningowy duży błąd testowy Wielomian z kilkoma parametrami umiarkowana elastyczność mały błąd treningowy mały błąd testowy Wielomian z dużą liczbą parametrów duża elastyczność mały błąd treningowy duży błąd testowy Rzeczywista zależność MSE testowy MSE treningowy ITSL, James et al. 2013 4

Elastyczność modelu, a MSE (przykład 3) Model liniowy (dwa parametry) mała elastyczność ( flexibility), duży błąd treningowy duży błąd testowy Wielomian z kilkoma parametrami umiarkowana elastyczność mały błąd treningowy mały błąd testowy Wielomian z dużą liczbą parametrów duża elastyczność mały błąd treningowy mały błąd testowy Rzeczywista zależność MSE testowy MSE treningowy ITSL, James et al. 2013 5

Obciążenie vs zmienność modelu (ang. bias vs variance) Błąd może zawsze zostać rozłożony zgodnie z formułą: E y 0 f x 0 = Var f x 0 + Bias f x 0 2 + Var ε Zmienność modelu Obciążenie modelu Błąd nieredukowalny 6

Obciążenie vs zmienność modelu (ang. bias vs variance) Dane liniowe Dane nieliniowe Dane mocno nieliniowe E y 0 f x 0 = Var f x 0 + Bias f x 0 2 + Var ε ITSL, James et al. 2013 7

Wykład II - plan Regresja liniowa Regresja logistyczna Ocena skuteczności klasyfikatorów: Macierze pomyłek Krzywe ROC 8

Regresja liniowa Metoda uczenia maszynowego z nadzorem Postać modelu: y = β 0 + β 1 x 1 +β 2 x 2 + +β p x p Cele analizy: Czy jest związek pomiędzy zmiennymi wyjaśniającymi, a zmienną wyjaśnianą? Jak silny jest ten związek? Jak silny jest wkład od poszczególnych zmiennych wyjaśniających? Jak dokładnie możemy określić związek każdej zmiennej wyjaśniającej z odpowiedzią? Jak dokładnie możemy przewidzieć zmienną wyjaśnianą Czy związek jest liniowy? Czy jest efekt synergii pomiędzy zmiennymi? Rys. Zależność poziomu sprzedaży w zależności od wydatków na reklamy w telewizji ITSL, James et al. 2013 9

Model prostej regresji liniowej - przykład Zbiór uczący i sformułowanie problemu (tablica) Dopasowanie współczynników: Minimalizacja RSS - Sumy kwadratów reszt ( Residual Sum of Squares ) Pochodne cząstkowe RSS po współczynnikach = 0 (tablica) 10

Minimalizacja sumy kwadratów reszt (RSS) Rezultat rozwiązania problemu minimalizacji RSS to: Zestaw parametrów modelu, dający optymalne dopasowanie modelu do danych Istnieje wiele sposobów rozwiązania problemu minimalizacji RSS (np. algorytm najszybszego spadku gradient descent ) ITSL, James et al. 2013 11

Ocena dokładności estymacji parametrów modelu Przedziały ufności Uzyskane parametry β 0 i β 1 to tylko estymatory prawdziwych wartości W zależności od punktów wykorzystanych w zbiorze uczącym, wyniki będą się różnić Przedziały ufności: β t SE β, β + t SE β, gdzie t kwantyl z rozkładu t Studenta z (n 2) stopniami swobody SE β 0 2 = σ 2 1 n + x 2 SE β 1 2 = σ 2 n i=1 σ = RSE = RSS n 2 x i x 2 n i=1 x i x 2 12

Ocena dokładności estymacji parametrów modelu Test t-studenta Test t-studenta z df = n-2 Celem testu jest sprawdzenie czy wartość współczynnika jest równa 0 h 0 : β = 0 h a : β 0 Statystyka testowa: t = β 0 SE(β) 13

Ocena dokładności modelu Błąd standardowy reszt RSE Residual Standard Error (tablica) Statystyka R 2 (tablica) F-statystka (tablica) 14

Wielokrotna regresja liniowa Zbiór uczący i sformułowanie problemu: (tablica) Dopasowanie modelu: pełne wyprowadzenie Guide to Inteligent Data Analysis p. 234 15

Regresja wielomianowa Model liniowy może być łatwo rozszerzony do zależności wielomianowych y = β 0 + β 1 x 1 + β 2 x 1 2 Wystarczy utworzyć dodatkową zmienną wyjaśniającą 16

Więcej o regresji liniowej Algorytmy doboru zmiennych: Forward selection Backward selection Mixed selection Regresja liniowa odporna na wartości odstające (Robust linear regression) Pojęcie regularyzacji (regularization): Metoda LASSO Metoda Ridge regression 17

Problem klasyfikacji Celem jest przyporządkowanie obiektu do klasy w oparciu o zmienne wejściowe Zmienna wyjaśniana jest zmnienną kategoryczną, np. nowotwór złośliwy / nowotwór niezłośliwy Sformułowanie formalne dla przypadku z dwiema klasami: (tablica) 18

Klasyfikacja, a model liniowy Problemy z modelem liniowym: W modelu liniowym f x może być >1 lub < od 0 Interpretacja jest trudna Problemem jest również określenie parametru odcięcia Przy klasyfikacji chcemy żeby: 0 f x 1 19

Regresja logistyczna Przy klasyfikacji chcemy żeby: 0 f x 1 Funkcja logistyczna: f x = 1 1 + e z f x = 1 1 + e (β 0+β 1 x 1 + +β p x p ) 20

Interpretacja modelu logistycznego f x = P y = 1 X - prawdopodobieństwo, tego że y = 1 przy zadanych wartościach x Przykład: Jeżeli, dla modelu klasyfikującego nowotwory f x = 0.7 To możemy powiedzieć: Jest 70% szans na to, że nowotwór jest złośliwy 21

Graficzna interpretacja z Dane w przestrzeni atrybutów f x = 1 1 + e (β 0+β 1 x 1 +β 2 x 2 ) 3 Model dopasowany do danych: x 2 f x = 1 1 + e ( 3+x 1+x 2 ) Kiedy y = 1? Granica decyzji: x 1 3 22

Dopasowanie współczynników Najczęściej współczynniki modelu dopasowuje się metodą maksymalnej wiarygodności (maximum likelihood) Intuicja algorytmu: Wyszukiwane są takie wartości współczynników, dla których prawdopodobieństwo uzyskania prawidłowego przyporządkowania do klas jest największe Maksymalizowana funkcja ma postać: l β = p(x i ; β) (1 p(x j ; β)) i:y i =1 j:y j =0 23

Ocena dokładności współczynników Współczynniki ocenia tak jak dla regresji liniowej: Przedziały ufności Test t-studenta f(z) z f x = 1 1 + e (β 0+β 1 x 1 +β 2 x 2 ) 24

Zadanie domowe na punkt z aktywności Jaka jest interpretacja współczynników w modelu regresji logistycznej? Wskazówki: β 0 :Wychodząc od f x = pamiętając, że f x = p(y = 1 x) 1 1+e (β 0+β1x1) wyprowadzić β 0 lub e β 0 przy x1=0, β 1 : Wyprowadzić e β 1 wylicząjc stosunek e (β 0+β1x1) e (β 0+β1x 1), gdy x 1 = x 1 + 1 25

Ocena dokładności klasyfikatora (klasyfikator binarny) Możliwe wyniki klasyfikacji: TP True Positive Prawidłowo zaklasyfikowany przypadek pozytywny FP False Positive Fałszywy pozytywny Przypadek negatywny zaklasyfikowany jako pozytywny TN True Negative Prawidłowo zaklasyfikowany przypadek negatywny FN False Negative Fałszywy negatywny Przypadek pozytywny zaklasyfikowany jako negatywny 26

Przewidywana klasa Negatywna Pozytywna Macierz pomyłek Rzeczywista klasa Pozytywna Negatywna TP FP TP P predicted Positive Predictive Value/Precision celność przewidywania przypadków pozytywnych TN FN TP TN TN N predicted TP + TN Negative Predictive Value celność przewidywania przypadków negatywnych P total N total P total + N total Accuracy (ACC) dokładność Sensitivity - czułość Specificity - swoistość 27

Przewidywana klasa Negatywna Pozytywna Macierz pomyłek FP False Positive Rate N odsetek predykcji total fałszywie pozytywnych Rzeczywista klasa Pozytywna TP Negatywna FP TP P predicted Positive Predictive Value/Precision celność przewidywania przypadków pozytywnych FN TP TN TN TN N predicted TP + TN Negative Predictive Value celność przewidywania przypadków negatywnych P total N total P total + N total Accuracy (ACC) skuteczność Sensitivity - czułość Specificity - swoistość 28

Pełna macierz pomyłek z wszystkimi parametrami http://en.wikipedia.org/wiki/sensitivity_and_specificity 29

Przewidywana klasa N P Przewidywana klasa N P Dlaczego ogólna skuteczność klasyfikacji (ACC) nie wystarcza? Zbiór liczy 50 pacjentów chorych (P) oraz 50 zdrowych (N) Zbiór liczy 1000 pacjentów chorych (P) oraz 100 zdrowych (N) Rzeczywista klasa Rzeczywista klasa P = 50 N = 50 P = 1000 N = 100 45 997 47 1 30

Przewidywana klasa N P Przewidywana klasa N P Dlaczego ogólna skuteczność klasyfikacji (ACC) nie wystarcza? Zbiór liczy 50 pacjentów chorych (P) oraz 50 zdrowych (N) Zbiór liczy 1000 pacjentów chorych (P) oraz 100 zdrowych (N) Rzeczywista klasa Rzeczywista klasa P = 50 N = 50 P = 1000 N = 100 45 997 47 1 Przy równolicznych zbiorach próbek pozytywnych i negatywnych Acc jest ok. Jeżeli jedna klasa jest zdecydowanie nadreprezentowana, wówczas Acc może zbyt optymistycznie oceniać klasyfikator 31

Krzywa ROC (Receiver Operating Characteristic) Cel stosowania: Ocena klasyfikatora Porównywanie klasyfikatorów Wybór optymalnego progu odcięcia Pole pod krzywą (Area Under Curve - AUC) mówi o ogólnej skuteczności klasyfikatora 1.0 0.9 bardzo dobry 0.9 0.8 dobra 0.8 0.7 dość dobra 0.7 0.6 słaby 0.6 0.5 bardzo słaby 32

True Positive Rate Krzywa ROC - algorytm Negative Positive Uszeregować od największego do najmniejszego Obliczać TPR i FPR przy kolejnych wartościach stężenia hormonu jako progach podziału na klasy TPR = TP P total FPR = FP N total P total = 3 N total = 3 1 2 3 Jaki jest optymalny próg klasyfikacji? False Positive Rate 33

Dobór optymalnego progu klasyfikacji Minimalizacja odległości od punktu (0,1) na krzywej ROC Maksymalizacja różnicy pomiędzy True Positive Rate i False Positive Rate tzw. Indeks Youden a Perkins NJ, Schisterman EF. The Inconsistency of Optimal Cut-points Using Two ROC Based Criteria. American journal of epidemiology. 2006;163(7):670-675. doi:10.1093/aje/kwj063. 34

Najważniejsze pytania? Jaką budowę musi mieć model rozwiązujący problem regresji? Jak interpretować współczynniki modelu w regresji liniowej? Jak ocenić skuteczność dopasowania modelu liniowego? Jaką budowę musi mieć model rozwiązujący problem klasyfikacji? Jak ocenić skuteczność regresji logistycznej? 35