Wst p do sieci neuronowych, wykªad 06, Walidacja jako±ci uczenia. Metody statystyczne.

Wst p do sieci neuronowych, wykªad 06, Walidacja jako±ci uczenia. Metody statystyczne. Maja Czoków, Jarosªaw Piersa Wydziaª Matematyki i Informatyki, Uniwersytet Mikoªaja Kopernika 2012-11-21 Projekt pn. IKS - Inwestycja w Kierunki Strategiczne na Wydziale Matematyki i Informatyki UMK realizowany w ramach Poddziaªania 4.1.2 Programu Operacyjnego Kapitaª Ludzki

1 Przykªad Przeuczenie sieci 2 Przypomnienie ze statystyki Problem Modele walidacji danych 3 Eksperyment my±lowy Bª dy pierwszego i drugiego rodzaju 4 Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania

Przykªad Przeuczenie sieci 1 Przykªad Przeuczenie sieci 2 Przypomnienie ze statystyki Problem Modele walidacji danych 3 Eksperyment my±lowy Bª dy pierwszego i drugiego rodzaju 4 Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania

Przykªad Przykªad Przeuczenie sieci Rozwa»my problem XOR; 1.5 1 0.5 0-0.5-1 -1.5-1.5-1 -0.5 0 0.5 1 1.5 (Poprawnie) nauczona sie daje poprawn odpowied¹ na wszystkich 4 przykªadach, Tablica haszuj ca da ten sam efekt bez zaawansowanej teorii i przy porównywalnym (albo i mniejszym) koszcie pami ciowym, Ale co si stanie, gdy zapytamy si o klasykacj punktu (1.3, 0.5)?

Przykªad Przykªad Przeuczenie sieci Co si stanie, gdy zapytamy si o klasykacj punktu (1.3, 0.5)? Tablica haszuj ca: (zale»nie od wybranego j zyka) ArrayIndexOutOfBoundsException, Segmentation Sie neuronowa: zwróci (jak ±) odpowied¹ dla ka»dego z punktów na pªaszczy¹nie, Od czego zale»y odpowied¹? fault itp.

Wnioski Przykªad Przeuczenie sieci nie chcemy w zbiorze treningowym ka»dej mo»liwej warto±ci jaka mo»e pa±, chcemy reprezentatywn próbk przestrzeni o jak sie b dzie pytana podczas normalnego dziaªania,

Przykªad Przeuczenie sieci Co to jest reprezentatywna próbka? Co autor mo»e mie na my±li: 2 1.5 1 0.5 0-0.5-1 -1-0.5 0 0.5 1 1.5 2

Przykªad Przeuczenie sieci Co to jest reprezentatywna próbka? Co sie mo»e z tego zrozumie : 2 1.5 1 0.5 0-0.5-1 -1-0.5 0 0.5 1 1.5 2

Przykªad Przeuczenie sieci jest zdolno±ci sieci do porawnej klasykacji danych, na których sie nie byªa uczona.

Przykªad Przeuczenie sieci Dane ucz ce: 2 1.5 1 0.5 0-0.5-1 -1-0.5 0 0.5 1 1.5 2

Przykªad Przeuczenie sieci Sie niedouczona: 2 1.5 1 0.5 0-0.5-1 -1-0.5 0 0.5 1 1.5 2

Przykªad Przeuczenie sieci Sie dobrze nauczona: 2 1.5 1 0.5 0-0.5-1 -1-0.5 0 0.5 1 1.5 2

Przykªad Przeuczenie sieci Sie przeuczona: 2 1.5 1 0.5 0-0.5-1 -1-0.5 0 0.5 1 1.5 2

Przeuczenie sieci Przykªad Przeuczenie sieci przeuczenie sieci wyst puje, gdy sie uczy si przykªadów na pami, zdarza si to, gdy sie ma zbyt wiele punktów swobody (za du»o neuronów do nauczenia w porównaniu do skomplikowania problemu i ilo±ci danych), przeuczona sie traci umiej tno± generalizacji.

Systuacja ekstremalna Przykªad Przeuczenie sieci Dane ucz ce: 2 1.5 1 0.5 0-0.5-1 -1-0.5 0 0.5 1 1.5 2

Systuacja ekstremalna Przykªad Przeuczenie sieci Wewn trzna reprezentacja 2 1.5 1 0.5 0-0.5-1 -1-0.5 0 0.5 1 1.5 2

Przypomnienie ze statystyki Problem Modele walidacji danych 1 Przykªad Przeuczenie sieci 2 Przypomnienie ze statystyki Problem Modele walidacji danych 3 Eksperyment my±lowy Bª dy pierwszego i drugiego rodzaju 4 Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania

Przypomnienie ze statystyki Przypomnienie ze statystyki Problem Modele walidacji danych Dana jest próbka losowa x 1,..., x n warto±ci, losowanych niezale»nie z rozkªadu X. rednia z próby deniowana jest jako x = n i=1 x i n rednia jest zgodnym estymatorem warto±ci oczekiwanej rozkªadu X (o ile EX istnieje!).

Przypomnienie ze statystyki Przypomnienie ze statystyki Problem Modele walidacji danych Estymator wariancji (o ile rozkªad X posiada wariancj!): ˆσ 2 = 1 n 1 n (x i x) 2 i=1 Estymator odchylenia standardowego: ˆσ = 1 n (x i x) n 1 2 i=1

Przypomnienie ze statystyki Przypomnienie ze statystyki Problem Modele walidacji danych Mediana próbki losowej x 1,..x n. Niech x i1,..., x in b dzie t próbk po posortowaniu. Mediana jest zdeniowana jako: je»eli n jest nieparzyste x i(n+1/2) (element na samym ±rodku posortowanej listy), je»eli n jest parzyste x i n/2 +xi n/2+1 2 (±rednia dwóch ±rodkowych elementów)

Zagadnienie Przypomnienie ze statystyki Problem Modele walidacji danych Dane niech b dzie zbiór punktów ucz cych wraz z poprawnymi odpowiedziami, Skonstruowana i nauczona zostaªa sie neuronowa, Chcemy oceni jako± klasykacji i generalizacji uzyskanej sieci.

Proste rozwi zanie Przypomnienie ze statystyki Problem Modele walidacji danych Po nauczeniu sieci sprawdzamy ile z przykªadów jest klasykowanych poprawnie, Obliczamy ilo± wszystkich przykªadów, Przypisujemy: jako± uczenia := ilo± przykªadów sklasykowanych poprawnie ilo± wszystkich przykªadów

Proste rozwi zanie Przypomnienie ze statystyki Problem Modele walidacji danych Rozwi zanie to jest za proste,»eby byªo prawdziwe! nie mówi nic o zachowaniu si sieci na danych, których nie widziaªa, preferuje uczenie si danych na pami, ignoruje generalizacj, zalet jest to,»e maksymalnie wykorzystuje zestaw danych do uczenia.

Walidacja prosta Przypomnienie ze statystyki Problem Modele walidacji danych dane ucz ce s losowo dzielone na dwa rozª czne zbiory: próbk ucz c U, próbk testow T, sie jest uczona za pomoc próbki ucz cej, jako± sieci jest badana tylko za pomoc próbki testowej jako± := ilo± przykªadów T sklasykowanych poprawnie ilo± wszystkich przykªadów w T

Walidacja prosta Przypomnienie ze statystyki Problem Modele walidacji danych

Walidacja prosta Przypomnienie ze statystyki Problem Modele walidacji danych Uwagi i niebezpiecze«stwa: wi kszy wpªyw na wynik mo»e mie zaimplementowany algorytm, U U T, ni» rozs dnym minimum dla U jest okoªo 1 4 caªego zbioru, z drugiej strony U nie powinno by wi ksze ni» 9 10 caªego zbioru, podaj c wynik, zawsze podajemy proporcje w jakich podzielono zbiór, mamy informacj o mo»liwo±ci generalizacji, ale algorytm uczenia sieci korzystaª tylko z uªamka dost pnej wiedzy,

k-krotna walidacja krzy»owa Przypomnienie ze statystyki Problem Modele walidacji danych Ang. k-fold cross-validation dane ucz ce s losowo dzielone na k rozª cznych i równolicznych zbiorów: T 1,..., T k, dla i = 1...k powtarzamy uczymy sie na zbiorze ucz cym T 1...T i 1 T i+1 T k, testujemy tak nauczon sie na danych T i (na tych danych sie nie byªa uczona), zapami tujemy rezultat (stosunek poprawnie sklasykowanych obiektów w T i do wsyztkich obiektów w T i ) jako r i podajemy wszystkie rezultaty r i, lub przynajmniej ich ±redni, median, minimum, maksimum i odchylenie standardowe,

k-krotna walidacja krzy»owa Przypomnienie ze statystyki Problem Modele walidacji danych

k-razy dwukrotna walidacja krzy»owa Przypomnienie ze statystyki Problem Modele walidacji danych Ang. k-times 2-fold cross-validation odmiana walidacji krzy»owej, dla i = 1...k powtarzamy: wykonujemy 2-krotn walidacj, za ka»dym razem losujemy zbiory treningowy i testowy od nowa, zapami tujemy wyniki r i1 r i2 (po dwa na ka»d iteracj ), zwracamy statystyki uzyskanych wyników,

k-razy dwukrotna walidacja krzy»owa Przypomnienie ze statystyki Problem Modele walidacji danych

Leave One Out Przypomnienie ze statystyki Problem Modele walidacji danych odmiana walidacji krzy»owej, w której k = ilo± elementów w T, dla i = 1...n powtarzamy: uczymy sie na zbiorze ucz cym T \T i, testujemy sie na pozostaªym przykªadzie T i, zapami tujemy wynik r i (b dzie on albo +1, albo 0), obliczamy ±redni i odchylenie standardowe wyników, mo»na stosowa w przypadku maªej ilo±ci danych w zbiorze T.

Leave One Out Przypomnienie ze statystyki Problem Modele walidacji danych

Eksperyment my±lowy Bª dy pierwszego i drugiego rodzaju 1 Przykªad Przeuczenie sieci 2 Przypomnienie ze statystyki Problem Modele walidacji danych 3 Eksperyment my±lowy Bª dy pierwszego i drugiego rodzaju 4 Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania

Bª dy i bª dy Eksperyment my±lowy Bª dy pierwszego i drugiego rodzaju je»eli przyjmowana klasykacja jest binarna to mo»emy si pomyli na dwa sposoby: przypadek, który jest pozytywny, faªszywie ocenimy jako negatywny (ang. false negative error ) przypadek, który jest negatywny, faªszywie ocenimy jako pozytywny (ang. false positive), który bª d jest gorszy?

Przykªad Eksperyment my±lowy Bª dy pierwszego i drugiego rodzaju egzamin z przedmiotu (np. WSN) powinien testowa wiedz zdaj cych je»eli zdaj cy zna materiaª i dostaª ocen pozytywn, to egzaminator poprawnie oceniª wiedz, je»eli zdaj cy nie zna materiaªu i nie zaliczyª, to ocena jest poprawna, je»eli zdaj cy umiaª, ale mimo tego nie zaliczyª, to egzaminator popeªniª bª d (false negative), je»eli zdaj cy nie umiaª a zaliczyª, to egzaminator popeªniª (dramatyczny) bª d (false positive). poniewa» zawsze przysªuguje egzamin poprawkowy, to ostatnia opcja jest najgorsza...

Bª dy pierwszego i drugiego rodzaju Eksperyment my±lowy Bª dy pierwszego i drugiego rodzaju klasykacja pozytywna klasykacja negatywna faktyczny stan poprawna odpowied¹ false negative jest pozytywny true positive (bª d II-go rodzaju) faktyczny stan false positive poprawna odpowied¹ jest negatywny (bª d I-go rodzaju) true negative

Bardziej»yciowe przykªady Eksperyment my±lowy Bª dy pierwszego i drugiego rodzaju ltr antyspamowy, kontrola bezpiecze«stwa na lotnisku, diagnoza lekarska, diagnoza usterek technicznych, kontrola jako±ci,

Wra»liwo± i specyczno± Eksperyment my±lowy Bª dy pierwszego i drugiego rodzaju wra»liwo± testu (ang. sensitivity) jest odsetkiem pozytywnych odpowiedzi modelu w±ród faktycznych pozytywnych przypadków, test o wysokiej wra»liwo±ci popeªnia maªo bª dów II-go rodzaju TPR = true positives positives specyczno± testu (ang. specicity) jest odsetkiem negatywnych odpowiedzi w±ród faktycznych negatywnych przypadków, test o wysokiej specyczno±ci popeªnia maªo bª dów I-go rodzaju true negatives TNR = negatives

Wra»liwo± i specyczno± Eksperyment my±lowy Bª dy pierwszego i drugiego rodzaju stuprocentowa wra»liwo± tak na ka»dy przypadek pozytywny, stuprocentowa specyczno± nie na ka»dy przypadek negatywny (bardzo asertywny test), wysokie oba wska¹niki s cech dobrych testów (co oznacza: trudne do osi gni cia), znaj c cel (np. unikanie faªszywych alarmów), szukamy najlepszego kompromisu kontroluj c wa»niejsz statystyk,

Reciever Operation Characteristic Eksperyment my±lowy Bª dy pierwszego i drugiego rodzaju Funkcja wra»liwo±ci testu w zale»no±ci od progu przyjmowania odpowiedzi:

Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania 1 Przykªad Przeuczenie sieci 2 Przypomnienie ze statystyki Problem Modele walidacji danych 3 Eksperyment my±lowy Bª dy pierwszego i drugiego rodzaju 4 Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania

Co robi je»eli wyniki s ci gªe? Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania bª dy mierzymy jako odlegªo± uzyskanego wyniku od oczekiwanego: ERR = E(t) O(t) t lub kwadrat odlegªo±ci ERR = t (E(t) O(t)) 2

Co robi je»eli wyniki s ci gªe? Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania w przypadku wielowymiarowym dodatkowo suma po wspóªrz dnych ERR = (E i (t) O i (t)) 2 t im mniejszy bª d, tym lepsza klasykacja i

Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania Regresja liniowa / Metoda najmniejszych kwadratów danych mamy n punktów na R 2 : (x 1, y 1 ),..., (x n, y n ) chcemy znale¹ równanie prostej y = ax + b przybli»aj cej te punkty

Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania Regresja liniowa / Metoda najmniejszych kwadratów danych mamy n punktów na R 2 : (x 1, y 1 ),..., (x n, y n ) chcemy znale¹ równanie prostej y = ax + b przybli»aj cej te punkty idea: znajdziemy równanie prostej f, która minimalizuje odlegªo± od tych punktów n (f (x i ) y i ) 2 i=1

Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania Regresja liniowa / Metoda najmniejszych kwadratów 5 5 0 0-5 -5-10 -10-15 0 2 4 6 8 10-15 0 2 4 6 8 10

Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania Regresja liniowa / Metoda najmniejszych kwadratów posta prostej f (x) = ax + b bª d E(a, b) = i (f (x i) y i ) 2 = i (ax i + b y i ) 2

Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania Regresja liniowa / Metoda najmniejszych kwadratów posta prostej f (x) = ax + b bª d E(a, b) = i (f (x i) y i ) 2 = i (ax i + b y i ) 2 bª d chcemy minimalizowa, wi c liczymy pochodne po a i po b E a = i (ax i + b y i ) 2 a E b = i (ax i + b y i ) 2 b

Regresja liniowa Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania E = (ax i + b y i ) 2 = 2(ax i + b y i ) (ax i + b y i ) a a a i i 2(ax i + b y i )x i = 2(a x 2 i + b x i x i y i ) i i i i =

Regresja liniowa Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania E = (ax i + b y i ) 2 = 2(ax i + b y i ) (ax i + b y i ) a a a i i 2(ax i + b y i )x i = 2(a x 2 i + b x i x i y i ) i i i i Podobnie E = (ax i + b y i ) 2 = 2(ax i + b y i ) (ax i + b y i ) b b b i i 2(ax i + b y i )1 = 2(a x i + b 1 y i ) i i i i = =

Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania Regresja liniowa / Metoda najmniejszych kwadratów Oznaczmy S 1 = i 1 = n S x = i x i S y = i y i S xy = i x i y i S xx = i x 2 i

Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania Regresja liniowa / Metoda najmniejszych kwadratów Nasze równania teraz wygl daj nast puj co: 2(aS xx + bs x S xy ) = 0 2(aS x + bs 1 S y ) = 0

Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania Regresja liniowa / Metoda najmniejszych kwadratów Nasze równania teraz wygl daj nast puj co: 2(aS xx + bs x S xy ) = 0 2(aS x + bs 1 S y ) = 0 as xx + bs x = S xy as x + bs 1 = S y

Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania Regresja liniowa / Metoda najmniejszych kwadratów Nasze równania teraz wygl daj nast puj co: 2(aS xx + bs x S xy ) = 0 2(aS x + bs 1 S y ) = 0 as xx + bs x = S xy as x + bs 1 = S y a = b = n Sxy Sx Sy n Sxx Sx 2 Sxx Sy Sxy Sx n Sxx Sx 2

Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania Regresja liniowa / Metoda najmniejszych kwadratów Je»eli f (x) = a d x d + a d 1x d 1 + a 1 x + a 0 bª d E(a, b) = i (f (x i) y i ) 2

Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania Regresja liniowa / Metoda najmniejszych kwadratów Je»eli f (x) = a d x d + a d 1x d 1 + a 1 x + a 0 bª d E(a, b) = i (f (x i) y i ) 2 ponownie liczymy pochodne po ka»dym ze wspóªczynników E a i = j (a d x d j +... + a 1 x 1 j + a 0 y j ) 2 a j dla i = 0...d,

Aproksymacja wielomianem st. 2 Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania 10 5 0-5 -10 0 2 4 6 8 10

Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania Regresja liniowa / Metoda najmniejszych kwadratów E a i = j ) 2 (a d x dj +... + a 1 x 1 (ad x d +... + a j 0 y j ) j + a 0 y j a i dla i = 0...d,

Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania Regresja liniowa / Metoda najmniejszych kwadratów E a i = j ) 2 (a d x dj +... + a 1 x 1 (ad x d +... + a j 0 y j ) j + a 0 y j a i dla i = 0...d, E a i = j ) 2 (a d x dj +... + a 1 x 1 j + a 0 y j x i j dla i = 0...d,

Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania Regresja liniowa / Metoda najmniejszych kwadratów E a i = j ) 2 (a d x dj +... + a 1 x 1 (ad x d +... + a j 0 y j ) j + a 0 y j a i dla i = 0...d, E a i = j ) 2 (a d x dj +... + a 1 x 1 j + a 0 y j x i j dla i = 0...d, E a i = a d j x d+i j +... + a 1 j x 1+i j + a 0 j x i j j y j x i j = 0

Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania Regresja liniowa / Metoda najmniejszych kwadratów Oznaczmy: S x k = j x k j S yx k = j y j x k j

Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania Regresja liniowa / Metoda najmniejszych kwadratów Otrzymujemy ukªad równa«: S x 2d S x 2d 1... S x d+1 S x d S x 2d 1 S x 2d 2... S x d S x d 1.. S x d S x d 1... S x 1 S x 0 a n a n 1. a 0 = S yx d S yx d 1. S yx 0

Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania Aproksymacja wielomianem zbyt wysokiego stopnia dla wysokich stopni wielomianu d i zªo±liwych danych problem mo»e by ¹le uwarunkowany (np. w danych jest para (x i, y i )(x j, y j ) gdzie x i jest do± bliski x j, a odpowiadaj ce im y znacznie si ró»ni ), wielomian traa idealnie (niemal idealnie, je»eli d < n 1) w ka»dy z punktów ucz cych, ale nie oddaje tego, co si dzieje poza nimi, je»eli d n (ilo± danych), to prostszym rozwi zaniem jest interpolacja wielomianowa Lagrange'a.

Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania Aproksymacja wielomianem zbyt wysokiego stopnia 40 20 0-20 -40 0 2 4 6 8 10

Zadania Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania znajd¹ wielomiany stopni 1, 2 i 3 przybli»aj cy punkty (0, 0), (1, 1), (2, 3), znajd¹ wielomiany stopni 1, 2 i 3 przybli»aj cy punkty (0, 0), (1, 1), (2, 3), (4, 0), (*) znajd¹ wielomian interpolacyjny Lagrange'a stopnia 1, 2 i 3 dla danych z zada«powy»ej, zaimplementuj uczenie perceptronu i prostej sieci skierowanej na przykªadzie XOR (lub innym nietrywialnym), zbadaj jako± uczenia w obu przypadkach, Skorzystaj z walidacji prostej, krzy»owej, LOO, estymacji poprawnie klasykowanych punktów itp.

Zadania Regresja liniowa prosta Regresja liniowa wielomian stopnia d Zadania zbadaj specyczno± i wra»liwo± (sensitivity and specicity) nauczonej sieci z zadania wy»ej, (**) kontroluj c r cznie próg neuronu a tym samym wra»liwo± testu (zawsze nie do zawsze tak), wy±wietl wykres zale»no±ci specyczno±ci od wra»liwo±ci (wykres ROC). (**) Oblicz numerycznie pole pod wykresem (AUC) z zadania powy»ej.