SYSEMY UCZĄCE SIĘ WYKŁAD 5. UCZENIE SIĘ APROKSYMACJI FUNKCJI MODELE LINIOWE Częstochoa 4 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochoska
MEODY APROKSYMACJI Metody aproksymacji pod zględem sposobu reprezentacji funkcji aproksymoanej: parametryczne, których hipoteza reprezentoana jest przez ektor liczb rzeczyistych parametró modyfikoanych trakcie uczenia, na podstaie których obliczana jest artość funkcji dla doolnego punktu z dziedziny, pamięcioe (memory-based, instance-based, similarity-based, lazy learners), przechoujące zbiór przykładó uczących i yznaczające artość hipotezy na podstaie przykładó najbardziej podobnych do przykładu ejścioego, symboliczne, oparte na symbolicznej reprezentacji funkcji, np. postaci drze decyzyjnych.
MEODY PARAMERYCZNE Założenie przykłady opisyane są ektorami liczb rzeczyistych (atrybutó) = [,,,, n ] hipoteza reprezentoana jest ektorem liczb rzeczyistych (parametró, ag). W modelu linioym: = [,,,, n ] Uczenie się Uczenie się polega na modyfikoaniu ag na podstaie przykładó trenujących. Cel zmniejszenie błędu aproksymacji, np.: E( h ) = ( f ( ) h P gdzie: f() jest artością funkcji doceloej dla przykładu, a h ( ) = F(, ) jest artością hipotezy przy agach dla przykładu. ( )) Ponieaż f() jest zykle nieznana jej miejsce podstaiamy y (y = f() + ε). 3
MEODY PARAMERYCZNE Proces uczenia się często ykorzystuje regułę spadku gradientu (patrz perceptron). Gradient ag: E E E E ( h ) =,,..., ze znakiem ujemnym skazuje kierunek "przesunięcia" n η E( h + η gdzie η > jest spółczynnikiem uczenia. P ) ( f ( ) h ( )) Poyższa reguła nosi nazę uogólnionej reguły delta. Reprezentuje ona ogólny algorytm uczenia się parametrycznych aproksymatorach funkcji (tryb epokoy agi modyfikoane są po każdej epoce). Jego konkretyzacja zależy od funkcji F, czyli od charakteru zależności hipotezy od. Regułę tę można zastosoać trybie inkrementacyjnym (adaptacja ag po prezentacji każdego przykładu): + η ( f ( ) h ( )) h ( ) h ( ) 4
5 Hipoteza ma postać: = = = n i i i h ) ( Gradient hipotezy: = = = ],...,, [,,...,, ) ( n n h h h h Reguła delta (zana reguła Widroa-Hoffa, adaline lub LMS) dla hipotezy linioej: tryb epokoy tryb inkrementacyjny + P y ) ( η lub ) ( y + η APROKSYMAOR LINIOWY (PERCEPRON)
UCZENIE PERCEPRONU ryb epokoy. Wybierz losoo, ustal η. Potarzaj.. =, E =.. Potarzaj dla i =,,..., N = + ( yi i ) E = E +.3. + η ( y i i ).4. Jeśli osiągnięto arunek stopu, to zakończ i ryb inkrementacyjny. Wybierz losoo, ustal η. Potarzaj.. E =.. Potarzaj dla i =,,..., N E = E + ( y i i ) + η ( yi i ).3. Jeśli osiągnięto arunek stopu, to zakończ i Warunek stopu: osiągnięto k ma iteracji lub przez ostatnie K iteracji nie osiągnięto znaczącej popray rezultatu lub E < E ma. 6
MODEL REGRESJI LINIOWEJ W regresji agi yznacza się sposób analityczny. Błąd aproksymacji możemy zapisać: gdzie: E( h ) = P ( y h ( )) = ( Y X) Y = [ y, y,..., y N ] ektor pożądanych odpoiedzi, ( Y X) = Y Y ( X) Y + ( X) X,..., n =,..., n X macierz przykładó............ N,... N, n Przyrónując pochodną błędu do zera X Y + X X = linioej: otrzymujemy agi modelu regresji = ( X X) Uaga: Jeśli kolumny X są linioo zależne, to yznacznik macierzy X X jest zeroy i macierzy tej nie można odrócić. X Y 7
MODEL REGRESJI LINIOWEJ Dla przypadku jednoymiaroego (n = ) otrzymujemy: N i i= = N ( )( yi y), = y ( y y) i= i gdzie i oznacza numer przykładu uczącego, i y to artości średnie zbiorze uczącym. 8
REGRESJA KROKOWA Problem: duża liczba atrybutó (zależnych od siebie, nie płyających na zmienną yjścioą y) Cel: ybrać nieielki podzbiór atrybutó, który pozoli uprościć model zachoując jego dokładność. Regresja krokoa (stepise regression) pozala yłonić procedurze krokoej atrybuty istotne i zbudoać na nich model linioy, który zapenia najmniejszy błąd regresji. Konstrukcja modelu regresji krokoej może przebiegać trzech trybach: Krokoe dodaanie atrybutó. Ustal Φ = {,,, n } zbiór atrybutó kandydujących i Ω = zbiór atrybutó istotnych. Potarzaj dla każdego i Φ:.. Zbuduj model z ykorzystaniem szystkich atrybutó z Ω i i-tego atrybutu z Φ; odnotuj błąd tego modelu 3. Jeśli nie nastąpiła popraa modelu p. zakończ 4. Wybierz atrybut z Φ, dla którego nastąpiła najiększa popraa modelu i przenieś go z Φ do Ω 9
REGRESJA KROKOWA 5. Potórz kroki -5 Krokoa eliminacja atrybutó. Ustal Ω = {,,, n } zbiór atrybutó istotnych. Potarzaj dla każdego i Ω:.. Zbuduj model z ykorzystaniem atrybutó z Ω pomijając i-ty atrybut; odnotuj błąd tego modelu 3. Jeśli nie nastąpiła popraa modelu p. zakończ 4. Wybierz atrybut z Ω, po pominięciu którego nastąpiła najiększa popraa modelu i usuń go z Ω 5. Potórz kroki -5 Naprzemienne użycie du poyższych trybó Miarą popray modelu jest tz. p-artość (liczboe yrażenie istotności statystycznej) testu statystycznego F-Snedecora * (stosuje się też inne kryteria). * patrz: Jóźiak J., Podgórski J.: Statystyka od podsta. PWE, str. 43
REGRESJA GRZBIEOWA Problem: duże agi i (co do modułu) spraiają, że yjście y jest rażlie na małe zmiany ejść i Cel: zmniejszyć agi (co do modułu) W regresji grzbietoej (ridge regression) kryterium zaiera sumę kadrató ag jako składnik kary : P n E( h ) = ( y h ( )) + λ i = ( Y X) ( Y X) + λ gdzie λ jest parametrem określającym stopień uzględnienia kary kryterium. i= Dla λ = otrzymujemy zykły model regresji linioej; dla λ = otrzymujemy zeroe agi. Aby yrónać pły poszczególnych ag na artość kary przed ykonaniem obliczeń należy sproadzić artości szystkich atrybutó do tej samej skali (ariancja próbkoa szystkich atrybutó poinna ynosić ). Zapis postaci macierzoej ymaga cześniejszego yeliminoania yrazu olnego i scentroania atrybutó. Wtedy macierz X ma rozmiary N n, a N. Szczegóły [ib].
REGRESJA GRZBIEOWA Wagi minimalizujące poyższe kryterium yznacza się ze zoru: = ( X X + λ I) gdzie I jest macierzą jednostkoą (z jedynkami na przekątnej) o ymiarach n n. Optymalną artość parametru λ dobiera się procedurze krosalidacji. Rys. Przykładoe artości ag dla różnych artości λ. Rys. Wartości ag (od leej): rzeczyiste, estymoane regresji linioej, estymoane regresji grzbietoej.5 X Y.5 -.5 - -.5 4 6 8 λ
REGULARYZACJA Wzbogacenie kryterium o karę postaci sumy kadrató ag nazya się regularyzacją ichonoa. Regularyzacja zapobiega przeuczeniu modelu (nadmiernemu dopasoaniu). Regularyzacja pozala zredukoać błąd średniokadratoy (MSE). Odbya się to poprzez redukcję ariancji, chociaż obciążenie modelu zrasta. Błąd MSE można zapisać jako: E[( f ( ) h( )) ] = ( E[ h( )] f ( )) + E[( h( ) E[ h( )]) ] MSE Kadrat obciążenia (mean squared error) (bias) gdzie E(.) oznacza artość oczekianą. Wariancja (var) Wariancja informuje jak rażliy jest model na drobne zmiany zbiorze uczącym. Obciążenie informuje jak dokładny jest model dla różnych zbioró uczących. 3
LASSO LASSO (Least Absolute Shrinkage and Selection Operator) jest metodą regularyzacji modelu regresji linioej, której kryterium zaiera sumę modułó ag jako składnik kary: E( h )) + λ ) = ( y h ( P n i= i Wproadzenie kary postaci sumy modułó zamiast sumy kadrató ag ma ciekae konsekencje. W regresji grzbietoej agi zmniejszają się az ze zrostem λ, ale nigdy nie osiągają zera. W LASSO agi mogą się zeroać przy odpoiednio dużych artościach λ. LASSO jest jednocześnie algorytmem regularyzacji i selekcji atrybutó (atrybuty z zeroymi agami nie są uzględniane modelu)..5.5.5 -.5 -.5..5..5 λ 4
LASSO Podobnie jak regresji grzbietoej redukcja MSE odbya się poprzez redukcję ariancji, chociaż obciążenie modelu zrasta. Wyznaczenie artości ag minimalizujących kryterium użyane LASSO nie jest możlie na drodze analitycznej jak regresji grzbietoej lecz ymaga algorytmu iteracyjnego. Rys. Wartości ag (od leej): rzeczyiste, estymoane regresji grzbietoej, estymoane LASSO = Elastyczna sieć (elastic net) łączy regresję grzbietoą z LASSO. Składnik kary ma tutaj postać: λ n i= ( α i + ( α) i gdzie α [, ]. Dla α = otrzymujemy regresję grzbietoą, dla α = otrzymujemy LASSO. ) 5
ROZSZERZONA MODELE REPREZENACJA LINIOWE Rozszerzona reprezentacja polega na zbogaceniu przykładó o dodatkoe atrybuty, które są funkcjami atrybutó oryginalnych, np: i, i 3, i j, log( i ), sin( i ), / i itd. Model zbudoany na rozszerzonych przykładach, np. = [,,,, ] postaci: h ( ) = + + + + + 3 to nadal model regresji linioej, choć zależność pomiędzy a y, którą yraża nie jest linioa! Wagi takiego modelu estymujemy opisanymi poyżej metodami regresji i aproksymacji linioej. 4 5 3.5 3 h() = 9 3-5 - 3 + y.5.5 y - y.5 -.5 -.5.5-4 -6 h() = z + z + 3 z 3 + z = ep( )/, z = ln(/), z 3 = sin(.8 ) = -.5, =.6, 3 =.4, = -..4.6.8 - h() = + 9-3 - 3 - -.5.5-6