SYSTEMY UCZĄCE SIĘ WYKŁAD 5. UCZENIE SIĘ APROKSYMACJI FUNKCJI MODELE LINIOWE

Podobne dokumenty
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

SZTUCZNA INTELIGENCJA

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Optymalizacja ciągła

Metody jakościowe i ilościowe na usługach wyceny nieruchomości

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Elementy inteligencji obliczeniowej

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Rozpoznawanie obrazów

Stosowana Analiza Regresji

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Rozdział 8. Regresja. Definiowanie modelu

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Uczenie sieci typu MLP

Optymalizacja systemów

Metody systemowe i decyzyjne w informatyce

Podstawy Sztucznej Inteligencji (PSZT)

Funkcje charakterystyczne zmiennych losowych, linie regresji 1-go i 2-go rodzaju

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Wprowadzenie do uczenia maszynowego

Metody systemowe i decyzyjne w informatyce

Testy post-hoc. Wrocław, 6 czerwca 2016

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Wykład 9. Stateczność prętów. Wyboczenie sprężyste

KADD Minimalizacja funkcji

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

SZTUCZNA INTELIGENCJA

wiedzy Sieci neuronowe (c.d.)

Uogolnione modele liniowe

Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015

Metodologia badań psychologicznych. Wykład 12. Korelacje

Wojciech Skwirz

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

10. Techniki minimalizacji a sieci neuronowe

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka ADALINE.

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Wybór modelu i ocena jakości klasyfikatora

Redukcja wariancji w metodach Monte-Carlo

Badania ruchu w Trójmieście w ramach projektu Kolei Metropolitalnej. mgr inż. Szymon Klemba Warszawa, r.

Weryfikacja hipotez statystycznych

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

1 Wykład 4. Proste Prawa wielkich liczb, CTG i metody Monte Carlo

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Egzamin z ekonometrii wersja IiE, MSEMAT

Stanisław Cichocki. Natalia Nehrebecka

ALGORYTM RANDOM FOREST

KADD Minimalizacja funkcji

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

wiedzy Sieci neuronowe

Estymacja wektora stanu w prostym układzie elektroenergetycznym

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Metody eksploracji danych 3. Ocena modeli. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Optymalizacja ciągła

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Analiza składowych głównych. Wprowadzenie

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Testowanie hipotez statystycznych

Ekonometria dla IiE i MSEMat Z12

Egzamin z algebry liniowej 2003 r.

Stosowana Analiza Regresji

Metoda największej wiarogodności

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Własności statystyczne regresji liniowej. Wykład 4

Modelowanie glikemii w procesie insulinoterapii

SIECI NEURONOWE Liniowe i nieliniowe sieci neuronowe

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Ekonometria. Weryfikacja modelu. Paweł Cibis 12 maja 2007

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Optymalizacja ciągła

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Budowa modelu i testowanie hipotez

LABORATORIUM TEORII STEROWANIA. Ćwiczenie 6 RD Badanie układu dwupołożeniowej regulacji temperatury

Metody Ekonometryczne

Prawdopodobieństwo i rozkład normalny cd.

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Wykład 9 Testy rangowe w problemie dwóch prób

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Metody systemowe i decyzyjne w informatyce

Wprowadzenie do analizy korelacji i regresji

Transkrypt:

SYSEMY UCZĄCE SIĘ WYKŁAD 5. UCZENIE SIĘ APROKSYMACJI FUNKCJI MODELE LINIOWE Częstochoa 4 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochoska

MEODY APROKSYMACJI Metody aproksymacji pod zględem sposobu reprezentacji funkcji aproksymoanej: parametryczne, których hipoteza reprezentoana jest przez ektor liczb rzeczyistych parametró modyfikoanych trakcie uczenia, na podstaie których obliczana jest artość funkcji dla doolnego punktu z dziedziny, pamięcioe (memory-based, instance-based, similarity-based, lazy learners), przechoujące zbiór przykładó uczących i yznaczające artość hipotezy na podstaie przykładó najbardziej podobnych do przykładu ejścioego, symboliczne, oparte na symbolicznej reprezentacji funkcji, np. postaci drze decyzyjnych.

MEODY PARAMERYCZNE Założenie przykłady opisyane są ektorami liczb rzeczyistych (atrybutó) = [,,,, n ] hipoteza reprezentoana jest ektorem liczb rzeczyistych (parametró, ag). W modelu linioym: = [,,,, n ] Uczenie się Uczenie się polega na modyfikoaniu ag na podstaie przykładó trenujących. Cel zmniejszenie błędu aproksymacji, np.: E( h ) = ( f ( ) h P gdzie: f() jest artością funkcji doceloej dla przykładu, a h ( ) = F(, ) jest artością hipotezy przy agach dla przykładu. ( )) Ponieaż f() jest zykle nieznana jej miejsce podstaiamy y (y = f() + ε). 3

MEODY PARAMERYCZNE Proces uczenia się często ykorzystuje regułę spadku gradientu (patrz perceptron). Gradient ag: E E E E ( h ) =,,..., ze znakiem ujemnym skazuje kierunek "przesunięcia" n η E( h + η gdzie η > jest spółczynnikiem uczenia. P ) ( f ( ) h ( )) Poyższa reguła nosi nazę uogólnionej reguły delta. Reprezentuje ona ogólny algorytm uczenia się parametrycznych aproksymatorach funkcji (tryb epokoy agi modyfikoane są po każdej epoce). Jego konkretyzacja zależy od funkcji F, czyli od charakteru zależności hipotezy od. Regułę tę można zastosoać trybie inkrementacyjnym (adaptacja ag po prezentacji każdego przykładu): + η ( f ( ) h ( )) h ( ) h ( ) 4

5 Hipoteza ma postać: = = = n i i i h ) ( Gradient hipotezy: = = = ],...,, [,,...,, ) ( n n h h h h Reguła delta (zana reguła Widroa-Hoffa, adaline lub LMS) dla hipotezy linioej: tryb epokoy tryb inkrementacyjny + P y ) ( η lub ) ( y + η APROKSYMAOR LINIOWY (PERCEPRON)

UCZENIE PERCEPRONU ryb epokoy. Wybierz losoo, ustal η. Potarzaj.. =, E =.. Potarzaj dla i =,,..., N = + ( yi i ) E = E +.3. + η ( y i i ).4. Jeśli osiągnięto arunek stopu, to zakończ i ryb inkrementacyjny. Wybierz losoo, ustal η. Potarzaj.. E =.. Potarzaj dla i =,,..., N E = E + ( y i i ) + η ( yi i ).3. Jeśli osiągnięto arunek stopu, to zakończ i Warunek stopu: osiągnięto k ma iteracji lub przez ostatnie K iteracji nie osiągnięto znaczącej popray rezultatu lub E < E ma. 6

MODEL REGRESJI LINIOWEJ W regresji agi yznacza się sposób analityczny. Błąd aproksymacji możemy zapisać: gdzie: E( h ) = P ( y h ( )) = ( Y X) Y = [ y, y,..., y N ] ektor pożądanych odpoiedzi, ( Y X) = Y Y ( X) Y + ( X) X,..., n =,..., n X macierz przykładó............ N,... N, n Przyrónując pochodną błędu do zera X Y + X X = linioej: otrzymujemy agi modelu regresji = ( X X) Uaga: Jeśli kolumny X są linioo zależne, to yznacznik macierzy X X jest zeroy i macierzy tej nie można odrócić. X Y 7

MODEL REGRESJI LINIOWEJ Dla przypadku jednoymiaroego (n = ) otrzymujemy: N i i= = N ( )( yi y), = y ( y y) i= i gdzie i oznacza numer przykładu uczącego, i y to artości średnie zbiorze uczącym. 8

REGRESJA KROKOWA Problem: duża liczba atrybutó (zależnych od siebie, nie płyających na zmienną yjścioą y) Cel: ybrać nieielki podzbiór atrybutó, który pozoli uprościć model zachoując jego dokładność. Regresja krokoa (stepise regression) pozala yłonić procedurze krokoej atrybuty istotne i zbudoać na nich model linioy, który zapenia najmniejszy błąd regresji. Konstrukcja modelu regresji krokoej może przebiegać trzech trybach: Krokoe dodaanie atrybutó. Ustal Φ = {,,, n } zbiór atrybutó kandydujących i Ω = zbiór atrybutó istotnych. Potarzaj dla każdego i Φ:.. Zbuduj model z ykorzystaniem szystkich atrybutó z Ω i i-tego atrybutu z Φ; odnotuj błąd tego modelu 3. Jeśli nie nastąpiła popraa modelu p. zakończ 4. Wybierz atrybut z Φ, dla którego nastąpiła najiększa popraa modelu i przenieś go z Φ do Ω 9

REGRESJA KROKOWA 5. Potórz kroki -5 Krokoa eliminacja atrybutó. Ustal Ω = {,,, n } zbiór atrybutó istotnych. Potarzaj dla każdego i Ω:.. Zbuduj model z ykorzystaniem atrybutó z Ω pomijając i-ty atrybut; odnotuj błąd tego modelu 3. Jeśli nie nastąpiła popraa modelu p. zakończ 4. Wybierz atrybut z Ω, po pominięciu którego nastąpiła najiększa popraa modelu i usuń go z Ω 5. Potórz kroki -5 Naprzemienne użycie du poyższych trybó Miarą popray modelu jest tz. p-artość (liczboe yrażenie istotności statystycznej) testu statystycznego F-Snedecora * (stosuje się też inne kryteria). * patrz: Jóźiak J., Podgórski J.: Statystyka od podsta. PWE, str. 43

REGRESJA GRZBIEOWA Problem: duże agi i (co do modułu) spraiają, że yjście y jest rażlie na małe zmiany ejść i Cel: zmniejszyć agi (co do modułu) W regresji grzbietoej (ridge regression) kryterium zaiera sumę kadrató ag jako składnik kary : P n E( h ) = ( y h ( )) + λ i = ( Y X) ( Y X) + λ gdzie λ jest parametrem określającym stopień uzględnienia kary kryterium. i= Dla λ = otrzymujemy zykły model regresji linioej; dla λ = otrzymujemy zeroe agi. Aby yrónać pły poszczególnych ag na artość kary przed ykonaniem obliczeń należy sproadzić artości szystkich atrybutó do tej samej skali (ariancja próbkoa szystkich atrybutó poinna ynosić ). Zapis postaci macierzoej ymaga cześniejszego yeliminoania yrazu olnego i scentroania atrybutó. Wtedy macierz X ma rozmiary N n, a N. Szczegóły [ib].

REGRESJA GRZBIEOWA Wagi minimalizujące poyższe kryterium yznacza się ze zoru: = ( X X + λ I) gdzie I jest macierzą jednostkoą (z jedynkami na przekątnej) o ymiarach n n. Optymalną artość parametru λ dobiera się procedurze krosalidacji. Rys. Przykładoe artości ag dla różnych artości λ. Rys. Wartości ag (od leej): rzeczyiste, estymoane regresji linioej, estymoane regresji grzbietoej.5 X Y.5 -.5 - -.5 4 6 8 λ

REGULARYZACJA Wzbogacenie kryterium o karę postaci sumy kadrató ag nazya się regularyzacją ichonoa. Regularyzacja zapobiega przeuczeniu modelu (nadmiernemu dopasoaniu). Regularyzacja pozala zredukoać błąd średniokadratoy (MSE). Odbya się to poprzez redukcję ariancji, chociaż obciążenie modelu zrasta. Błąd MSE można zapisać jako: E[( f ( ) h( )) ] = ( E[ h( )] f ( )) + E[( h( ) E[ h( )]) ] MSE Kadrat obciążenia (mean squared error) (bias) gdzie E(.) oznacza artość oczekianą. Wariancja (var) Wariancja informuje jak rażliy jest model na drobne zmiany zbiorze uczącym. Obciążenie informuje jak dokładny jest model dla różnych zbioró uczących. 3

LASSO LASSO (Least Absolute Shrinkage and Selection Operator) jest metodą regularyzacji modelu regresji linioej, której kryterium zaiera sumę modułó ag jako składnik kary: E( h )) + λ ) = ( y h ( P n i= i Wproadzenie kary postaci sumy modułó zamiast sumy kadrató ag ma ciekae konsekencje. W regresji grzbietoej agi zmniejszają się az ze zrostem λ, ale nigdy nie osiągają zera. W LASSO agi mogą się zeroać przy odpoiednio dużych artościach λ. LASSO jest jednocześnie algorytmem regularyzacji i selekcji atrybutó (atrybuty z zeroymi agami nie są uzględniane modelu)..5.5.5 -.5 -.5..5..5 λ 4

LASSO Podobnie jak regresji grzbietoej redukcja MSE odbya się poprzez redukcję ariancji, chociaż obciążenie modelu zrasta. Wyznaczenie artości ag minimalizujących kryterium użyane LASSO nie jest możlie na drodze analitycznej jak regresji grzbietoej lecz ymaga algorytmu iteracyjnego. Rys. Wartości ag (od leej): rzeczyiste, estymoane regresji grzbietoej, estymoane LASSO = Elastyczna sieć (elastic net) łączy regresję grzbietoą z LASSO. Składnik kary ma tutaj postać: λ n i= ( α i + ( α) i gdzie α [, ]. Dla α = otrzymujemy regresję grzbietoą, dla α = otrzymujemy LASSO. ) 5

ROZSZERZONA MODELE REPREZENACJA LINIOWE Rozszerzona reprezentacja polega na zbogaceniu przykładó o dodatkoe atrybuty, które są funkcjami atrybutó oryginalnych, np: i, i 3, i j, log( i ), sin( i ), / i itd. Model zbudoany na rozszerzonych przykładach, np. = [,,,, ] postaci: h ( ) = + + + + + 3 to nadal model regresji linioej, choć zależność pomiędzy a y, którą yraża nie jest linioa! Wagi takiego modelu estymujemy opisanymi poyżej metodami regresji i aproksymacji linioej. 4 5 3.5 3 h() = 9 3-5 - 3 + y.5.5 y - y.5 -.5 -.5.5-4 -6 h() = z + z + 3 z 3 + z = ep( )/, z = ln(/), z 3 = sin(.8 ) = -.5, =.6, 3 =.4, = -..4.6.8 - h() = + 9-3 - 3 - -.5.5-6