Wrocław University of Technology WYKŁAD 2 Problem regresji - modele liniowe Maciej Zięba Politechnika Wrocławska
Regresja Regresja (ang. Regression): Dysponujemy obserwacjami z odpowiadającymi im wartościami ciągłymi. Celem uczenia jest skonstruowanie modelu regresji na podstawie danych. Model konstruowany jest tak, aby możliwe było przewidywanie nowych obserwacji. 2/14
Regresja Regresja (ang. Regression): Dysponujemy obserwacjami z odpowiadającymi im wartościami ciągłymi. Celem uczenia jest skonstruowanie modelu regresji na podstawie danych. Model konstruowany jest tak, aby możliwe było przewidywanie nowych obserwacji. 2/14
Regresja Regresja (ang. Regression): Dysponujemy obserwacjami z odpowiadającymi im wartościami ciągłymi. Celem uczenia jest skonstruowanie modelu regresji na podstawie danych. Model konstruowany jest tak, aby możliwe było przewidywanie nowych obserwacji. 2/14
Regresja Regresja (ang. Regression): Dysponujemy obserwacjami z odpowiadającymi im wartościami ciągłymi. Celem uczenia jest skonstruowanie modelu regresji na podstawie danych. Model konstruowany jest tak, aby możliwe było przewidywanie nowych obserwacji. 2/14
Regresja: Śledzenie ruchu Cel: Dane: Wyznaczenie następnego położenia obiektu. Sekwencja obrazów z poruszającymi się obiektami. Na podstawie dotychczas zarejestrowanej sekwencji obrazów wyznaczane jest położenie obiektu. 3/14
Regresja: Predykcja notowań giełdowych Cel: Dane: Wycena akcji. Notowania akcji z poprzednich okresów oraz inne czynniki wpływające na cenę akcji. Na podstawie notowań historycznych i innych czynników mających wpływ na cenę akcji budowany jest model predykcyjny. Model aktualizowany jest z wykorzystaniem bieżących notowań. 4/14
Regresja: Predykcja przeżywalności pooperacyjnej Cel: Dane: Określenie jaki okres czasu pacjent przeżyje po operacji. Wyniki badań pacjenta przeprowadzonych przed i po operacji, ogólna charakterystyka zdrowia pacjenta. Na podstawie danych o pacjencie należy określić jaki okres czasu przeżyje on po operacji. 5/14
Deterministyczny model liniowy Rozpatrujemy model liniowy: y = w x + w 0, Dysponujemy zestawem danych: D = {(x n, y n )} N n=1. Chcielibyśmy dopasować model do danych - znaleść najlepsze wartości w, oraz w 0. W tym celu definiujemy, odpowiednie kryterium: w 1, w 0 = arg min w,w 0 2 N (y n (w x n + w 0 )) 2 n=1 6/14
Ekstrakcja cech Zbiór M funkcji bazowych (ang. basis function), każda reprezentuje jedną cechę. Każda z N obserwacji przetwarzana jest przez każdą z M funkcji bazowych. Wynikiem jest tzw. design matrix: φ 1 (x 1 ) φ 2 (x 1 ) φ M (x 1 ) Φ =...... φ 1 (x N ) φ 2 (x N ) φ M (x N ) 7/14
Deterministyczny model liniowy Przypadek wielowymiarowy Rozpatrujemy wielowymiarowy model liniowy: y = w T φ(x). Interesuje nas znalezienie takiego modelu, który spełnia: gdzie: J(w) = 1 2 w = arg min J(w), w N (y n w T φ(x n )) 2 = 1 2 y Φw 2 2. n=1 8/14
Regresja liniowa w ujęciu probabilistycznym Modelem regresji liniowej (ang. linear regression): y = w T φ(x) + ε Zmienna ε N (ε 0, σ 2 ) modeluje niepewność obserwacji y. Model rozkładu warunkowego: p(y x, w, σ 2 ) = N (y w T φ(x), σ 2 ) Parametry modelu: w R M i σ 2 > 0. 9/14
Funkcja wiarygodności Dane: X = {x 1,..., x N }, y = {y 1,..., y N }. Warunkowa funkcja wiarygodności: N p(y X, w, σ 2 ) = N (y n w T φ(x n ), σ 2 ). Logarytm funkcji wiarygodności: n=1 ln p(y X, w, σ 2 ) = N 2 ln σ2 N 2 ln(2π) 1 σ 2 J(w) J(w) = 1 2 N (y n w T φ(x n )) 2 n=1 = 1 2 y Φw 2 2 10/14
Estymator ML Logarytm funkcji wiarygodności jest funkcją celu, którą optymalizujemy względem parametrów w. Licząc gradient ze względu na parametry: w ln p(y X, w, σ 2 ) = 1 σ 2 ΦT (y Φw) = 0 i rozwiązując względem w otrzymujemy w ML = (Φ T Φ) 1 Φ T y Optymalizując względem σ 2 : σ 2 ML = 1 N N ( yn wmlφ(x T n ) ) 2 n=1 11/14
Overfitting 12/14
Rozkład a priori W celu przeciwdziałania overfittingowi wprowadzamy rozkład a priori na w, który zmniejszy ich wahanie: p(w β 2 ) = N (w 0, β 2 I) 1 = (2πβ 2 ) M 2 e 1 2β 2 w 2 2 Rozkład a posteriori wyznaczamy ze wzoru Bayesa: p(w X, y, σ 2, β 2 ) = p(y X, w, σ2 )p(w β 2 ) p(y X, σ 2, β 2 ) 13/14
Estymator MAP Logarytmując i biorąc z minusem dostajemy kryterium uczenia dla estymacji MAP: ln p(w X, y, σ 2, β 2 ) = 1 2σ 2 y Φw 2 2 + 1 }{{} 2β 2 w 2 2 +const }{{} funkcja straty regularyzator Różniczkując po w i rozwiązując powyższe kryterium otrzymujemy estymator MAP: w MAP = (Φ T Φ + λi) 1 Φ T y gdzie λ = σ2 parametr regularyzacji. β2 14/14