Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Podobne dokumenty
Optymalizacja ciągła

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Optymalizacja systemów

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

5. Rozwiązywanie układów równań liniowych

Optymalizacja ciągła

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Rozpoznawanie obrazów

Stosowana Analiza Regresji

WYKŁAD 9 METODY ZMIENNEJ METRYKI

WYKŁAD 8 ANALIZA REGRESJI

ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

Rozwiązywanie układów równań liniowych

Ważne rozkłady i twierdzenia c.d.

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Optymalizacja ciągła

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Rozpoznawanie obrazów

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Elementy inteligencji obliczeniowej

Układy równań liniowych. Krzysztof Patan

Metody systemowe i decyzyjne w informatyce

Metoda eliminacji Gaussa. Autorzy: Michał Góra

Wektor, prosta, płaszczyzna; liniowa niezależność, rząd macierzy

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Metody systemowe i decyzyjne w informatyce

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

5. Analiza dyskryminacyjna: FLD, LDA, QDA

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

Metody systemowe i decyzyjne w informatyce

IX. Rachunek różniczkowy funkcji wielu zmiennych. 1. Funkcja dwóch i trzech zmiennych - pojęcia podstawowe. - funkcja dwóch zmiennych,

Metody numeryczne. Sformułowanie zagadnienia interpolacji

Co to jest wektor? Jest to obiekt posiadający: moduł (długość), kierunek wraz ze zwrotem.

Rozkłady wielu zmiennych

Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa. P. F. Góra

Wykład 5. Metoda eliminacji Gaussa

ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ.

KADD Minimalizacja funkcji

Wykład 12 i 13 Macierz w postaci kanonicznej Jordana , 0 A 2

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

SIMR 2016/2017, Analiza 2, wykład 1, Przestrzeń wektorowa

Interpolacja, aproksymacja całkowanie. Interpolacja Krzywa przechodzi przez punkty kontrolne

Metoda najmniejszych kwadratów

Metoda największej wiarogodności

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu

1 Funkcje dwóch zmiennych podstawowe pojęcia

1.1 Klasyczny Model Regresji Liniowej

Macierze. Rozdział Działania na macierzach

Lista. Algebra z Geometrią Analityczną. Zadanie 1 Przypomnij definicję grupy, które z podanych struktur są grupami:

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania

Metoda największej wiarygodności

Aproksymacja funkcji a regresja symboliczna

ALGEBRA z GEOMETRIA, ANALITYCZNA,

Estymacja wektora stanu w prostym układzie elektroenergetycznym

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Zagadnienia brzegowe dla równań eliptycznych

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 7 AiR III

Modele zapisane w przestrzeni stanów

Lokalna odwracalność odwzorowań, odwzorowania uwikłane

3. Macierze i Układy Równań Liniowych


Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Rozpoznawanie obrazów

CHARAKTERYSTYKI CZĘSTOTLIWOŚCIOWE

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

Funkcje charakterystyczne zmiennych losowych, linie regresji 1-go i 2-go rodzaju

= i Ponieważ pierwiastkami stopnia 3 z 1 są (jak łatwo wyliczyć) liczby 1, 1+i 3

Metody numeryczne Wykład 4

MATEMATYKA I SEMESTR ALK (PwZ) 1. Sumy i sumy podwójne : Σ i ΣΣ

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

VII. Elementy teorii stabilności. Funkcja Lapunowa. 1. Stabilność w sensie Lapunowa.

Analiza współzależności zjawisk

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL. sin x2 (1)

Agnieszka Nowak Brzezińska

1 Relacje i odwzorowania

Rozwiązywanie równań nieliniowych

ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH

ZAGADNIENIA PROGRAMOWE I WYMAGANIA EDUKACYJNE DO TESTU PRZYROSTU KOMPETENCJI Z MATEMATYKI DLA UCZNIA KLASY II

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

wiedzy Sieci neuronowe

KADD Minimalizacja funkcji

SPOTKANIE 3: Regresja: Regresja liniowa

Programowanie liniowe. Tadeusz Trzaskalik

PODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.

Egzamin z Metod Numerycznych ZSI, Egzamin, Gr. A

ALGEBRA Z GEOMETRIĄ ANALITYCZNĄ zadania z odpowiedziami

15. Macierze. Definicja Macierzy. Definicja Delty Kroneckera. Definicja Macierzy Kwadratowej. Definicja Macierzy Jednostkowej

Metody systemowe i decyzyjne w informatyce

Wstęp do metod numerycznych Zadania numeryczne 2016/17 1

Wykład 10 Skalowanie wielowymiarowe

ALGEBRA LINIOWA Z ELEMENTAMI GEOMETRII ANALITYCZNEJ. 1. Ciała

Redukcja wariancji w metodach Monte-Carlo

Tydzień nr 9-10 (16 maja - 29 maja), Równania różniczkowe, wartości własne, funkcja wykładnicza od operatora - Matematyka II 2010/2011L

Metody systemowe i decyzyjne w informatyce

ALGEBRA Z GEOMETRIĄ ANALITYCZNĄ

Transkrypt:

Metody eksploracji danych 2. Metody regresji Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Zagadnienie regresji Dane: Zbiór uczący: D = {(x i, y i )} i=1,m Obserwacje: (x i, y i ), wektor cech x i R n Wartość wyjściowa jest skalarem y i R Zadanie: dobór funkcji f x : R n R, która pozwoli przewidzieć wartość wyjściową y odpowiadającą x x Model f(x) y P. Szwed: Metody eksploracji danych (2017) 2

Przykład 1 Szacowanie wartości nieruchomości na podstawie danych transakcyjnych z uwzględnieniem różnych atrybutów [https://urban.one/] P. Szwed: Metody eksploracji danych (2017) 3

Przykład 2 Przewidywanie wynagrodzeń w zależności od lokalizacji, wieku, branży, wykształcenia, stanowiska P. Szwed: Metody eksploracji danych (2017) 4

Przykład 3 Przewidywanie wielkości sprzedaży w zależności od typu towaru i ceny P. Szwed: Metody eksploracji danych (2017) 5

Przykład 4 Przewidywanie zużycia energii na podstawie danych historycznych [http://wattvision.posthaven.com/?page=5] P. Szwed: Metody eksploracji danych (2017) 6

Etapy Wybór danych, które zostaną użyte D = {(x i, y i )} i=1,m Wybór postaci modelu Określenie parametrów modelu Walidacja modelu Przykład: x to powierzchnia domu, y to cena domu P. Szwed: Metody eksploracji danych (2017) 7

Postać modelu Wybór typowych funkcji (których parametry da się wyznaczyć) Funkcja stała? Funkcja liniowa? Wielomian wyższego rzędu? Z reguły bardziej złożona funkcja będzie lepiej przybliżała dane uczące, ale niekoniecznie sprawdzi się przy predykcji. P. Szwed: Metody eksploracji danych (2017) 8

Parametry modelu Zakładamy, że wybraną postacią będzie funkcja liniowa: y(x) = w 0 + w 1 x Należy wybrać najlepszą lub najbardziej prawdopodobną funkcję Konieczne są założenia i kryterium pozwalające na ocenę modelu P. Szwed: Metody eksploracji danych (2017) 9

Przebieg procesu uczenia Dane Ekstrakcja cech x i Model y=f(x) ŷ i q opt parametry modelu Algorytm y i Wskaźnik jakości ŷ i Wskaźnik jakości służy do porównania: o y i - wartości wyjściowej zapisanych w zbiorze uczącym z o y i - wartości przewidywanej przez model Wskaźnik jakości steruje przebiegiem algorytmu lub jest wykorzystywany w jego konstrukcji P. Szwed: Metody eksploracji danych (2017) 10

Założenia ε i w 0 + w 1 x i Zakłada się, że wartości wyjściowe y i są obarczone błędem ε y i = w 0 + w 1 x + ε i Błąd ε jest zmienną losową o rozkładzie normalnym (Gaussa): ε ~ N(0, σ 2 ) - wartość oczekiwana błędu E ε = 0 x i P. Szwed: Metody eksploracji danych (2017) 11

Założenia Rozkład normalny N μ, σ 2 = 1 2πσ 2 e 1 2σ 2 y μ 2 μ wartość oczekiwana (średnia wartość) σ 2 - wariancja Prawdopodobieństwo, że y przyjmie określoną wartość jest zależne od x oraz parametrów modelu θ: p y x, θ = N μ x, σ 2 x Poszukiwany jest przebieg funkcji po grzbiecie rozkładu Parametry modelu θ = [w 0, w 1 ] [Kevin P. Murphy: Machine Learning A Probabilistic Perspective, MIT Press 2012] P. Szwed: Metody eksploracji danych (2017) 12

Założenia Najczęściej dla uproszczenia zakłada się, że wariancja jest stała σ 2 x = σ 2 Poszukiwany jest przebieg μ(x) wartości oczekiwanej y zależnej od x Szukane μ x postaci μ x = w 0 + w 1 x Tu wariancja nie jest stała (cena nie będzie < 0) Zbiór: kc_house_data (2700 transakcji sprzedaży) P. Szwed: Metody eksploracji danych (2017) 13

Maksymalizacja prawdopodobieństwa W bardzo wielu algorytmach eksploracji danych dobór parametrów modelu następuje poprzez maksymalizację lub minimalizację pewnej funkcji celu wyrażającej oczekiwane dobre parametry modelu θ. θ = arg max θ F(D, θ) Wartość funkcji celu F(D, θ) zależy od danych D i parametrów modelu θ. Dane są ustalone na wejściu, więc szukamy optymalnych wartości parametrów modelu θ. Model generacja Obserwacje D Częste założenie: Znane dane pochodzą z pewnego modelu i generowane są z pewnym prawdopodobieństwem, którego rozkład zależy od parametrów modelu. Szukany jest model maksymalizujący prawdopodobieństwo zaobserwowania D P. Szwed: Metody eksploracji danych (2017) 14

Maksymalizacja prawdopodobieństwa Zamierzamy zmaksymalizować prawdopodobieństwo zaobserwowania zbioru uczącego D = {(x i, y i )} i=1,m Prawdopodobieństwo pojedynczej obserwacji (x, y) p y x, θ = N μ x, σ 2 Prawdopodobieństwo zaobserwowania zbioru uczącego D: p D θ = p y 1 x 1, θ p y 2 x 2, θ p y m x m, θ Szukamy parametrów modelu θ, które maksymalizują p D θ θ = arg max θ p D θ Maksymalizacja iloczynu jest kłopotliwa, więc zamiast wyznaczania miejsca ekstremum funkcji wyznacza się miejsce ekstremum jej logarytmu: θ = arg max θ ln (p D θ ) Zauważmy, że jeśli f(x) > 0 to pochodna jej logarytmu wynosi: ln f x = 1 f (x), f(x) czyli miejsce minimum/maksimum (x 0 : f x 0 = 0 ) nie ulegnie zmianie P. Szwed: Metody eksploracji danych (2017) 15

RSS suma kwadratów błędów Zagadnienie maksymalizacji zamieniamy na minimalizację: θ = arg min θ ln (p D θ ) Szukamy minimum wyrażenia NLL(θ) ang. negative log likelihood: NLL θ = ln p D θ = ln (p y i x i, θ ) Podstawiając wzór na założony rozkład normalny i stosując ln e z = z : p y i x i, θ = 1 1 2σ 2 y i μ(x i ) 2 otrzymujemy: Wyrażenie 2πσ 2 e m i=1 NLL θ = 1 m 2σ 2 y 2 i μ x i m i=1 RSS = (y i μ(x i )) 2 i=1 m + m 2 ln(2πσ2 ) = (y i (w 0 +w 1 x i )) 2 nazywane jest resztową sumą kwadratów błędów (RSS residual sum of squares). Celem regresji liniowej jest znalezienie takich parametrów θ, czyli wag: w 0, w 1,, w n, które zminimalizują RSS. i=1 P. Szwed: Metody eksploracji danych (2017) 16

Sposób obliczania RSS RSS oblicza się jako sumę kwadratów odległości punktów od prostej (hiperpłaszczyzny) w kierunku pionowym, a nie sumę odległości (kierunek prostopadły). m RSS(w 0, w 1 ) = (y i (w 0 +w 1 x i )) 2 i=1 P. Szwed: Metody eksploracji danych (2017) 17

Sposób obliczania RSS Zaobserwujmy różnicę: po lewej wygenerowane losowo punkty tworzą prostokąt ulokowany wzdłuż przerywanej zielonej prostej f true. Czerwona linia regresji jest odległa od f true po prawej - f true i linia regresji przechodzą przez środek równoległoboku (zgodność) P. Szwed: Metody eksploracji danych (2017) 18

Szukamy optymalnych parametrów: Minimalizacja RSS w 0, w 1 = arg min w0,w 1 (y i (w 0 +w 1 x i )) 2 m i=1 P. Szwed: Metody eksploracji danych (2017) 19

Wyraz wolny Jeżeli x R n równanie regresji ma postać: n y x = w 0 + w i Częstym zabiegiem jest pozbycie się wyrazu wolnego (bias) przez zmianę wymiaru na n + 1. x 1, x 2,, x n 1, x 1, x 2,, x n i=1 Wtedy równanie regresji ma postać: y x = w T x, gdzie w T = [w 0, w 1,, w n ] x i Oczywiście także w T x = x T w P. Szwed: Metody eksploracji danych (2017) 20

Postać macierzowa Elementy zbioru uczącego mogą być przedstawione w postaci: macierzy X o rozmiarach m n + 1 m-wymiarowego wektora y. Macierz X ma dodatkowe jedynki w pierwszej kolumnie. Niech w R n+1 będzie wektorem wag. y 1 1 x 1 e y 1 y 3 1 1 x 2 x 3 w 0 w 1 w n y m 1 x m Wektor błędu e R m można więc przedstawić jako: e = y Xw m RSS w = e i e i = e T e = y Xw T (y Xw) i=1 P. Szwed: Metody eksploracji danych (2017) 21

Minimalizacja RSS rozwiązanie analityczne RSS w = y Xw T y Xw = y T y y T Xw Xw T y + Xw T Xw = y T y 2w T X T y + w T X T Xw Dla przypomnienia: Xw T = w T X T Aby obliczyć minimum RSS w należy obliczyć pochodną względem w i przyrównać do 0 d dw yt y 2w T X T y + w T X T Xw = 2X T y + 2X T Xw 2X T y + 2X T Xw = 0 stąd otrzymujemy równanie normalne: X T Xw = X T y oraz zależność: w = (X T X) 1 X T y Równanie normalne jest równaniem liniowym i w może być wyznaczone przez eliminację Gaussa lub obliczenie odwrotności macierzy (X T X) 1. P. Szwed: Metody eksploracji danych (2017) 22

Równanie normalne X T Xw = X T y Macierz X T X ma wymiar: n + 1 n + 1 Czynnik X T y jest wektorem n + 1 wymiarowym Problem może zostać sprowadzony do odwracania macierzy X T X. Macierz odwrotna istnieje, jeśli macierz X T X jest nieosobliwa, tzn. liczba niezależnych liniowo obserwacji m musi być większa niż liczba cech (m > n + 1). Liczba wymaganych obserwacji była przedmiotem wielu dyskusji. Z reguły ~ 5-20*liczba atrybutów. kolumny nie są liniowo zależne, czyli atrybuty nie są silnie skorelowane (np. powierzchnia w stopach i metrach kwadratowych) P. Szwed: Metody eksploracji danych (2017) 23

Ograniczenia liniowej regresji Rzeczywiste relacje pomiędzy X i y mogą być nieliniowe. Stąd generalizacja do modeli nieliniowych. Złożoność jest rzędu: O(m n 2 + n 3 ). Czyli np. dla n=30 atrybututów i m=10000 liczba operacji jest b. duża W przypadku korelacji pomiędzy zmiennymi macierz X T X może być źle uwarunkowana (niestabilność numeryczna) Wszystkie zmienne (atrybuty) są użyte w modelu, a może zdarzyć się, że jedynie ich podzbiór jest istotny i ma rzeczywisty wpływ na wartość wyjściową (brak korelacji pomiędzy i-tą współrzędną x[i] a y). P. Szwed: Metody eksploracji danych (2017) 24

Metoda gradientu prostego W praktyce współczynniki regresji są najczęściej wyznaczane za pomocą gradientowych metod optymalizacji. w = arg min w RSS w, gdzie RSS w = y i w T x i 2 i=1 RSS jest wypukłą funkcją wag, stąd globalne minimum istnieje i da się je wyznaczyć za pomocą metod gradientowych. m P. Szwed: Metody eksploracji danych (2017) 25

Metoda gradientu prostego Dla uproszczenia oznaczmy RSS(w) jako g (w) Gradient g w = [ g, g g,, ] jest n + 1 wymiarowym wektorem w 0 w 1 w n pochodnych cząstkowych w kierunkach w 0, w 1,, w n g(w) W trakcie optymalizacji osiągnięto punkt w (t) Małe przemieszczenie w kierunku g w (t) zazwyczaj przynosi poprawę wartości funkcji celu. kierunek gradientu g w = 0 kierunek gradientu w (t) w (t+1) w w P. Szwed: Metody eksploracji danych (2017) 26

Algorytm Metoda gradientu prostego wybierz w (0) t = 0 while! kryterium_stopu: w (t+1) = w (t) γ g(w (t) ) t = t + 1 Współczynnik γ jest małą liczbą Typowe kryteria stopu: Maksymalna liczba iteracji: t = maxiter Gradient bliski zeru: g w t < ε Brak poprawy funkcji celu:d(w t+1 w t ) < ε P. Szwed: Metody eksploracji danych (2017) 27

Wielkość kroku Wielkość kroku γ ma wpływ na zbieżność algorytmu: krok za mały zbyt wolna zbieżność krok za duży możliwy wzrost wartości funkcji celu g(w) w w P. Szwed: Metody eksploracji danych (2017) 28

Wielkość kroku Wielkość kroku γ ma wpływ na zbieżność algorytmu: krok za mały zbyt wolna zbieżność krok za duży możliwy wzrost wartości funkcji celu g(w) w w P. Szwed: Metody eksploracji danych (2017) 29

Wielkość kroku - porównanie https://www.cs.toronto.edu/~frossard/post/linear_regression/ P. Szwed: Metody eksploracji danych (2017) 30

Zmienny współczynnik kroku W praktycznych implementacjach wartość współczynnika γ często maleje wraz z numerem iteracji, np.: γ t = γ(0) t γ t = γ(0) t P. Szwed: Metody eksploracji danych (2017) 31

Gradient RSS m RSS w = y i w T x i 2 i=1 m n = y i x i j wj i=1 j=0 2 Uwaga: tu x i j oznacza j-ty element i-tego wektora, czyli x i [j] Oznaczmy: e i = y i w T x i. Pochodna Pochodna j e w i = x j i Pochodna cząstkowa względem w j : m RSS(w) = 2 y w i w T j x i x i j i=1 w j (e i ) 2 = 2e i = 2 m i=1 w j e i y i w T x i x i j Pochodna sumy i = 1, m składników jest równa sumie pochodnych Gradient: m RSS w = [ 2 y i w T x i 1, 2 y i w T 1 x i x i,, 2 y i w T n x i x i ] Wartość x i 0 = 1 i=1 m i=1 m i=1 P. Szwed: Metody eksploracji danych (2017) 32

Obliczanie gradientu RSS m RSS(w) = 2 y w i w T j x i x i j i=1 Dla i-tej obserwacji błąd mnożony jest przez wartość j-tego atrybutu Złożoność obliczeniowa O(n 2 m) Należy przewidzieć kilkadziesiąt iteracji Jeśli obserwacje x i, y i i=1,m są umieszczone w bazie danych, wielokrotna iteracja może być kosztowna (np. m = 1000000). Zamiast: RSS w = m [ 2 y i w T m i=1 x i 1, 2 y i w T 1 m i=1 x i x i,, 2 y i w T n x i x i poszczególne składowe mogą być liczone równolegle: i=1 ] m RSS w = i=1 [ 2 y i w T x i, 2 y i w T x i x 1 i,, 2 y i w T x i x n i ] Warianty algorytmu: stochastic gradient descent (wykonanie kroku optymalizacji po odczycie partii kilkuset danych ang. batch) coordinate descent (optymalizacja w kierunku jednej ze składowych): m RSS w = [const, 2 y i w T j x i x i, const] i=1 P. Szwed: Metody eksploracji danych (2017) 33

Modele nieliniowe Regresja liniowa może być zastosowana do wyznaczenia parametrów modeli będących nieliniowymi funkcjami. Często przybliżana funkcja jest wielomianem regresja wielomianowa Proste przekształcenie: do tabeli X należy dodać kolumny z potęgami i iloczynami wartości atrybutów Przykład dla jednej zmiennej: f x = w 0 + w 1 x + w 2 x 2 + w 3 x 3 Niebieska krzywa f x = 497430.99 + 9.00e+02 x 2.45e 01 x 2 + 2.22e 05 x 3 Czerwona krzywa f x = 1589582.0 3.21e+03 x + 2.35 x 2 6.15379704e 04 x 3 +5.24e 08 x 4 P. Szwed: Metody eksploracji danych (2017) 34

Modele wielomianowe dla danych wielowymiarowych Dla n-wymiarowych danych postać wielomianowa może obejmować składniki kolejnych stopni: n - pierwszego stopnia n(n + 1)/2 - drugiego stopnia n(n + 1)(n + 2)/6 - trzeciego stopnia f x = w 0 + w j x j + w jk x j x k + w jkl x j x k x l Dla n=30 wielomian stopnia 3 będzie miał potencjalnie 1+30+30*31/2+30*31*32/2=5456 czynników Problemem jest: wybór modelu (które kombinacje zmiennych brać pod uwagę) wyznaczenie/przechowywanie/dostęp do macierzy cech X (5456 kolumn?) P. Szwed: Metody eksploracji danych (2017) 35

Cechy W ogólnym przypadku model jest kombinacją liniową dowolnych nieliniowych funkcji danych wejściowych N f x = w 0 + w i h i x i=1 Funkcja h i x : x R n R nazywana jest cechą. W szczególności może zachodzić N = n oraz h i (x) = x i (i-tą cechą jest i-ty składnik wektora x Niezależnie od postaci użytych cech wyznaczane sa współczynniki kombinacji liniowej (wagi w) minimalizujące RSS(w). Model matematyczny i algorytmy pozostają bez zmian Dodając cechę 1 (o indeksie 0) możemy zapisać funkcję, jako: f x = w T h(x) w to N + 1 wymiarowy wektor wag, h x = [1, h 1 x,, h N (x)] to wektor cech P. Szwed: Metody eksploracji danych (2017) 36

Szeregi czasowe Wiele problemów ma charakter przebiegów czasowych, np. zmiana cen w czasie zmiana temperatury zmiana zużycia energii Często te przebiegi są kombinacją ogólnych tendencji oraz zmian sezonowych Obserwacje w czasie 1000 dni P. Szwed: Metody eksploracji danych (2017) 37

Szeregi czasowe Za pomocą regresji można znaleźć krzywą modelującą ogólną tendencję: y = f(x) Model taki nie uwzględnia przebiegów sezonowych (traktuje je jak błąd): y i = f x i + ε i P. Szwed: Metody eksploracji danych (2017) 38

Wykres błędu Widoczne 30 dniowe sezonowe fluktuacje P. Szwed: Metody eksploracji danych (2017) 39

Model Model uwzględniający sezonowość ma postać: y = w 0 + w 1 t + w 2 t 2 + w 3 t 3 + w 4 sin Wybrano krzywą 3 stopnia Okres wynosi 30 dni: 2π 30 Nieznane przesunięcie fazowe: Φ 2π 30 t + Φ Faza Φ musi zostać przekształcona w cechę. Z zależności: sin (a + b) = sin a cos b + cos a sin b mamy: sin 2π 2π 2π t + Φ = sin t cos Φ + cos t sin Φ 30 30 30 Dla ustalonego Φ czynniki cos Φ i sin Φ będą stałe i staną się częścią wag. Równanie opisujące model musi jednak uwzględnić cos 2π t : 30 y = w 0 + w 1 t + w 2 t 2 + w 3 t 3 + w 4 sin 2π 30 t + w 5 cos 2π 30 t P. Szwed: Metody eksploracji danych (2017) 40

Wizualizacja modelu y = 20078.47 2.52e 01 t + 2.39e 04 t 2 + 4.04e 07 t 3 + 5.05sin ( 2π t) + 7.67cos (2π 30 30 t) P. Szwed: Metody eksploracji danych (2017) 41

Wizualizacja modelu Dane przebiegu zostały wygenerowane jako at 2 + bt + c d exp t + e sin 2π t + f + g N(0,1) 30 P. Szwed: Metody eksploracji danych (2017) 42