Analiza regresji elementy zaawansowane (cz. 2) zmien. wersja 2015 JERZY STEFANOWSKI Instytut Informatyki Politechnika Poznańska
Plan wykładu 1. Podsumowanie statystycznej weryfikacja regresji Podstawowe mierniki i test 2. Regresja wielowymiarowa Sformułowanie macierzowe Diagnostyka i obserwacje odstające 3. Predykcja z wykorzystaniem regresji 4. Regresja nieliniowa idea transformacji 5. Inne modele predykcyjne 6. Modelowanie przebiegów czasowych 7. Podsumowanie
Analiza regresji Z populacji dzieci (w zakresie wieku 7-19 lat) wybrano losowo 175 próbę 15 osobową i określono dla nich dwie cechy: x wiek w 165 latach oraz y wzrost w cm: (7,120),(9,125),(18,164), 155 (11.5,140), (8,122),(11,135), (13,145), (17,162), (10,131), (19,170), 145 (14,150), (12,142), (18.5,168), (15,154), (16,159) WZROST Wykres rozrzutu (Regrwzrost15.STA 2v*15c) y=88,689+4,305*x+eps 175 165 155 Wykres rozrzutu (Regrwzrost15.STA 2v*15c) 135 Wykonaj analizę zależności 125 tych zmiennych WZROST 145 135 125 115 6 8 10 12 14 16 18 20 Korelacja 0,99 115 6 8 10 12 14 16 18 20 WIEK WIEK
Ocena równania / Statistica (Statsoft)
Równanie stochastyczne vs. deterministyczne Statystyczny model opisuje liczbowo zależność pomiędzy zmienną niezależną (x) oraz zmienną zależną (y) y = β 0 + β1x + ε gdzie β0, β1 nieznane parametry f. regresji, które należy oszacować; ε - składnik losowy. Parametry funkcji regresji nie są znane (obserwowane), podobnie jak składnik losowy, dlatego jest to równanie stochastyczne. Równanie deterministyczne po zastosowaniu MNK yˆ i = b0 + b1 x i Gdzie b0, b1 oceny estymatorów parametrów funkcji regresji i numer obserwacji.
Weryfikacja uwagi ogólne Statystyczna dotyczy przede wszystkim weryfikacji przyjętych założeń o stochastycznej strukturze modelu oraz założeń o istotnym wpływie zmiennych objaśniających na zmienną objaśnianą za pomocą znanych testów statystycznych. Merytoryczna wiąże się z odpowiedzią na pytanie, czy oszacowane oceny parametrów równania zgodne są z przyjętymi założeniami, a także czy istnieje możliwość "sensownej" interpretacji otrzymanych wartości ocen parametrów.
Ocena modelu regresji Całkowitą sumę kwadratów odchyleń (SST) w analizie regresji dzieli się na dwie części: gdzie SST = SSR + 2 SSE ( y y) = ( yˆ y) + ( y SSR regresyjna suma kwadratów odchyleń (część wyjaśniona przez zbudowany model), SSE resztowa suma kwadratów odchyleń (część nie wyjaśniona przez zbudowany model). 2 yˆ) 2
Miary dopasowania modelu regresji do danych Współczynnik determinacji: R 2 = SSR SST =1 SSE SST Najważniejsza miara dopasowania funkcji regresji do danych empirycznych; Jest to stosunek zmienności wyjaśnianej przez model do zmienności całkowitej. Średni błąd kwadratowy: SSE MSE = n 2 Wariancja resztowa (k liczba zmiennych) 2 1 S = e n k + e 2 ( 1) i i Błędy standardowe parametrów bi : S( b j ) S( b ) = S( b 2 T 1 1 ( ) T = Se X X jj = Se ( X X) jj 0 1 ) = S n = ( x i i x 1 1 n + odchylenie standardowe składnika resztowego standardowy błąd oszacowania SSE S = n 2 S x ) 2 2 n = ( x i i x 1 ) 2
Na ile dobra jest regresja? Współczynnik determinacji jest opisową miarą siły liniowego związku między zmiennymi, czyli miarą dopasowania linii regresji do danych. współczynnik determinacji --- przyjmuje wartości z przedziału [0,1] i wskazuje jaka część zmienności zmiennej y jest wyjaśniana przez znaleziony model. Na przykład dla R 2 =0.619 znaleziony model wyjaśnia około 62% zmienności y. Przy okazji: pomyśl o związku współczynnika R 2 oraz współczynnika korelacji r.
Hipotezy dotyczące poszczególnych parametrów modelu Ocena poszczególnych parametrów β i w modelu (ocena zachodzenia związku liniowego między zmienną x a y). Test statystyczny Statystyka testowa: Intuicja H H t 0 1 : : β = β ( i Badamy dla każdego parametru strukturalnego osobno, czy istotnie różni się on od zera. Jeśli nie uda nam się odrzucić hipotezy zerowej, będzie to oznaczało, że zmienna objaśniająca przy której stoi dany parametr nie wpływa na zmienną objaśnianą, więc można ją usunąć z modelu (jednakże to wymaga powtórnego oszacowania modelu, z już z aktualnym zestawem zmiennych objaśniających). i i βi = S β ) 0 0
Testy istotności
Przykład wzrost = f(wiek) / Statistica (Statsoft)
Model liniowy regresji wielokrotnej (wielowymiarowej) Założenie: wpływ każdej rozpatrywanej zmiennej objaśniającej na zmienną y jest liniowy i nie zależy od wartości innych zmiennych y Zapis macierzowy: xm odpowiada y; wyraz wolny dodatkowa zmienna x i0 =1 Rozwiązanie MNK = 0 1 1 2 2 m m β + β x + β x + + β x + ε Y = X β + ε b ( ' ) 1 ' X X X Y Zasady oceny i testowania podobne = Więcej A.Aczel: Statystyka w zarządzaniu (rozdział 11)
y = Xβ + ε y y1 y 2 =,... yn 1 1 X = 1... 1 gdzie: n1 n2 nm y - oznacza wektor [n 1] n obserwacji dla zmiennej objaśnianej (zależnej), X - jest macierzą [n (+1)] obserwacji dla zmiennych objaśniających (niezależnych), przy czym pierwsza kolumna składa się z samych jedynek, co oznacza, że wprowadziliśmy do macierzy obserwacji dodatkową zmienną, która jest tożsamościowo równa jeden, a więc stojąc przy parametrze daje wyraz wolny, β - jest wektorem [(m+1) 1], zawierającym (m+1) nieznanych parametrów strukturalnych odpowiadających m zmiennym niezależnym oraz wyrazowi wolnemu, ε - jest wektorem [n 1] składników losowych. x x x x 11 21 31... x x x x 12 22 32.................. x x x x 1m 2m 3m..., β0 β 1 β =,... βm ε = ε ε... ε 1 2 n
Zapis wektorowy przypomnienie Ogólna postać yˆ = X b Rozwiązanie MNK b = T 1 ( X X) X T y Dyskusja teoretyczna estymacji parametrów Spójrz J.Koronacki, J.Mielniczuk: Statystyka dla stud. kierunków technicznych i przyrodniczych rozdział 4.3 Dyskusja aspektów obliczeniowych w rozdziale książki Hand, Manila, Smyth: Eksploracja danych, WNT.
Zapis wektorowy Ogólna postać Rozwiązanie MNK b X y = ˆ y X X X b T T 1 ) ( = = = = = = = = = n i i i n i i n i i n i i n i i n i i n i i y x y n x x x x x n b b 1 1 1 1 1 2 2 1 1 2 1 0 ) ( 1
Przykład W celu zbadania zależności między zyskami pewnej firmy a wydatkami na szkolenia handlowców, dokonano porównania wyników dla 5 kwartałów (x i - wydatki na szkolenia handlowców w tys. zł, y i zyski firmy w tys. zł): x 1 2 3 4 5 y 100 100 200 250 350
400 350 y = 65x + 5 R 2 = 0,9389 300 250 200 150 100 50 0 0 2 4 6
Przykład rozwiązujemy y= 100 100 200 250 350 X= 1 1 1 2 1 3 1 4 1 5 X T = 1 1 1 1 1 1 2 3 4 5 X T X= 5 15 15 55 detx T X= 50 (X T X) -1 = 1,1-0,3-0,3 0,1 X T y= 1000 3650 b= 5 65 y = 5 + 65x
2 e y = 70 135 200 265 330 917 e= e T e= 30-35 0-15 20 2750 S = (X T X) -1 = e T = 1,1-0,3-0,3 0,1 30-35 0-15 20 S = e 30,3 S ( b 0 ) = 31,75 S ( b 1 ) = 9,58 S = 9,74 2 = 95 y S y R 2 = 1 2750 5* 9000 = 1 0, 06 = 0, 94 = 94%
Przykład wielowymiarowy Zebrano następujące pomiary x1 5 3 5 3 x2 0,5 0,5 0,3 0,3 f(x1,x2) 1,5 3,5 6,2 3,2 Założono model regresji liniowej y = b 0 + b1 x1 + b2 x2
Przykład rozwiązujemy y = 1,5 3,5, 6,2 3,2 X = 1 1 1 1 5 3 5 3 0,5 0,5, 0,3 0,3 b = b0 b 1... b m Po przekształceniu: b b b 7,0 0,25 11 Komentarz: liczba obserwacji n powinna być większa niż parametrów do oszacowania m. 0 1 2 Kolumny macierzy liniowo niezależne jednoznaczne rozwiązanie Diagnostyka modelu wielokrotnego przedstawione metody stat. = = =
Regresja wielokrotna Dane są informacje o budżecie reklamowym pewnego produktu, jego cena jednostkowa oraz finalna sprzedaż jednostkowa. BUDŻET CENA SPRZEDAZ 1 3500 88 16523 2 10073 110 6305 3 11825 85 1769 4 33550 28 30570 5 37200 101 7698 6 55400 71 9554 7 55565 7 54154 8 66501 82 54450 9 71000 62 47800 10 82107 24 74598 11 83100 91 25257 12 90496 40 80608 13 100000 45 40800 14 102100 21 63200 15 132222 40 69675 16 136297 8 98715 17 139114 63 75886 18 165575 5 83360
Inny przykład wielokrotnej regresji Andy Field s example (Univ. Sussex)
Założenia modelu regresji Związek między x i y jest liniowy. Wartości zmiennej niezależnej nie są losowe. Losowość wartości y pochodzi wyłącznie ze składnika losowego. Składniki (błędy) losowe mają rozkład normalny o średniej 0 2 i o stałej wariancji σ Ciekawa dyskusja założeń w A.Aczel Statystyka w zarządzaniu.
Rozkłady reszt Sposób szybkiej oceny (jakość reszt). Założenia modelu liniowego: Składniki (błędy) losowe mają rozkład normalny o średniej 0 i o stałej wariancji czyli reszty powinny mieć charakterystyczny rozrzut; najlepiej obserwować to na wykresach rozrzutu reszt. Reszty są nieskorelowane ze sobą (niezależność).
Wykres rozkładu reszt Składniki resztowe w zależności od y Składniki resztowe 10 5 0-5 0 5 10 15 20 25 Reszty przypuszczalnie spełniają założenia modelu regresji. Rozproszenie nieregularne ale w pasie o pewnej szerokości. Brak korelacji wzajemnej kolejnych składników.
Różne sytuacje wykresu rozrzutu reszt Tylko (a) jest poprawna
Inne testy hipotez związanych z regresją Pojęcie modelu statystycznego prosty model regresji liniowej. Zaawansowane podejście do weryfikacji modelu inne zagadnienia z analizą reszt oraz testy istotności ale poczekaj do czwartego roku. Jeśli jesteś niecierpliwy, to zajrzyj np. rozdział 10.6 książki Aczel Statystyka w zarządzaniu.
Ogólny schemat postępowania Ustalenie założeń i postaci modelu Szacowanie parametrów strukturalnych modelu na podstawie wyników próby Weryfikacja modelu: czy parametry są istotne? czy zależność jest liniowa? NIE TAK Wykorzystanie modelu: 1. Predykcja zmiennej Y 2. Opis zależności między zmiennymi
Regresja obserwacje odstające / skrajne 180 Wykres rozrzutu (Regr1.STA 2v*16c) y=87.723+4.148*x+eps 170 160 150 WZROST 140 130 120 odciaganie 110 100 Obserwacja odstająca 90 6 8 10 12 14 16 18 20 WIEK
Przykład American Express Rozważmy przykład posiadaczy kart kredytowych American Express firma jest przekonana, że posiadacze jej kart podróżują więcej niż inni ludzie. W badaniach marketingowych podjęto próbę ustalenie związków między długością tras podróży a obciążeniem karty kredytowej jej posiadacza w danym okresie czasu. Więcej w Aczel: Statystyka w zarządzaniu, str. 468.
Analiza regresji American Express
Weryfikacja równania regresji SSE=2328161,2 MME=SSE/(n-2) = 101224,4 Standardowy błąd s = MSE = 318,158 Błędy estymacji S(b 0 ) = 170,338 S(b 1 ) = 0.00497 Współczynnik determinacji R 2 = 0.9652
Prognoza punktowa w regresji Łatwa na podstawie równania regresji. Np. oceń obciążenie kart wśród posiadaczy kart, których trasa podróży osiągnie 4000 mil, w okresie o takiej długości jak okres badany: yˆ = 274,85 + 1,2663 x = 274,85 + 1,2663 4000 = 5296,05
Przedziały predykcji (1-α) 100% przedział predykcji zmiennej Y yˆ ± t s 1 1+ n Rozpiętość przedziału predykcji zależy od odległości wartości x od średniej! Przykład: posiadacz, który przebył 4000 mil i 95% przedział ufności. Z analizy danych historycznych: x x α / 2 2 ( x x) ( x ) n i = 1 i x = 79448/25=3177,92; SSx = 40947557,84 a s = 318,16 Ponadto t przy 23 stopniach swobody wynosi 2,069 Stąd przedział 5296,05±676,62 = [4619,43; 5972,67] + Oznacza to, że w oparciu o wyniki badań można mieć 95% zaufania do prognozy, że posiadacz karty, który przebył trasę 4000 mil w okresie o danej długości obciąży swoją kartę kredytową sumą od 4619.43 do 5972,67$. 2
Przedziały predykcji Ograniczenie prognoz punktowych błędu pochodzące zarówno z niepewności szacunków, jak i losowej zmienności położenia punktów w stosunku do linii regresji. Stosuj wtedy tzw. przedziały predykcji (tzw. prognozy przedziałowe).
Przewidywanie w regresji Wartości prognozowane nie powinny wykraczać poza zakres wartości wykorzystywanych w procedurze szacowania parametrów równania regresji.
Regresja nieliniowa Dane nt. polskiego rybołówstwa dalekomorskiego (lata 90te).
Regresja nieliniowa cd. Model funkcji kwadratowej (estymacja?) Polowy Model regresji 400 350 300 250 200 150 100 50 0 20 30 40 50 60 70 80 90 Statki y = 0,25071 x + 30,7079 x 2 581,49
Przykłady prostej transformacji
Statistica poszukaj modeli nieliniowych Dwie opcje na laboratorium sprawdź to?
Ograniczenia metod transformacji Przykład trudniejszych funkcje regresja nieparametryczna Funkcje nieliniowe mogą być bardziej złożone nie nadają się do omówionych linearyzacji Przeczytaj więcej w rozdziale 5tym książki Koronacki, Ćwiek Statystyczne systemy uczące się wyd. 2
Predykcja w danych zmiennych czasowo szeregi czasowe Co to jest szereg czasowy? Ciąg obserwacji pewnego zjawiska w kolejnych jednostkach czasu. Wielkości mierzone na skalach liczbowych, na ogól w równych odstępach czasu; Kształt wykresu niesie istotną informacje Tzw. funkcja trendu Predykcja 700 600 500 Wykr. zmiennej: SZEREG_G Miesięczna liczba pasażerów (w tysiącach) 700 600 500 400 400 SZEREG_G 300 200 300 200 100 100 0 Sty-1949 Kwi-1949 Lip-1949 Paź-1949 Sty-1950 Kwi-1950 Lip-1950 Paź-1950 Sty-1951 Kwi-1951 Lip-1951 Paź-1951 Sty-1952 Kwi-1952 Lip-1952 Paź-1952 Sty-1953 Kwi-1953 Lip-1953 Paź-1953 Sty-1954 Kwi-1954 Lip-1954 Paź-1954 Sty-1955 Kwi-1955 Lip-1955 Paź-1955 Sty-1956 Kwi-1956 Lip-1956 Paź-1956 Sty-1957 Kwi-1957 Lip-1957 Paź-1957 Sty-1958 Kwi-1958 Lip-1958 Paź-1958 Sty-1959 Kwi-1959 Lip-1959 Paź-1959 Sty-1960 Kwi-1960 Lip-1960 Paź-1960 Nazwy obs. 0
Dekompozycja szeregu: trend + wahania dane o miesięcznym bezrobociu w Australii Za: (Hipel and McLeod, 1994)
Prognozowanie Wybór i konstrukcja modelu o dobrych własnościach predykcji przyszłych wartości zmiennej y t. Ocena minimalizacja błędu prognozy ex post
Średnie ruchome Stosuj, gdy zaobserwowany w okresie badawczym poziom wartości zmiennej prognozowanej jest względnie stały, z pewnymi niewielkimi odchyleniami przypadkowymi. Idea: wartość zmiennej prognozowanej jest średnią ruchomą z k ostatnich wartości tej zmiennej y t = 1 t 1 i= t k k k stała wygładzania (przyjmuje się tę, dla której wartość średniego błędu ex-post prognoz wygasłych jest najmniejsza) Bardziej nieliniowe kształty średnie wykładnicze (metoda Browna) albo specjalne modele (Holta) y i
Sztuczne sieci neuronowe - predykcja x 1 x 2 x 3 x 4 x 5 Input Layer Input Neuron i Output Hidden Layer I 1 I 2 I 3 w i1 w i2 w i3 S i Activation function g(s i ) O i O i threshold, t Output Layer Uczenie sieci zmian wag y
Pojedynczy neuron Neuron liniowy y=wx+w 0 y y w 0 w x x 0 =+1 x Neuron nieliniowy y = sigmoid( o) = 1 1+ exp wt x
Nadzorowane uczenie neuronów Dostępny dostatecznie reprezentatywny zbiór przykładów (x,d) tzw. zbiór uczący Supervised learning (typowe uczenie z nadzorem): Porównaj aktualne wyjście sieci y z zadanym wyjściem d; oblicz błąd popełniany przez sieć i stosując odpowiednią regułę uczenia dokonaj poprawki wag x Macierz wag W y Error y - d Pożądane wyjście d
Stosowanie sieci neuronowych do predykcji Wybór rodzaju sieci: wielo-warstwowa MLP albo RBF MLP Topologia sieci (ile neuronów w warstwie ukrytej) Rodzaj neuronów (dobór funkcji aktywacji i parametrów) Algorytm uczenia (Back Propagation) i warunki zatrzymania Konieczność posiadania właściwego i odpowiednio licznego zbioru uczącego. y y x x
Image Recognition and Classifiation of US Postal Codes Examples of handwritten postal codes drawn from a database available from the US Postal service
Example:Neural Nets for Face Recognition Left Straight Right Up Output Layer Weights (including w 0 = θ) after 1 Epoch Hidden Layer Weights after 25 Epochs 30 x 32 Inputs Hidden Layer Weights after 1 Epoch 90% Accurate Learning Head Pose, Recognizing 1-of-20 Faces http://www.cs.cmu.edu/~tom/faces.html
Zastosowania bardzo dużo Analiza finansowa (bankowość, ubezpieczenia, giełda) Nauki ekonomiczne Makroekonomia (modele podażowo/popytowe, analiza rozwoju gospodarczego, marketing zapotrzebowanie na produkt) Biologia i medycyna Socjologia, badania psychologiczne Nauki rolnicze Ochrona środowiska Nauki techniczne I wiele innych
Kilka uwag dla zainteresowanych: Analiza regresji to ciekawe praktycznie i teoretycznie zagadnienie. Nie powiedzieliśmy za dużo o: Zaawansowanych zagadnień badaniu poprawności modelu Wykorzystaniu modelu regresji do prognozowania Zawansowanych metod regresji nieliniowej Selekcji zmiennych w modelach wielowymiarowej Szeregach czasowych Zawsze możesz sam poszukać czytaj książki!
Literatura Statystyka dla studentów kierunków technicznych i przyrodniczych, Koronacki Jacek, Mielniczuk Jan, WNT, 2001. Statystyka w zarządzaniu, A.Aczel, PWN 2000. Statystyka praktyczna. W.Starzyńska, Statystyka. Wprowadzenie do analizy danych sondażowych i eksperymentalnych. G.Wieczorkowska, Scholar, 2004. Przystępny kurs statystyki, Stanisz A., 1997. Tom 2 poświęcony wyłącznie analizie regresji! I wiele innych
Dziękuję za uwagę Czytaj także książki!