Wielowymiarowy Model Regresji Liniowej

Podobne dokumenty
Stosowana Analiza Regresji

Metoda najmniejszych kwadratów

Rozdział 8. Regresja. Definiowanie modelu

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Własności statystyczne regresji liniowej. Wykład 4

Testowanie hipotez statystycznych.

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

1.1 Klasyczny Model Regresji Liniowej

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Prawdopodobieństwo i statystyka r.

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Wprowadzenie do analizy korelacji i regresji

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Czasowy wymiar danych

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

1 Modele ADL - interpretacja współczynników

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

PDF created with FinePrint pdffactory Pro trial version

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Weryfikacja hipotez statystycznych

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Stanisław Cichocki. Natalia Nehrebecka

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Natalia Neherbecka. 11 czerwca 2010

Testowanie hipotez statystycznych

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Matematyka ubezpieczeń majątkowych r.

Stacjonarność Integracja. Integracja. Integracja

Stanisław Cihcocki. Natalia Nehrebecka

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Stosowana Analiza Regresji

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Metody Ekonometryczne

Testowanie hipotez statystycznych.

KORELACJE I REGRESJA LINIOWA

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Egzamin z ekonometrii wersja IiE, MSEMAT

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Statystyczna analiza danych

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Stanisław Cichocki. Natalia Nehrebecka

Komputerowa Analiza Danych Doświadczalnych

Metoda największej wiarogodności

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

1.9 Czasowy wymiar danych

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Statystyka matematyczna dla leśników

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Przykład 2. Stopa bezrobocia

Regresja liniowa wprowadzenie

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Wprowadzenie Modele o opóźnieniach rozłożonych Modele autoregresyjne o opóźnieniach rozłożonych. Modele dynamiczne.

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Ważne rozkłady i twierdzenia c.d.

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Ćwiczenia IV

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

4. Średnia i autoregresja zmiennej prognozowanej

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Testowanie hipotez statystycznych.

Estymacja punktowa i przedziałowa

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Stosowana Analiza Regresji

3. Modele tendencji czasowej w prognozowaniu

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Transkrypt:

Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 Małgorzata Lebiedź Agnieszka Weinstok Ewelina Wolska Karolina Zyskowska () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 1 / 128

Wstęp Wstęp Analiza regresji jest statystyczną metodologią przewidywania wartości jednej lub więcej zmiennych odpowiedzi (zależnych) za pomocą zbioru predyktorów (czyli zmiennych niezależnych). Może być także użyta do oszacowania efektów jakie predyktory wywierają na odpowiedzi. Niestety nazwa regresja w żaden sposób nie odzwierciedla ani ważności, ani szerokości zastosowania tej metodologii. Nasza prezentacja skupi się na założeniach regresji i ich konsekwencjach, alternatywnych sformułowaniach modelu regresji oraz ogólnym zastosowaniu technik regresji w różnych sytuacjach. Na początku zajmiemy się modelem liniowej regresji wielokrotnej dla jednej zmiennej zależnej, następnie przejdziemy do przypadku z większą ilością odpowiedzi. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 2 / 128

Model wielowymiarowej regresji liniowej Analiza regresji wielokrotnej Niech z 1, z 2,..., z r będą zbiorem r predyktorów, które potencjalnie wpływają na zmienną Y. Model regresji liniowej n-elementowej próbki: Y n = β 0 + β 1 z n1 + + β r z nr + ε n gdzie ε jest błędem losowym, β i, i = 0, 1,..., r są nieznanymi (i ustalonymi) współczynnikami regresji, β 0 jest wyrazem wolnym. Zakładamy, że E(ε j ) = 0, Var(ε j ) = σ 2, Cov(ε j, ε k ) = 0 j k. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 3 / 128

Model wielowymiarowej regresji liniowej Mając n niezależnych obserwacji, możemy zapisać jeden model dla każdej próbki lub możemy połączyć wszystko w wektory i macierze tak, że model jest następujący: Y (n 1) = Z (n (r+1)) β ((r+1) 1) + ε (n 1) gdzie E(ε) = 0 (n 1) i Cov(ε) = E(εε ) = σ 2 I, β i σ 2 są nieznanymi parametrami. Wtedy E(Y) = Zβ, Cov(Y) = σ 2 I. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 4 / 128

Model wielowymiarowej regresji liniowej Estymacja metodą najmniejszych kwadratów Chcemy wybrać wektor β tak, aby minimalizował sumę kwadratów reszt (Y Zβ) (Y Zβ). Estymator metody najmniejszych kwadratów: β = (Z Z) 1 Z Y. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 5 / 128

Model wielowymiarowej regresji liniowej Wnioski z estymacji funkcją regresji Kiedy badacz jest usatysfakcjonowany z dopasowanego modelu regresji, może on być użyty do rozwiązania dwóch problemów predykcji. Niech z 0 = [1, z 01,..., z 0r ] będzie wybranym zbiorem wartości predyktorów. Wtedy z 0 i β mogą być użyte, po pierwsze - do oszacowania funkcji regresji β 0 + β 1 z 01 + + β r z 0r w z 0 i po drugie - do oszacowania wartości odpowiedzi Y w z 0. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 6 / 128

Model wielowymiarowej regresji liniowej Estymacja funkcji regresji w z 0 Niech Y 0 oznacza wartość odpowiedzi przy wartości predyktorów: z 0 = [1, z 01,..., z 0r ]. Wartość oczekiwana Y 0 wynosi E(Y 0 z 0 ) = β 0 + β 1 z 01 + + β r z 0r = z 0 β () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 7 / 128

Model wielowymiarowej regresji liniowej Estymatorem najmniejszych kwadratów w tym wypadku jest z 0 β. z 0 β jest liniowym nieobciążonym estymatorem E(Y 0 z 0 ) z minimalną wariancją. Var(z 0 β)=z 0 (Z Z) 1 z 0 σ 2. Jeżeli błędy mają rozkład normalny to 100(1 α)% przedziałem ufności dla E(Y 0 z 0 ) = z 0 β jest z 0 β ± t n r 1 ( α 2 ) (z 0 (Z Z) 1 z 0 )s 2 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 8 / 128

Model wielowymiarowej regresji liniowej Prognozowanie nowej obserwacji w z 0 Model możemy zapisać jako: Y 0 = z 0 β + ε 0 (nowa odpowiedź Y 0 )= =(wartość oczekiwana Y 0 pod warunkiem z 0 ) + (nowy błąd) gdzie ε 0 ma rozkład N (0, σ 2 ) i jest niezależny od ε, z czego wynika także, że jest niezależny od β oraz s 2. Błędy ε wpływają na estymatory β i s 2 przez odpowiedzi Y, ale ε 0 na nie nie wpływa. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 9 / 128

Rezultat Model wielowymiarowej regresji liniowej Dla obserwacji Y 0 definiujemy nieobciążoną prognozę jako z 0 β = β 0 + β 1 z 01 + + β r z 0r Wariancja błędu prognozy Y 0 z 0 β wynosi: Var(Y 0 z 0 β) = σ 2 (1 + z 0 (Z Z) 1 z 0 ) Gdy błędy ε maja rozkład normalny, 100(1 α)% przedział prognozy dla Y 0 jest dany przez: ( ) z β α 0 ± t n r 1 s 2 2 (1 + z 0 (Z Z) 1 z 0 ) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 10 / 128

Model wielowymiarowej regresji liniowej Przykład 7.6 Szacowanie parametrów modelu. Przedziały ufności dla średniej i prognozy. Firmy rozważające zakup komputera muszą najpierw oszacować swoje przyszłe potrzeby, aby poprawnie określić wymagania sprzętowe. Informatycy zbierają dane z siedmiu stron podobnych firm w taki sposób, aby oszacować parametry równania prognozy wymagań sprzętu komputerowego dla działu zarządzającego zasobami. z 1 - zamówienia klientów (tys.) z 2 - liczba dodanych - usuniętych elementów (tys.) Y - czas CPU (jednostka pamięci centralnej) (h) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 11 / 128

Model wielowymiarowej regresji liniowej () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 12 / 128

Model wielowymiarowej regresji liniowej proc import out=dane datafile="c:\users\student\desktop\ex..xlsx" dbms=xlsx Replace; getnames=yes; run; proc reg data=dane; model y = z1 z2/ r cli clm; output out=a2 p=pred r=resid; run; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 13 / 128

Model wielowymiarowej regresji liniowej () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 14 / 128

Model wielowymiarowej regresji liniowej () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 15 / 128

Model wielowymiarowej regresji liniowej () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 16 / 128

Model wielowymiarowej regresji liniowej () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 17 / 128

Model wielowymiarowej regresji liniowej () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 18 / 128

Model wielowymiarowej regresji liniowej proc iml; /*n-liczba obserwacji, r-liczba zmiennych objaśniających, s- pierwiastek z błędu średniokwadratowego*/ n = 7; r = 2; s = 1.20394; alpha = 0.05; /*df -liczba stopni swobody*/ df = n-r-1; betay = inv(z *Z)*Z *y; cname = {"Intercept" "Z1" "Z2"}; rname = {"Y^"}; results = betay ; print results[r=rname c=cname]; tmp = j(n,1,1); use dane; read all var{z1 z2} into Ztym; close dane; Z = tmp Ztym; print Z; use dane; read all var{y} into y; close dane; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 19 / 128

Model wielowymiarowej regresji liniowej () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 20 / 128

Model wielowymiarowej regresji liniowej ŷ = 8.42369 + 1.07898z 1 + 0.41989z 2 Jeżeli liczba zamówień klientów wzrasta o tysiąc, czas pracy procesora wzrasta o 1,08 godziny. Jeżeli liczba dodanych-usuniętych elementów wzrasta o tysiąc, czas pracy procesora wzrasta o 0,48 godziny. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 21 / 128

Model wielowymiarowej regresji liniowej z0 = {1, 130, 7.5}; /*Wartość prognozowana*/ z0pbetay = z0 *betay; print z0pbetay; /*Konstrukcja 95% przedziału ufności Ĺredniej dla wektora z0 = [1, 130, 7.5]*/ /*Kwantyl rozkładu t-sutdenta*/ t = quantile( T,1-alpha/2,df); s1 = sqrt(z0 *inv(z *Z)*z0); przs = t*s*s1; przsd = z0pbetay-przs; przsg = z0pbetay+przs; przsdg = przsd przsg; /*Konstrukcja 95% przedziału ufności prognozy dla wektora z0 = [1, 130, 7.5]*/ s2 = sqrt(1+z0 *inv(z *Z)*z0); przp = t*s*s2; przpd = z0pbetay-przp; przpg = z0pbetay+przp; przpdg = przpd przpg; cname = {"dolny" "górny"}; Przedzial_ufnosci_prognozy = przpdg; print Przedzial_ufnosci_prognozy[c=cname]; quit; cname = {"dolny" "górny"}; Przedzial_ufnosci_sredniej = przsdg; print Przedzial_ufnosci_sredniej[c=cname]; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 22 / 128

Model wielowymiarowej regresji liniowej () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 23 / 128

Model wielowymiarowej regresji liniowej z 0 β = 8.42 + 1.08 130 + 0.42 7.5 = 151.84 95% przedział ufności średniej wynosi z β 0 ± t 4 (0.025)s z 0 (Z Z) 1 z 0 = 151.84 ± 2.04 lub (149.80, 153.87). 95% przedział ufności prognozy wynosi z β 0 ± t 4 (0.025)s 1 + z 0 (Z Z) 1 z 0 = 151.84 ± 3.91 lub (147.93, 155.75). () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 24 / 128

Wielowymiarowa regresja wielokrotna Rozważmy problem zamodelowania związku pomiędzy m odpowiedziami Y 1, Y 2,, Y m oraz pojedynczym zbiorem predyktorów z 1, z 2,, z r. Każda odpowiedź z założenia spełnia swój własny model regresji w taki sposób, że: Y 1 = β 01 + β 11 z 1 + + β r1 z r + ε 1 Y 2 = β 02 + β 12 z 1 + + β r2 z r + ε 2. Y m = β 0m + β 1m z 1 + + β rm z r + ε m () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 25 / 128

Wektor błędów ε T = [ε 1, ε 2,..., ε m ] ma E(ε) = 0 i Var(ε) = Σ. Z tego powodu wektory błędów związane z różnymi odpowiedziami mogą być skorelowane. Aby zatwierdzić notację zgodną z klasycznym modelem regresji liniowej niech [z j0, z j1,..., z jr ] oznaczają wartości predyktorów dla j-tej próby, niech Yj T = [Y j1, Y j2,..., Y jm ] będą odpowiedziami, i niech ε T j = [ε j1, ε j2,..., ε jm ] będą błędami. W notacji macierzowej macierz zmiennych objaśniających z 10 z 11 z 1r z 20 z 21 z 2r Z (n (r+1)) =...... z n0 z n1 z nr jest taka sama jak dla modelu regresji z jedną odpowiedzią. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 26 / 128

Pozostałe macierze mają wielowymiarowe odpowiedniki: Y 11 Y 12 Y 1m Y 21 Y 22 Y 2m Y (n m) =..... = [Y (1).Y (2)..Y (m) ]. Y n1 Y n2 Y nm β ((r+1) m) = β 01 β 02 β 0m β 11 β 12 β 1m...... β r1 β r2 β rm = [β (1).β (2)..β (m) ] () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 27 / 128

ε 11 ε 12 ε 1m ε 21 ε 22 ε 2m ε (n m) =..... = [ε (1).ε (2)..ε (m) ] =. ε n1 ε n2 ε nm ε T 1 ε T 2. ε T n () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 28 / 128

Model wielowymiarowej regresji liniowej: Y (n m) = Z (n (r+1)) β ((r+1) m) + ε (n m) gdzie: E(ε (i) ) = 0 i Cov(ε (i), ε (k) ) = σ ik I, i, k = 1, 2,..., m m obserwacji dla j-tej próby ma macierz kowariancji Σ = {σ ik }, ale obserwacje z różnych prób są nieskorelowane. Tutaj β oraz σ ik są nieznanymi parametrami. Macierz zmiennych objaśniających Z ma j-ty wiersz [z j0, z j1,..., z jr ]. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 29 / 128

Krótko mówiąc, i-ta odpowiedź Y (i) spełnia model regresji liniowej: Y (i) = Zβ (i) + ε (i), i = 1, 2,..., m z Cov(ε (i) ) = σ ii I. Jednakże, błędy dla różnych odpowiedzi z tej samej próby mogą być skorelowane. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 30 / 128

Przyjmując odpowiedzi Y i wartości predyktorów Z z pełnym rzędem kolumnowym (wszystkie kolumny macierzy są liniowo niezależne), wyznaczamy estymator najmniejszych kwadratów β (i) wyłącznie dla obserwacji Y (i) dla i-tej odpowiedzi. W zgodności z rozwiązaniem dla modelu z jedną odpowiedzią, bierzemy β (i) = (Z Z) 1 Z Y (i). Zbierając te jednowymiarowe estymatory najmniejszych kwadratów otrzymujemy β = [ β (1). β (2).. β (m) ] = (Z Z) 1 Z [Y (1).Y (2)..Y (m) ] lub β = (Z Z) 1 Z Y () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 31 / 128

Dla dowolnego wyboru parametrów B = [b (1).b (2)..b (m) ], macierz błędów wynosi Y-ZB. Macierzą błędowej sumy kwadratów i iloczynów (error sum of squares and cross products matrix) jest: = (Y ZB) (Y ZB) = (Y (1) Zb (1) ) (Y (1) Zb (1) ) (Y (1) Zb (1) ) (Y (m) Zb (m) ).. (Y (m) Zb (m) ) (Y (1) Zb (1) ) (Y (m) Zb (m) ) (Y (m) Zb (m) ) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 32 / 128

Wybór b (i) = β (i) minimalizuje i-tą diagonalną sumę kwadratów (Y (i) Zb (i) ) (Y (i) Zb (i) ). W konsekwencji tr(y ZB) (Y ZB) jest zminimalizowany prze wybór B = β. Także uogólniona wariancja (Y ZB) (Y ZB) jest zminimalizowana przez estymator najmniejszych kwadratów β. Wykorzystując estymator najmniejszych kwadratów β możemy stworzyć macierze wartości przewidywanych Ŷ = Z β = Z(Z Z) 1 Z Y oraz reszt ε = Y Ŷ = [I Z(Z Z) 1 Z ]Y () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 33 / 128

Warunki ortogonalności pomiędzy resztami, wartościami przewidywanymi oraz kolumnami macierzy Z, które zachodzą w klasycznym modelu regresji liniowej zachodzą także w wielowymiarowym modelu regresji wielorakiej. Pochodzą one z Z [I Z(Z Z) 1 Z ] = Z Z = 0. W szczególności Z ε = Z [I Z(Z Z) 1 Z ]Y = 0 więc reszty ε (i) są prostopadłe do kolumn macierzy Z. Także Ŷ ε = β Z [I Z(Z Z) 1 Z ]Y = 0 potwierdza, że wartości przewidywane Ŷ(i) są prostopadłe do wszystkich wektorów reszt ε (k), ponieważ Y = Ŷ + ε, Y Y = (Ŷ + ε) (Ŷ + ε) = Ŷ Ŷ + ε ε + 0 + 0 albo Y Y = Ŷ Ŷ + ε ε całkowita suma kwadratów i iloczynów = przewidywana suma kwadratów i iloczynów + resztowa suma kwadratów i iloczynów () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 34 / 128

Resztowa suma kwadratów i iloczynów (residual sum of squares and cross products) może być także zapisana jako ε ε = Y Y Ŷ Ŷ = Y Y β Z Z β Przykład: Y j1 = β 01 + β 11 z j1 + ε j1 Y j2 = β 02 + β 12 z j1 + ε j2 j = 1, 2,..., 5 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 35 / 128

Przykład 7.8 (Dopasowanie wielowymiarowego modelu regresji prostoliniowej) Aby zilustrować wyliczenie ˆβ, ˆγ i ˆε, dopasowujemy model regresji prostoliniowej: Y j1 = β 01 + β 11 z j1 + ε j1 Y j2 = β 02 + β 12 z j1 + ε j2, j = 1, 2,..., 5 do dwóch odpowiedzi Y 1 i Y 2 używając poniższych danych: z 1 0 1 2 3 4 y 1 1 4 3 8 9 y 2-1 -1 2 3 2 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 36 / 128

proc import out=dane datafile="c:\users\student\desktop\dane.xlsx" dbms=xlsx Replace; getnames=yes; run; proc reg data=dane; model y1 = z1/ r cli clm; model y2 = z1/ r cli clm; output out=dane_wynikowe p=pred r=resid; run; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 37 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 38 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 39 / 128

proc iml; /*n-liczba obserwacji*/ n = 5; tmp = j(n,1,1); use dane; read all var{z1} into Ztym; close dane; Z = tmp Ztym; print Z; use dane; read all var{y1} into y1; close dane; betay1 = inv(z *Z)*Z *y1; cname = {"Intercept" "Z1"}; rname = {"Y1^"}; results = betay1 ; print results[r=rname c=cname]; use dane; read all var{y2} into y2; close dane; betay2 = inv(z *Z)*Z *y2; cname = {"Intercept" "Z1"}; rname = {"Y2^"}; results = betay2 ; print results[r=rname c=cname]; use dane; read all var{y1 y2} into Y; close dane; betahat2 = inv(z *Z)*Z *Y; betahat = betay1 betay2; Yhat = Z*betahat; ehat = Y-Yhat; ehatpehat = ehat *ehat; print betahat; print ehatpehat; quit; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 40 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 41 / 128

Y j1 = 1 + 2z j1 Y j1 = 1 + z j1, j = 1, 2,..., 5 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 42 / 128

proc glm data=dane; model y1 y2 = z1; manova h=z1/printe; run; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 43 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 44 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 45 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 46 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 47 / 128

Rezultat Wielowymiarowa regresja wielokrotna Dla estymatora najmniejszych kwadratów β = [ β (1). β (2).. β (m) ] określonego dla wielowymiarowego modelu regresji wielorakiej z pełnym rzędem macierzy Z, czyli rz(z) = r + 1 < n mamy E( β (i) ) = β (i) lub E( β) = β Cov( β (i), β (k) ) = σ ik (Z Z) 1, i, k = 1, 2,..., m Reszty ε = [ ε (1). ε (2).. ε (m) ] = Y Z β spełniają E( ε (i) ) = 0 i E( ε (i) ε (k)) = (n r 1)σ ik, więc E( ε) = 0 i E( 1 n r 1 ε ε) = Σ Także ε i β są nieskorelowane. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 48 / 128

Wektory średniej i macierze kowariancji określone w powyższym rezultacie pozwalają otrzymać przykładowe własności predyktorów najmniejszych kwadratów. Najpierw rozważmy problem estymacji wektora średnich dla zmiennych objaśniających o wartościach z 0 = [1, z 01,..., z 0r ]. Średnia i-tej odpowiedzi wynosi z 0 β (i) i jest estymowana przez z 0 β (i), co jest i-tym składnikiem dopasowanego związku regresji. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 49 / 128

Podsumowując, z 0 β = [z 0 β (1).z 0 β (2)..z 0 β (m) ] jest nieobciążonym estymatorem z 0 β, ponieważ E(z 0 β (i) ) = z 0 E( β (i) ) = z 0 β (i) dla każdego składnika. Dla macierzy kowariancji dla β (i) i β (k), oszacowane błędy z 0 β (i) z 0 β (i) mają kowariancje E[z 0 (β (i) β (i) )(β (k) β (k) ) z 0 ] = z 0 (E(β (i) β (i) )(β (k) β (k) ) )z 0 = σ ik z 0 (Z Z) 1 z 0 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 50 / 128

Związane z tym problemem jest przewidywanie nowego wektora obserwacji Ŷ 0 = [Y 01, Y 02,, Y 0m ] w z 0. Nawiązując do modelu regresji Y 0i = z 0 β (i) + ε 0i nowe błędy ε 0 = [ε 01, ε 02,, ε 0m ] są niezależne od błędów ε i spełniają E(ε 0i ) = 0 i E(ε 0i ε 0k ) = σ ik. Przewidywany błąd na i-tym składniku Y 0 wynosi Y 0i z 0 β (i) = Y 0i z 0 β (i) + z 0 β (i) z 0 β (i) = ε 0i z 0 ( β (i) β (i) ) więc E(Y 0i z 0 β (i) ) = E(ε 0i ) z 0 E( β (i) β (i) ) = 0, z czego wynika, że z 0 β (i) jest nieobciążonym predyktorem Y 0i. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 51 / 128

Przewidywane błędy mają kowariancje E(Y 0i z β 0 (i) )(Y 0k z β 0 (k) ) = E(ε 0i z 0 ( β (i) β (i) ))(ε 0k z 0 ( β (k) β (k) )) = E(ε 0i ε 0k ) + z 0 E( β (i) β (i) )( β (k) β (k) ) z 0 z 0 E(( β (i) β (i) )ε 0k ) E(ε 0i ( β (k) β (k) ) )z 0 = σ ik (1 + z 0 (Z Z) 1 z 0 ) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 52 / 128

Zauważmy, że E(( β (i) β (i) )ε 0k ) = 0, ponieważ β (i) = (Z Z) 1 Z ε (i) + β (i) jest niezależny od ε 0. Podobny wynik otrzymamy z E(ε 0i ( β (k) β (k) ) ) Estymatory największej wiarygodności oraz ich rozkłady możemy otrzymać, gdy błędy ε mają rozkład normalny. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 53 / 128

Rezultat 7.10 Wielowymiarowa regresja wielokrotna Niech będzie dany wielowymiarowy model regresji wielokrotnej Y (n m) = Z (n (r+1)) β ((r+1) m) + ε (n m) gdzie rz(z) = r + 1,n (r + 1) + m, niech błędy ε mają rozkład normalny. Wtedy β = (Z Z) 1 Z Y jest estymatorem największej wiarygodności dla β i β ma rozkład normalny z E( β) = β i Cov( β (i), β (k) ) = σ ik (Z Z) 1. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 54 / 128

Także β jest niezależny od estymatora największej wiarygodności dla dodatnio określonej Σ danego przez Σ = 1 n ε ε = 1 n (Y Z β) (Y Z β) i n Σ ma rozkład W p,n r 1 (Σ). Zmaksymalizowana funkcja wiarygodności wynosi L( µ, Σ) = (2π) mn/2 Σ n/2 e mn/2 Gdy błędy mają rozkład normalny, β i n 1 ε T ε są estymatorami największej wiarygodności odpowiednio dla β i Σ. Dlatego też dla dużych próbek mają one najmniejszą możliwą wariancję. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 55 / 128

TEST ILORAZU WIARYGODNOŚCI DLA PARAMETRÓW REGRESJI Część analizy regresji jest skoncentrowana na oszacowaniu efektów poszczególnych zmiennych objaśniających na zmienne objaśniane. Jedną z hipotez zerowych, które nas interesują jest aby niektóre zmienne objaśniające były nieistotne. Te zmienne będą oznaczone przez z q+1, z q+2,..., z r. Hipoteza, że odpowiedzi nie zależą od z q+1, z q+2,..., z r wygląda następująco: H 0 :β q+1 = β q+2 = = β r = 0 lub H 0 : β (2) = 0 gdzie β T (2) = [β q+1, β q+2,..., β r ], β = (β (1) ) ((q+1) m)... (β (2) ) ((r q) m) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 56 / 128

Mając [ ] Z = (Z 1 ) (n (q+1)). (Z 2 ) (n (r q)) możemy zapisać ogólnie model jako [ ] E(Y) = Zβ = Z 1. Z 2 β (1) β (2) = Z 1 β (1) + Z 2 β (2) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 57 / 128

Pod warunkiem, że H 0 : β (2) = 0 zachodzi Y = Z 1 β (1) + ε oraz test ilorazu wiarygodności dla H 0 jest oparty o składniki zawarte w dodatkowej sumie kwadratów i iloczynów (extra sum of squares and cross products) równej (Y Z 1 β (1) ) (Y Z 1 β (1) ) (Y Z β) (Y Z β) = n( Σ 1 Σ), gdzie β (1) = (Z 1 Z 1 ) 1 Z 1 Y i Σ 1 = n 1 (Y Z 1 β (1) ) (Y Z 1 β (1) ). () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 58 / 128

Iloraz wiarygodności Λ może być wyrażony za pomocą uogólnionej wariancji Λ = max ( ) β (1),ΣL(β (1),Σ) n/2 max β,σ L(β,Σ) = L( β(1), Σ1 ) Σ =. L( β, Σ) Σ1 Jeżeli Λ jest małe to odrzucamy H 0. Równoważnie odrzucamy H 0 dla dużych wartości ( ) Σ n 2lnΛ = nln = nln Σ Σ 1 n Σ + n( Σ 1 Σ) Zamiast ilorazu wiarygodności statystyka lambda Wilksa Λ 2/n = Σ Σ1 może być użyta. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 59 / 128

Pozostałe testy wielowymiarowe Oprócz testu ilorazu wiarygodności mamy inne testy, sprawdzające prawdziwość H 0 : β (2) = 0 w modelu wielowymiarowej regresji wielokrotnej. Popularne programy komputerowe, tj. SAS rutynowo obliczają cztery wielowymiarowe testy statystyczne. W związku z tym, co wyświetlają w wynikach wprowadźmy alternatywną notację. Niech E będzie błędem p p lub inaczej macierzą resztowych sum kwadratów i iloczynów (residual sum of squares and cross products matrix): E = n Σ która wynika z dopasowania pełnego modelu. Hipoteza p p albo macierz dodatkowej sumy kwadratów i iloczynów (extra sum of squares and cross products matrix) jest następująca H = n( Σ 1 Σ) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 60 / 128

Statystyki mogą być zdefiniowane bezpośrednio za pomocą E oraz H albo za pomocą niezerowych wartości własnych η 1 η 2 η s macierzy HE 1, gdzie s = min(p, r q). Równoważnie są one pierwiastkami ( Σ 1 Σ) η Σ = 0 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 61 / 128

Mamy następujące definicje statystyk: Wilks lambda = s i=1 1 1+η i = E E+H Pillai s trace = s i=1 η i 1+η i = tr[h(h + E) 1 ] Hotelling-Lawley trace = s i=1 η i = tr[he 1 ] Roy s greatest root = η 1 1+η 1 Testy Wilks lambda, Hotelling-Lawley trace i Roy s greatest root są prawie równoważne dla dużych próbek. Zauważmy, że statystyka Wilks lambda jest bezpośrednio związana z testem ilorazu wiarygodności. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 62 / 128

Niekiedy te cztery testy dają identyczne rezultaty, ale w większości przypadków wyniki różnią się. Z tych czterech testów Pillai s trace jest najbardziej odporny (najmniej wrażliwy na zmianę założeń). Jednakże Wilk s Lambda jest częściej używana z powodu własności związanej z uogólnioną wariancją Σ. Dwie pozostałe statystyki Hotelling-Lawley s trace i Roy s Greatest Root są rzadko używane. Zwykle Pillai s trace, Wilks Lambda i Hotelling-Lawley trace dają te same wyniki. Roy s Greatest Root jest górna granicą statystyki F, więc może dać zupełnie inną wartość F i p-value niz pozostałe trzy statystyki. Jeżeli tak się zdarzy należy zignorować statystykę Roy a. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 63 / 128

Prognozy z wielowymiarowego modelu regresji wielorakiej Przypuśćmy, że model Y = Zβ + ε z normalnymi błędami ε jest dopasowany i sprawdzony pod kątem ewentualnych nieprawidłowości. Jeżeli model jest odpowiedni, to może zostać użyty do celów prognostycznych. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 64 / 128

Pierwszym problemem jest przewidywanie średnich odpowiedzi odpowiadających ustalonym wartościom z 0 zmiennych objaśniających. Wnioski odnośnie średnich odpowiedzi mogą być wykonane przy użyciu teorii rozkładu z rezultatu 7.10. Z tych wynikow możemy określić, że β z 0 ma rozkład N m (β z 0, z 0 (Z Z) 1 z 0 Σ) i n Σ ma niezależny rozkład W n r 1 (Σ). Nieznaną wartością funkcji regresji w z 0 jest β z 0. Więc możemy zapisać statystykę T 2 wzorem: () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 65 / 128

100(1 α)% eliptyczny przedział ufności (confidence ellipsoid) dla β z 0 jest dany przez nierówność: gdzie F m,n r m (α) jest górnym (100α)-centylem rozkładu F z m i n r m stopniami swobody. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 66 / 128

100(1 α)% jednoczesne przedziały ufności dla E(Y i ) = z 0 β (i) są dane wzorem: gdzie i = 1, 2,, m, β (i) jest i-tą kolumną β i σ ii jest i-tym diagonalnym elementem Σ. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 67 / 128

Drugi problem przewidywania jest związany z przewidywaniem nowych odpowiedzi Y 0 = β z 0 + ε 0 w z 0. Tutaj: ε 0 jest niezależny od ε. Teraz Y 0 β z 0 = (β β) z 0 + ε 0 ma rozkład N m (0, (1 + z 0 (Z Z) 1 z 0 )Σ) niezależny od n Σ, więc 100(1 α)% eliptyczny przedział prognozy (prediction ellipsoid) dla Y 0 wygląda następująco: () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 68 / 128

100(1 α)% jednoczesnymi przedziałami prognozy dla pojedynczych odpowiedzi Y 0i są gdzie i = 1, 2,..., m, β (i), σ ii oraz F m,n r m (α) Widzimy, że przedziały prognozowania dla rzeczywistych wartości zmiennych odpowiedzi są szersze niż odpowiadające przedziały dla wartości oczekiwanych. Dodatkowa szerokość odzwierciedla obecność błędu losowego ε 0i () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 69 / 128

Przykład 7.10 Konstrułowanie elipsy ufności (confidence ellipse) i elipsy prognozy (prediction ellipse) dla dwóch zmiennych odpowiedzi Przypomnijmy przykład 7.6: Firmy rozważające zakup komputera muszą najpierw oszacować swoje przyszłe potrzeby, aby poprawnie określić wymagania sprzętowe. Informatycy zbierają dane z siedmiu stron podobnych firm w taki sposób, aby oszacować parametry równania prognozy wymagań sprzętu komputerowego dla działu zarządzającego zasobami. z 1 - zamówienia klientów (tys.) z 2 - liczba dodanych - usuniętych elementów (tys.) Y 1 - czas CPU (jednostka pamięci centralnej) (h) i dodajmy drugą zmienną odpowiedzi: Y 2 - miara szybkości odczytu/zapisu na dysku (disc input/output capacity) (wyrażana w input/output na sekundę) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 70 / 128

Wartości obserwacji Wielowymiarowa regresja wielokrotna () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 71 / 128

ŷ 1 = 8.42 + 1.08z 1 + 0.42z 2 ŷ 2 = 14.14 + 2.25z 1 + 5.67z 2 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 72 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 73 / 128

proc import out=dane3 datafile="c:\users\student\desktop\ex.2.xlsx" dbms=xlsx Replace; getnames=yes; run; proc iml; /*n-liczba obserwacji, m-liczba zmiennych objaśnianych, r-liczba zmiennych objaśniających*/ n = 7; m = 2; r = 2; tmp = j(n,1,1); use dane3; read all var{z1 z2} into Z1tym; close dane3; Z = tmp Z1tym; print Z; use dane3; read all var{y1 y2} into Y; close dane3; betahat = inv(z *Z)*Z *Y; cname = {"Y1" "Y2"}; rname = {"Intercept" "Z1" "Z2"}; results = betahat; print betahat[r=rname c=cname]; sigma = (1/n)*((Y-Z*betahat) *(Y-Z*betahat)); nsigma = (Y-Z*betahat) *(Y-Z*betahat); print nsigma; skala1 = n/(n-r-1); pom = inv(nsigma)/skala1; z0 = {1,130,7.5}; z0zpzz0 = z0 *inv(z *Z)*z0; print z0zpzz0; F = quantile( F,0.95,m,n-r-m); print F; skala2 = (m*(n-r-1))/(n-r-m); betahatz0 = betahat *z0; print betahatz0; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 74 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 75 / 128

/*Jednoczesne przedziały ufności dla średniej*/ ogr1 = z0zpzz0*skala2*f; print ogr1; z0pb1 = sqrt(skala2*f)*sqrt(z0zpzz0*(skala1*sigma[1,1])); print z0pb1; prze1d = betahatz0[1]-z0pb1; prze1g = betahatz0[1]+z0pb1; prze1dg = prze1d prze1g; cname = {"dolny" "górny"}; Przedzial_ufnosci_sredniej1= prze1dg; print Przedzial_ufnosci_sredniej1[c=cname]; z0pb2 = sqrt(skala2*f)*sqrt(z0zpzz0*(skala1*sigma[2,2])); print z0pb2; prze2d = betahatz0[2]-z0pb2; prze2g = betahatz0[2]+z0pb2; prze2dg = prze2d prze2g; cname = {"dolny" "górny"}; Przedzial_ufnosci_sredniej2= prze2dg; print Przedzial_ufnosci_sredniej2[c=cname]; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 76 / 128

/*Jednoczesne przedziały ufności dla predykcji*/ ogr2 = (1+z0ZpZz0)*skala2*F; print ogr2; z0pb1 = sqrt(skala2*f)*sqrt((1+z0zpzz0)*(skala1*sigma[1,1])); print z0pb1; przep1d = betahatz0[1]-z0pb1; przep1g = betahatz0[1]+z0pb1; przep1dg = przep1d przep1g; cname = {"dolny" "górny"}; Przedzial_ufnosci_prognozy1= przep1dg; print Przedzial_ufnosci_prognozy1[c=cname]; z0pb2 = sqrt(skala2*f)*sqrt((1+z0zpzz0)*(skala1*sigma[2,2])); print z0pb2; przep2d = betahatz0[2]-z0pb2; przep2g = betahatz0[2]+z0pb2; przep2dg = przep2d przep2g; cname = {"dolny" "górny"}; Przedzial_ufnosci_prognozy2= przep2dg; print Przedzial_ufnosci_prognozy2[c=cname]; quit; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 77 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 78 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 79 / 128

Środek obu elips jest w punkcie (151.97, 349.17) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 80 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 81 / 128

KONCEPCJA REGRESJI LINIOWEJ Klasyczny model regresji liniowej jest skoncentrowany na związku pomiedzy jedną zmienną zależną Y i zbiorem zmiennych objaśniających z 1, z 2,..., z r. Model regresji który rozważamy traktuje Y jako zmienną losową, której średnia zależy od ustalonych wartości z 1, z 2,..., z r. Zakładamy, że ta średnia jest funkcją liniową współczynników regresji β 1, β 2,..., β r Załóżmy, że wszystkie zmienne Y, Z 1, Z 2,..., Z r są losowe i mają rozkład łączny, niekoniecznie normalny, z wektorem średnich µ (r+1) 1 i macierzą kowariancji Σ (r+1) (r+1). () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 82 / 128

Macierze µ i Σ można zapisać w następujący sposób µ ((r+1) 1) = µ Y(1 1) µ Z(r 1) Σ ((r+1) (r+1)) = σ YY(1 1).σ ZY(1 r). σ ZY(r 1).Σ ZZ(r r) gdzie σ T ZY = [σ YZ 1, σ YZ2,..., σ YZr ] () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 83 / 128

Weźmy Σ ZZ z pełnym rzędem. Rozważmy problem prognozowania Y używając linear predictor = b 0 + b 1 Z 1 + + b r Z r = b 0 + b T Z. Błąd dla przewidywanego Y wynosi prediction error = Y b 0 b 1 Z 1 b r Z r = Y b 0 b T Z Ponieważ ten błąd jest losowy, zwyczajowo wybiera się b 0 i b tak, aby zminimalizować mean square error = E(Y b 0 b T Z) 2 Teraz błąd średniokwadratowy zależy od rozkładu łącznego Y oraz Z tylko poprzez parametry µ i Σ. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 84 / 128

Korelacja pomiędzy Y oraz jego najlepszym dopasowaniem liniowym jest nazywana population multiple correlation coefficient ρ Y (Z) = + σ T ZY Σ 1 ZZ σ ZY σ YY Kwadrat population muliple correlation coefficient, ρ 2 Y (Z) jest nazywany population coefficient of detemination. Zauważmy, że w przeciwieństwie do innych współczynników korelacji, współczynnik korelacji wielorakiej jest dodatnim pierwiastkiem kwadratowym, więc 0 ρ Y (Z) 1. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 85 / 128

Population coefficient of detemination ma ważną interpretację. Błąd średniokwadratowy przy użyciu β 0 + β T Z do prognozy Y wynosi σ YY σzy T Σ 1 ZZ σ ZY = σ YY σ YY ( σt ZY Σ 1 ZZ σ ZY σ YY ) = σ YY (1 ρ 2 Y (Z) ) Jeżeli ρ 2 Y (Z) = 0, wtedy Z nie nadaje się do prognozowania. W przypadku drugiego ekstremum, czyli gdy ρ 2 Y (Z) = 1 Y może być przewidziane bez błędu. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 86 / 128

PRZEWIDYWANIE KILKU ZMIENNYCH Rozszerzenie poprzednich rezultatów na przewidywanie kilku odpowiedzi Y 1, Y 2,..., Y m jest prawie natychmiastowe. Prezentujemy to rozszerzenie dla populacji o rozkładzie normalnym. Załóżmy, że ma rozkład N m+r (µ, Σ) z i Σ = µ = Y (m 1) Z (r 1) (µ Y ) (m 1) (µ Z ) (r 1) (Σ YY ) (m m). (Σ YZ ) (m r). (Σ ZY ) (r m). (Σ ZZ ) (r r). () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 87 / 128

Warunkowa wartość oczekiwana [Y 1, Y 2,..., Y m ] przy ustalonych wartościach zmiennych objaśniających z 1, z 2,..., z r wynosi E[Y z 1, z 2,..., z r ] = µ Y + Σ YZ Σ 1 ZZ (z µ Z ) Warunkowa wartość oczekiwana rozważana jako funkcja z 1, z 2,..., z r jest nazywana wielowymiarową regresją wektora Y na Z. Jest ona złożona z m jednowymiarowych regresji. Np. pierwszy składnik warunkowego wektora średnich to µ Y1 + Σ Y1 Z Σ 1 ZZ (z µ Z ) = E[Y 1 z 1, z 2,..., z r ], który minimalizuje błąd średniokwadratowy dla prognozy Y 1. Macierz β = Σ YZ Σ 1 ZZ o wymiarach m r jest nazywana macierzą współczynników regresji. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 88 / 128

Błąd przewidywanego wektora Y µ Y Σ YZ Σ 1 ZZ (Z µ Z ) ma macierz ESCP (Expected Squares and Cross Products matrix): Σ YY Z = E[Y µ Y Σ YZ Σ 1 ZZ (Z µ Z )][Y µ Y Σ YZ Σ 1 ZZ (Z µ Z )] = = Σ YY Σ YZ Σ 1 ZZ (Σ YZ ) Σ YZ Σ 1 ZZ Σ ZY + Σ YZ Σ 1 ZZ Σ ZZ Σ 1 ZZ (Σ YZ ) = Σ YY Σ YZ Σ 1 ZZ Σ ZY Ponieważ µ i Σ zwykle są nieznane, muszą być wyestymowane z próbki losowej w celu skonstrułowania wielowymiarowej prognozy liniowej i określenia oczekiwanego błędu prognozy. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 89 / 128

Współczynnik korelacji cząstkowej Rozważmy parę błędów Y 1 µ Y1 Σ Y1 Z Σ 1 ZZ (Z µ Z ) Y 2 µ Y2 Σ Y2 Z Σ 1 ZZ (Z µ Z ) uzyskanych z użycia najlepszych liniowych prognoz dla przewidywania Y 1 i Y 2. Ich korelacja, określona za pomocą macierzy kowariancji błędów Σ YY Z = Σ YY Σ YZ Σ 1 ZZ Σ ZY, mierzy związek pomiędzy Y 1 i Y 2 po wyeliminowaniu efektów zmiennych Z 1, Z 2,..., Z r. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 90 / 128

Definiujemy współczynnik korelacji cząstkowej pomiędzy Y 1 i Y 2, eliminując Z 1, Z 2,..., Z r, przez: ρ Y1 Y 2 Z = σ Y1 Y 2 Z σy1 Y 1 Z σy2 Y 2 Z gdzie σ Yi Y k Z jest (i, k)-tym elementem macierzy Σ YY Z = Σ YY Σ YZ Σ 1 ZZ Σ ZY. Odpowiadającym próbkowym wspólczynnikiem korelacji cząstkowej jest: r Y1 Y 2 Z = s Y1 Y 2 Z sy1 Y 1 Z sy2 Y 2 Z gdzie s Yi Y k Z jest (i, k)-tym elementem macierzy S YY S YZ S 1 ZZ S ZY. Jeżeli Y i Z mają łączny wielowymiarowy rozkład normalny próbkowy wspólczynnik korelacji cząstkowej jest estymatorem największej wiarygodności współczynnika korelacji cząstkowej. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 91 / 128

Przykład Wielowymiarowa regresja wielokrotna Amitryptylina jest przepisywana przez niektórych lekarzy ogólnych jako antydepresant. Jednakże przypuszczalnie istnieją także efekty uboczne, które wydają się mieć związek z używaniem leku. Są to m. in.: nieregularne bicie serca, nieprawidłowe ciśnienie krwi oraz nieregularne fale na elektrokardiogramie. Dane zebrane od 17 pacjentów, którzy zostali przyjęci do szpitala po przedawkowaniu amitryptyliny są przedstawione w tabeli na jednym z następnych slajdów. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 92 / 128

W przykładzie występują dwie zmienne odpowiedzi: oraz pięć zmiennych objaśniających: () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 93 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 94 / 128

Proste wyjaśnienia odnośnie zmiennych z przykładu Czym jest amitryptylina? Amitryptylina organiczny związek chemiczny, stosowany jako lek psychotropowy należący do trójpierścieniowych leków przeciwdepresyjnych (TCAD), wywierający poza tym działanie uspokajające i przeciwlękowe. TCAD (Tricyclic antidepressants) - Trójcykliczne leki przeciwdepresyjne, leki trójpierścieniowe - grupa leków psychotropowych o zbliżonej budowie chemicznej (cząsteczka złożona z trzech pierścieni), używanych w leczeniu depresji. Jednym z trójpierścieniowych leków przeciwdepresyjnych jest amitryptylina. Czym są poszczególne zmienne objaśniane? Y 1 = całkowity poziom antydepresantów w osoczu (w mg) Y 2 = ilość amitryptyliny w osoczu (w mg) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 95 / 128

Czym są poszczególne zmienne objaśniające? Z 1 - płeć: 1 jeżeli kobieta, 0 jeżeli mężczyzna Z 2 - ilość antydepresantów wziętych w momencie przedawkowania (w mg) Z 3 - PR - szybkość przesyłania pobudzenia z węzła przedsionkowo-komorowego na przedsionki i komory (powinien wynosić 0,12-0,2s, czyli 120-200 ms) (podane w tabeli w milisekundach (ms)) Z 4 - rozkurczowe ciśnienie krwi (tzw. ksiązkowe rozkurczowe ciśnienie krwi powinno wynosić 80 mm Hg) Z 5 - QRS opisuje depolaryzację komór serca - czyli skurcz w EKG (prawidłowo powinien wynosić 0,12s = 120ms) (podane w tabeli w ms) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 96 / 128

PR z przykładu odnosi się do PR interval (odstęp PQ) QRS z przykładu odnosi się do QRS complex (zespół QRS) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 97 / 128

proc import out=dane3 datafile="c:\users\student\desktop\dane 7.25.xls" dbms=xls Replace; getnames=yes; run; proc iml; /*n-liczba obserwacji, m-liczba zmiennych objaśnianych, r-liczba zmiennych objaśniających, q-liczba zmiennych objaśniających (po podziale)*/ n = 17; m = 2; r = 5; q = 2; tmp = j(n,1,1); use dane3; read all var{z1 z2} into Z1tym; close dane3; Z1 = tmp Z1tym; use dane3; read all var{z3 z4 z5} into Z2; close dane3; Z = Z1 Z2; print Z; use dane3; read all var{y1 y2} into Y; close dane3; betahat = inv(z *Z)*Z *Y; cname = {"Y1" "Y2"}; rname = {"Intercept" "Z1" "Z2" "Z3" "Z4" "Z5"}; results = betahat; print betahat[r=rname c=cname]; sigma = (1/n)*(Y-Z*betahat) *(Y-Z*betahat); print sigma; betahat1 = inv(z1 *Z1)*Z1 *Y; betahat = inv(z *Z)*Z *Y; cname = {"Y1" "Y2"}; rname = {"Intercept" "Z1" "Z2"}; results = betahat1; print betahat1[r=rname c=cname]; sigma1 = (1/n)*(Y-Z1*betahat1) *(Y-Z1*betahat1); print sigma1; wyz = det(sigma); wyz1 = det(sigma1); print wyz wyz1; skala = -(n-r-1-(1/2)*(m-r+q+1)); lambda = skala*log(wyz/wyz1); print lambda; Chi2 = quantile( CHISQ,0.95,m*(r-q)); print Chi2; quit; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 98 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 99 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 100 / 128

Sprawdzamy hipotezę H 0 = β 3 = β 4 = β 5 = 0. Wartość krytyczna w teście to χ 2 2(5 2) (0.05) = 12.59. Ponieważ 9.01 < 12.59 nie możemy odrzucić H 0. Trzy ostatnie zmienne objaśniające nie dostarczają żadnych informaci na temat zmian w średniej dla dwóch zmiennych odpowiedzi ponad te które są dostarczane przez płeć i ilość przyjętego antydepresantu. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 101 / 128

proc reg data=dane3; model y1 y2= z1 z2 z3 z4 z5; mtest z3, z4, z5; run; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 102 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 103 / 128

proc reg data=dane3; model y1 y2= z1 z2; run; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 104 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 105 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 106 / 128

Jak widzimy, po odrzuceniu zmiennych Z 3, Z 4 i Z 5, zmienne Z 1 i Z 2 są istotne w naszym modelu. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 107 / 128

proc iml; /*n-liczba obserwacji, m-liczba zmiennych objaśnianych, r-liczba zmiennych objaśniających*/ n = 17; m = 2; r = 2; tmp = j(n,1,1); use dane3; read all var{z1 z2} into Z1tym; close dane3; Z = tmp Z1tym; print Z; use dane3; read all var{y1 y2} into Y; close dane3; betahat = inv(z *Z)*Z *Y; cname = {"Y1" "Y2"}; rname = {"Intercept" "Z1" "Z2"}; results = betahat; print betahat[r=rname c=cname]; sigma = (1/n)*((Y-Z*betahat) *(Y-Z*betahat)); nsigma = (Y-Z*betahat) *(Y-Z*betahat); print nsigma; skala1 = n/(n-r-1); pom = inv(nsigma)/skala1; z0 = {1,1,1000}; z0zpzz0 = z0 *inv(z *Z)*z0; print z0zpzz0; F = quantile( F,0.95,m,n-r-m); print F; skala2 = (m*(n-r-1))/(n-r-m); betahatz0 = betahat *z0; print betahatz0; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 108 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 109 / 128

/*Jednoczesne przedziały ufności dla średniej*/ ogr1 = z0zpzz0*skala2*f; print ogr1; z0pb1 = sqrt(skala2*f)*sqrt(z0zpzz0*(skala1*sigma[1,1])); print z0pb1; prze1d = betahatz0[1]-z0pb1; prze1g = betahatz0[1]+z0pb1; prze1dg = prze1d prze1g; cname = {"dolny" "górny"}; Przedzial_ufnosci_sredniej1= prze1dg; print Przedzial_ufnosci_sredniej1[c=cname]; z0pb2 = sqrt(skala2*f)*sqrt(z0zpzz0*(skala1*sigma[2,2])); print z0pb2; prze2d = betahatz0[2]-z0pb2; prze2g = betahatz0[2]+z0pb2; prze2dg = prze2d prze2g; cname = {"dolny" "górny"}; Przedzial_ufnosci_sredniej2= prze2dg; print Przedzial_ufnosci_sredniej2[c=cname]; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 110 / 128

/*Jednoczesne przedziały ufności dla predykcji*/ ogr2 = (1+z0ZpZz0)*skala2*F; print ogr2; z0pb1 = sqrt(skala2*f)*sqrt((1+z0zpzz0)*(skala1*sigma[1,1])); print z0pb1; przep1d = betahatz0[1]-z0pb1; przep1g = betahatz0[1]+z0pb1; przep1dg = przep1d przep1g; cname = {"dolny" "górny"}; Przedzial_ufnosci_prognozy1= przep1dg; print Przedzial_ufnosci_prognozy1[c=cname]; z0pb2 = sqrt(skala2*f)*sqrt((1+z0zpzz0)*(skala1*sigma[2,2])); print z0pb2; przep2d = betahatz0[2]-z0pb2; przep2g = betahatz0[2]+z0pb2; przep2dg = przep2d przep2g; cname = {"dolny" "górny"}; Przedzial_ufnosci_prognozy2= przep2dg; print Przedzial_ufnosci_prognozy2[c=cname]; quit; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 111 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 112 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 113 / 128

Równoczesne przedziały ufności dla oczekiwanych odpowiedzi E(Y 01 ) i E(Y 02 ): Równoczesne przedziały ufności dla prognoz Y 01 i Y 02 : () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 114 / 128

proc cancorr data=dane3 all; var y1 y2; with z1 z2 z3 z4 z5; run; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 115 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 116 / 128

Modele regresji wielorakiej z błędami zależącymi od czasu Dla danych zbieranych przez pewien okres czasu obserwacje z różnych przedziałów czasowych są często powiązane ze sobą. W konsekwencji, w kontekście regresji, obserwacje na zmiennej zależnej (lub równoważnie błędy) nie mogą być niezależne. W poniższym przykładzie nie tylko pokażemy jak wykryć obecność zależności czasowej, ale także jak zawrzeć tę zależność w modelu regresji wielorakiej. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 117 / 128

Przykęad 7.16 (Zawieranie błędów zależących od czasu w modelu regresji) Elektrownie muszą mieć dość gazu ziemnego aby ogrzać domy i firmy wszystkich swoich klientów, szczególnie w najzimniejszy dzień roku. Najważniejszym składnikiem procesu planowania jest przewidywanie oparte o model wiążący wysyłkę gazu ziemnego z czynnikami takimi jak temperatura, ktęra ma oczywiście związek z ilością zużywanego gazu. W zimne dni potrzeba więcej gazu. Zamiast średniej dziennej temperatury zwykło się używać stopnia dni grzewczych (degree heating days) DHD = 65 średnia dzienna temperatura. Warto zauważyć, że temperatura wyrażana jest w stopniach Fahrenheita. Duża wartość DHD wskazuje na zimny dzień. Oprócz temperatury na wysyłkę gazu ziemnego ma wpływ prędkość wiatru (znowu bierzemy średnią dzienną prędkość wiatru) oraz zmienna binarna weekend, ponieważ wiele przedsiębiorstw jest zamkniętych w weekendy, co implikuje mniejsze zapotrzenowanie gazu na te dni. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 118 / 128

Dane dotyczące przytoczonych zmiennych, zebrane pewnej zimy w jednym z większych miast na północy USA częściowo przedstawia poniższa tabela: (pełny zbiór danych można znaleźć na stronie http://users.stat.umn.edu/ kb/classes/5401/files/data/jwdata5.txt) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 119 / 128

Początkowo uzależniamy model regresji gazu ziemnego od stopnia dni grzewczych(dhd), opóźnionego stopnia dni grzewczych(dhdlag), prędkości wiatru i od sztucznego parametru weekend. Inne zmienne, które mogą mieć jakiś wpływ na zużycie gazu ziemnego, jak np. procent zachmurzenia, są włączone do błędu. proc reg data=gaz alpha=0.05; model wyslane= DHD DHDlag predkosc_wiatru weekend/ r dwprob; output out=dane_wynikowe p=pred r=resid; run; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 120 / 128

Dla k = 4 i N = 63 z tablic otrzymujemy wartości d L = 1, 46 oraz d U = 1, 73 Wartość statystyki DW = 0.951 < d L, zatem mamy autokorelacje dodatnią. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 121 / 128

Pierwszym krokiem w kierunku korekcji modelu jest przeniesienie przewidywanych niezależnych błędów w modelu regresji dla wysłane na moężliwie zależną serię N j. Oznacza to, że tworzymy model regresji dla N j, gdzie N j jest zależna od swojej poprzedniej wartości N j 1, wartości sprzed tygodnia N j 7 oraz niezależnego błędu ε j : Gdzie ε j jest niezależną zmienną o rozkładzie normalnym z E(ε) = 0 oraz Var(ε) = σ 2. Postać równania N j jest znana jako model autoregresyjny. Aby rozwiązać ten problem korzystamy z procedury proc arima w SAS-ie. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 122 / 128

proc arima data=gaz; identify var=wyslane crosscor=( DHD DHDlag predkosc_wiatru weekend); estimate p=(1 7) method = ml input= ( DHD DHDlag predkosc_wiatru weekend) plot; estimate p=(1 7) noconstant method = ml input=( DHD DHDlag predkosc_wiatru weekend) plot; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 123 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 124 / 128

Z powyższego rezultatu otrzymujemy postać równania N j N j = 0, 47N j 1 + 0, 24N j 7 + ε j oraz postać regresji dla naszego modelu: Wyslane = 2, 13 + 5, 81DHD + 1, 426DHDlag+ +1, 21predkosc wiatru 10, 11weekend () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 125 / 128

() Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 126 / 128

Widzimy, że rzeczywiście wariancja składnika losowego jest stała i estymowana przez σ 2 = 228, 894. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 127 / 128

Sprawdzamy autokorelację reszt w grupach dla opóźnień 1 6, 1 12, 1 18 i 1 24. Dla testu chi-kwadrat mamy następujące hipotezy: H 0 : grupy kolejnych autokorelacji są jednocześnie równe zero, H A : nie wszystkie grupy autokorelacji są równe zero. Na podstawie wyników nie mamy podstaw do odrzucenia H 0, zatem autokorelacje reszt sę pomijane. Dzięki temu nasze testy t oraz odpowiednie dla nich wartości p-value sę ważne. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 128 / 128