Wielowymiarowe modele regresji liniowej

Podobne dokumenty
Elementarna statystyka Wnioskowanie o regresji (Inference 2 czerwca for regression) / 13

Ekonometria. wiczenia 2 Werykacja modelu liniowego. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Biostatystyka, # 5 /Weterynaria I/

Ekonometria - wykªad 8

In»ynierskie zastosowania statystyki wiczenia

Modele wielorównaniowe. Estymacja parametrów

Ekonometria. wiczenia 1 Regresja liniowa i MNK. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 6

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

Podstawy statystycznego modelowania danych - Wykªad 7

Ekonometria. wiczenia 8 Modele zmiennej jako±ciowej. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Wielowymiarowy Model Regresji Liniowej

Statystyka matematyczna - ZSTA LMO

Ekonometria. wiczenia 4 Prognozowanie. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Metody probablistyczne i statystyka stosowana

Wykªad 1+2: Klasyczny model regresji liniowej. Podstawy R

Modele wielorównaniowe. Problem identykacji

Egzamin z ekonometrii - wersja ogólna

Elementarna statystyka Dwie próby: porównanie dwóch proporcji (Two-sample problem: comparing two proportions)

Stacjonarne szeregi czasowe

Ekonometria. wiczenia 3 Autokorelacja, heteroskedastyczno±, wspóªliniowo± Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Wykªad 6: Model logitowy

Ekonometria - wykªad 1

MODELE LINIOWE i MIESZANE

Rozdziaª 5. Modele wektorowej autoregresji

Wst p do ekonometrii II

Metody statystyczne w biologii - Wykªad 8. Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Liniowe zadania najmniejszych kwadratów

Matematyka z elementami statystyki

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 1

3. (8 punktów) EGZAMIN MAGISTERSKI, Biomatematyka

2 Liczby rzeczywiste - cz. 2

Funkcje, wielomiany. Informacje pomocnicze

Pakiety statystyczne - Wykªad 8

Elementarna statystyka Test Istotno±ci (Tests of Signicance)

Biostatystyka, # 4 /Weterynaria I/

CAŠKOWANIE METODAMI MONTE CARLO Janusz Adamowski

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

Rozwini cia asymptotyczne dla mocy testów przybli»onych

Wst p do sieci neuronowych 2010/2011 wykªad 7 Algorytm propagacji wstecznej cd.

Statystyczna analiza danych w programie STATISTICA. Dariusz Gozdowski. Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW

Interpolacja funkcjami sklejanymi

1 Bª dy i arytmetyka zmiennopozycyjna

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Ekonometria Bayesowska

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH

Zadanie 1. (8 punktów) Dana jest nast puj ca macierz: M =

Funkcje wielu zmiennych

Ciaªa i wielomiany. 1 Denicja ciaªa. Ciaªa i wielomiany 1

Elementarna statystyka Test Istotno±ci

Metoda najmniejszych kwadratów

Vincent Van GOGH: M»czyzna pij cy li»ank kawy. Radosªaw Klimek. J zyk programowania Java

5. (8 punktów) EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

Testowanie hipotez statystycznych

Ekstremalnie fajne równania

Testowanie hipotez statystycznych

1 0 Je»eli wybierzemy baz A = ((1, 1), (2, 1)) to M(f) A A =. 0 2 Daje to znacznie lepszy opis endomorzmu f.

1 Metody iteracyjne rozwi zywania równania f(x)=0

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Wykªad 7. Ekstrema lokalne funkcji dwóch zmiennych.

Relacj binarn okre±lon w zbiorze X nazywamy podzbiór ϱ X X.

Stosowana Analiza Regresji

Rozdział 8. Regresja. Definiowanie modelu

Funkcje wielu zmiennych

Statystyka opisowa. Wykªad II. Elementy statystyki opisowej. Edward Kozªowski.

Egzamin z ekonometrii - wersja IiE, MSEMAT

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Porównywanie wielowymiarowych wektorów warto±ci ±rednic

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Ekonometria. wiczenia 5 i 6 Modelowanie szeregów czasowych. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH

Ukªady równa«liniowych - rozkªady typu LU i LL'

Rozdziaª 4. Jednowymiarowe modele szeregów czasowych

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Materiaªy do Repetytorium z matematyki

Zagadnienia na wej±ciówki z matematyki Technologia Chemiczna

wiczenie nr 3 z przedmiotu Metody prognozowania kwiecie«2015 r. Metodyka bada«do±wiadczalnych dr hab. in». Sebastian Skoczypiec Cel wiczenia Zaªo»enia

Ekonometria Przestrzenna

przewidywania zapotrzebowania na moc elektryczn

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

Pochodna funkcji jednej zmiennej

Andrzej D browski. Analiza danych jako±ciowych

Podstawy statystycznego modelowania danych Analiza prze»ycia

Ekonometria. wiczenia 7 Modele nieliniowe. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Statystyka matematyczna - ZSTA LMO

Przeksztaªcenia liniowe

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Równania ró»niczkowe I rz du (RRIR) Twierdzenie Picarda. Anna D browska. WFTiMS. 23 marca 2010

PRZYPOMNIENIE Ka»d przestrze«wektorow V, o wymiarze dim V = n < nad ciaªem F mo»na jednoznacznie odwzorowa na przestrze«f n n-ek uporz dkowanych:

Macierze. 1 Podstawowe denicje. 2 Rodzaje macierzy. Denicja

Własności statystyczne regresji liniowej. Wykład 4

PDF created with FinePrint pdffactory Pro trial version

Funkcja kwadratowa, wielomiany oraz funkcje wymierne

2. L(a u) = al( u) dla dowolnych u U i a R. Uwaga 1. Warunki 1., 2. mo»na zast pi jednym warunkiem: L(a u + b v) = al( u) + bl( v)

JAO - J zyki, Automaty i Obliczenia - Wykªad 1. JAO - J zyki, Automaty i Obliczenia - Wykªad 1

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

Macierze i Wyznaczniki

Transkrypt:

Wielowymiarowe modele regresji liniowej Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Michaª Badocha Statystyka II 27 marca 2014 Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 1 / 117

Spis tre±ci 1 Klasyczny model regresji liniowej Estymatory wykorzystywane w regresji Test ilorazu wiarygodno±ci 2 Wielokrotna regresja wielowymiarowa Estymator najmniejszych kwadratów Test ilorazu wiarygodno±ci Inne statystyki testowe Predykcja w modelu regresji wielokrotnej Inne podej±cia do regresji liniowej Przewidywanie kilku zmiennych Porównanie obu modeli regresji 3 Modele regresji z bª dami zale»nymi od czasu Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 2 / 117

Klasyczny model regresji liniowej Posta modelu regresji liniowej Posta modelu Model regresji liniowej Je±li oznaczymy: z 1, z 2,..., z r - zmienne obja±niaj ce oraz Y - zmienna obja±niana (zale»na), to model regresji liniowej ma posta : Y = β 0 + β 1 z 1 + + β r z r + ɛ Zwrot liniowa odnosi si do faktu,»e ±rednia Y jest funkcj liniow zmiennych z 1, z 2,..., z r o nieznanych parametrach β 1, β 2,..., β r. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 3 / 117

Klasyczny model regresji liniowej Posta modelu Je±li mamy n niezale»nych obserwacji na Y model przyjmuje posta : gdzie bª d ma nast puj ce wªasno±ci: 1. E(ɛ j ) = 0; 2. Var(ɛ j ) = σ 2 (staªa); 3. Cov(ɛ j, ɛ k ) = 0 dla j k Y 1 = β 0 + β 1 z 11 + + β r z 1r + ɛ 1 Y 2 = β 0 + β 1 z 21 + + β r z 2r + ɛ 2. Y n = β 0 + β 1 z n1 + + β r z nr + ɛ n Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 4 / 117

Klasyczny model regresji liniowej Posta modelu Posta macierzowa Y 1 1 z 11 z 12 z 1r β 0 ɛ 1 Y 2. = 1 z 21 z 22 z 2r β 1........ + ɛ 2. Y n 1 z n1 z n2 z nr β r ɛ n lub Y = Zβ + ɛ gdzie: 1. E(ɛ) = 0; 2. Cov(ɛ) = E(ɛɛ ) = σ 2 I Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 5 / 117

Klasyczny model regresji liniowej Estymatory wykorzystywane w regresji Metoda najmniejszych kwadratów Niech b - przykªadowe warto±ci dla β. Metoda najmniejszych kwadratów wybiera takie b, które minimalizuje sum kwadratów odchyle«: S(b) = n (y j b 0 b 1 z j1... b r z jr ) 2 = j=1 = (y Zb) (y Zb) Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 6 / 117

Klasyczny model regresji liniowej Estymatory wykorzystywane w regresji Wspóªczynniki b wybrane t metod nazywamy estymatorami najmniejszych kwadratów parametrów regresji β. Oznaczamy je ˆβ aby podkre±li ich rol jako estymatorów β. Odchylenia ˆɛ j = y j ˆβ 0 ˆβ 1 z j1... ˆβ r z jr, dla j = 1, 2,..., n nazywane s resztami. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 7 / 117

Klasyczny model regresji liniowej Estymatory wykorzystywane w regresji Rezultat 7.1 Niech Z b dzie macierz o rz dzie r + 1 n. Estymator najmniejszych kwadratów β dany jest wzorem: ˆβ = (Z Z) 1 Z y Niech ŷ = Z ˆβ = Hy oznacza dopasowane warto±ci dla y, gdzie H = Z(Z Z) 1 Z. Wtedy reszty ˆɛ = y ŷ = [I Z(Z Z) 1 Z ]y = (I H)y speªniaj Z ˆɛ = 0 oraz ŷ ˆɛ = 0. Ponadto: suma kwadratów reszt = n (y j ˆβ 0 ˆβ 1 z zj1... ˆβ r z jr ) 2 = ˆɛ ˆɛ j=1 = y [I Z(Z Z) 1 Z ]y = y y y Z ˆβ Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 8 / 117

Klasyczny model regresji liniowej Estymatory wykorzystywane w regresji Wspóªczynnik determinacji Jako± dopasowania modelu mo»e by mierzona dzi ki wspóªczynnikowi determinacji: n R 2 j=1 = 1 ˆɛ j 2 n n (y j=1 j ȳ) = (ŷ j=1 j ȳ) 2 2 n (y j=1 j ȳ) 2 Je±li R 2 = 1 równanie regresji przechodzi przez wszystkie punkty (czyli ˆɛ j = 0 dla kazdego j). Je±li R 2 = 0 zmienne obja±niaj ce nie maj»adnego wpªywu na zmienn obja±nian. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 9 / 117

Klasyczny model regresji liniowej Estymatory wykorzystywane w regresji Rezultat 7.4 Niech Y = Zβ + ɛ, gdzie Z jest rz du r+1 i ɛ ma rozkªad N n (0, σ 2 I ). Wówczas estymatorem najwi kszej wiarygodno±ci dla β jest estymator najmniejszych kwadratów ˆβ. Dodatkowo nˆσ 2 = ˆɛ ˆɛ ma rozkªad σ 2 χ 2 n r 1, gdzie ˆσ2 jest estymatorem najwi kszej wiarygodno±ci σ 2. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 10 / 117

Klasyczny model regresji liniowej Estymatory wykorzystywane w regresji Rezultat 7.5 Niech Y = Zβ + ɛ, gdzie Z jest rz du r+1 i ɛ ma rozkªad N n(0, σ 2 I ). Wtedy 100(1 α)% obszar ufno±ci dla β dany jest wzorem: (β ˆβ) Z Z(β ˆβ) (r + 1)s 2 F r+1,n r 1(α) gdzie F r+1,n r 1(α) jest górnym 100α percentylem rozkªadu F o (r + 1) i (n r 1) stopniach swobody. Ponadto 100(1 α)% jednoczesne przedziaªy ufno±ci dla β i s dane wzorem: ˆβ i ± Var(β ˆ i ) (r + 1)F r+1,n r 1(α), i = 0, 1,..., r gdzie ˆ Var(β i ) jest elementem przek tnej s 2 (Z Z) 1 odpowiadaj cym ˆβ i. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 11 / 117

Klasyczny model regresji liniowej Estymatory wykorzystywane w regresji W praktyce cz sto ignoruje si jednoczesne przedziaªy ufno±ci z poprzedniego slajdu. Warto± (r + 1)F r+1,n r 1 (α) zast puje si warto±ci t n r 1 (α/2) i u»ywa si przedziaªów: ˆβ i ± Var(β ˆ i )t n r 1 (α/2) przy poszukiwaniu istotnych zmiennych obja±niaj cych. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 12 / 117

Przykªad Klasyczny model regresji liniowej Estymatory wykorzystywane w regresji Stosuj c metod najmniejszych kwadratów, chcemy dopasowa model Y j = β 0 + β 1 z j1 + β 2 z j2 + ɛ j, gdzie: z 1 - powierzchnia mieszkania, z 2 - wyceniana warto± domu, Y - cena sprzeda»y. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 13 / 117

Przykªad Klasyczny model regresji liniowej Estymatory wykorzystywane w regresji 5.1523 0.2544 0.1463 (Z Z) 1 = 0.2544 0.0512 0.172 0.1463 0.0172 0.0067 30.967 ˆβ = (Z Z) 1 Z y = 2.634 0.045 ŷ = 30.967 + 2.634z 1 + 0.045z 2 R 2 = 0.834 sygnalizuje,»e dane wykazuj silny zwi zek. 95% przedziaª ufno±ci dla β 2 jest nast puj cy: ( 0.556; 0.647). Poniewa» 0 nale»y do przedziaªu ufno±ci, zmienn z 2 powinno si usun z modelu. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 14 / 117

Klasyczny model regresji liniowej Przykªad - kod programu Estymatory wykorzystywane w regresji proc import out=dane datafile="c:\users\student\desktop\example 7.4.xlsx" dbms=xlsx Replace; sheet="arkusz1"; getnames=yes; run; title 'Regression Analysis'; proc reg data=dane; model y = z1 z2; run; Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 15 / 117

Przykªad Klasyczny model regresji liniowej Estymatory wykorzystywane w regresji Otrzymane wyniki: Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 16 / 117

Przykªad Klasyczny model regresji liniowej Estymatory wykorzystywane w regresji Warto± p dla zmiennej z 2 wynosi 0.8760. Reszta zmiennych ma warto±ci poni»ej α = 0.05 a wi c mo»emy przyj,»e s istotne. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 17 / 117

Klasyczny model regresji liniowej Test ilorazu wiarygodno±ci Test ilorazu wiarygodno±ci Hipoteza zerowa Testujemy hipotez zerow w postaci: H 0 : β q+1 = β q+2 =... = β r = 0 lub równowa»nie H 0 : β (2) = 0 gdzie β (2) = [β q+1, β q+2,..., β r ]. Czyli sprawdzamy, czy z q+1, z q+2,..., z r nie wpªywaj na Y Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 18 / 117

Klasyczny model regresji liniowej Test ilorazu wiarygodno±ci Niech: Z = [Z (1) [nx(q+1)] β =. Z (2) β (1) [(q+1)x1] β (2) [(r q)x1] [nx(r q)]], Ogólny model liniowy mo»emy zatem wyrazi jako: β (1) Y = Zβ + ɛ = [Z (1). Z (2) ] + ɛ = Z (1) β (1) + Z (2) β (2) + ɛ β (2) W takim wypadku hipoteza zerowa przyjmuje posta : H 0 : β (2) = 0. Je±li hipoteza zerowa b dzie prawdziwa, to model przyjmie posta : Y = Z 1 β (1) + ɛ Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 19 / 117

Klasyczny model regresji liniowej Test ilorazu wiarygodno±ci Testy wska¹nika wiarygodno±ci bazuj na estymatorze: Dodatkowa suma kwadratów = SS res (Z 1 ) SS res (Z) = gdzie β (1) = (Z j Z j) 1 y. = (y Z 1 β(1) ) (y Z 1 β(1) ) (y Z β) (y Z β) Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 20 / 117

Klasyczny model regresji liniowej Test ilorazu wiarygodno±ci Rezultat 7.6 Niech Z ma rz d (r + 1) i ɛ ma rozkªad N n(0, σ 2 I ). Test ilorazu wiarogodno±ci H 0 : β (2) = 0 jest równowa»ny testowi opartemu na sumie kwadratów i: s 2 = (y Z β) (y Z β)/(n r 1) W szczególno±ci, test ilorazu wiarogodno±ci odrzuca H 0 je±li: (SS res(z 1) SS res(z))/(r q) s 2 > F r q,n r 1(α) gdzie F r q,n r 1(α) jest górnym percentylem dla rozkªadu F z (r q) i (n r 1) stopniami swobody. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 21 / 117

Klasyczny model regresji liniowej Przedziaªy ufno±ci i predykcji Rezultat 7.7 Dla modelu regresji liniowej, z 0 β jest nieobci»onym liniowym estymatorem warto±ci oczekiwanej gdy: E(Y 0 (z 0 )) = β 0 + β 1 z 01 +... + β r z 0r = z 0β Z minimaln wariancj : Var(z β) 0 = z 0 (z z) 1 z 0 σ 2. Je±li bª dy ɛ maj rozkªad normalny, to 100(1 α)% przedziaªem ufno±ci jest przedziaª: z ˆβ 0 ± t n r 1 (α/2) (z 0 (z z) 1 z 0 )s 2 gdzie t n r 1 (α/2) jest górnym percentylem rz du 100(α/2) rozkªadu t o n r 1 stopniach swobody. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 22 / 117

Klasyczny model regresji liniowej Przedziaªy ufno±ci i predykcji Rezultat 7.8 Nowa obserwacja Y 0 w modelu regresji liniowej posiada nieobci»ony predyktor, gdy: z 0 β = β 0 + β 1 z 01 +... + β r z 0r Wariancja bª du predykcji Y 0 z 0 β dana jest wzorem: Var(Y 0 z 0 β) = σ 2 (1 + z 0(z z) 1 z 0 ) Gdy bª dy ɛ maj rozkªad normalny, wówczas 100(1 α)% przedziaªem predykcji dla Y 0 jest przedziaª: z ˆβ 0 ± t n r 1 (α/2) (1 + z 0 (z z) 1 z 0 )s 2 gdzie t n r 1 (α/2) jest górnym percentylem rozkªadu t o (n r 1) stopniach swobody. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 23 / 117

Przykªad 2 Klasyczny model regresji liniowej Przedziaªy ufno±ci i predykcji Firma rozwa»a zakup sprz tu komputerowego, ale zanim dokona zakupu, chce oszacowa wªasne zapotrzebowanie na ten sprz t. Informatycy zebrali dane z siedmiu podobnych rm, tak aby równanie przewiduj ce wymagania systemu miaªy sens. Y j = β 0 + β 1 z 01 + β 2 z 02 + ɛ j z 1 - ilo± przyj tych zamówie«od klientów (w tys.) z 2 - wszystkie pozostaªe operacje wykonywane przez komputer (w tys.) Y - czas procesora Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 24 / 117

Klasyczny model regresji liniowej Przykªad 2 - kontynuacja Przedziaªy ufno±ci i predykcji Rysunek: Tabela 2 (Dane) Naszym celem, jest stworzenie 95% przedziaªu ufno±ci prognozy CPU, gdzie E(Y 0 (z 0 )) = β 0 + β 1 z 01 + β 2 z 02 przy zadanym wektorze z 0 = [1, 130, 7.5]. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 25 / 117

Klasyczny model regresji liniowej Przykªad - kod programu Przedziaªy ufno±ci i predykcji data dane; input z1 z2 y1; cards; 123.5 2.108 141.5 146.1 9.213 168.9 133.9 1.905 154.8 128.5 0.815 146.5 151.5 1.061 172.8 136.2 8.603 160.1 92.0 1.125 108.5 ; run; proc reg data=dane outest=wynik; model y1 = z1 z2; run; Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 26 / 117

Klasyczny model regresji liniowej Przykªad - kod programu Przedziaªy ufno±ci i predykcji proc iml; n=7; r=2; alpha=0.05; z0={1,130,7.5}; use wynik; read all var {Intercept z1 z2} into b; read all var {_RMSE_} into s; close wynik; beta=t(b); print beta; print s; jed = j(n,1,1); /*tworzymy wektor jedynek*/ use dane; read all var{z1 z2} into zety; close dane; Z = jed zety; /*ª czymy macierze*/ /*print Z;*/ Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 27 / 117

Klasyczny model regresji liniowej Przykªad - kod programu Przedziaªy ufno±ci i predykcji A=inv(t(Z)*Z); print A; z0beta= t(z0)*beta; print z0beta; t=tinv(1-alpha/2,n-r-1); l2=z0beta-t*s*sqrt(1+t(z0)*a*z0); p2=z0beta+t*s*sqrt(1+t(z0)*a*z0); print 'przedziaª ufno±ci prognozy' l2 p2 ; quit; Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 28 / 117

Przykªad Klasyczny model regresji liniowej Przedziaªy ufno±ci i predykcji Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 29 / 117

Przykªad Klasyczny model regresji liniowej Przedziaªy ufno±ci i predykcji Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 30 / 117

Wielokrotna regresja wielowymiarowa Model regresji wielokrotnej Posta modelu Model relacji mi dzy zmiennymi Y 1, Y 2,..., Y m, a zmiennymi obja±niaj cymi z 1, z 2,..., z r (te same dla ka»dego Y i ) jest postaci: Y 1 = β 01 + β 11 z 1 + + β r 1 z r + ɛ 1 Y 2 = β 02 + β 12 z 1 + + β r 2 z r + ɛ 2. Y m = β 0m + β 1m z 1 + + β rm z r + ɛ m gdzie bª d ɛ = [ɛ 1, ɛ 2,..., ɛ m ] ma: 1. E(ɛ) = 0; 2. Var(ɛ) = Σ; Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 31 / 117

Wielokrotna regresja wielowymiarowa Notacja macierzowa Model regresji wielokrotnej [z j0, z j1,..., z jr ] - warto±ci zmiennych obja±niaj cych dla próby j Y j = [Y j1, Y j2,..., Y jm ] - zmienne zale»ne ɛ j = [ɛ j1, ɛ j2,..., ɛ jm ] - bª dy Y = z 10 z 11 z 12 z 1r z 20 z 21 z 22 z 2r Z =....... z n0 z n1 z n2 z nr Y 11 Y 12 Y 1m Y 21 Y 22 Y 2m [...... = Y (1). Y (2). Y n1 Y n2 Y nm. Y (m) ] Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 32 / 117

Wielokrotna regresja wielowymiarowa Notacja macierzowa Model regresji wielokrotnej β 01 β 02 β 03 β 0m β 11 β 12 β 13 β 1m [ ] β =....... = β (1). β (2).. β (m) β r 1 β r 2 β r 3 β rm ɛ 11 ɛ 12 ɛ 1m ɛ 21 ɛ 22 ɛ 2m [ ] ɛ =...... = ɛ (1). ɛ (2).. ɛ (m) ɛ n1 ɛ n2 ɛ nm Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 33 / 117

Wielokrotna regresja wielowymiarowa Model regresji wielokrotnej Posta macierzowa Model wielowymiarowej regresji liniowej mo»emy zapisa w postaci: Y [n m] = Z [n (r+1)] β [(r+1) m] + ɛ [n m] gdzie: E(ɛ (i) ) = 0, Cov(ɛ (i), ɛ (k) ) = σ 2 ik I, dla i,k=1,2,...,m. m obserwacji w j-tym wierszu ma macierz kowariancji Σ = {σ jk }, ale obserwacje z ró»nych próbek nie s skorelowane. β i σ jk s nieznanymi parametrami macierz Z ma j-ty wiersz postaci: [z j0, z j1,..., z jr ] Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 34 / 117

Wielokrotna regresja wielowymiarowa Estymator najmniejszych kwadratów Krótko mówi c model tylko dla i-tej zmiennej obja±nianej Y (i) speªnia model regresji: Y (i) = Zβ (i) + ɛ (i) i = 1, 2,..m z Cov(ɛ (i) ) = σ ii I. Jednak»e, bª dy dla ró»nych zmiennych obja±nianych w tej samej próbie mog by skorelowane. Bior c pod uwag wyniki Y i warto±ci zmiennych prognozuj cych Z, mo»na ustali estymator najmniejszych kwadratów β i dla obserwacji Y (i). Dostajemy wtedy: β (i) = (Z Z) 1 Z Y (i) Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 35 / 117

Wielokrotna regresja wielowymiarowa Estymator najmniejszych kwadratów Reasumuj c estymator najmniejszych kwadratów dla danego modelu ma posta : β = [ β (1). β (2).. β (m) ] = (Z Z) 1 Z [Y (1). Y (2).. Y (m) ] lub równowa»nie β = (Z Z) 1 Z Y Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 36 / 117

Wielokrotna regresja wielowymiarowa Estymator najmniejszych kwadratów Dla ka»dego wyboru B = [b (1). b (2).. b (m) ] macierz bª dów ma posta Y ZB. Natomiast macierz bª du SSCP: (Y ZB) (Y ZB) = (Y (1) Zb (1) ) (Y (1) Zb (1) ) (Y (m) Zb (m) ) (Y (m) Zb (m) ).. (Y (1) ZB (1) ) (Y (1) Zb (1) ) (Y (m) Zb (m) ) (Y (m) Zb (m) ) Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 37 / 117

Wielokrotna regresja wielowymiarowa Estymator najmniejszych kwadratów Wybór b (i) = β (i) minimalizuje i-t sum kwadratów przek tnej macierzy: (Y (i) Zb (i) ) (Y (i) Zb (i) ) wi c tr[(y (1) ZB (1) ) (Y (1) ZB (1) )] jest minimalizowany przez wybór B = β. Tak»e uogólniona wariancja (Y (1) ZB (1) ) (Y (1) ZB (1) ) jest minimalizowana przez estymator najmniejszych kwadratów β U»ywaj c estymatorów najmniejszej sumy kwadratów β mo»emy stworzy macierze: Warto±ci przewidywane: Ŷ = Z β = Z(Z Z) 1 Z Y Bª dy: ɛ = Y Ŷ = [I Z(Z Z) 1 Z ]Y Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 38 / 117

Wielokrotna regresja wielowymiarowa Estymator najmniejszych kwadratów Z ortogonalno±ci reszt, warto±ci przewidywanej i kolumny Z wynika,»e bª dy ɛ (i) s prostopadªe do kolumn Z. Co wi cej czyli Ŷ ɛ = β Z [I Z(Z Z) 1 Z ]Y = 0 Y Y = Ŷ Ŷ + ɛ ɛ (caªkowity SSCP) = (przewidywany SSCP) + (bª d SSCP) Bª d SSCP mo»emy równie» zapisa jako: ɛ ɛ = Y Y Ŷ Ŷ = Y Y β Z Z β Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 39 / 117

Wielokrotna regresja wielowymiarowa Estymator najmniejszych kwadratów Rezultat 7.9 Estymator najmniejszych kwadratów β = [ β (1). β (2).. β (m) ] okre±lony dla wielowymiarowego modelu regresji wielokrotnej Y = Z β + ɛ, gdzie rz d(z) = r + 1 < n speªnia: E( β (i) ) = β (i) lub E( β) = β Cov( β (i), β (k) ) = σ ik (Z Z) 1, i, k = 1, 2,..., m Reszty ɛ = [ ɛ (1). ɛ (2).. ɛ (m) ] = Y Z β speªniaj E( ɛ (i) ) = 0 i E( ɛ (i), ɛ (k) ) = (n r 1)σ ik, wi c: Ponadto ɛ i β s nieskorelowane. ( 1 ) E( ɛ) = 0 oraz E n r 1 ɛ ɛ = Σ Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 40 / 117

Wielokrotna regresja wielowymiarowa Estymator najmniejszych kwadratów Rezultat 7.10 Niech wielowymiarowy model regresji wielorakiej Y = Z β + ɛ gdzie rz d(z) = r + 1, n (r + 1) + m i niech wektor bª dów ɛ ma rozklad normalny. Wówczas β = (Z Z) 1 Z Y jest estymatorem najwi kszej wiarygodno±ci β i β ma rozkªad normalny z E( β) = β i Cov( β (i), β (k) ) = σ ik (Z Z) 1. Co wi cej β jest niezale»ny od estymatora najwiekszej wiarygodnosci dla dodatnio zdeniowanej macierzy Σ danej wzorem: Σ = 1 n ɛ ɛ = 1 n (Y Z β) (Y Z β) oraz n Σ ma rozkªad W p,n r 1 (Σ) Najwi ksza wiarygodno± L( µ, Σ) = (2π) mn/2 Σ n/2 e mn/2. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 41 / 117

Wielokrotna regresja wielowymiarowa Test ilorazu wiarygodno±ci Test ilorazu wiarygodno±ci dla modelu wielorównaniowego [ Oznaczaj c Z = ogólny model regresji: [ E(Y ) = zβ = H 0 : β (2) = 0 gdzie β = Z (1) [nx(q+1)] Z (1) [nx(q+1)] β (1) [(q+1)xm] β (2) [(r q)xm] ]. Z (2) mo»emy zapisa wzór na [nx(r q)]. Z (2) [nx(r q)] ] β (1) [(q+1)xm] = z 1 β 1 + z 2 β 2 β (2) [(r q)xm] Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 42 / 117

Wielokrotna regresja wielowymiarowa Test ilorazu wiarygodno±ci Przy prawdziwo±ci H 0 : β (2) = 0 model przyjmuje posta : Y = z 1 β (1) + ɛ Test estymatora najwi kszej wiarygodno±ci opiera si na macierzy sum kwadratów i iloczynów mieszanych: gdzie (Y z 1 β(1) ) (Y z 1 β(1) ) (Y z β) (Y z β) = n( Σ 1 Σ) β 1 = (z 1z 1 ) 1 z 1Y oraz Σ1 = n 1 (Y z 1 β(1) ) (Y z 1 β(1) ) Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 43 / 117

Wielokrotna regresja wielowymiarowa Test ilorazu wiarygodno±ci Rezultat 7.11 We¹my wielorównaniowy model regresji. Zaªó»my,»e macierz Z jest rz du r + 1 oraz (r + 1) + m < n. Niech bª dy regresji ɛ maj rozkªad normalny. Wówczas przy prawdziwo±ci H 0 : β (2) = 0 zmienna n Σ ma rozkªad W p,n r 1 (Σ) i jest ona niezale»na od n( Σ 1 Σ), która z kolei ma rozkªad W p,r q (Σ). Test estymatora najwi kszej wiarygodno±ci dla H 0 jest równowa»ny z odrzuceniem H 0 dla du»ych warto±ci statystyki: 2lnΛ = nln( Σ Σ 1 ) = ln n Σ n Σ + ( Σ 1 Σ) Równowa»n statystyk dla du»ych n jest statystyka: [n r 1 1 Σ (m r q + 1)]ln( 2 Σ 1 ) Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 44 / 117

Wielokrotna regresja wielowymiarowa Inne statystyki testowe Macierze E i H Niech: E b dzie macierz bª du wymiaru p x p czyli macierz SSCP dla bª dów dan wzorem: E = n Σ Stworzon na podstawie dopasowania do peªnego modelu. Macierz H nazywana macierz SSCP dla hipotezy dana b dzie wzorem: H = n( Σ 1 Σ) Wtedy statystyki testowe mog byc zdeniowane za pomoc macierzy E i H lub za pomoc warto±ci wªasnych η 1 η 2... η s macierzy HE 1 gdzie s = min(p, r q). Równowa»nie, η i s pierwiastkami:. ( Σ 1 Σ) η Σ = 0 Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 45 / 117

Wielokrotna regresja wielowymiarowa Inne statystyki testowe Statystyki testowe Lambda Wilksa = lad Pillai'a = lad Hotellinga-Lawley'a = Najwi kszy pierwiastek Roy'a = s i=1 s i=1 1 = E 1 + η i E + H η i 1 + η i = tr[h(h + E) 1 ] s η i = tr[he 1 ] i=1 η 1 1 + η 1 Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 46 / 117

Wielokrotna regresja wielowymiarowa Inne statystyki testowe Do testu Roy'a dobieramy taki wektor wspóªczynników a aby statystyka F oparta na a Y j miaªa jak najwy»sz warto±. Gdy kilka warto±ci wªasnych η i jest du»a, test Roy'a b dzie sªabszy ni» pozostaªe testy. Test Roy'a osi ga najwy»sz moc gdy mamy tylko jedn du» warto± wªasn. Testy lambdy Wilksa, najwi kszego pierwiastka Roy'a i ±ladu Hotelling'a-Lewley'a s prawie identyczne dla du»ych próbek. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 47 / 117

Wielokrotna regresja wielowymiarowa Metoda wyboru najlepszego testu Inne statystyki testowe 1 Je±li jedna z warto±ci wªasnych macierzy HE 1 jest du»o wi ksza od reszty, to wybieramy test Roy'a. 2 W przeciwnym wypadku liczymy p = rz d(he 1 ). 3 Je±li p 2, to najlepszym wyborem b dzie ±lad Pillai'a. 4 Je±li p = 2, to: 1 Je±li obie warto±ci s prawie równe, to najlepszym wyborem b dzie ±lad Pillai'a. 2 Je±li obie warto±ci b d du»o wi ksze od zera, to wybieramy ±lad Hotellinga-Lawley'a. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 48 / 117

Wielokrotna regresja wielowymiarowa Inne statystyki testowe Uwaga! Je±li zale»y nam na prostej interpretacji wyniku testu najlepszym wyborem b dzie Lambda Wilksa: Statystyka przyjmuje warto±ci z przedziaªu [0, 1]. Warto± 1 oznacza brak zwi zku predyktorów ze zmiennymi obja±nianymi, 0 ±wiadczy o wyst powaniu doskonaªego zwi zku pomi dzy predyktorami a zmiennymi obja±nianymi. Warto± : 1-Lambda Wilksa mo»e by interpretowana jako wielowymiarowy odpowiednik R 2. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 49 / 117

Przykªad Wielokrotna regresja wielowymiarowa Inne statystyki testowe Amitryptylina Amitryptylina jest lekiem przeciwdepresyjnym. Podejrzewa si powa»ne efekty uboczne, które wydaj si by zwi zane ze stosowaniem leku. Mi dzy innymi: nieregularne bicie serca, nieprawidªowe ci±nienie krwi i nieregularne fale na elektrokardiogramie. Dane zebrane z 17 pacjentów, którzy zostali przyj ci do szpitala po przedawkowaniu amitryptyliny podano w tabeli. Zmienne obja±niane: Y 1 - TCAD caªkowity poziom w osoczu (TOT) Y 2 - Ilo± amitryptyliny obecnej w osoczu (AMI) Zmienne obja±niaj ce: Z 1 - pªe (1 - kobieta, 0 - m»czyzna) (GEN) Z 2 - ilo± leku przeciwdepresyjnego przyj tego w momencie przedawkowania (AMT) Z 3 - pomiar fali PR (PR) Z 4 - rozkurczowe ci±nienie krwi (DIAP) Z 5 - Pomiar fal QRS (QRS) Dopasowa model regresji wieloczynnikowej. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 50 / 117

Przykªad Wielokrotna regresja wielowymiarowa Inne statystyki testowe Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 51 / 117

Wielokrotna regresja wielowymiarowa Przykªad - kod programu Inne statystyki testowe proc import out=dane datafile="c:\users\student\desktop\example7.25.xlsx" dbms=xlsx Replace; sheet="arkusz1"; getnames=yes; run; proc reg data=dane; model y1 y2=z1-z5; run; Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 52 / 117

Przykªad Wielokrotna regresja wielowymiarowa Inne statystyki testowe Zmienna zale»na y1: Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 53 / 117

Przykªad Wielokrotna regresja wielowymiarowa Inne statystyki testowe Zmienna zale»na y2: Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 54 / 117

Przykªad Wielokrotna regresja wielowymiarowa Inne statystyki testowe proc reg data=dane; model y1 y2=z1-z4; run; Zmienna zale»na y1: Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 55 / 117

Przykªad Wielokrotna regresja wielowymiarowa Inne statystyki testowe Zmienna zale»na y2: Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 56 / 117

Przykªad Wielokrotna regresja wielowymiarowa Inne statystyki testowe proc reg data=dane; model y1 y2=z1 z2 z3; run; Zmienna zale»na y1: Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 57 / 117

Przykªad Wielokrotna regresja wielowymiarowa Inne statystyki testowe Zmienna zale»na y2: Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 58 / 117

Przykªad Wielokrotna regresja wielowymiarowa Inne statystyki testowe proc reg data=dane; model y1 y2=z1 z2; run; Zmienna zale»na y1: Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 59 / 117

Przykªad Wielokrotna regresja wielowymiarowa Inne statystyki testowe Zmienna zale»na y2: Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 60 / 117

Przykªad Wielokrotna regresja wielowymiarowa Inne statystyki testowe Sprawdzamy hipotez H 0 : β 3 = β 4 = β 5 = 0 proc reg data=dane; model y1 y2=z1 z2 z3 z4 z5; mtest z3,z4,z5/print; run; Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 61 / 117

Przykªad Wielokrotna regresja wielowymiarowa Inne statystyki testowe Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 62 / 117

Przykªad Wielokrotna regresja wielowymiarowa Inne statystyki testowe proc iml; H={930348.05198 780517.74667,780517.74667 679948.4446}; E={870008.31049 765676.47601,765676.47601 940708.89938}; A=H*inv(E); rank=round(trace(ginv(a)*a)); print A; print rank; value=eigval(a); print value; quit; Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 63 / 117

Wielokrotna regresja wielowymiarowa Predykcja w modelu regresji wielokrotnej Przewidywanie warto±ci ±redniej Jednym z problemów jest obliczenie warto±ci ±redniej dla zmiennych obja±nianych przy zadanych warto±ciach z 0. Korzystaj c z rezultatu 7.10 mo»emy uwzgl dni zakªócenia warto±ci ±redniej. Bezpo±rednio z twierdzenia otrzymujemy: β z 0 ma rozkªad N m (β z 0, z 0 (Z Z) 1 z 0 Σ) oraz n Σ jest niezale»na i ma rozkªad W n r 1 (Σ) Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 64 / 117

Wielokrotna regresja wielowymiarowa Predykcja w modelu regresji wielokrotnej Wyznaczenie obszaru ufno±ci Statystyka T 2 dla nieznanej warto±ci funkcji regresji β z 0 jest dana wzorem: ( β z T 2 0 β z 0 = z (Z 0 Z) 1 z 0 ) ( n n r 1 Σ) 1 ( β z 0 β z 0 z 0 (Z Z) 1 z 0 a 100(1 α)% elipsoida ufno±ci dla β z 0 jest dana nierówno±ci : ( 1 (β z 0 β z 0 ) n Σ) (β z 0 n r β z 0 ) 1 [( ) ] z 0(Z m(n r 1) Z) 1 z 0 F m,n r m (α) n r m gdzie F m,n r m (α) jest (100α) percentylem z rozkªadu F z m i (n r m) stopniami swobody. ) Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 65 / 117

Wielokrotna regresja wielowymiarowa Predykcja w modelu regresji wielokrotnej Jednoczesny przedziaª ufno±ci dla ±redniej 100(1 α)% jednoczesny przedziaª ufno±ci dla E(Y i ) = z β 0 (i) i = 1, 2,..., m jest postaci: ( ) ( ) z β 0 (i) ± m(n r 1) F m,n r m (α) z 0 n r m (Z n Z) 1 z 0 n r 1 σ ii gdzie β (i) jest i-t kolumn macierzy β, a σ ii jest i-tym elementem na przek tnej macierzy Σ. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 66 / 117

Wielokrotna regresja wielowymiarowa Predykcja w modelu regresji wielokrotnej Prognozowanie nowych odpowiedzi Drugim problemem zwi zanym z predykcj jest prognozowanie nowych warto±ci Y 0 = β z 0 + ɛ 0 w z 0. W takim przypadku: Y 0 β z 0 = (β β) z 0 + ɛ 0 ma rozkªad N m (0, (1 + z 0(Z Z) 1 z 0 )Σ) i jest niezale»ne od n Σ, wi c 100(1 α)% elipsoida predykcji dla Y 0 ma posta : ( 1 (Y 0 β z 0 ) n Σ) (Y 0 n r β z 0 ) 1 [( ) ] (1 + z 0(Z m(n r 1) Z) 1 z 0 ) F m,n r m (α) n r m Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 67 / 117

Wielokrotna regresja wielowymiarowa Jednoczesny przedziaª predykcji Predykcja w modelu regresji wielokrotnej 100(1 α)% jednoczesny przedziaª predykcji dla pojedynczej zmiennej obja±nianej Y 0i, i = 1, 2,..., m: ( ) ( ) z β 0 (i) ± m(n r 1) F m,n r m (α) (1 + z 0 n r m (Z n Z) 1 z 0 ) n r σ ii 1 Porównuj c przedziaª ufno±ci i przedziaª predykcji widzimy,»e faktyczne warto±ci zmiennej obja±nianej znajduj si w wi kszym przedziale ni» odpowiedni przedziaª dla warto±ci oczekiwanej. Ró»nica w szeroko±ci przedziaªów powstaje na skutek obecno±ci losowego bª du ɛ 0i. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 68 / 117

Wielokrotna regresja wielowymiarowa Inne podej±cia do regresji liniowej Przypu± my,»e zmienne Y, Z 1, Z 2,..., Z r s losowe i maj rozkªad ª czny (niekoniecznie normalny) z wektorem ±rednich µ [(r+1)x1] oraz kowariancj Σ [(r+1)x(r+1)], które s postaci: µ Y [1x1] σ YY [1x1]. σ ZY [1xr] µ = oraz Σ =. µ Z[rx1] σ ZY [rx1]. Σ ZZ[rxr] gdzie σ ZY = [σ YZ 1, σ YZ2,..., σ YZr ]. Wówczas rozwa»ania dotycz ce problemów predykcji zmiennej Y nale»y oprze o liniowy predyktor, który jest dany wzorem: b 0 + b 1 Z 1 +... + b r Z r = b 0 + b Z którego bª d predykcji jest wyra»ony jako: Y b 0 b 0 Z 1 b 1 Z 1... b r Z r = Y b 0 b Z Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 69 / 117

Wielokrotna regresja wielowymiarowa Inne podej±cia do regresji liniowej Przez wzgl d na bª d losowy, wspóªczynnik β 0 oraz macierz wspóªczynników β wybiera si w taki sposób aby zminimalizowa ±redni bª d kwadratowy postaci: E(Y b 0 b Z) 2 Powy»szy bª d zale»y od wspólnego rozkªadu zmiennej Y oraz zmiennych z i, który jest okre±lony przez parametry µ i Σ. Dzi ki temu mo»liwe jest okre±lenie optymalnego liniowego predyktora dla powy»szych wielko±ci. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 70 / 117

Wielokrotna regresja wielowymiarowa Inne podej±cia do regresji liniowej Rezultat 7.12 Liniowy predyktor β 0 + β Z ze wspóªczynnikami: β = Σ 1 ZZ σ ZY β 0 = µ Y β µ Z posiada najmniejszy bª d spo±ród liniowych predyktorów zmiennej Y. Tym bª dem jest: E(Y β 0 β Z) 2 = E(Y µ Y σ ZY Σ 1 ZZ (Z µ Z )) 2 = σ YY σ ZY Σ 1 ZZ σ ZY gdzie wyra»enie: β 0 + β Z = µ Y + σ ZY Σ 1 ZZ (Z µ Z ) jest liniowym predyktorem posiadaj cym maksymaln korelacj ze zmienn Y: Corr(Y, β 0 + β Z) = max Corr(Y, b 0 + b Z) b 0,b β Σ ZZ β σ ZY = Σ 1 ZZ σ ZY σ YY σ YY Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 71 / 117

Wielokrotna regresja wielowymiarowa Inne podej±cia do regresji liniowej Korelacja mi dzy Y, a najlepszym liniowym predyktorem jest nazywana wspóªczynnikiem korelacji wielokrotnej dla populacji: σ ZY ρ Y (Z) = Σ 1 ZZ σ ZY σ YY Kwadrat wielokrotnego wspóªczynnika korelacji dla populacji ρ 2 YZ jest nazywany wspóªczynnikiem determinacji populacji. W przeciwie«stwie do innych wspóªczynników korelacji wspóªczynnik korelacji wielokrotnej ma warto± z przedziaªu [0, 1]. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 72 / 117

Wielokrotna regresja wielowymiarowa Inne podej±cia do regresji liniowej Z rezultatu 7.12 wynika,»e ±redni bª d kwadratowy, w przypadku gdy korzystamy z β 0 + β Z w celu przewidywania warto±ci Y, jest postaci: σ YY σ ZY Σ 1 ZZ σ ZY = σ YY σ YY ( σ ZY Σ 1 ZZ σ ZY ) = σ YY (1 ρ 2 Y (Z) σ ) YY Je±li ρ 2 Y (Z) = 0 wówczas prognoza oparta na macierzy Z nie b dzie odzwierciedlaªa rzeczywisto±ci. Je±li ρ 2 Y (Z) = 1, to oznacza,»e mo»na dokona bezbª dnej predykcji zmiennej Y. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 73 / 117

Przykªad Wielokrotna regresja wielowymiarowa Inne podej±cia do regresji liniowej Wybór najlepszego predyktora liniowego, jego ±redni bª d kwadratowy i wspóªczynnik korelacji wielokrotnej. Maj c dany wektor ±rednich i macierz kowariancji Y, Z1 i Z2: [ ] 5 µy µ = = 2 i Σ = σ YY. σ ZY 10. 1 1 = µ Z 1. 7 3 0 σ ZY. σ ZZ 1. 3 2 Chcemy okre±li najlepsz prognoz liniow β 0 + β 1 Z 1 + β 2 Z 2, jej ±redni bª d kwadratowy i wspóªczynnik korelacji wielokrotnej. β = Σ 1 ZZ σ ZY = [ ] 1 [ ] 7 3 1 = 3 2 1 [ 0.4 0.6 0.6 1.4 ] = 3 β 0 = µ Y β µ Z = 5 [ 1 2 ] [ 2 0 ] [ 1 1 ] = [ ] 1 2 Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 74 / 117

Przykªad Wielokrotna regresja wielowymiarowa Inne podej±cia do regresji liniowej Wi c najlepszym liniowym predyktorem jest β 0 + β Z = 3 + Z 1 2Z 2. redni bª d kwadratowy wynosi: σ YY σ σ ZY Σ 1 ZZ ZY = 10 [ 1 1 ] [ ] [ ] 0.4 0.6 1 = 10 3 = 7 0.6 1.4 1 A Wspóªczynnik korelacji wielokrotnej wynosi σ ZY ρ Y (Z) = σ Σ 1 ZZ ZY 3 = σ YY 10 = 0.548 Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 75 / 117

Wielokrotna regresja wielowymiarowa Przykªad - kod programu Inne podej±cia do regresji liniowej proc iml; my=5; mz={2,0}; sigmayy=10; sigmazy={1,-1}; SigmaZZ={7 3,3 2}; beta=inv(sigmazz)*sigmazy; beta0=my-t(beta)*mz; print beta; print beta0; blad=sigmayy-t(sigmazy)*t(sigmazz)*sigmazy; print blad; ro=sqrt(t(sigmazy)*t(sigmazz)*sigmazy/sigmayy); print ro; quit; Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 76 / 117

Przykªad Wielokrotna regresja wielowymiarowa Inne podej±cia do regresji liniowej Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 77 / 117

Wielokrotna regresja wielowymiarowa Inne podej±cia do regresji liniowej Rezultat 7.13 Przypu± my,»e zmienne Y oraz Z maj ª czny rozkªad: N r+1 (µ, Σ). Niech: [ ] Y µ = oraz S = s YY. s ZY Z s ZY... SZZ b d przykªadowym wektorem ±rednich oraz macierz kowariancji dla losowej próbki o rozmiarze n. Estymatorami najwi kszej wiarygodno±ci dla wspóªczynników liniowego predyktora s : β = S 1 ZZ s ZY, β0 = Y s ZY S 1 ZZ Z = Y β Z (1) Estymator najwi kszej wiarygodno±ci dla funkcji regresji liniowej jest postaci: β 0 + β z = Y + s ZY S 1 ZZ (z Z) Natomiast estymatorem ±redniego bª du kwadratowego E[Y β 0 β Z] 2 jest: σ YYZ = n 1 n (s YY s ZY S 1 ZZ s ZY ) Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 78 / 117

Wielokrotna regresja wielowymiarowa Inne podej±cia do regresji liniowej Zwykle w estymatorze ±redniego bª du kwadratowego: σ YYZ = E(Y β 0 β Z) 2 liczba n jest zamieniana na n (r + 1) w celu uzyskania estymatora nieobci»onego: ( n 1 ) n (s YY s ZY n r 1 S 1 ZZ s j=1 ZY ) = (Y j β 0 β Z j ) 2 n r 1 Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 79 / 117

Przykªad Wielokrotna regresja wielowymiarowa Inne podej±cia do regresji liniowej Estymator najwi kszej wiarygodno±ci funkcji regresji jedna zmienna obja±niana. Dla danych z przykªadu 7.6, n=7 obserwacji, Y (czas procesora), Z 1 (zamówienia), Z 2 (pozostaªe operacje). Otrzymujemy wektor ±rednich z próby i macierz kowariancji z próby: [ ] 150.44 y ˆµ = = 130.24 Z S = s YY. s ZY s ZY... SZZ = 467.913 418.763 35.983 3.547. 418.763 35.983. 377.200 28.034. 28.034 13.657 Zakªadaj c,»e Y, Z 1 i Z 2 maj ª czny rozkªad normalny, uzyska estymator funkcji regresji oraz szacowany ±redni bª d kwadratowy. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 80 / 117

Wielokrotna regresja wielowymiarowa Inne podej±cia do regresji liniowej Z rezultatu 7.13 otrzymujemy estymatory najwi kszej wiarygodno±ci: [ ] [ ] [ ] 0.003128 0.006422 418.763 1.079 ˆβ = S 1 ZZ s ZY = = 0.006422 0.086404 35.983 0.420 ˆβ 0 = y ˆβ z = 150.44 [ 1.079 0.420] [ ] 130.24 = 150.44 142.019 = 8.421 3.547 I estymowan /przybli»on funkcj regresji: ˆβ 0 + ˆβ z = 8.42 1.08z 1 + 0.42z 2 Estymator najwi kszej wiarygodno±ci bª du ±redniokwadratowego wynikaj cy z predykcji Y t funkcj regresji wynosi ( ) n 1 (s YY s ZY n S 1 ZZ s ZY ) = 0.894 Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 81 / 117

Wielokrotna regresja wielowymiarowa Przykªad - kod programu Inne podej±cia do regresji liniowej data dane; input z1 z2 y; cards; 123.5 2.108 141.5 146.1 9.213 168.9 133.9 1.905 154.8 128.5 0.815 146.5 151.5 1.061 172.8 136.2 8.603 160.1 92.0 1.125 108.5 ; run; proc corr data=dane cov out=wyn; var y z1 z2; run; Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 82 / 117

Wielokrotna regresja wielowymiarowa Przykªad - kod programu Inne podej±cia do regresji liniowej proc iml; n=7; use wyn; read all var {z1 z2} where(_type_='mean') into m; read all var {y} where(_type_='mean') into my; read all var {z1 z2} where(_type_='cov' & (_NAME_='z1' _NAME_='z2')) into SZZ; read all var {y} where(_type_='cov' & _NAME_='y') into syy; read all var {y} where(_type_='cov' & (_NAME_='z1' _NAME_='z2')) into szy; close wyn; mz=t(m); betahat=inv(szz)*szy; betahat0=my-t(betahat)*mz; print betahat; print betahat0; blad=((n-1)/n)*(syy-t(szy)*inv(szz)*szy); print blad; quit; Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 83 / 117

Przykªad Wielokrotna regresja wielowymiarowa Inne podej±cia do regresji liniowej Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 84 / 117

Przykªad Wielokrotna regresja wielowymiarowa Inne podej±cia do regresji liniowej Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 85 / 117

Wielokrotna regresja wielowymiarowa Inne podej±cia do regresji liniowej Rezultat 4.6 X 1 Niech X = ma rozkªad normalny Np (µ, Σ) z: X 2 µ 1 µ = i Σ = Σ 11. Σ 12 oraz Σ22 > 0 µ 2 Σ 21. Σ 22 Rozkªad X 1 pod warunkiem X 2 = x 2 jest normalny i ma: ±rednia = µ 1 + Σ 12 Σ 1 22 2 µ 2 ) kowariancja = Σ 11 Σ 12 Σ 1 22 21 Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 86 / 117

Wielokrotna regresja wielowymiarowa Przewidywanie kilku zmiennych Przewidywanie warto±ci zmiennych Y 1, Y 2,..., Y m. Zaªó»my,»e: Y [mx1] ma rozkªad normalny Nm+r (µ, Σ) Z [rx1] z: µ Y [mx1] µ = i Σ = µ Z [rx1] ΣYY [m m] Σ ZY [r m]. Σ YZ [m r]. Σ ZZ [r r] Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 87 / 117

Wielokrotna regresja wielowymiarowa Przewidywanie kilku zmiennych Warunkowa warto± oczekiwana [Y 1, Y 2,..., Y m ] przy ustalonych warto±ciach zmiennych obja±niaj cych z 1, z 2,..., z r wynosi E(Y z 1, z 2,..., z r ) = µ Y + Σ YZ Σ 1 ZZ (z µ Z ) (2) Wielowymiarowa regresja wektora Warunkowa warto± oczekiwana, traktowana jako funkcja z 1, z 2,..., z r nazywana jest wielowymiarow regresj wektora Y na Z i skªada si z m jednowymiarowych regresji. Na przykªad, pierwszy skªadnik warunkowego wektora ±rednich to µ Y1 + Σ Y1 Z Σ 1 ZZ (z µ Z ) = E(Y 1 z 1, z 2,..., z r ), który minimalizuje ±redni bª d kwadratowy zmiennej przewidywanej Y 1. Macierz wspóªczynników regresji Macierz β = Σ YZ Σ 1 ZZ wymiaru m r nazywa si macierz wspóªczynników regresji. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 88 / 117

Wielokrotna regresja wielowymiarowa Przewidywanie kilku zmiennych Bª d przewidywanego wektora Y µ Y Σ YZ Σ 1 ZZ (Z µ Z ) ma macierz ESCP (Expected Squares and Cross Products matrix) postaci: Σ YYZ = E[Y µ Y Σ YZ Σ 1 ZZ (Z µ Z )][Y µ Y Σ YZ Σ 1 ZZ (Z µ Z )] = Σ YY Σ YZ Σ 1 ZZ (Σ YZ ) Σ YZ Σ 1 ZZ Σ ZY + Σ YZ Σ 1 ZZ Σ ZZ Σ 1 ZZ (Σ YZ ) = Σ YY Σ YZ Σ 1 ZZ Σ ZY Poniewa» µ i Σ s zwykle nieznane, musz by oszacowane z próby losowej w celu skonstruowania wielowymiarowej prognozy liniowej i okre±lenia oczekiwanych bª dów prognozy. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 89 / 117

Wielokrotna regresja wielowymiarowa Przewidywanie kilku zmiennych Rezultat 7.14 Przypu± my,»e Y i Z maj ª czny rozkªad normalny N m+r (µ, Σ). Wtedy regresja wektora Y na Z jest postaci (2). Macierz bª du ESCP to: E(Y β 0 βz)(y β 0 βz) = Σ YYZ = Σ YY Σ YZ Σ 1 ZZ Σ ZY Bazuj c na losowej próbie wielko±ci n, estymatorem najwi kszej wiarygodno±ci funkcji regresji jest: β 0 + βz = Y + S YZ S 1 ZZ (z Z) dla β 0, β danych wzorem (1). Za± estymatorem najwi kszej wiarygodno±ci Σ YYZ jest: Σ YYZ = ( n 1 n )(S YY S YZ S 1 ZZ S ZY ) Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 90 / 117

Wielokrotna regresja wielowymiarowa Przewidywanie kilku zmiennych Rezultat 7.14 mówi,»e zaªo»enie ª cznego rozkªadu normalnego dla Y 1, Y 2,..., Y m, Z 1, Z 2,.., Z r prowadzi do równa«predykcyjnych: Nale»y pami ta,»e: ŷ 1 = β 01 + β 11 z 1 +... + β r 1 z r ŷ 2 = β 02 + β 12 z 1 +... + β r 2 z r. ŷ m = β 0m + β 1m z 1 +... + β rm z r 1 Te same warto±ci z 1, z 2,..., z r s wykorzystywane do przewidywania ka»dego Y i. 2 βik s estymatorami (i,k)-tej pozycji macierzy wspóªczynników regresji β = Σ YZ Σ 1 ZZ dla i, k 1. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 91 / 117

Przykªad Wielokrotna regresja wielowymiarowa Przewidywanie kilku zmiennych Estymator najwi kszej wiarygodno±ci funkcji regresji dwie zmienne obja±niane. Do danych z przykªadu 7.6, n=7 obserwacji, Y (czas procesora), Z 1 (zamówienia), Z 2 (pozostaªe operacje) wprowadzamy now zmienn Y 2, która oznacza pojemno± I/O dysku. Zmienna ta przyjmuje warto±ci: y 2 = [301.8, 396.1, 328.2, 307.4, 362.4, 369.5, 229.1]. Otrzymujemy: S = S YY. S YZ S ZY... SZZ = ˆµ = [ ] y = Z 150.44 327.79 130.24 3.547 467.913 1148.556 1148.556 3072.491 418.763 1008.976 35.983 140.558. 418.763 35.983. 1008.976 140.558. 377.200 28.034. 28.034 13.657 Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 92 / 117

Przykªad Wielokrotna regresja wielowymiarowa Przewidywanie kilku zmiennych Przy zaªo»eniu normalno±ci znajdujemy szacowana funkcja regresji = [ ] 150.44 + 327.79 ˆβ 0 + ˆβz = y + S YZ S 1 ZZ (z z) = [ 1.079(z1 130.24) + 0.420(z 2 3.547) 2.254(z 1 130.24) + 5.665(z 2 3.547) Zatem minimalny ±redni bª d kwadratowy prognozy Y 1 wynosi: 150.44 + 1.079(z 1 130.24) + 0.420(z 2 3.547) = 8.42 + 1.08z 1 + 0.42z 2 Podobnie najlepsz prognoz Y 2 jest: 14.14 + 2.25z 1 + 5.67z 2 Estymator najwi kszej wiarygodno±ci macierzy ESCP jest postaci: ( ) [ ] n 1 0.894 0.893 (S YY S YZ S 1 ZZ n S ZY ) = 0.893 2.205 ] Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 93 / 117

Wielokrotna regresja wielowymiarowa Wspóªczynnik korelacji cz stkowej Przewidywanie kilku zmiennych Rozwa»my dwa bª dy: Y 1 µ Y1 Σ Y1 Z Σ 1 ZZ (Z µ Z ) Y 2 µ Y2 Σ Y2 Z Σ 1 ZZ (Z µ Z ) uzyskanych z wykorzystaniem najlepszych predyktorów liniowych do przewidywania warto±ci Y 1 i Y 2. Ich korelacja, okre±lona na podstawie macierzy kowariancji bª du Σ YY Z = Σ YY Σ YZ Σ 1 ZZ Σ ZY mierzy zwi zek mi dzy Y 1 i Y 2 po wyeliminowaniu wpªywu zmiennych Z 1, Z 2,..., Z r. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 94 / 117

Wielokrotna regresja wielowymiarowa Przewidywanie kilku zmiennych Wspóªczynnik korelacji cz stkowej Cz ±ciowy wspóªczynnik korelacji mi dzy Y 1 i Y 2 po wyeliminowaniu zwi zku ze zmiennymi Z 1, Z 2,.., Z r dany jest wzorem: ρ Y1 Y 2 Z = σ Y1 Y 2 Z σy1 Y 1 Z σy2 Y 2 Z (3) gdzie σ Yi Y k Z jest (i,k)-tym elementem w macierzy: Σ YY Z = Σ YY Σ YZ Σ 1 ZZ Σ ZY Wspóªczynnik korelacji cz stkowej z próbki Wspóªczynnikiem korelacji cz stkowej z próbki nazywamy: r Y1 Y 2 Z = S Y1 Y 2 Z SY1 Y 1 Z SY2 Y 2 Z (4) gdzie S Y1 Y 2 Z to (i,k)-ty element S YY S YZ S 1 ZZ S ZY. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 95 / 117

Przykªad Wielokrotna regresja wielowymiarowa Przewidywanie kilku zmiennych Obliczanie korelacji cz ±ciowej Na podstawie danych z przykªadu 7.13 mamy: Zatem: S YY r Y1 Y 2 Z = S YZ S 1 ZZ S ZY = s Y1 Y 2 Z sy1 Y 1 Z sy2 Y 2 Z = [ 1.043 1.042 1.042 2.572 ] 1.042 1.043 2.572 = 0.64 Obliczaj c klasyczny wspóªczynnik korelacji otrzymujemy r Y1 Y 2 = 0.96 Porównuj c te dwa wspóªczynniki korelacji widzimy,»e zwi zek mi dzy Y 1 i Y 2 zostaª znacznie zmniejszony po wyeliminowaniu wpªywu zmiennych Z. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 96 / 117

Wielokrotna regresja wielowymiarowa Porównanie obu modeli regresji Korygowanie ±redniej dla modelu regresji Dla dowolnej zmiennej obja±nianej Y model regresji wielorakiej jest postaci: Y j = β 0 + β 1 z 1j + + β r z rj + ɛ j Zmienne obja±niane mog by wy±rodkowane poprzez odj cie ich ±redniej. Na przykªad: β 1 z 1j = β 1 (z 1j z 1 ) + β 1 z 1. Korzystaj c z tego mo»emy zapisa : Y j = (β 0 + β 1 z 1 + + β r z r ) + β 1 (z 1j z 1 ) + + β r (z rj z r ) + ɛ j = β + β 1 (z 1j z 1 ) + + β r (z rj z r ) + ɛ j gdzie β = β 0 + β 1 z 1 + + β r z r Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 97 / 117

Wielokrotna regresja wielowymiarowa Porównanie obu modeli regresji Po przeksztaªceniu, macierz Z jest postaci: 1 z 11 z 1 z 1r z r 1 z 21 z 1 z 2r z r Z c =...... 1 z n1 z 1 z nr z r gdzie ostatnich r kolumn jest prostopadªych do pierwszej poniewa»: n 1(z ji z i ) = 0, i = 1, 2,..., r j=1 Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 98 / 117

Wielokrotna regresja wielowymiarowa Porównanie obu modeli regresji Oznaczmy Z c = [1 Z c2 ] gdzie Z 1 = 0. Otrzymujemy zatem: c2 [ Z 1 cz c = 1 1 ] [ ] Z c2 n 0 Z 1 Z Z = c2 c2 c2 0 Z Z c2 c2 Wi c: β β 1. β r = (Z cz c ) 1 Z cy = 1 n 0 0 (Z Z c2 c2) 1 [ 1 ] y Z y = c2 y (Z Z c2 c2) 1 Z y c2 Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 99 / 117

Wielokrotna regresja wielowymiarowa Porównanie obu modeli regresji Czyli wspóªczynniki [β 1, β 2,..., β r ] s estymowane przez: (Z c2 Z c2) 1 Z c2 y a β przez y. Zauwa»my,»e estymatory wspóªczynników β 1, β 2,..., β r po parametryzacji s równe z tymi obliczonymi w poprzednich metodach. Przy oznaczeniu: β c = [ β 1, β 2,..., β r ] mo»emy zapisa : ŷ = β + β c (z z) = y + y Z c 2 (Z c 2 Z c 2) 1 (z z) gdzie (z z) = [z 1 z 1, z 2 z 2,..., z r z r ] Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 100 / 117

Wielokrotna regresja wielowymiarowa Porównanie obu modeli regresji Ostatecznie: Var( β ) Cov( β, β c ) σ 2 = (Z Cov( β c, β c Z c) 1 σ 2 n 0 = ) Cov( β c ) 0 (Z Z c2 c2) 1 σ 2 Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 101 / 117

Wielokrotna regresja wielowymiarowa Porównanie obu modeli regresji Wielowymiarowy model regresji wielorakiej dla ka»dej zmiennej obja±nianej posiada t sam skorygowan macierz ±redniej. Estymator najmniejszych kwadratów dla i-tej zmiennej jest dany wzorem: y (i) β (i) = (Z Z c2 c2) 1 Z y c2 (i),gdzie i = 1, 2,..., m Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 102 / 117

Wielokrotna regresja wielowymiarowa Powi zanie mi dzy metodami Porównanie obu modeli regresji Kiedy zmienne Y, Z 1, Z 2,..., Z r maj ª czny rozkªad normalny, estymator Y jest dany wzorem: β 0 + β z = y + s ZY S 1 ZZ (z z) = µ Y + σ ZY 1 Σ ZZ (z µ Z ) W takim przypadku proces estymacji prowadzi do wyprowadzenia wy±rodkowanych zmiennych z i. Najlepszym predyktorem dla Y w poprzednim podej±ciu byª: ŷ = β + β c (z z) = y + y Z c 2 (Z c 2 Z c 2) 1 (z z) Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 103 / 117

Wielokrotna regresja wielowymiarowa Porównanie obu modeli regresji Mo»emy zauwa»y,»e β = y = β 0 oraz β c = β poniewa»: s ZY S 1 ZZ = y Z c 2 (Z c 2 Z c 2) 1 Pomimo,»e oba podej±cia daj te same wyniki ich koncepcja jest inna. Dla klasycznych modeli warto±ci zmiennych s ustalane przez badacza. w podej±ciu, które wykorzystuje warto± oczekiwan warto±ci predyktorów s zmiennymi losowymi. Drugie podej±cie ma o wiele bardziej rygorystyczne zaªo»enia ale pozwala znale¹ optymalny predyktor spo±ród wszystkich mo»liwych a nie tylko ze zbioru predyktorów liniowych. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 104 / 117

Modele regresji z bª dami zale»nymi od czasu Model regresji wielokrotnej z bª dami zale»nymi od czasu Dane zbierane w ró»nych przedziaªach czasowych s cz sto powi zane albo skorelowane. W kontek±cie regresji oznacza to, zale»no± mi dzy zmiennymi zale»nymi, co jest równowa»ne zale»no±ci bª dów. Zale»no± obserwacji od czasu mo»e podwa»y pewne wyniki, które powstaªy w oparciu o poprzednie zaªo»enia o niezale»no±ci. Podobne wnioski mog by tak»e myl ce w przypadku, gdy model zostaª dopasowany do danych zebranych w czasie, a regresja wykorzystuje zaªo»enia standardowe. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 105 / 117

Modele regresji z bª dami zale»nymi od czasu Przykªad 7.16 Zale»no± bª du od czasu w modelach regresji Przedsi biorstwa energetyczne musz mie wystarczaj co du»o gazu ziemnego, by sprosta zapotrzebowaniom swoich klientów oraz rm szczególnie w czasie najchªodniejszych dni w roku. Gªównym elementem procesu planowania jest prognoza potrzebnej ilo±ci gazu w oparciu o takie czynniki jak temperatura, która ma wyra¹ny wpªyw na zu»ycie gazu. Wi ksze zapotrzebowanie na gaz jest w zimne dni. Za zmienne obja±niaj ce wzi te zostaªy: DHD = 65 ±rednia temp. (im wi ksza liczba tym chªodniejszy dzie«), u±redniona dobowa pr dko± wiatru. Ze wzgl du na to,»e wiele rm jest zamykanych w weekendy, popyt na gaz jest w te dni mniejszy, w zwi zku z czym i ten czynnik postanowiono wzi pod uwag. (Dane zawieraj 63 obserwacje). Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 106 / 117

Przykªad Modele regresji z bª dami zale»nymi od czasu Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 107 / 117

Modele regresji z bª dami zale»nymi od czasu Po kilku próbach zadecydowano,»e do modelu jako zmienna obja±niaj ca zostanie wª czona tak»e warto± DHD z dnia poprzedniego (DHDlag).Dopasowany model jest nast puj cy: Sendout = 1, 858 + 5, 874 DHD + 1, 405 DHDlag + 1, 315 Windspeed 15, 857 Weekend Wtedy: R 2 = 0, 952. Wszystkie wspóªczynniki za wyj tkiem wyrazu wolnego maj du»e znaczenie i wygl da na to,»e s dobrze dopasowane (wyraz wolny mo»e zosta usuni ty, gdy» po jego usuni ciu wyniki istotnie si nie zmieni ). Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 108 / 117

Przykªad Modele regresji z bª dami zale»nymi od czasu Wyniki z procedury reg: Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 109 / 117

Przykªad Modele regresji z bª dami zale»nymi od czasu Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 110 / 117

Modele regresji z bª dami zale»nymi od czasu Je±li obliczymy korelacj reszt z s siednich okresów czasów, to autokorelacja dla pierwszego opó¹nienia wynosi: autokorelacja lag1 = r 1 ( ɛ) = n j=2 ɛ j ɛ j 1 n j=1 ɛ2 j = 0.52 Tworzymy model regresji dla N j, gdzie N j jest zale»ne od swojej poprzedniej warto±ci N j 1, warto±ci tydzie«wcze±niej N j 7 i niezale»nego bª du ɛ j. Otrzymujemy zatem: N j = φ 1 N j 1 + φ 7 N j 7 + ɛ j gdzie ɛ j s niezale»nymi zmiennymi losowymi o rozkªadzie N(0, σ 2 ). Posta równania N j nazywana jest modelem autoregresyjnym. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 111 / 117

Modele regresji z bª dami zale»nymi od czasu Dopasowany model jest postaci: Sendout = 2.130 + 5.810 DHD + 1.426 DHDLag + 1.207 Windspeed 10.109 Weekend Posta równania dla N j : N j = 0.470N j 1 + 0.240N j 7 + ɛ j Wariancja bª du ɛ szacowana jest przez σ 2 = 228, 89. W dalszej cz ±ci badamy autokorelacj reszt w grupach dla opó¹nie«: 1 6, 1 12, 1 18, 1 24. Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 112 / 117

Modele regresji z bª dami zale»nymi od czasu Przykªad - kod programu proc import out=dane datafile="c:\users\student\desktop\example7.16.xlsx" dbms=xlsx Replace; getnames=yes; run; proc reg data=dane; model Y= Z1 Z2 Z3 Z4 / dwprob; run; proc arima data=dane; identify var=y crosscor=(z1 Z2 Z3 Z4); estimate p=(1 7) method = ml input=(z1 Z2 Z3 Z4) plot; run; Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 113 / 117

Przykªad Modele regresji z bª dami zale»nymi od czasu Wyniki z procedury arima: Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 114 / 117

Przykªad Modele regresji z bª dami zale»nymi od czasu Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 115 / 117

Przykªad Modele regresji z bª dami zale»nymi od czasu Karolina Buchholc, Helena Cie±lak, Beata Arciszewska, Wielowymiarowe Michaª modele Badocha regresji (Statystyka liniowej II) 27 marca 2014 116 / 117