Wielowymiarowy Model Regresji Liniowej

Wielkość: px
Rozpocząć pokaz od strony:

Download "Wielowymiarowy Model Regresji Liniowej"

Transkrypt

1 Wielowymiarowy Model Regresji Liniowej 5 kwietnia 2014 Małgorzata Lebiedź Agnieszka Weinstok Ewelina Wolska Karolina Zyskowska () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

2 Wstęp Wstęp Analiza regresji jest statystyczną metodologią przewidywania wartości jednej lub więcej zmiennych odpowiedzi (zależnych) za pomocą zbioru predyktorów (czyli zmiennych niezależnych). Może być także użyta do oszacowania efektów jakie predyktory wywierają na odpowiedzi. Niestety nazwa regresja w żaden sposób nie odzwierciedla ani ważności, ani szerokości zastosowania tej metodologii. Nasza prezentacja skupi się na założeniach regresji i ich konsekwencjach, alternatywnych sformułowaniach modelu regresji oraz ogólnym zastosowaniu technik regresji w różnych sytuacjach. Na początku zajmiemy się modelem liniowej regresji wielokrotnej dla jednej zmiennej zależnej, następnie przejdziemy do przypadku z większą ilością odpowiedzi. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

3 Model wielowymiarowej regresji liniowej Analiza regresji wielokrotnej Niech z 1, z 2,..., z r będą zbiorem r predyktorów, które potencjalnie wpływają na zmienną Y. Model regresji liniowej n-elementowej próbki: Y n = β 0 + β 1 z n1 + + β r z nr + ε n gdzie ε jest błędem losowym, β i, i = 0, 1,..., r są nieznanymi (i ustalonymi) współczynnikami regresji, β 0 jest wyrazem wolnym. Zakładamy, że E(ε j ) = 0, Var(ε j ) = σ 2, Cov(ε j, ε k ) = 0 j k. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

4 Model wielowymiarowej regresji liniowej Mając n niezależnych obserwacji, możemy zapisać jeden model dla każdej próbki lub możemy połączyć wszystko w wektory i macierze tak, że model jest następujący: Y (n 1) = Z (n (r+1)) β ((r+1) 1) + ε (n 1) gdzie E(ε) = 0 (n 1) i Cov(ε) = E(εε ) = σ 2 I, β i σ 2 są nieznanymi parametrami. Wtedy E(Y) = Zβ, Cov(Y) = σ 2 I. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

5 Model wielowymiarowej regresji liniowej Estymacja metodą najmniejszych kwadratów Chcemy wybrać wektor β tak, aby minimalizował sumę kwadratów reszt (Y Zβ) (Y Zβ). Estymator metody najmniejszych kwadratów: β = (Z Z) 1 Z Y. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

6 Model wielowymiarowej regresji liniowej Wnioski z estymacji funkcją regresji Kiedy badacz jest usatysfakcjonowany z dopasowanego modelu regresji, może on być użyty do rozwiązania dwóch problemów predykcji. Niech z 0 = [1, z 01,..., z 0r ] będzie wybranym zbiorem wartości predyktorów. Wtedy z 0 i β mogą być użyte, po pierwsze - do oszacowania funkcji regresji β 0 + β 1 z β r z 0r w z 0 i po drugie - do oszacowania wartości odpowiedzi Y w z 0. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

7 Model wielowymiarowej regresji liniowej Estymacja funkcji regresji w z 0 Niech Y 0 oznacza wartość odpowiedzi przy wartości predyktorów: z 0 = [1, z 01,..., z 0r ]. Wartość oczekiwana Y 0 wynosi E(Y 0 z 0 ) = β 0 + β 1 z β r z 0r = z 0 β () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

8 Model wielowymiarowej regresji liniowej Estymatorem najmniejszych kwadratów w tym wypadku jest z 0 β. z 0 β jest liniowym nieobciążonym estymatorem E(Y 0 z 0 ) z minimalną wariancją. Var(z 0 β)=z 0 (Z Z) 1 z 0 σ 2. Jeżeli błędy mają rozkład normalny to 100(1 α)% przedziałem ufności dla E(Y 0 z 0 ) = z 0 β jest z 0 β ± t n r 1 ( α 2 ) (z 0 (Z Z) 1 z 0 )s 2 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

9 Model wielowymiarowej regresji liniowej Prognozowanie nowej obserwacji w z 0 Model możemy zapisać jako: Y 0 = z 0 β + ε 0 (nowa odpowiedź Y 0 )= =(wartość oczekiwana Y 0 pod warunkiem z 0 ) + (nowy błąd) gdzie ε 0 ma rozkład N (0, σ 2 ) i jest niezależny od ε, z czego wynika także, że jest niezależny od β oraz s 2. Błędy ε wpływają na estymatory β i s 2 przez odpowiedzi Y, ale ε 0 na nie nie wpływa. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

10 Rezultat Model wielowymiarowej regresji liniowej Dla obserwacji Y 0 definiujemy nieobciążoną prognozę jako z 0 β = β 0 + β 1 z β r z 0r Wariancja błędu prognozy Y 0 z 0 β wynosi: Var(Y 0 z 0 β) = σ 2 (1 + z 0 (Z Z) 1 z 0 ) Gdy błędy ε maja rozkład normalny, 100(1 α)% przedział prognozy dla Y 0 jest dany przez: ( ) z β α 0 ± t n r 1 s 2 2 (1 + z 0 (Z Z) 1 z 0 ) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

11 Model wielowymiarowej regresji liniowej Przykład 7.6 Szacowanie parametrów modelu. Przedziały ufności dla średniej i prognozy. Firmy rozważające zakup komputera muszą najpierw oszacować swoje przyszłe potrzeby, aby poprawnie określić wymagania sprzętowe. Informatycy zbierają dane z siedmiu stron podobnych firm w taki sposób, aby oszacować parametry równania prognozy wymagań sprzętu komputerowego dla działu zarządzającego zasobami. z 1 - zamówienia klientów (tys.) z 2 - liczba dodanych - usuniętych elementów (tys.) Y - czas CPU (jednostka pamięci centralnej) (h) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

12 Model wielowymiarowej regresji liniowej () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

13 Model wielowymiarowej regresji liniowej proc import out=dane datafile="c:\users\student\desktop\ex..xlsx" dbms=xlsx Replace; getnames=yes; run; proc reg data=dane; model y = z1 z2/ r cli clm; output out=a2 p=pred r=resid; run; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

14 Model wielowymiarowej regresji liniowej () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

15 Model wielowymiarowej regresji liniowej () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

16 Model wielowymiarowej regresji liniowej () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

17 Model wielowymiarowej regresji liniowej () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

18 Model wielowymiarowej regresji liniowej () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

19 Model wielowymiarowej regresji liniowej proc iml; /*n-liczba obserwacji, r-liczba zmiennych objaśniających, s- pierwiastek z błędu średniokwadratowego*/ n = 7; r = 2; s = ; alpha = 0.05; /*df -liczba stopni swobody*/ df = n-r-1; betay = inv(z *Z)*Z *y; cname = {"Intercept" "Z1" "Z2"}; rname = {"Y^"}; results = betay ; print results[r=rname c=cname]; tmp = j(n,1,1); use dane; read all var{z1 z2} into Ztym; close dane; Z = tmp Ztym; print Z; use dane; read all var{y} into y; close dane; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

20 Model wielowymiarowej regresji liniowej () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

21 Model wielowymiarowej regresji liniowej ŷ = z z 2 Jeżeli liczba zamówień klientów wzrasta o tysiąc, czas pracy procesora wzrasta o 1,08 godziny. Jeżeli liczba dodanych-usuniętych elementów wzrasta o tysiąc, czas pracy procesora wzrasta o 0,48 godziny. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

22 Model wielowymiarowej regresji liniowej z0 = {1, 130, 7.5}; /*Wartość prognozowana*/ z0pbetay = z0 *betay; print z0pbetay; /*Konstrukcja 95% przedziału ufności Ĺredniej dla wektora z0 = [1, 130, 7.5]*/ /*Kwantyl rozkładu t-sutdenta*/ t = quantile( T,1-alpha/2,df); s1 = sqrt(z0 *inv(z *Z)*z0); przs = t*s*s1; przsd = z0pbetay-przs; przsg = z0pbetay+przs; przsdg = przsd przsg; /*Konstrukcja 95% przedziału ufności prognozy dla wektora z0 = [1, 130, 7.5]*/ s2 = sqrt(1+z0 *inv(z *Z)*z0); przp = t*s*s2; przpd = z0pbetay-przp; przpg = z0pbetay+przp; przpdg = przpd przpg; cname = {"dolny" "górny"}; Przedzial_ufnosci_prognozy = przpdg; print Przedzial_ufnosci_prognozy[c=cname]; quit; cname = {"dolny" "górny"}; Przedzial_ufnosci_sredniej = przsdg; print Przedzial_ufnosci_sredniej[c=cname]; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

23 Model wielowymiarowej regresji liniowej () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

24 Model wielowymiarowej regresji liniowej z 0 β = = % przedział ufności średniej wynosi z β 0 ± t 4 (0.025)s z 0 (Z Z) 1 z 0 = ± 2.04 lub (149.80, ). 95% przedział ufności prognozy wynosi z β 0 ± t 4 (0.025)s 1 + z 0 (Z Z) 1 z 0 = ± 3.91 lub (147.93, ). () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

25 Wielowymiarowa regresja wielokrotna Rozważmy problem zamodelowania związku pomiędzy m odpowiedziami Y 1, Y 2,, Y m oraz pojedynczym zbiorem predyktorów z 1, z 2,, z r. Każda odpowiedź z założenia spełnia swój własny model regresji w taki sposób, że: Y 1 = β 01 + β 11 z β r1 z r + ε 1 Y 2 = β 02 + β 12 z β r2 z r + ε 2. Y m = β 0m + β 1m z β rm z r + ε m () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

26 Wektor błędów ε T = [ε 1, ε 2,..., ε m ] ma E(ε) = 0 i Var(ε) = Σ. Z tego powodu wektory błędów związane z różnymi odpowiedziami mogą być skorelowane. Aby zatwierdzić notację zgodną z klasycznym modelem regresji liniowej niech [z j0, z j1,..., z jr ] oznaczają wartości predyktorów dla j-tej próby, niech Yj T = [Y j1, Y j2,..., Y jm ] będą odpowiedziami, i niech ε T j = [ε j1, ε j2,..., ε jm ] będą błędami. W notacji macierzowej macierz zmiennych objaśniających z 10 z 11 z 1r z 20 z 21 z 2r Z (n (r+1)) = z n0 z n1 z nr jest taka sama jak dla modelu regresji z jedną odpowiedzią. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

27 Pozostałe macierze mają wielowymiarowe odpowiedniki: Y 11 Y 12 Y 1m Y 21 Y 22 Y 2m Y (n m) =..... = [Y (1).Y (2)..Y (m) ]. Y n1 Y n2 Y nm β ((r+1) m) = β 01 β 02 β 0m β 11 β 12 β 1m β r1 β r2 β rm = [β (1).β (2)..β (m) ] () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

28 ε 11 ε 12 ε 1m ε 21 ε 22 ε 2m ε (n m) =..... = [ε (1).ε (2)..ε (m) ] =. ε n1 ε n2 ε nm ε T 1 ε T 2. ε T n () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

29 Model wielowymiarowej regresji liniowej: Y (n m) = Z (n (r+1)) β ((r+1) m) + ε (n m) gdzie: E(ε (i) ) = 0 i Cov(ε (i), ε (k) ) = σ ik I, i, k = 1, 2,..., m m obserwacji dla j-tej próby ma macierz kowariancji Σ = {σ ik }, ale obserwacje z różnych prób są nieskorelowane. Tutaj β oraz σ ik są nieznanymi parametrami. Macierz zmiennych objaśniających Z ma j-ty wiersz [z j0, z j1,..., z jr ]. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

30 Krótko mówiąc, i-ta odpowiedź Y (i) spełnia model regresji liniowej: Y (i) = Zβ (i) + ε (i), i = 1, 2,..., m z Cov(ε (i) ) = σ ii I. Jednakże, błędy dla różnych odpowiedzi z tej samej próby mogą być skorelowane. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

31 Przyjmując odpowiedzi Y i wartości predyktorów Z z pełnym rzędem kolumnowym (wszystkie kolumny macierzy są liniowo niezależne), wyznaczamy estymator najmniejszych kwadratów β (i) wyłącznie dla obserwacji Y (i) dla i-tej odpowiedzi. W zgodności z rozwiązaniem dla modelu z jedną odpowiedzią, bierzemy β (i) = (Z Z) 1 Z Y (i). Zbierając te jednowymiarowe estymatory najmniejszych kwadratów otrzymujemy β = [ β (1). β (2).. β (m) ] = (Z Z) 1 Z [Y (1).Y (2)..Y (m) ] lub β = (Z Z) 1 Z Y () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

32 Dla dowolnego wyboru parametrów B = [b (1).b (2)..b (m) ], macierz błędów wynosi Y-ZB. Macierzą błędowej sumy kwadratów i iloczynów (error sum of squares and cross products matrix) jest: = (Y ZB) (Y ZB) = (Y (1) Zb (1) ) (Y (1) Zb (1) ) (Y (1) Zb (1) ) (Y (m) Zb (m) ).. (Y (m) Zb (m) ) (Y (1) Zb (1) ) (Y (m) Zb (m) ) (Y (m) Zb (m) ) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

33 Wybór b (i) = β (i) minimalizuje i-tą diagonalną sumę kwadratów (Y (i) Zb (i) ) (Y (i) Zb (i) ). W konsekwencji tr(y ZB) (Y ZB) jest zminimalizowany prze wybór B = β. Także uogólniona wariancja (Y ZB) (Y ZB) jest zminimalizowana przez estymator najmniejszych kwadratów β. Wykorzystując estymator najmniejszych kwadratów β możemy stworzyć macierze wartości przewidywanych Ŷ = Z β = Z(Z Z) 1 Z Y oraz reszt ε = Y Ŷ = [I Z(Z Z) 1 Z ]Y () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

34 Warunki ortogonalności pomiędzy resztami, wartościami przewidywanymi oraz kolumnami macierzy Z, które zachodzą w klasycznym modelu regresji liniowej zachodzą także w wielowymiarowym modelu regresji wielorakiej. Pochodzą one z Z [I Z(Z Z) 1 Z ] = Z Z = 0. W szczególności Z ε = Z [I Z(Z Z) 1 Z ]Y = 0 więc reszty ε (i) są prostopadłe do kolumn macierzy Z. Także Ŷ ε = β Z [I Z(Z Z) 1 Z ]Y = 0 potwierdza, że wartości przewidywane Ŷ(i) są prostopadłe do wszystkich wektorów reszt ε (k), ponieważ Y = Ŷ + ε, Y Y = (Ŷ + ε) (Ŷ + ε) = Ŷ Ŷ + ε ε albo Y Y = Ŷ Ŷ + ε ε całkowita suma kwadratów i iloczynów = przewidywana suma kwadratów i iloczynów + resztowa suma kwadratów i iloczynów () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

35 Resztowa suma kwadratów i iloczynów (residual sum of squares and cross products) może być także zapisana jako ε ε = Y Y Ŷ Ŷ = Y Y β Z Z β Przykład: Y j1 = β 01 + β 11 z j1 + ε j1 Y j2 = β 02 + β 12 z j1 + ε j2 j = 1, 2,..., 5 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

36 Przykład 7.8 (Dopasowanie wielowymiarowego modelu regresji prostoliniowej) Aby zilustrować wyliczenie ˆβ, ˆγ i ˆε, dopasowujemy model regresji prostoliniowej: Y j1 = β 01 + β 11 z j1 + ε j1 Y j2 = β 02 + β 12 z j1 + ε j2, j = 1, 2,..., 5 do dwóch odpowiedzi Y 1 i Y 2 używając poniższych danych: z y y () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

37 proc import out=dane datafile="c:\users\student\desktop\dane.xlsx" dbms=xlsx Replace; getnames=yes; run; proc reg data=dane; model y1 = z1/ r cli clm; model y2 = z1/ r cli clm; output out=dane_wynikowe p=pred r=resid; run; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

38 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

39 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

40 proc iml; /*n-liczba obserwacji*/ n = 5; tmp = j(n,1,1); use dane; read all var{z1} into Ztym; close dane; Z = tmp Ztym; print Z; use dane; read all var{y1} into y1; close dane; betay1 = inv(z *Z)*Z *y1; cname = {"Intercept" "Z1"}; rname = {"Y1^"}; results = betay1 ; print results[r=rname c=cname]; use dane; read all var{y2} into y2; close dane; betay2 = inv(z *Z)*Z *y2; cname = {"Intercept" "Z1"}; rname = {"Y2^"}; results = betay2 ; print results[r=rname c=cname]; use dane; read all var{y1 y2} into Y; close dane; betahat2 = inv(z *Z)*Z *Y; betahat = betay1 betay2; Yhat = Z*betahat; ehat = Y-Yhat; ehatpehat = ehat *ehat; print betahat; print ehatpehat; quit; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

41 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

42 Y j1 = 1 + 2z j1 Y j1 = 1 + z j1, j = 1, 2,..., 5 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

43 proc glm data=dane; model y1 y2 = z1; manova h=z1/printe; run; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

44 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

45 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

46 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

47 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

48 Rezultat Wielowymiarowa regresja wielokrotna Dla estymatora najmniejszych kwadratów β = [ β (1). β (2).. β (m) ] określonego dla wielowymiarowego modelu regresji wielorakiej z pełnym rzędem macierzy Z, czyli rz(z) = r + 1 < n mamy E( β (i) ) = β (i) lub E( β) = β Cov( β (i), β (k) ) = σ ik (Z Z) 1, i, k = 1, 2,..., m Reszty ε = [ ε (1). ε (2).. ε (m) ] = Y Z β spełniają E( ε (i) ) = 0 i E( ε (i) ε (k)) = (n r 1)σ ik, więc E( ε) = 0 i E( 1 n r 1 ε ε) = Σ Także ε i β są nieskorelowane. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

49 Wektory średniej i macierze kowariancji określone w powyższym rezultacie pozwalają otrzymać przykładowe własności predyktorów najmniejszych kwadratów. Najpierw rozważmy problem estymacji wektora średnich dla zmiennych objaśniających o wartościach z 0 = [1, z 01,..., z 0r ]. Średnia i-tej odpowiedzi wynosi z 0 β (i) i jest estymowana przez z 0 β (i), co jest i-tym składnikiem dopasowanego związku regresji. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

50 Podsumowując, z 0 β = [z 0 β (1).z 0 β (2)..z 0 β (m) ] jest nieobciążonym estymatorem z 0 β, ponieważ E(z 0 β (i) ) = z 0 E( β (i) ) = z 0 β (i) dla każdego składnika. Dla macierzy kowariancji dla β (i) i β (k), oszacowane błędy z 0 β (i) z 0 β (i) mają kowariancje E[z 0 (β (i) β (i) )(β (k) β (k) ) z 0 ] = z 0 (E(β (i) β (i) )(β (k) β (k) ) )z 0 = σ ik z 0 (Z Z) 1 z 0 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

51 Związane z tym problemem jest przewidywanie nowego wektora obserwacji Ŷ 0 = [Y 01, Y 02,, Y 0m ] w z 0. Nawiązując do modelu regresji Y 0i = z 0 β (i) + ε 0i nowe błędy ε 0 = [ε 01, ε 02,, ε 0m ] są niezależne od błędów ε i spełniają E(ε 0i ) = 0 i E(ε 0i ε 0k ) = σ ik. Przewidywany błąd na i-tym składniku Y 0 wynosi Y 0i z 0 β (i) = Y 0i z 0 β (i) + z 0 β (i) z 0 β (i) = ε 0i z 0 ( β (i) β (i) ) więc E(Y 0i z 0 β (i) ) = E(ε 0i ) z 0 E( β (i) β (i) ) = 0, z czego wynika, że z 0 β (i) jest nieobciążonym predyktorem Y 0i. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

52 Przewidywane błędy mają kowariancje E(Y 0i z β 0 (i) )(Y 0k z β 0 (k) ) = E(ε 0i z 0 ( β (i) β (i) ))(ε 0k z 0 ( β (k) β (k) )) = E(ε 0i ε 0k ) + z 0 E( β (i) β (i) )( β (k) β (k) ) z 0 z 0 E(( β (i) β (i) )ε 0k ) E(ε 0i ( β (k) β (k) ) )z 0 = σ ik (1 + z 0 (Z Z) 1 z 0 ) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

53 Zauważmy, że E(( β (i) β (i) )ε 0k ) = 0, ponieważ β (i) = (Z Z) 1 Z ε (i) + β (i) jest niezależny od ε 0. Podobny wynik otrzymamy z E(ε 0i ( β (k) β (k) ) ) Estymatory największej wiarygodności oraz ich rozkłady możemy otrzymać, gdy błędy ε mają rozkład normalny. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

54 Rezultat 7.10 Wielowymiarowa regresja wielokrotna Niech będzie dany wielowymiarowy model regresji wielokrotnej Y (n m) = Z (n (r+1)) β ((r+1) m) + ε (n m) gdzie rz(z) = r + 1,n (r + 1) + m, niech błędy ε mają rozkład normalny. Wtedy β = (Z Z) 1 Z Y jest estymatorem największej wiarygodności dla β i β ma rozkład normalny z E( β) = β i Cov( β (i), β (k) ) = σ ik (Z Z) 1. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

55 Także β jest niezależny od estymatora największej wiarygodności dla dodatnio określonej Σ danego przez Σ = 1 n ε ε = 1 n (Y Z β) (Y Z β) i n Σ ma rozkład W p,n r 1 (Σ). Zmaksymalizowana funkcja wiarygodności wynosi L( µ, Σ) = (2π) mn/2 Σ n/2 e mn/2 Gdy błędy mają rozkład normalny, β i n 1 ε T ε są estymatorami największej wiarygodności odpowiednio dla β i Σ. Dlatego też dla dużych próbek mają one najmniejszą możliwą wariancję. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

56 TEST ILORAZU WIARYGODNOŚCI DLA PARAMETRÓW REGRESJI Część analizy regresji jest skoncentrowana na oszacowaniu efektów poszczególnych zmiennych objaśniających na zmienne objaśniane. Jedną z hipotez zerowych, które nas interesują jest aby niektóre zmienne objaśniające były nieistotne. Te zmienne będą oznaczone przez z q+1, z q+2,..., z r. Hipoteza, że odpowiedzi nie zależą od z q+1, z q+2,..., z r wygląda następująco: H 0 :β q+1 = β q+2 = = β r = 0 lub H 0 : β (2) = 0 gdzie β T (2) = [β q+1, β q+2,..., β r ], β = (β (1) ) ((q+1) m)... (β (2) ) ((r q) m) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

57 Mając [ ] Z = (Z 1 ) (n (q+1)). (Z 2 ) (n (r q)) możemy zapisać ogólnie model jako [ ] E(Y) = Zβ = Z 1. Z 2 β (1) β (2) = Z 1 β (1) + Z 2 β (2) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

58 Pod warunkiem, że H 0 : β (2) = 0 zachodzi Y = Z 1 β (1) + ε oraz test ilorazu wiarygodności dla H 0 jest oparty o składniki zawarte w dodatkowej sumie kwadratów i iloczynów (extra sum of squares and cross products) równej (Y Z 1 β (1) ) (Y Z 1 β (1) ) (Y Z β) (Y Z β) = n( Σ 1 Σ), gdzie β (1) = (Z 1 Z 1 ) 1 Z 1 Y i Σ 1 = n 1 (Y Z 1 β (1) ) (Y Z 1 β (1) ). () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

59 Iloraz wiarygodności Λ może być wyrażony za pomocą uogólnionej wariancji Λ = max ( ) β (1),ΣL(β (1),Σ) n/2 max β,σ L(β,Σ) = L( β(1), Σ1 ) Σ =. L( β, Σ) Σ1 Jeżeli Λ jest małe to odrzucamy H 0. Równoważnie odrzucamy H 0 dla dużych wartości ( ) Σ n 2lnΛ = nln = nln Σ Σ 1 n Σ + n( Σ 1 Σ) Zamiast ilorazu wiarygodności statystyka lambda Wilksa Λ 2/n = Σ Σ1 może być użyta. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

60 Pozostałe testy wielowymiarowe Oprócz testu ilorazu wiarygodności mamy inne testy, sprawdzające prawdziwość H 0 : β (2) = 0 w modelu wielowymiarowej regresji wielokrotnej. Popularne programy komputerowe, tj. SAS rutynowo obliczają cztery wielowymiarowe testy statystyczne. W związku z tym, co wyświetlają w wynikach wprowadźmy alternatywną notację. Niech E będzie błędem p p lub inaczej macierzą resztowych sum kwadratów i iloczynów (residual sum of squares and cross products matrix): E = n Σ która wynika z dopasowania pełnego modelu. Hipoteza p p albo macierz dodatkowej sumy kwadratów i iloczynów (extra sum of squares and cross products matrix) jest następująca H = n( Σ 1 Σ) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

61 Statystyki mogą być zdefiniowane bezpośrednio za pomocą E oraz H albo za pomocą niezerowych wartości własnych η 1 η 2 η s macierzy HE 1, gdzie s = min(p, r q). Równoważnie są one pierwiastkami ( Σ 1 Σ) η Σ = 0 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

62 Mamy następujące definicje statystyk: Wilks lambda = s i=1 1 1+η i = E E+H Pillai s trace = s i=1 η i 1+η i = tr[h(h + E) 1 ] Hotelling-Lawley trace = s i=1 η i = tr[he 1 ] Roy s greatest root = η 1 1+η 1 Testy Wilks lambda, Hotelling-Lawley trace i Roy s greatest root są prawie równoważne dla dużych próbek. Zauważmy, że statystyka Wilks lambda jest bezpośrednio związana z testem ilorazu wiarygodności. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

63 Niekiedy te cztery testy dają identyczne rezultaty, ale w większości przypadków wyniki różnią się. Z tych czterech testów Pillai s trace jest najbardziej odporny (najmniej wrażliwy na zmianę założeń). Jednakże Wilk s Lambda jest częściej używana z powodu własności związanej z uogólnioną wariancją Σ. Dwie pozostałe statystyki Hotelling-Lawley s trace i Roy s Greatest Root są rzadko używane. Zwykle Pillai s trace, Wilks Lambda i Hotelling-Lawley trace dają te same wyniki. Roy s Greatest Root jest górna granicą statystyki F, więc może dać zupełnie inną wartość F i p-value niz pozostałe trzy statystyki. Jeżeli tak się zdarzy należy zignorować statystykę Roy a. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

64 Prognozy z wielowymiarowego modelu regresji wielorakiej Przypuśćmy, że model Y = Zβ + ε z normalnymi błędami ε jest dopasowany i sprawdzony pod kątem ewentualnych nieprawidłowości. Jeżeli model jest odpowiedni, to może zostać użyty do celów prognostycznych. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

65 Pierwszym problemem jest przewidywanie średnich odpowiedzi odpowiadających ustalonym wartościom z 0 zmiennych objaśniających. Wnioski odnośnie średnich odpowiedzi mogą być wykonane przy użyciu teorii rozkładu z rezultatu Z tych wynikow możemy określić, że β z 0 ma rozkład N m (β z 0, z 0 (Z Z) 1 z 0 Σ) i n Σ ma niezależny rozkład W n r 1 (Σ). Nieznaną wartością funkcji regresji w z 0 jest β z 0. Więc możemy zapisać statystykę T 2 wzorem: () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

66 100(1 α)% eliptyczny przedział ufności (confidence ellipsoid) dla β z 0 jest dany przez nierówność: gdzie F m,n r m (α) jest górnym (100α)-centylem rozkładu F z m i n r m stopniami swobody. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

67 100(1 α)% jednoczesne przedziały ufności dla E(Y i ) = z 0 β (i) są dane wzorem: gdzie i = 1, 2,, m, β (i) jest i-tą kolumną β i σ ii jest i-tym diagonalnym elementem Σ. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

68 Drugi problem przewidywania jest związany z przewidywaniem nowych odpowiedzi Y 0 = β z 0 + ε 0 w z 0. Tutaj: ε 0 jest niezależny od ε. Teraz Y 0 β z 0 = (β β) z 0 + ε 0 ma rozkład N m (0, (1 + z 0 (Z Z) 1 z 0 )Σ) niezależny od n Σ, więc 100(1 α)% eliptyczny przedział prognozy (prediction ellipsoid) dla Y 0 wygląda następująco: () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

69 100(1 α)% jednoczesnymi przedziałami prognozy dla pojedynczych odpowiedzi Y 0i są gdzie i = 1, 2,..., m, β (i), σ ii oraz F m,n r m (α) Widzimy, że przedziały prognozowania dla rzeczywistych wartości zmiennych odpowiedzi są szersze niż odpowiadające przedziały dla wartości oczekiwanych. Dodatkowa szerokość odzwierciedla obecność błędu losowego ε 0i () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

70 Przykład 7.10 Konstrułowanie elipsy ufności (confidence ellipse) i elipsy prognozy (prediction ellipse) dla dwóch zmiennych odpowiedzi Przypomnijmy przykład 7.6: Firmy rozważające zakup komputera muszą najpierw oszacować swoje przyszłe potrzeby, aby poprawnie określić wymagania sprzętowe. Informatycy zbierają dane z siedmiu stron podobnych firm w taki sposób, aby oszacować parametry równania prognozy wymagań sprzętu komputerowego dla działu zarządzającego zasobami. z 1 - zamówienia klientów (tys.) z 2 - liczba dodanych - usuniętych elementów (tys.) Y 1 - czas CPU (jednostka pamięci centralnej) (h) i dodajmy drugą zmienną odpowiedzi: Y 2 - miara szybkości odczytu/zapisu na dysku (disc input/output capacity) (wyrażana w input/output na sekundę) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

71 Wartości obserwacji Wielowymiarowa regresja wielokrotna () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

72 ŷ 1 = z z 2 ŷ 2 = z z 2 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

73 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

74 proc import out=dane3 datafile="c:\users\student\desktop\ex.2.xlsx" dbms=xlsx Replace; getnames=yes; run; proc iml; /*n-liczba obserwacji, m-liczba zmiennych objaśnianych, r-liczba zmiennych objaśniających*/ n = 7; m = 2; r = 2; tmp = j(n,1,1); use dane3; read all var{z1 z2} into Z1tym; close dane3; Z = tmp Z1tym; print Z; use dane3; read all var{y1 y2} into Y; close dane3; betahat = inv(z *Z)*Z *Y; cname = {"Y1" "Y2"}; rname = {"Intercept" "Z1" "Z2"}; results = betahat; print betahat[r=rname c=cname]; sigma = (1/n)*((Y-Z*betahat) *(Y-Z*betahat)); nsigma = (Y-Z*betahat) *(Y-Z*betahat); print nsigma; skala1 = n/(n-r-1); pom = inv(nsigma)/skala1; z0 = {1,130,7.5}; z0zpzz0 = z0 *inv(z *Z)*z0; print z0zpzz0; F = quantile( F,0.95,m,n-r-m); print F; skala2 = (m*(n-r-1))/(n-r-m); betahatz0 = betahat *z0; print betahatz0; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

75 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

76 /*Jednoczesne przedziały ufności dla średniej*/ ogr1 = z0zpzz0*skala2*f; print ogr1; z0pb1 = sqrt(skala2*f)*sqrt(z0zpzz0*(skala1*sigma[1,1])); print z0pb1; prze1d = betahatz0[1]-z0pb1; prze1g = betahatz0[1]+z0pb1; prze1dg = prze1d prze1g; cname = {"dolny" "górny"}; Przedzial_ufnosci_sredniej1= prze1dg; print Przedzial_ufnosci_sredniej1[c=cname]; z0pb2 = sqrt(skala2*f)*sqrt(z0zpzz0*(skala1*sigma[2,2])); print z0pb2; prze2d = betahatz0[2]-z0pb2; prze2g = betahatz0[2]+z0pb2; prze2dg = prze2d prze2g; cname = {"dolny" "górny"}; Przedzial_ufnosci_sredniej2= prze2dg; print Przedzial_ufnosci_sredniej2[c=cname]; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

77 /*Jednoczesne przedziały ufności dla predykcji*/ ogr2 = (1+z0ZpZz0)*skala2*F; print ogr2; z0pb1 = sqrt(skala2*f)*sqrt((1+z0zpzz0)*(skala1*sigma[1,1])); print z0pb1; przep1d = betahatz0[1]-z0pb1; przep1g = betahatz0[1]+z0pb1; przep1dg = przep1d przep1g; cname = {"dolny" "górny"}; Przedzial_ufnosci_prognozy1= przep1dg; print Przedzial_ufnosci_prognozy1[c=cname]; z0pb2 = sqrt(skala2*f)*sqrt((1+z0zpzz0)*(skala1*sigma[2,2])); print z0pb2; przep2d = betahatz0[2]-z0pb2; przep2g = betahatz0[2]+z0pb2; przep2dg = przep2d przep2g; cname = {"dolny" "górny"}; Przedzial_ufnosci_prognozy2= przep2dg; print Przedzial_ufnosci_prognozy2[c=cname]; quit; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

78 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

79 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

80 Środek obu elips jest w punkcie (151.97, ) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

81 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

82 KONCEPCJA REGRESJI LINIOWEJ Klasyczny model regresji liniowej jest skoncentrowany na związku pomiedzy jedną zmienną zależną Y i zbiorem zmiennych objaśniających z 1, z 2,..., z r. Model regresji który rozważamy traktuje Y jako zmienną losową, której średnia zależy od ustalonych wartości z 1, z 2,..., z r. Zakładamy, że ta średnia jest funkcją liniową współczynników regresji β 1, β 2,..., β r Załóżmy, że wszystkie zmienne Y, Z 1, Z 2,..., Z r są losowe i mają rozkład łączny, niekoniecznie normalny, z wektorem średnich µ (r+1) 1 i macierzą kowariancji Σ (r+1) (r+1). () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

83 Macierze µ i Σ można zapisać w następujący sposób µ ((r+1) 1) = µ Y(1 1) µ Z(r 1) Σ ((r+1) (r+1)) = σ YY(1 1).σ ZY(1 r). σ ZY(r 1).Σ ZZ(r r) gdzie σ T ZY = [σ YZ 1, σ YZ2,..., σ YZr ] () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

84 Weźmy Σ ZZ z pełnym rzędem. Rozważmy problem prognozowania Y używając linear predictor = b 0 + b 1 Z b r Z r = b 0 + b T Z. Błąd dla przewidywanego Y wynosi prediction error = Y b 0 b 1 Z 1 b r Z r = Y b 0 b T Z Ponieważ ten błąd jest losowy, zwyczajowo wybiera się b 0 i b tak, aby zminimalizować mean square error = E(Y b 0 b T Z) 2 Teraz błąd średniokwadratowy zależy od rozkładu łącznego Y oraz Z tylko poprzez parametry µ i Σ. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

85 Korelacja pomiędzy Y oraz jego najlepszym dopasowaniem liniowym jest nazywana population multiple correlation coefficient ρ Y (Z) = + σ T ZY Σ 1 ZZ σ ZY σ YY Kwadrat population muliple correlation coefficient, ρ 2 Y (Z) jest nazywany population coefficient of detemination. Zauważmy, że w przeciwieństwie do innych współczynników korelacji, współczynnik korelacji wielorakiej jest dodatnim pierwiastkiem kwadratowym, więc 0 ρ Y (Z) 1. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

86 Population coefficient of detemination ma ważną interpretację. Błąd średniokwadratowy przy użyciu β 0 + β T Z do prognozy Y wynosi σ YY σzy T Σ 1 ZZ σ ZY = σ YY σ YY ( σt ZY Σ 1 ZZ σ ZY σ YY ) = σ YY (1 ρ 2 Y (Z) ) Jeżeli ρ 2 Y (Z) = 0, wtedy Z nie nadaje się do prognozowania. W przypadku drugiego ekstremum, czyli gdy ρ 2 Y (Z) = 1 Y może być przewidziane bez błędu. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

87 PRZEWIDYWANIE KILKU ZMIENNYCH Rozszerzenie poprzednich rezultatów na przewidywanie kilku odpowiedzi Y 1, Y 2,..., Y m jest prawie natychmiastowe. Prezentujemy to rozszerzenie dla populacji o rozkładzie normalnym. Załóżmy, że ma rozkład N m+r (µ, Σ) z i Σ = µ = Y (m 1) Z (r 1) (µ Y ) (m 1) (µ Z ) (r 1) (Σ YY ) (m m). (Σ YZ ) (m r). (Σ ZY ) (r m). (Σ ZZ ) (r r). () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

88 Warunkowa wartość oczekiwana [Y 1, Y 2,..., Y m ] przy ustalonych wartościach zmiennych objaśniających z 1, z 2,..., z r wynosi E[Y z 1, z 2,..., z r ] = µ Y + Σ YZ Σ 1 ZZ (z µ Z ) Warunkowa wartość oczekiwana rozważana jako funkcja z 1, z 2,..., z r jest nazywana wielowymiarową regresją wektora Y na Z. Jest ona złożona z m jednowymiarowych regresji. Np. pierwszy składnik warunkowego wektora średnich to µ Y1 + Σ Y1 Z Σ 1 ZZ (z µ Z ) = E[Y 1 z 1, z 2,..., z r ], który minimalizuje błąd średniokwadratowy dla prognozy Y 1. Macierz β = Σ YZ Σ 1 ZZ o wymiarach m r jest nazywana macierzą współczynników regresji. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

89 Błąd przewidywanego wektora Y µ Y Σ YZ Σ 1 ZZ (Z µ Z ) ma macierz ESCP (Expected Squares and Cross Products matrix): Σ YY Z = E[Y µ Y Σ YZ Σ 1 ZZ (Z µ Z )][Y µ Y Σ YZ Σ 1 ZZ (Z µ Z )] = = Σ YY Σ YZ Σ 1 ZZ (Σ YZ ) Σ YZ Σ 1 ZZ Σ ZY + Σ YZ Σ 1 ZZ Σ ZZ Σ 1 ZZ (Σ YZ ) = Σ YY Σ YZ Σ 1 ZZ Σ ZY Ponieważ µ i Σ zwykle są nieznane, muszą być wyestymowane z próbki losowej w celu skonstrułowania wielowymiarowej prognozy liniowej i określenia oczekiwanego błędu prognozy. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

90 Współczynnik korelacji cząstkowej Rozważmy parę błędów Y 1 µ Y1 Σ Y1 Z Σ 1 ZZ (Z µ Z ) Y 2 µ Y2 Σ Y2 Z Σ 1 ZZ (Z µ Z ) uzyskanych z użycia najlepszych liniowych prognoz dla przewidywania Y 1 i Y 2. Ich korelacja, określona za pomocą macierzy kowariancji błędów Σ YY Z = Σ YY Σ YZ Σ 1 ZZ Σ ZY, mierzy związek pomiędzy Y 1 i Y 2 po wyeliminowaniu efektów zmiennych Z 1, Z 2,..., Z r. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

91 Definiujemy współczynnik korelacji cząstkowej pomiędzy Y 1 i Y 2, eliminując Z 1, Z 2,..., Z r, przez: ρ Y1 Y 2 Z = σ Y1 Y 2 Z σy1 Y 1 Z σy2 Y 2 Z gdzie σ Yi Y k Z jest (i, k)-tym elementem macierzy Σ YY Z = Σ YY Σ YZ Σ 1 ZZ Σ ZY. Odpowiadającym próbkowym wspólczynnikiem korelacji cząstkowej jest: r Y1 Y 2 Z = s Y1 Y 2 Z sy1 Y 1 Z sy2 Y 2 Z gdzie s Yi Y k Z jest (i, k)-tym elementem macierzy S YY S YZ S 1 ZZ S ZY. Jeżeli Y i Z mają łączny wielowymiarowy rozkład normalny próbkowy wspólczynnik korelacji cząstkowej jest estymatorem największej wiarygodności współczynnika korelacji cząstkowej. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

92 Przykład Wielowymiarowa regresja wielokrotna Amitryptylina jest przepisywana przez niektórych lekarzy ogólnych jako antydepresant. Jednakże przypuszczalnie istnieją także efekty uboczne, które wydają się mieć związek z używaniem leku. Są to m. in.: nieregularne bicie serca, nieprawidłowe ciśnienie krwi oraz nieregularne fale na elektrokardiogramie. Dane zebrane od 17 pacjentów, którzy zostali przyjęci do szpitala po przedawkowaniu amitryptyliny są przedstawione w tabeli na jednym z następnych slajdów. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

93 W przykładzie występują dwie zmienne odpowiedzi: oraz pięć zmiennych objaśniających: () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

94 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

95 Proste wyjaśnienia odnośnie zmiennych z przykładu Czym jest amitryptylina? Amitryptylina organiczny związek chemiczny, stosowany jako lek psychotropowy należący do trójpierścieniowych leków przeciwdepresyjnych (TCAD), wywierający poza tym działanie uspokajające i przeciwlękowe. TCAD (Tricyclic antidepressants) - Trójcykliczne leki przeciwdepresyjne, leki trójpierścieniowe - grupa leków psychotropowych o zbliżonej budowie chemicznej (cząsteczka złożona z trzech pierścieni), używanych w leczeniu depresji. Jednym z trójpierścieniowych leków przeciwdepresyjnych jest amitryptylina. Czym są poszczególne zmienne objaśniane? Y 1 = całkowity poziom antydepresantów w osoczu (w mg) Y 2 = ilość amitryptyliny w osoczu (w mg) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

96 Czym są poszczególne zmienne objaśniające? Z 1 - płeć: 1 jeżeli kobieta, 0 jeżeli mężczyzna Z 2 - ilość antydepresantów wziętych w momencie przedawkowania (w mg) Z 3 - PR - szybkość przesyłania pobudzenia z węzła przedsionkowo-komorowego na przedsionki i komory (powinien wynosić 0,12-0,2s, czyli ms) (podane w tabeli w milisekundach (ms)) Z 4 - rozkurczowe ciśnienie krwi (tzw. ksiązkowe rozkurczowe ciśnienie krwi powinno wynosić 80 mm Hg) Z 5 - QRS opisuje depolaryzację komór serca - czyli skurcz w EKG (prawidłowo powinien wynosić 0,12s = 120ms) (podane w tabeli w ms) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

97 PR z przykładu odnosi się do PR interval (odstęp PQ) QRS z przykładu odnosi się do QRS complex (zespół QRS) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

98 proc import out=dane3 datafile="c:\users\student\desktop\dane 7.25.xls" dbms=xls Replace; getnames=yes; run; proc iml; /*n-liczba obserwacji, m-liczba zmiennych objaśnianych, r-liczba zmiennych objaśniających, q-liczba zmiennych objaśniających (po podziale)*/ n = 17; m = 2; r = 5; q = 2; tmp = j(n,1,1); use dane3; read all var{z1 z2} into Z1tym; close dane3; Z1 = tmp Z1tym; use dane3; read all var{z3 z4 z5} into Z2; close dane3; Z = Z1 Z2; print Z; use dane3; read all var{y1 y2} into Y; close dane3; betahat = inv(z *Z)*Z *Y; cname = {"Y1" "Y2"}; rname = {"Intercept" "Z1" "Z2" "Z3" "Z4" "Z5"}; results = betahat; print betahat[r=rname c=cname]; sigma = (1/n)*(Y-Z*betahat) *(Y-Z*betahat); print sigma; betahat1 = inv(z1 *Z1)*Z1 *Y; betahat = inv(z *Z)*Z *Y; cname = {"Y1" "Y2"}; rname = {"Intercept" "Z1" "Z2"}; results = betahat1; print betahat1[r=rname c=cname]; sigma1 = (1/n)*(Y-Z1*betahat1) *(Y-Z1*betahat1); print sigma1; wyz = det(sigma); wyz1 = det(sigma1); print wyz wyz1; skala = -(n-r-1-(1/2)*(m-r+q+1)); lambda = skala*log(wyz/wyz1); print lambda; Chi2 = quantile( CHISQ,0.95,m*(r-q)); print Chi2; quit; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

99 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

100 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

101 Sprawdzamy hipotezę H 0 = β 3 = β 4 = β 5 = 0. Wartość krytyczna w teście to χ 2 2(5 2) (0.05) = Ponieważ 9.01 < nie możemy odrzucić H 0. Trzy ostatnie zmienne objaśniające nie dostarczają żadnych informaci na temat zmian w średniej dla dwóch zmiennych odpowiedzi ponad te które są dostarczane przez płeć i ilość przyjętego antydepresantu. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

102 proc reg data=dane3; model y1 y2= z1 z2 z3 z4 z5; mtest z3, z4, z5; run; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

103 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

104 proc reg data=dane3; model y1 y2= z1 z2; run; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

105 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

106 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

107 Jak widzimy, po odrzuceniu zmiennych Z 3, Z 4 i Z 5, zmienne Z 1 i Z 2 są istotne w naszym modelu. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

108 proc iml; /*n-liczba obserwacji, m-liczba zmiennych objaśnianych, r-liczba zmiennych objaśniających*/ n = 17; m = 2; r = 2; tmp = j(n,1,1); use dane3; read all var{z1 z2} into Z1tym; close dane3; Z = tmp Z1tym; print Z; use dane3; read all var{y1 y2} into Y; close dane3; betahat = inv(z *Z)*Z *Y; cname = {"Y1" "Y2"}; rname = {"Intercept" "Z1" "Z2"}; results = betahat; print betahat[r=rname c=cname]; sigma = (1/n)*((Y-Z*betahat) *(Y-Z*betahat)); nsigma = (Y-Z*betahat) *(Y-Z*betahat); print nsigma; skala1 = n/(n-r-1); pom = inv(nsigma)/skala1; z0 = {1,1,1000}; z0zpzz0 = z0 *inv(z *Z)*z0; print z0zpzz0; F = quantile( F,0.95,m,n-r-m); print F; skala2 = (m*(n-r-1))/(n-r-m); betahatz0 = betahat *z0; print betahatz0; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

109 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

110 /*Jednoczesne przedziały ufności dla średniej*/ ogr1 = z0zpzz0*skala2*f; print ogr1; z0pb1 = sqrt(skala2*f)*sqrt(z0zpzz0*(skala1*sigma[1,1])); print z0pb1; prze1d = betahatz0[1]-z0pb1; prze1g = betahatz0[1]+z0pb1; prze1dg = prze1d prze1g; cname = {"dolny" "górny"}; Przedzial_ufnosci_sredniej1= prze1dg; print Przedzial_ufnosci_sredniej1[c=cname]; z0pb2 = sqrt(skala2*f)*sqrt(z0zpzz0*(skala1*sigma[2,2])); print z0pb2; prze2d = betahatz0[2]-z0pb2; prze2g = betahatz0[2]+z0pb2; prze2dg = prze2d prze2g; cname = {"dolny" "górny"}; Przedzial_ufnosci_sredniej2= prze2dg; print Przedzial_ufnosci_sredniej2[c=cname]; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

111 /*Jednoczesne przedziały ufności dla predykcji*/ ogr2 = (1+z0ZpZz0)*skala2*F; print ogr2; z0pb1 = sqrt(skala2*f)*sqrt((1+z0zpzz0)*(skala1*sigma[1,1])); print z0pb1; przep1d = betahatz0[1]-z0pb1; przep1g = betahatz0[1]+z0pb1; przep1dg = przep1d przep1g; cname = {"dolny" "górny"}; Przedzial_ufnosci_prognozy1= przep1dg; print Przedzial_ufnosci_prognozy1[c=cname]; z0pb2 = sqrt(skala2*f)*sqrt((1+z0zpzz0)*(skala1*sigma[2,2])); print z0pb2; przep2d = betahatz0[2]-z0pb2; przep2g = betahatz0[2]+z0pb2; przep2dg = przep2d przep2g; cname = {"dolny" "górny"}; Przedzial_ufnosci_prognozy2= przep2dg; print Przedzial_ufnosci_prognozy2[c=cname]; quit; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

112 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

113 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

114 Równoczesne przedziały ufności dla oczekiwanych odpowiedzi E(Y 01 ) i E(Y 02 ): Równoczesne przedziały ufności dla prognoz Y 01 i Y 02 : () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

115 proc cancorr data=dane3 all; var y1 y2; with z1 z2 z3 z4 z5; run; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

116 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

117 Modele regresji wielorakiej z błędami zależącymi od czasu Dla danych zbieranych przez pewien okres czasu obserwacje z różnych przedziałów czasowych są często powiązane ze sobą. W konsekwencji, w kontekście regresji, obserwacje na zmiennej zależnej (lub równoważnie błędy) nie mogą być niezależne. W poniższym przykładzie nie tylko pokażemy jak wykryć obecność zależności czasowej, ale także jak zawrzeć tę zależność w modelu regresji wielorakiej. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

118 Przykęad 7.16 (Zawieranie błędów zależących od czasu w modelu regresji) Elektrownie muszą mieć dość gazu ziemnego aby ogrzać domy i firmy wszystkich swoich klientów, szczególnie w najzimniejszy dzień roku. Najważniejszym składnikiem procesu planowania jest przewidywanie oparte o model wiążący wysyłkę gazu ziemnego z czynnikami takimi jak temperatura, ktęra ma oczywiście związek z ilością zużywanego gazu. W zimne dni potrzeba więcej gazu. Zamiast średniej dziennej temperatury zwykło się używać stopnia dni grzewczych (degree heating days) DHD = 65 średnia dzienna temperatura. Warto zauważyć, że temperatura wyrażana jest w stopniach Fahrenheita. Duża wartość DHD wskazuje na zimny dzień. Oprócz temperatury na wysyłkę gazu ziemnego ma wpływ prędkość wiatru (znowu bierzemy średnią dzienną prędkość wiatru) oraz zmienna binarna weekend, ponieważ wiele przedsiębiorstw jest zamkniętych w weekendy, co implikuje mniejsze zapotrzenowanie gazu na te dni. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

119 Dane dotyczące przytoczonych zmiennych, zebrane pewnej zimy w jednym z większych miast na północy USA częściowo przedstawia poniższa tabela: (pełny zbiór danych można znaleźć na stronie kb/classes/5401/files/data/jwdata5.txt) () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

120 Początkowo uzależniamy model regresji gazu ziemnego od stopnia dni grzewczych(dhd), opóźnionego stopnia dni grzewczych(dhdlag), prędkości wiatru i od sztucznego parametru weekend. Inne zmienne, które mogą mieć jakiś wpływ na zużycie gazu ziemnego, jak np. procent zachmurzenia, są włączone do błędu. proc reg data=gaz alpha=0.05; model wyslane= DHD DHDlag predkosc_wiatru weekend/ r dwprob; output out=dane_wynikowe p=pred r=resid; run; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

121 Dla k = 4 i N = 63 z tablic otrzymujemy wartości d L = 1, 46 oraz d U = 1, 73 Wartość statystyki DW = < d L, zatem mamy autokorelacje dodatnią. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

122 Pierwszym krokiem w kierunku korekcji modelu jest przeniesienie przewidywanych niezależnych błędów w modelu regresji dla wysłane na moężliwie zależną serię N j. Oznacza to, że tworzymy model regresji dla N j, gdzie N j jest zależna od swojej poprzedniej wartości N j 1, wartości sprzed tygodnia N j 7 oraz niezależnego błędu ε j : Gdzie ε j jest niezależną zmienną o rozkładzie normalnym z E(ε) = 0 oraz Var(ε) = σ 2. Postać równania N j jest znana jako model autoregresyjny. Aby rozwiązać ten problem korzystamy z procedury proc arima w SAS-ie. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

123 proc arima data=gaz; identify var=wyslane crosscor=( DHD DHDlag predkosc_wiatru weekend); estimate p=(1 7) method = ml input= ( DHD DHDlag predkosc_wiatru weekend) plot; estimate p=(1 7) noconstant method = ml input=( DHD DHDlag predkosc_wiatru weekend) plot; () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

124 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

125 Z powyższego rezultatu otrzymujemy postać równania N j N j = 0, 47N j 1 + 0, 24N j 7 + ε j oraz postać regresji dla naszego modelu: Wyslane = 2, , 81DHD + 1, 426DHDlag+ +1, 21predkosc wiatru 10, 11weekend () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

126 () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

127 Widzimy, że rzeczywiście wariancja składnika losowego jest stała i estymowana przez σ 2 = 228, 894. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

128 Sprawdzamy autokorelację reszt w grupach dla opóźnień 1 6, 1 12, 1 18 i Dla testu chi-kwadrat mamy następujące hipotezy: H 0 : grupy kolejnych autokorelacji są jednocześnie równe zero, H A : nie wszystkie grupy autokorelacji są równe zero. Na podstawie wyników nie mamy podstaw do odrzucenia H 0, zatem autokorelacje reszt sę pomijane. Dzięki temu nasze testy t oraz odpowiednie dla nich wartości p-value sę ważne. () Wielowymiarowy Model Regresji Liniowej 5 kwietnia / 128

Stosowana Analiza Regresji

Stosowana Analiza Regresji prostej Stosowana Wykład I 5 Października 2011 1 / 29 prostej Przykład Dane trees - wyniki pomiarów objętości (Volume), średnicy (Girth) i wysokości (Height) pni drzew. Interesuje nas zależność (o ile

Bardziej szczegółowo

Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Przykład wstępny. W ekonomicznej teorii produkcji rozważa się funkcję produkcji Cobba Douglasa: z = AL α K β gdzie z oznacza wielkość produkcji, L jest nakładem pracy, K

Bardziej szczegółowo

Rozdział 8. Regresja. Definiowanie modelu

Rozdział 8. Regresja. Definiowanie modelu Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność

Bardziej szczegółowo

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9 Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności

Bardziej szczegółowo

Własności statystyczne regresji liniowej. Wykład 4

Własności statystyczne regresji liniowej. Wykład 4 Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie

Bardziej szczegółowo

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13 Stanisław Cichocki Natalia Neherbecka Zajęcia 13 1 1. Kryteria informacyjne 2. Testowanie autokorelacji 3. Modele dynamiczne: modele o rozłożonych opóźnieniach (DL) modele autoregresyjne o rozłożonych

Bardziej szczegółowo

1.1 Klasyczny Model Regresji Liniowej

1.1 Klasyczny Model Regresji Liniowej 1.1 Klasyczny Model Regresji Liniowej Klasyczny model Regresji Liniowej jest bardzo użytecznym narzędziem służącym do analizy danych empirycznych. Analiza regresji zajmuje się opisem zależności między

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12 Stanisław Cichocki Natalia Nehrebecka Wykład 12 1 1.Problemy z danymi Zmienne pominięte Zmienne nieistotne 2. Autokorelacja o Testowanie autokorelacji 1.Problemy z danymi Zmienne pominięte Zmienne nieistotne

Bardziej szczegółowo

Prawdopodobieństwo i statystyka r.

Prawdopodobieństwo i statystyka r. Prawdopodobieństwo i statystyka 9.06.999 r. Zadanie. Rzucamy pięcioma kośćmi do gry. Następnie rzucamy ponownie tymi kośćmi, na których nie wypadły szóstki. W trzeciej rundzie rzucamy tymi kośćmi, na których

Bardziej szczegółowo

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 4 Prognozowanie, stabilność 1 / 17 Agenda

Bardziej szczegółowo

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów Formy heteroscedastyczności Własności estymatorów MNK wydatki konsumpcyjne 0 10000 20000 30000 40000 14.4 31786.08 dochód rozporz¹dzalny Zródlo: Obliczenia wlasne, dane BBGD 2004 Formy heteroscedastyczności

Bardziej szczegółowo

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, 诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,

Bardziej szczegółowo

Czasowy wymiar danych

Czasowy wymiar danych Problem autokorelacji Model regresji dla szeregów czasowych Model regresji dla szeregów czasowych y t = X t β + ε t Zasadnicze różnice 1 Budowa prognoz 2 Problem stabilności parametrów 3 Problem autokorelacji

Bardziej szczegółowo

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

1 Modele ADL - interpretacja współczynników

1 Modele ADL - interpretacja współczynników 1 Modele ADL - interpretacja współczynników ZADANIE 1.1 Dany jest proces DL następującej postaci: y t = µ + β 0 x t + β 1 x t 1 + ε t. 1. Wyjaśnić, jaka jest intepretacja współczynników β 0 i β 1. 2. Pokazać

Bardziej szczegółowo

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Hipotezy i Testy statystyczne Każde

Bardziej szczegółowo

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp. Sprawdzian 2. Zadanie 1. Za pomocą KMNK oszacowano następującą funkcję produkcji: Gdzie: P wartość produkcji, w tys. jp (jednostek pieniężnych) K wartość kapitału zaangażowanego w proces produkcji, w tys.

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Analiza zależności cech ilościowych regresja liniowa (Wykład 13) Analiza zależności cech ilościowych regresja liniowa (Wykład 13) dr Mariusz Grządziel semestr letni 2012 Przykład wprowadzajacy W zbiorze danych homedata (z pakietu R-owskiego UsingR) można znaleźć ceny

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka Stanisław Cichocki Natalia Nehrebecka 1 2 3 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety i ograniczenia 2. Modele ekonometryczne danych panelowych a) Model efektów

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Natalia Neherbecka. 11 czerwca 2010

Natalia Neherbecka. 11 czerwca 2010 Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Testowanie hipotez statystycznych Wyk lad 8 Natalia Nehrebecka Stanis law Cichocki 29 listopada 2015 Plan zajeć 1 Rozk lad estymatora b Rozk lad sumy kwadratów reszt 2 Hipotezy proste - test t Badanie

Bardziej szczegółowo

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności. TEST STATYSTYCZNY Testem statystycznym nazywamy regułę postępowania rozstrzygająca, przy jakich wynikach z próby hipotezę sprawdzaną H 0 należy odrzucić, a przy jakich nie ma podstaw do jej odrzucenia.

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Matematyka ubezpieczeń majątkowych r.

Matematyka ubezpieczeń majątkowych r. Matematyka ubezpieczeń majątkowych 3..007 r. Zadanie. Każde z ryzyk pochodzących z pewnej populacji charakteryzuje się tym że przy danej wartości λ parametru ryzyka Λ rozkład wartości szkód z tego ryzyka

Bardziej szczegółowo

Stacjonarność Integracja. Integracja. Integracja

Stacjonarność Integracja. Integracja. Integracja Biały szum AR(1) Słaba stacjonarność Szereg czasowy nazywamy słabo (wariancyjnie) stacjonarnym jeżeli: Biały szum AR(1) Słaba stacjonarność Szereg czasowy nazywamy słabo (wariancyjnie) stacjonarnym jeżeli:

Bardziej szczegółowo

Stanisław Cihcocki. Natalia Nehrebecka

Stanisław Cihcocki. Natalia Nehrebecka Stanisław Cihcocki Natalia Nehrebecka 1 1. Kryteria informacyjne 2. Testowanie autokorelacji w modelu 3. Modele dynamiczne: modele o rozłożonych opóźnieniach (DL) modele autoregresyjne o rozłożonych opóźnieniach

Bardziej szczegółowo

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych Statystyka matematyczna. Wykład IV. e-mail:e.kozlovski@pollub.pl Spis treści 1 2 3 Definicja 1 Hipoteza statystyczna jest to przypuszczenie dotyczące rozkładu (wielkości parametru lub rodzaju) zmiennej

Bardziej szczegółowo

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić). Egzamin ze Statystyki Matematycznej, WNE UW, wrzesień 016, zestaw B Odpowiedzi i szkice rozwiązań 1. Zbadano koszt 7 noclegów dla 4-osobowej rodziny (kwatery) nad morzem w sezonie letnim 014 i 015. Wylosowano

Bardziej szczegółowo

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki WYKŁAD 6 Witold Bednorz, Paweł Wolff 1 Instytut Matematyki Uniwersytet Warszawski Rachunek Prawdopodobieństwa, WNE, 2010-2011 Własności Wariancji Przypomnijmy, że VarX = E(X EX) 2 = EX 2 (EX) 2. Własności

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q

Bardziej szczegółowo

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Ćwiczenia nr 3 Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Ćwiczenia 3 Własności składnika losowego 1 / 18 Agenda KMNK przypomnienie 1 KMNK przypomnienie 2 3 4 Jakub Mućk

Bardziej szczegółowo

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...

Bardziej szczegółowo

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Wprowadzenie do modelowania ekonometrycznego Estymator Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 1 Estymator 1 / 16 Agenda 1 Literatura Zaliczenie przedmiotu 2 Model

Bardziej szczegółowo

Metody Ekonometryczne

Metody Ekonometryczne Metody Ekonometryczne Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Metody Ekonometyczne Wykład 4 Uogólniona Metoda Najmniejszych Kwadratów (GLS) 1 / 19 Outline 1 2 3 Jakub Mućk Metody Ekonometyczne

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 4 Wrocław, 17 października 2011 Temat. Weryfikacja hipotez statystycznych dotyczących wartości oczekiwanej w dwóch populacjach o rozkładach normalnych. Model 3. Porównanie średnich

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ Dana jest populacja generalna, w której dwuwymiarowa cecha (zmienna losowa) (X, Y ) ma pewien dwuwymiarowy rozk lad. Miara korelacji liniowej dla zmiennych (X, Y

Bardziej szczegółowo

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4. Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ

Bardziej szczegółowo

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota Ekonometria ćwiczenia 3 Prowadzący: Sebastian Czarnota Strona - niezbędnik http://sebastianczarnota.com/sgh/ Normalność rozkładu składnika losowego Brak normalności rozkładu nie odbija się na jakości otrzymywanych

Bardziej szczegółowo

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +

Bardziej szczegółowo

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje

Bardziej szczegółowo

Egzamin z ekonometrii wersja IiE, MSEMAT

Egzamin z ekonometrii wersja IiE, MSEMAT Egzamin z ekonometrii wersja IiE, MSEMAT 04-02-2016 Pytania teoretyczne 1. Za pomocą jakiego testu weryfikowana jest normalność składnika losowego? Jakiemu założeniu KMRL odpowiada w tym teście? Jakie

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13 Stanisław Cichocki Natalia Nehrebecka Wykład 13 1 1. Autokorelacja Konsekwencje Testowanie autokorelacji 2. Metody radzenia sobie z heteroskedastycznością i autokorelacją Uogólniona Metoda Najmniejszych

Bardziej szczegółowo

Statystyczna analiza danych

Statystyczna analiza danych Statystyczna analiza danych Korelacja i regresja Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/30 Ostrożnie z interpretacją p wartości p wartości zależą od dwóch rzeczy

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8 Stanisław Cichocki Natalia Nehrebecka Zajęcia 8 1. Testy diagnostyczne 2. Testowanie prawidłowości formy funkcyjnej modelu 3. Testowanie normalności składników losowych 4. Testowanie stabilności parametrów

Bardziej szczegółowo

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona Sprawdzanie założeń przyjętych o modelu (etap IIIC przyjętego schematu modelowania regresyjnego) 1. Szum 2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

Bardziej szczegółowo

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna Korelacja brak korelacji korelacja krzywoliniowa korelacja dodatnia korelacja ujemna Szereg korelacyjny numer

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka Stanisław Cichocki Natalia Nehrebecka 1. Testy diagnostyczne 2. Testowanie prawidłowości formy funkcyjnej modelu 3. Testowanie normalności składników losowych 4. Testowanie stabilności parametrów 5. Testowanie

Bardziej szczegółowo

Komputerowa Analiza Danych Doświadczalnych

Komputerowa Analiza Danych Doświadczalnych Komputerowa Analiza Danych Doświadczalnych Prowadząca: dr inż. Hanna Zbroszczyk e-mail: gos@if.pw.edu.pl tel: +48 22 234 58 51 konsultacje: poniedziałek, 10-11; środa: 11-12 www: http://www.if.pw.edu.pl/~gos/students/kadd

Bardziej szczegółowo

Metoda największej wiarogodności

Metoda największej wiarogodności Wprowadzenie Założenia Logarytm funkcji wiarogodności Metoda Największej Wiarogodności (MNW) jest bardziej uniwersalną niż MNK metodą szacowania wartości nieznanych parametrów Wprowadzenie Założenia Logarytm

Bardziej szczegółowo

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:

Bardziej szczegółowo

1.9 Czasowy wymiar danych

1.9 Czasowy wymiar danych 1.9 Czasowy wymiar danych Do tej pory rozpatrywaliśmy jedynie modele tworzone na podstawie danych empirycznych pochodzących z prób przekrojowych. Teraz zajmiemy się zagadnieniem budowy modeli regresji,

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Natalia Nehrebecka Stanisław Cichocki. Wykład 10 Natalia Nehrebecka Stanisław Cichocki Wykład 10 1 1. Testy diagnostyczne 2. Testowanie prawidłowości formy funkcyjnej modelu 3. Testowanie normalności składników losowych 4. Testowanie stabilności parametrów

Bardziej szczegółowo

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 13 Mikołaj Czajkowski Wiktor Budziński Endogeniczność regresja liniowa W regresji liniowej estymujemy następujące równanie: i i i Metoda Najmniejszych Kwadratów zakłada, że wszystkie zmienne

Bardziej szczegółowo

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA Anna Gambin 19 maja 2013 Spis treści 1 Przykład: Model liniowy dla ekspresji genów 1 2 Jednoczynnikowa analiza wariancji 3 2.1 Testy

Bardziej szczegółowo

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego Ze względu na jakość uzyskiwanych ocen parametrów strukturalnych modelu oraz weryfikację modelu, metoda najmniejszych

Bardziej szczegółowo

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla Bogumiła Koprowska Elżbieta Kukla 1 Wstęp Czym są efekty losowe? Przykłady Model mieszany 2 Estymacja Jednokierunkowa klasyfikacja (ANOVA) Metoda największej wiarogodności (ML) Metoda największej wiarogodności

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora. imię, nazwisko, nr indeksu: Ekonometria egzamin 01/02/2019 1. Egzamin trwa 90 minut. 2. Rozwiązywanie zadań należy rozpocząć po ogłoszeniu początku egzaminu a skończyć wraz z ogłoszeniem końca egzaminu.

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora. imię, nazwisko, nr indeksu: Ekonometria egzamin 0/0/0. Egzamin trwa 90 minut.. Rozwiązywanie zadań należy rozpocząć po ogłoszeniu początku egzaminu a skończyć wraz z ogłoszeniem końca egzaminu. Złamanie

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12 Stanisław Cichocki Natalia Nehrebecka Wykład 1 1 1. Testy diagnostyczne Testowanie stabilności parametrów modelu: test Chowa. Heteroskedastyczność Konsekwencje Testowanie heteroskedastyczności 1. Testy

Bardziej szczegółowo

Przykład 2. Stopa bezrobocia

Przykład 2. Stopa bezrobocia Przykład 2 Stopa bezrobocia Stopa bezrobocia. Komentarz: model ekonometryczny stopy bezrobocia w Polsce jest modelem nieliniowym autoregresyjnym. Podobnie jak model podaŝy pieniądza zbudowany został w

Bardziej szczegółowo

Regresja liniowa wprowadzenie

Regresja liniowa wprowadzenie Regresja liniowa wprowadzenie a) Model regresji liniowej ma postać: gdzie jest zmienną objaśnianą (zależną); są zmiennymi objaśniającymi (niezależnymi); natomiast są parametrami modelu. jest składnikiem

Bardziej szczegółowo

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu Część 2 Test Durbina-Watsona Test Durbina-Watsona Weryfikowana hipoteza H 0 : cov(ε t, ε t 1 ) = 0 H 1 : cov(ε t, ε t 1 ) 0 Test Durbina-Watsona Weryfikowana hipoteza H 0 : cov(ε t, ε t 1 ) = 0 H 1 : cov(ε

Bardziej szczegółowo

Wprowadzenie Modele o opóźnieniach rozłożonych Modele autoregresyjne o opóźnieniach rozłożonych. Modele dynamiczne.

Wprowadzenie Modele o opóźnieniach rozłożonych Modele autoregresyjne o opóźnieniach rozłożonych. Modele dynamiczne. opisują kształtowanie się zjawiska w czasie opisują kształtowanie się zjawiska w czasie Najważniejszymi zastosowaniami modeli dynamicznych są opisują kształtowanie się zjawiska w czasie Najważniejszymi

Bardziej szczegółowo

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r Wybór najlepszej procedury - podsumowanie Co nas interesuje przed przeprowadzeniem

Bardziej szczegółowo

Ważne rozkłady i twierdzenia c.d.

Ważne rozkłady i twierdzenia c.d. Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby

Bardziej szczegółowo

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4 Stanisław Cichocki Natalia Nehrebecka Wykład 4 1 1. Własności hiperpłaszczyzny regresji 2. Dobroć dopasowania równania regresji. Współczynnik determinacji R 2 Dekompozycja wariancji zmiennej zależnej Współczynnik

Bardziej szczegółowo

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 STATYSTYKA Rafał Kucharski Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna

Bardziej szczegółowo

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba

Bardziej szczegółowo

Ćwiczenia IV

Ćwiczenia IV Ćwiczenia IV - 17.10.2007 1. Spośród podanych macierzy X wskaż te, których nie można wykorzystać do estymacji MNK parametrów modelu ekonometrycznego postaci y = β 0 + β 1 x 1 + β 2 x 2 + ε 2. Na podstawie

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów

Bardziej szczegółowo

4. Średnia i autoregresja zmiennej prognozowanej

4. Średnia i autoregresja zmiennej prognozowanej 4. Średnia i autoregresja zmiennej prognozowanej 1. Średnia w próbie uczącej Własności: y = y = 1 N y = y t = 1, 2, T s = s = 1 N 1 y y R = 0 v = s 1 +, 2. Przykład. Miesięczna sprzedaż żelazek (szt.)

Bardziej szczegółowo

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe

Bardziej szczegółowo

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =. Prawdopodobieństwo i statystyka 3..00 r. Zadanie Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX 4 i EY 6. Rozważamy zmienną losową Z. X + Y Wtedy (A) EZ 0,

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie

Bardziej szczegółowo

Estymacja punktowa i przedziałowa

Estymacja punktowa i przedziałowa Temat: Estymacja punktowa i przedziałowa Kody znaków: żółte wyróżnienie nowe pojęcie czerwony uwaga kursywa komentarz 1 Zagadnienia 1. Statystyczny opis próby. Idea estymacji punktowej pojęcie estymatora

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji Stosowana Analiza Regresji Wykład VI... 16 Listopada 2011 1 / 24 Jest to rozkład zmiennej losowej rozkład chi-kwadrat Z = n i=1 X 2 i, gdzie X i N(µ i, 1) - niezależne. Oznaczenie: Z χ 2 (n, λ), gdzie:

Bardziej szczegółowo

3. Modele tendencji czasowej w prognozowaniu

3. Modele tendencji czasowej w prognozowaniu II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa

Bardziej szczegółowo

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji

Bardziej szczegółowo