Część IV Regresja 129

Transkrypt

1 Część IV Regresja 129

2

3 Rozdział 9 Modele regresji 91 Wstęp Modele regresji zajmują szczególne miejsce w statystyce Mają niebywałą ilość różnorodnych zastosowań Używa się ich powszechnie w chemii, biologii, ekonomii, doświadczalnictwie rolniczym i właściwie w każdej z nauk empirycznych Z konieczności ograniczymy się do paru najprostszych modeli i nasza dyskusja będzie bardzo pobieżna Regresja opisuje, mówiąc najogólniej, statystyczną zależność tak zwanej zmiennej objaśnianej od zmiennych objaśniających Przypuśćmy, że interesuje nas związek pomiędzy dwiema zmiennymi, które oznaczymy przez x i Y Mierzymy lub obserwujemy wielokrotnie wartości tych zmiennych Dane mają postać par (x i, Y i ) i możemy je zapisać w takiej tabelce: niezależna zależna przypadki \ zmienne (objaśniająca) (objaśniana) x Y 1 x 1 Y 1 2 x 2 Y 2 n x n Y n 131

4 132 ROZDZIAŁ 9 MODELE REGRESJI Na przykład, możemy badać zależność pomiędzy parami zmiennych (x, Y ) takiego typu: x Y wielkość produkcji zużycie energii wiek dziecka wzrost stężenie katalizatora wydajność procesu dawka nawozu plony Przypadki odpowiadają pomiarom lub obserwacjom zmiennej Y dla różnych wartości zmiennej x Poszczególne pomiary mogą dotyczyć różnych obiektów lub tego samego, ewoluującego procesu Przypuszczamy, że zmienna Y jest w zasadzie funkcją x, ale zaburzoną losowymi błędami Nasz model zależności będzie taki: Y = φ(x) + ε, gdzie ε jest błędem losowym Funkcję y = φ(x) nazywamy funkcją regresji Dla poszczególnych przypadków, czyli uzyskanych doświadczalnie punktów (x i, Y i ) mamy Y i = φ(x i ) + ε i, (i = 1,, n) Punkty doświadczalne (x i, Y i ) nie leżą dokładnie na krzywej regresji, ale znajdują się w pobliżu wykresu funkcji y = φ(x) Zakładamy, że wielkości x i są znane i nielosowe Odpowiada to sytuacji, gdy zmienna x jest pod kontrolą eksperymentatora i jest mierzona bezbłędnie Wartości zmiennej Y są losowymi obserwacjami (ze względu na wpływ losowego składnika ε) Funkcja regresji φ jest nieznana i będziemy ją estymować na podstawie danych Oznaczenie zmiennej niezależniej małą literą x, a zmiennej zależnej dużą literą Y ma nam stale przypominać, gdzie tkwi losowość Czytelnik powinien wiedzieć, że w literaturze ta konwencja nie jest powszechnie przyjęta Istnieją również innne modele regresji, w których zmienna objaśniająca też jest losowa, ale nie będziemy ich rozważać Metoda najmniejszych kwadratów Sprecyzowanie modelu regresji wymaga przyjęcia konkretnych założeń o funkcji φ oraz o błędach losowych ε i Założymy, że funkcja regresji ma znaną postać, natomiast zależy od nieznanego parametru β Napiszemy zatem φ(x) = φ(β, x) Zwrócmy uwagę, że wartość β dla poszczególnych przypadków i = 1,, n jest taka sama (zależność opisuje jedna funkcja, tylko błędy losowe są różne) W ten sposób powstają parametryczne modele regresji

5 91 WSTĘP 133 Przyjmiemy klasyczne założenie, że błędy są niezależne i mają jednakowy rozkład normalny Podsumujmy i uzupełnijmy opis modelu: (911) Y i = φ(β, x i ) + ε i, (i = 1,, n) gdzie i - numer przypadku, x i - wartość zmiennej objaśniającej (znana i nielosowa), ε i - błąd losowy (nieobserwowana zmienna losowa), Y i - obserwowana zmienna losowa objaśniana, β - nieznany parametr (nielosowy) 912 Założenie Spełniona jest zależność (911) Błędy ε 1,, ε n są niezależnymi zmiennymi losowymi o jednakowym rozkładzie normalnym N(0, σ 2 ) Schemat opisany powyżej można łatwo uogólnić uwzględniając wpływ wielu zmiennych objaśniających na zmienną objaśnianą Na przykład, wydajność procesu chemicznego może zależeć od stężenia katalizatora i od ciśnienia Na wysokość plonów może mieć wpływ intensywność nawożenia, poziom opadów i jeszcze inne czynniki (zmienne) Nie musimy zakładać, że x i są skalarami; mogą to być wektory Również parametr β może być wektorem Pozostaniemy natomiast przy założeniu, że wartości zmiennej objaśnianej Y i są skalarne Łączna gęstość prawdopodobieństwa obserwacji Y 1,, Y n jest następująca: f β,σ (y 1,, y n ) = ( ) [ n 1 exp 1 2πσ 2σ 2 ] n (y i φ(β, x i )) 2 W ten sposób określona jest rodzina rozkładów prawdopodobieństwa na przestrzeni próbkowej Ω = R n ; przestrzenią parametrów jest Θ = R p ]0, [, gdzie p jest wymiarem parametru β Ten opis modelu mieści się w ogólnym schemacie wprowadzonym w Rozdziale 2 i=1

6 134 ROZDZIAŁ 9 MODELE REGRESJI Ze wzoru na postać gęstości natychmiast wynika prosty wniosek 913 Stwierdzenie Jeśli spełnione jest Założenie 912, to estymator największej wiarogodności parametru β jest rozwiązaniem zadania minimalizacji RSS(β) = n i=1 (Y i φ(β, x i )) 2 min β Skrót RSS pochodzi od angielskiego zwrotu Residual Sum of Squares Będziemy nazywać RSS = min β RSS(β) resztową sumą kwadratów Estymator wprowadzony w Stwierdzeniu 913 nazywamy estymatorem najmniejszych kwadratów i w skrócie napiszemy ˆβ = LSE(β) Niezależnie od Założenia 912, LSE ma bardzo przekonującą interpretację Dopasowujemy krzywą do punktów doświadczalnych w ten sposób, żeby suma kwadratów odchyłek punktów od krzywej była minimalna Przy tym odchyłki mierzymy wzdłuż osi Y Metoda najmniejszych kwadratów sprowadza się do metody największej wiarogodności przy założeniu o normalnym rozkładzie błędów, ale ma samodzielny sens i może być stosowana bez tego założenia 92 Model liniowy Ograniczymy się do najprostszej, liniowej postaci funkcji regresji Mimo, że założenie o liniowości wydaje się bardzo ograniczające, rozmaitość i zakres zastowań modeli liniowych są zaskakująco duże Prosta regresja liniowa Rozpatrzymy na początek model z jedną (skalarną) zmienną objaśniającą Model liniowy z wyrazem wolnym ma postać Y i = β 0 + β 1 x i + ε i, (i = 1,, n) Wykresem funkcji regresji jest linia prosta y = β 0 + β 1 x Wzory przybierają prostą i przejrzystą formę Estymatory najmniejszych kwadratów parametrów β 0 i β 1 są następujące: (921) ˆβ1 = (xi x)(y i Ȳ ) (xi x) 2, ˆβ0 = Ȳ ˆβ 1 x, gdzie x = 1 n xi, Ȳ = 1 n Yi

7 92 MODEL LINIOWY 135 Istotnie, Rozwiązujemy układ równań: RSS(β) = 1 RSS(β) = 2 β 0 1 RSS(β) = 2 β 1 n (Y i β 0 β 1 x i ) 2 i=1 n (β 0 + β 1 x i Y i ) = 0, i=1 n (β 0 + β 1 x i Y i )x i = 0 i=1 Rachunki są elementarne i łatwe (Zadanie 92) Niech Ŷi = ˆβ 0 + ˆβ 1 x i, gdzie ˆβ 0 i ˆβ 1 są LSE danymi wzorem (921) Punkty (x i, Ŷi) leżą na dopasowanej (wyestymowanej) prostej regresji Mówimy, że Ŷi są przewidywanymi wartościami zmiennej objaśnianej Różnice ˆε i = Y i Ŷi pomiędzy wartościami obserwowanymi i przewidywanymi nazywamy resztami albo residuami 922 Przykład (Ilość produktu i stężenie katalizatora) Badamy zależność ilości produktu w pewnej reakcji chemicznej (zmienna Y ) od stężenia katalizatora (zmienna x) Przeprowadzono doświadczenie 15 razy, wybierając różne stężenia katalizatora i otrzymano takie wyniki: i x i Y i Zakładamy, że ilość produktu zależy w sposób liniowy od stężenia katalizatora (w interesującym nas zakresie wartości obu zmiennych) Odchylenia od dokładnej zależności liniowej traktujemy jako błędy losowe Mówiąc porządniej, decydujemy się na opis zależności Y od x przy pomocy modelu prostej regresji liniowej Estymowane wartości współczynników są, dla naszych danych, równe ˆβ 0 = 761 i ˆβ 1 = 375 Przyjmujemy więc, że funkcja Ŷ = x opisuje w przybliżeniu interesującą nas zależność Obliczyliśmy to przy pomocy programiku napisanego w języku R, który wygląda tak: Punkty doświadczalne wraz z dopasowaną prostą regresji pokazuje następujący rysunek

8 136 ROZDZIAŁ 9 MODELE REGRESJI 80 Y 60 O (x,y) (x,^y) 40 Regresja Residua x Rysunek 91: Dane i regresja liniowa w Przykładzie 922

9 92 MODEL LINIOWY 137 Regresja liniowa wieloraka Rozpatrzymy teraz model z wieloma zmiennymi objaśniającymi Ich liczbę oznaczmy przez r Zmienna objasniana jest jedna, skalarna, tak jak poprzednio Wskaźnik i = 1,, n będzie, tak jak dotąd, numerował kolejne przypadki lub obiekty Zmienne opisujące i-ty obiekt oznaczymy przez x i1,, x ir i Y i Model regresji liniowej z wyrazem wolnym przybiera postać r Y i = β 0 + β j x ij + ε i, (i = 1,, n) j=1 Prosty chwyt pozwala włączyć wyraz wolny do funkcji liniowej Przyjmijmy umownie, że x i0 = 1 Zmienne objaśniające dla i-tego obiektu ustawimy w wektor wierszowy, dołączając jedynkę: x i = (1, x i1,, x ip ) Można teraz zapisać bardziej zwięźle model w postaci wektorowej: r Y i = β j x ij + ε i = x i β, (i = 1,, n), j=0 gdzie β = (β 0, β 1,, β r ) W postaci macierzowej to można przepisać tak: β Y 1 1 x 11 x 0 1r = β 1 ε 1 + Y n 1 x n1 x nr ε n Będziemy konsekwentnie stosowali notację wektorowo-macierzową Wektory i macierze w powyższym wzorze oznaczymy pojedynczymi literami Y, X, β i ε Przyjmijmy, dla jednolitości oznaczeń, że symbol p oznaczać będzie wymiar wektora β Dla regresji liniowej z r zmiennymi objaśniającymi i wyrazem wolnym mamy zatem Model liniowy przybiera zwięzłą postać: p = r + 1 β r Y = X β + ε n 1 n p p 1 n 1 Pod spodem napisaliśmy wymiary poszczególnych obiektów Znana i nielosowa macierz X jest zwana macierzą planu, β jest wektorem nieznanych parametrów, Y jest wektorem obserwacji, ε jest losowym wektorem błędów Uwaga Zauważmy, że do macierzy X dołączyliśmy zerową kolumnę złożoną z samych jedynek W większości zastosowań jest to naturalne (ta operacja jest wykonywana w R domyślnie ) Czasami trzeba rozważyć model regresji bez wyrazu wolnego Należy wtedy pamiętać, że p = r, a nie p = r + 1 Przyjmijmy umowę, że liczba kolumn macierzy X i wymiar wektora β będą zawsze równe p W ogólnych, teoretycznych rozważaniach, będziemy pisać β = (β 1,, β p ), bo wygodniej numerować współrzędne wektora od 1, nie od 0 Wzory dla regresji z wyrazem wolnym wymagają oczywistej modyfikacji

10 138 ROZDZIAŁ 9 MODELE REGRESJI W dalszym ciągu ograniczymy sie do rozważania następującej sytuacji 923 Założenie Mamy p < n i macierz X jest pełnego rzędu, to znaczy rz(x) = p Sens powyższego założenia jest jasny Wydaje się, że do wyestymowania p nieznanych parametrów, potrzeba więcej niż p obserwacji 1 Ważna część teorii wymaga wprowadzonego w Założeniu 912 warunku: ε 1,, ε n są niezależnymi zmiennymi losowymi o jednakowym rozkładzie N(0, σ 2 ) Zreasumujmy nasze rozważania w następującej postaci 924 Założenie Model jest opisany równaniem Y = Xβ + ε, gdzie ε N(0, σ 2 I) Część teorii nie wymaga założenia o normalności Wystarczy, że zmienne losowe ε 1,, ε n spełniają warunki Eε i = 0 i Varε i = σ 2 dla i = 1,, n oraz Cov(ε i, ε j ) = 0 dla i j Sformułujmy to w postaci następującego, słabszego założenia (w tym rozdziale będziemy trochę mniej pedantyczni niz poprzednio i odstąpimy od jawnego zaznaczania zależności P i E od nieznanego rozkładu) 925 Założenie Model jest opisany równaniem Y = Xβ + ε, gdzie Eε = 0 i VARε σ 2 I Poniższy przykład pokazuje, że założenie o liniowości funkcji regresji jest mniej ograniczające, niż się wydaje 926 Przykład (Regresja wielomianowa) Rozpatrzmy model z pojedynczą zmienną objaśniającą, w którym funkcja regresji jest wielomianem r-tego stopnia: r Y i = β 0 + β j x j i + ε i, j=1 (i = 1,, n) To jest model liniowy, w którym i-ty wiersz macierzy planu jest równy x i = (1, x i,, x j i,, xr i ) (i = 1,, n) 1 W ostatnich latach coraz więcej uwagi poświęca się w statystyce modelom, w których p > n Ale to już inna historia, wykraczająca poza zakres naszych rozważań

11 92 MODEL LINIOWY 139 Estymacja w modelu liniowym Pracujemy w ogólnym modelu liniowym Y = Xβ + ε Przy Założeniach 925 i 923 można napisać jawne, macierzowe wzory na estymator najmniejszych kwadratów, LSE(β) Rozwiązujemy zadanie minimalizacji RSS(β) = n i=1 (Y i x i β) 2 = (Xβ Y ) (Xβ Y ) = min β Obliczając gradient lewej strony względem β dostajemy X (Xβ Y ) = 0, czyli X Xβ = X Y Jest to tak zwany układ równań normalnych w postaci macierzowej Założenie 923 gwarantuje, że macierz X X jest odwracalna i mamy prosty wzór: LSE(β) = ˆβ = (X X) 1 X Y Ponieważ EY = Xβ, więc E ˆβ = (X X) 1 X EY = β LSE(β) jest estymatorem nieobciążonym Policzymy macierz kowariancji LSE Mamy Istotnie, VAR( ˆβ) = (Cov(β j, β k ); j, k = 1,, p) = σ 2 (X X) 1 VAR( ˆβ) = E( ˆβ β)( ˆβ β) = (X X) 1 X E(Y Xβ)(Y Xβ) X(X X) 1 = (X X) 1 X (σ 2 I)X(X X) 1 = σ 2 (X X) 1 W Rozdziale 3 wprowadziliśmy pojęcie estymatora nieobciążonego o minimalnej wariancji Obecnie mamy do czynienia z wektorowym parametrem β = (β 1,, β p ) Zajmiemy się estymacją liniowej funkcji tego parametru, to znaczy wyrażenia postaci g β = p g j β j, j=1 sposób przechodzimy do jednowymiarowego zagadnienia estymacji i możemy odwołać się do znajomych pojęć Z definicji, LSE(g β) = ĝ = g ˆβ jest estymatorem najmniejszych kwadratów funkcji g β (po prostu, wstawiamy LSE(β) w miejsce nieznanego β) Okazuje się, że LSE mają najmniejszą wariancję pośród estymatorów liniowych i nieobciążonych Mówi się, że ˆβ jest najlepszym liniowym nieobciążonym estymatorem β, w skrócie BLUE (Best Linear Unbiased Estimator) Taka jest treść klasycznego twierdzenia, które teraz sformułujemy dokładniej

12 140 ROZDZIAŁ 9 MODELE REGRESJI 927 TWIERDZENIE (Gaussa Markowa) Przyjmijmy Założenie 925 Rozważmy dowolny nieobciążony i liniowy estymator funkcji g β, to znaczy estymator postaci g = c Y taki, że E g = g β Jeżeli ĝ = LSE(g β), to Varĝ Var g Dowód Ponieważ E g = c Xβ = g β dla każdego β, więc c X = g Oczywiście, Var g = σ 2 c c Dowód będzie zakończony gdy pokażemy, że Możemy tę nierówność przepisać w postaci 0 c c g (X X) 1 g 0 c c c X(X X) 1 X c = c (I H)c, gdzie H = X(X X) 1 X Wystarczy teraz zauważyć, że macierz I H jest nieujemnie określona Jest tak, bo jest ona symetryczna i idempotentna Jeśli przyjmiemy silniejsze Założenie 924 zamiast 925 to można pokazać, że LSE jest nie tylko BLUE (najlepszy wśród liniowych estymatorów nieobciążonych) ale także BUE (najlepszy wśród wszystkich estymatorów nieobciążonych) Przyjmiemy ten fakt bez dowodu Geometria ENK W dalszym ciągu rozważamy ogólny model Y = Xβ+ε Będziemy w istotny sposób korzystać z Założeń 924 i 923 Współrzędne wektorów p-wymiarowych numerujemy od 1 do p Zauważmy, że Ŷi = x i ˆβ jest współrzędną Y -ową punktu odpowiadającego wektorowi x i i leżącemu na wykresie dopasowanej (estymowanej metodą najmniejszych Kwadratów) funkcji regresji Odpowiednią resztą jest ˆε i = Y i Ŷi Wektorowo napiszemy Ŷ = X ˆβ = (Ŷ1,, Ŷn) i ˆε = Y Ŷ Mamy Ŷ = X(X X) 1 X Y = HY, gdzie H jest macierzą rzutu ortogonalnego (w przestrzeni R n ) na p-wymiarową podprzestrzeń liniową R(X) generowaną przez kolumny macierzy X (czyli obraz przekształcenia liniowego o macierzy X) Wystarczy sprawdzić, że H jest macierzą symetryczną (H = H) i idempotentną (H 2 = HH = H) Rzut na dopełnienie ortogonalne R(X) ma macierz I H Geometryczna interpretacja metody najmniejszych kwadratów staje się przejrzysta, jeśli przejdziemy do takiego ortogonalnego układu współrzędnych, którego pierwsze p wersorów jest bazą podprzestrzeni R(X) a następne n p wersorów jest bazą R(X) Taki układ można napisać w jawnej postaci stosując procedurę ortogonalizacji Hilberta-Schmidta do bazy (nieortogonalnej) przestrzeni R n, złożonej z p kolumn macierzy X oraz n p innych wektorów Pamiętajmy, że macierz X o wymiarach n p jest pełnego rzędu p Potrzebny fakt sformułujemy w następującej postaci 2 2 Dla naszych celów istotne będą tylko współrzędne kolumn X w nowej bazie

13 92 MODEL LINIOWY Stwierdzenie Istnieje macierz ortogonalna Q o wymiarze n n oraz macierz górna trójkątna R o wymiarze p p takie, że R X = Q O W tym wzorze O jest zerową macierzą o wymiarze (n p) p Kolumny macierzy Q tworzą ortonormalną bazę R(X) Element r jk macierzy R jest iloczynem skalarnym k-tej kolumny X i j-tej kolumny Q Tak więc R zawiera współrzędne kolumn X w nowej bazie Fakt, że macierz R jest trójkątna, r jk = 0 dla k < j oznacza, że początkowe k kolumn Q jest bazą w przestrzeni rozpiętej przez k pierwszych kolumn X Współrzędne wektora Y w nowej bazie oznaczymy Y = Q Y Rzut na przestrzeń R(X) ma w nowej bazie macierz współrzędnych H = Q HQ: Y Y = QY Ŷ = HY = HQY Ŷ = Q HQY Zauważmy, że R H = Q X(X X) 1 X Q = ( R R ) 1 O I O =, O O ( ) R O gdzie I jest macierzą jednostkową wymiaru p p To znaczy, że w nowym układzie współrzędnych, rzutowanie wektora Y na podprzestrzeń R(X) polega na zastąpieniu n p ostatnich współrzędnych zerami: jeśli Y = (Y 1,, Y p,, Y n ) to Ŷ = (Y 1,, Y p, 0,, 0) Pamiętajmy przy tym, że Y = QY i Ŷ = QŶ Wzór Y = Xβ + ε w nowym układzie współrzędnych przybiera postać R Y = β + ε, O gdzie ε = Qε Następujące proste spostrzeżenie odgrywa w dalszych rozważaniach zasadniczą rolę Przy Założeniu 924, wektor losowy ε ma łączny rozkład normalny N(0, σ 2 I) Geometryczne rozważania prowadzą do bardzo prostego dowodu następującej ogólnej wersji Twierdzenia Fishera

14 142 ROZDZIAŁ 9 MODELE REGRESJI 929 TWIERDZENIE (Fishera) Jeśli spełnione jest Założenie 924 i ˆβ = LSE(β) to ˆβ jest zmienną losową niezależną od Y Ŷ Ponadto mamy Y Ŷ 2 χ 2 (n p) i ˆβ N(β, σ 2 (X X) 1 ) Dowód Ponieważ Q jest macierzą ortogonalną, więc jest izometrią, stąd Y Ŷ 2 = Q Y Q Ŷ 2 = Q (I H)QY 2 = (I H)Y 2 = ε 2 p ε 2 n χ 2 (n p) Z kolei Ŷ = QŶ = QHY = Q(ε 1,, ε p, 0,, 0) Stąd widać, że Ŷ jest zmienną niezależną od Y Ŷ Oczywiście, ˆβ jest funkcją Ŷ, a więc też jest zmienną niezależną od Y Ŷ Wreszcie, ˆβ jest to liniową funkcją wektora Y, a więc ma rozkład normalny Wiemy, że E ˆβ = β i VAR( ˆβ) = σ 2 (X X) 1, co kończy dowód 9210 Wniosek Nieobciążonym estymatorem wariancji błędu, σ 2, jest S 2 = Y Ŷ 2 n p = RSS n p Estymatory najmniejszych kwadratów ˆβ j można uzupełnić konstrukcją przedziałów ufności 9211 Wniosek Przedział ufności dla parametru β j jest określony wzorem [ ˆβj Std j, ˆβ j + Std j ], gdzie S = S 2, t = t 1 α/2 (n p) jest kwantylem rozkładu t-studenta z n p stopniami swobody, zaś d j = (X X) 1 jj (wskażnik jj odpowiada j-temu elementowi na przekątnej macierzy) Żeby ten wniosek uzasadnić, wystarczy zauważyć, że Varβ j = σ 2 d j, a zatem na mocy twierdzenia Fishera ˆβ j β j d j S t(n p),

15 92 MODEL LINIOWY 143 Predykcja Po co właściwie dopasowujemy funkcję do punktów doświadczalnych? Rzecz jasna, jest przyjemnie mieć prosty, liniowy model opisujący zależność Ostatecznym sprawdzianem wartości poznawczej modelu jest możliwość przewidywania wyników doświadczeń W przypadku modelu regresji, chodzi o przewidywanie wartości zmiennej Y dla danej wartości x Tak jak dotąd, mamy dane punkty (x i, Y i ) dla i = 1,, n Dla ustalenia uwagi umówmy się, że wracamy do modelu regresji liniowej z wyrazem wolnym i do oznaczenia β = (β 0, β 1, β r ) na wektor współczynników, gdzie p = r + 1 Rozważamy nowy wektor zmiennych objaśniających, który oznaczymy x = (1, x 1,, x r) i uważamy za znany Jeśli przeprowadzimy nowe doświadczenie, to pojawi się odpowiednia wartość Y Naszym zadaniem jest predykcja nieznanej wartości Y przed dokonaniem tego dodatkowego doświadczenia Nasz model przewiduje, że Y = x β + ε, gdzie współczynniki β są te same, co we wzorze Y i = x i β + ε i, zaś ε N(0, σ 2 ) jest błędem losowym niezależnym od poprzednich błędów ε i Musimy zmierzyć się z dwiema trudnościami Po pierwsze, nie znamy współczynników β Po drugie, musimy się liczyć z nowym, losowym odchyleniem ε od prostej regresji Niemniej, nasuwa się dość oczywiste rozwiązanie Za przewidywany wynik doświadczenia możemy przyjąć Ŷ = x ˆβ, gdzie ˆβ jest estymatorem obliczonym na podstawie poprzednich punktów doświadczalnych (x i, Y i ) Spróbujemy teraz oszacować dokładność predykcji Mamy EŶ = EY = x β i możemy powiedzieć, że predyktor Ŷ jest nieobciążony 3 Obliczmy jego wariancję: VarŶ = σ 2 x (X X) 1 x Łatwo stąd wywnioskować ważny wzór na błąd średniokwadratowy predykcji: E(Ŷ Y ) 2 = σ 2 [ 1 + x (X X) 1 x ] Dodatkowa jedynka w tym wzorze pochodzi stąd, że musimy uwzględnić wpływ błędu ε, czyli losowe odchylenie punktu Y od funkcji regresji Bardzo podobnie jak we Wniosku 9211 konstruuje się przedziały ufności dla wartości funkcji regresji i predykcji 9212 Wniosek Przedział ufności dla wartości funkcji regresji w punkcie x, czyli dla β x jest określony wzorem [x ˆβ Std, x ˆβ ] + Std, gdzie d = x (X X) 1 x i t = t 1 α/2 (n p) 3 Zauważmy, że przewidywana wielkośc Y jest zmienną losową, a zatem nieobciążoność predyktora wymaga osobnej definicji

16 144 ROZDZIAŁ 9 MODELE REGRESJI Przejdźmy do przedziałów ufności dla predykcji Ustalamy poziom ufności 1 α i chcemy skonstruować takie statystyki Y i Y, żeby, dla dowolnych β i σ, P(Y Y Y ) = 1 α W powyższym wzorze występuje rozkład prawdopodobieństwa na przestrzeni próbkowej R n+1 Jest to łączny rozkład zmiennych losowych Y 1,, Y n oraz Y Statystyki Y i Y są to funkcje obserwacji, czyli zmiennych losowych Y i dla i = 1,, n Poza tym mogą zależeć od znanych liczb x i oraz x, ale nie mogą zależeć od Y Przedział [Y, Y ] będziemy dla uproszczenia nazywać przedziałem ufności dla predykcji, ale nie jest to przedział ufności w rozumieniu Definicji 601 Wartość, którą staramy się przewidzieć, Y, nie jest funkcją nieznanego parametru, tylko nieobserwowaną zmienną losową 9213 Wniosek Przedział ufności dla predykcji Y jest określony wzorem [x ˆβ StD, x ˆβ + StD ], gdzie D = 1 + x (X X) 1 x i t = t 1 α/2 (n p) Uzasadnienie Wniosków 9212 i 9213 jest analogiczne jak Wniosku 9211 Wystarczy powołać się na twierdzenie Fishera i wykorzystać wzory VarŶ = σ 2 d = σ 2 x (X X) 1 x i E(Ŷ Y ) 2 = σ 2 D = σ 2 [ 1 + x (X X) 1 x ] W szczególnym przypadku prostej regresji liniowej z wyrazem wolnym wzory na przedziały ufności mają wyjątkowo intuicyjną inerpretację i warto je przytoczyć Wprowadźmy wygodne oznaczenie SS x = (x i x) 2 Mamy d = 1 n + (x x) 2 SS x, D = 1 + d = n + (x x) 2 SS x To można sprawdzić wykorzystując ogólne wzory (trzeba obliczyć macierz odwrotną (X X) 1 wymiaru 2 2) Można też obliczyć bezpośrednio VarŶ i Var(Y Ŷ ) w rozważanym szczególnym przypadku (Zadanie 95) Tak czy inaczej, rachunki są łatwe Zwrócmy uwagę, że liczba stopni swobody resztowej sumy kwadratów RSS jest równa n 2, ze względu na obecność wyrazu wolnego Zatem t = t 1 α/2 (n 2) Jeśli prawe strony wzorów na przedziały ufności, β 0 + β 1 x = ˆβ 0 + ˆβ 1 x ± tsd, Y = ˆβ 0 + ˆβ 1 x ± tŝd, potraktujemy jako funkcje x, to otrzymamy krzywe wyznaczające pasy ufności odpowiednio, dla funkcji regresji i predykcji

17 93 TESTOWANIE HIPOTEZ Przykład (Produkt i katalizator, kontynuacja) Wróćmy do Przykładu 9214 Przypomnijmy, że na podstawie n = 15 punktów doświadczalnych obliczyliśmy estymatory współczynników równe ˆβ 0 = 761 i ˆβ 1 = 375 Dopasowana prosta regresji jest więc taka: Ŷ = x Przypuśćmy teraz, że chcemy przewidzieć, jaką uzyskamy ilość produktu w nowym doświadczeniu, przy stężeniu katalizatora x = 105 Oczywiście, 2439 Ŷ = = 4698 Szerokość przedziału ufności, równa 2439, została obliczona według wzoru t 0975 (13) RSS/ /15 + (105 x)2 /SS x = 2439, gdzie x = 1227, SS x = i RSS = Na poziomie ufności 095 możemy twierdzić, że doświadczenie da wynik 4698 ± 2439, czyli Y zmieści się w przedziale [2258, 7137] Zatrzymajmy się jeszcze nad interpretacją przedzia łu ufności dla funkcji regresji, β 0 + β Ten przedział w naszym przykładzie przybiera postać 4698 ± 646, czyli [4052, 5343] Powiedzmy, że zdecydujemy się uruchomić produkcję na większą skalę i powtarzać wielokrotnie reakcję przy tym samym roboczym stężeniu x = 105 Wtedy średnia ilość otrzymywanego produktu będzie równa β β 1 Ponieważ parametry zależności β 0 i β 1 są nieznane (wartości ˆβ 0 = 761 i ˆβ 1 = 375 są tylko estymatorami!) to średnią ilość produktu możemy oszacować tylko z dokładnością ±646 Przedziały ufności dla Y, dla wartości funkcji regresji w punkcie x = 105 oraz pasy ufności widać na następującym rysunku: 93 Testowanie hipotez Najprostsze i najważniejsze zagadnienie testowania hipotez w modelu liniowym zmierza do odpowiedzi na pytanie: czy wszystkie zmienne objaśniające mają istotny wpływ na zmienną objaśnianą? Czy może pewien podzbiór zmiennych x, można pominąć? Formalnie, niech β = (β 1,, β q, β q+1,, β p ) dla q < p Weryfikujemy hipotezę zerową H 0 : (β q+1,, β p ) = (0,, 0)

18 146 ROZDZIAŁ 9 MODELE REGRESJI Przedzialy dla regresji Przedzialy dla predykcji Y O Probka uczaca Predykcja x Rysunek 92: Przedziały ufności i pasy ufności

19 93 TESTOWANIE HIPOTEZ 147 przeciwko alternatywie H 1 : (β q+1,, β p ) (0,, 0) Niech X 0 oznacza macierz planu X z pominiętymi kolumnami q + 1,, p Jest to więc macierz n q, która odpowiada modelowi regresji zbudowanemu przy założeniu prawdziwości H 0 Zauważmy, że geometryczne rozważania poprzedniego punktu przenoszą sie bez zmian, jesli zastąpimy X przez X 0 Co więcej, jeśli rozpatrzymy dekompozycję macierzy X podaną w Stwierdzeniu 928 to automatycznie otrzymujemy dekompozycję X 0 Wystarczy wybrać za R 0 podmacierz trójkątną o wymiarach q q stojącą w lewym górnym rogu R Macierz Q pozostaje ta sama, czyli możemy pracować w tym samym wygodnym ortogonalnym układzie współrzędnych Niech H 0 oznacza rzut na R(X 0 ) R(X) Mamy H 0 = H 0 H: rzut rzutu jest rzutem Najlepiej to widać w nowym układzie współrzędnych: I q O O I q O O H 0 = O O p q O, H = O I p q O O O O n p O O O n p W tym wzorze indeksy oznaczają wymiary kwadratowych bloków Rzuty na R(X) i R(X 0 ) opisują wzory Wektory Y = (Y 1,, Y q, Y q+1,, Y p, Y p+1,, Y n ), Ŷ = (Y 1,, Y q, Y q+1,, Y p, 0,, 0), Ŷ 0 = (Y 1,, Y q, 0,, 0, 0,, 0) Ŷ 0, Ŷ Ŷ0, Y Ŷ są wzajemnie prostopadłe Z twierdzenia Pitagorasa wynikają tożsamości Ŷ 2 + Y Ŷ 2 = Y 2 oraz Wprowadźmy oznaczenia Ŷ Ŷ0 2 + Y Ŷ 2 = Y Ŷ0 2 RSS = Y Ŷ 2, RSS 0 = Y Ŷ0 2 Wiemy, że RSS = ε 2 p ε 2 n (przy założeniu, że model jest poprawny) Jeśli że H 0 jest prawdziwa (czyli model w istocie zawiera tylko q zmiennych x) to mamy analogicznie RSS 0 = ε 2 q ε 2 p + + ε 2 n Stąd wyciągamy wniosek, pozwalający na skonstruowanie testu H 0 :

20 148 ROZDZIAŁ 9 MODELE REGRESJI 931 Wniosek Przy prawdziwości H 0, statystyka F = (RSS 0 RSS)/(p q) RSS/(n p) ma rozkład F(p q, n p) (rozkład Fishera-Snedecora z p q stopniami swobody w liczniku i p stopniami swobody w mianowniku) Warto zauważyć, że ten test jest niczym innym jak testem ilorazu wiarogodności dla hipotez złożonych W istocie, wiarogodność jest dana wzorem ( ) n ( 1 L(β, σ) = exp 1 ) (Yi x 2πσ 2σ 2 i β) 2 ( σ n exp 1 ) Y Xβ 2, 2σ2 więc l(β, σ) = n log σ 1 2σ 2 Y Xβ 2 + const Ponieważ MLE(σ) = ˆσ = RSS/n, więc l( ˆβ, ˆσ) = n log RSS + const Analogicznie, dla mniejszego modelu otrzymujemy estymator z ograniczeniami MLE 0 (σ) = ˆσ 0 = RSS 0 /n W rezultacie, l( ˆβ, ˆσ) l( ˆβ 0, ˆσ 0 ) = n log RSS 0 RSS Statystyka F jest rosnącą funkcją obliczonej powyżej statystyki ilorazu wiarogodności Uwaga (Ogólne hipotezy liniowe) Skoncentrowaliśmy się na zagadnieniu testowania hipotezy H 0 : (β q+1,, β p ) = (0,, 0) po pierwsze dlatego, że to jest ważne w zastosowaniach: chcemy wyeliminować niepotrzebne zmienne i uprościć model Po drugie, macierz Q w Stwierdzeniu 928 daje ortogonalny układ współrzędnych idealnie pasujący do tej postaci hipotez Oczywiście, należy wpierw ustawić zmienne objaśniające w odpowiedniej kolejności, zaczynając numerację od tych, które wydają się ważniejsze a kończąc na tych, które podejrzewamy o bycie zbędnymi Co więcej, cała teoria bez zmian stosuje się do ogólnych hipotez liniowych postaci H 0 : Cβ = 0, gdzie C jest macierzą (p q) p pełnego rzędu Taka hipoteza stwierdza, że β należy do podprzestrzeni liniowej wymiaru q Wektor Ŷ0 jest rzutem ortogonalnym na {y : y = Xβ, Cβ = 0} i definiujemy, tak jak poprzednio, RSS 0 = Y Ŷ0 2 Wniosek 931 pozostaje prawdziwy

21 93 TESTOWANIE HIPOTEZ 149 Uwaga (Test t i test F) Rozumowanie uzasadniające Wniosek 9211 można wykorzystać do konstrukcji testu hipotezy H 0 : β j = 0 Używamy statystyki testowej Studenta, T = ˆβ j d j S, d j = (X X) 1 jj i odrzucamy H 0 jeśli T > t Jeśli H 0 jest prawdziwa, to T t(n p), więc próg odrzuceń jest odpowiednim kwantylem rozkładu t-studenta, t = t 1 α/2 (n p) (zamiast ustalać próg, możemy obliczać P -wartości testu) Z drugiej strony, H 0 : β p = 0 jest szczególnym przypadkiem hipotezy rozpatrywanej we Wniosku 931 i może być użyty test F Jeśli H 0 jest prawdziwa, to F F(1, n p) Zamiast p możemy wziąć dowolne j, zmieniając porządek współczynników Oba testy, t i F, są równoważne, bo T 2 = F (Zadanie 98) Test t ma tę przewagę, że nadaje się do testowania H 0 przeciw alternatywie jednostronnej, powiedzmy H 1 : β j > 0, podczas gdy F jest dostosowany do alternatywy dwustronnej H 1 : β j 0 Analiza wariancji Rozważmy zagadnienie porównywania kilku próbek Chodzi o sprawdzenie, czy wszystkie pochodzą z tej samej populacji, czy też z populacji o różnych średnich Najprostszy model zakłada, że mamy p niezależnych próbek z rozkładów normalnych: próbka 1: Y 11,, Y 1n1 N(µ 1, σ 2 ); próbka j: Y j1,, Y jnj N(µ j, σ 2 ); próbka p: Y p1,, Y pnp N(µ p, σ 2 ) Zakłada się przy tym, że w poszczególnych próbkach wariancja σ 2 jest jednakowa, natomiast wartości średnie µ j mogą być różne Jest to szczególny przypadek modelu liniowego W rzeczy samej, napiszmy Y ji = µ 1 + α j + ε ji, gdzie α j = µ j µ 1 dla j = 1,, p oraz ε ji = Y ji µ j Oczywiście, ε ji N(0, σ 2 ) są niezależnymi zmiennymi losowymi Wprowadźmy sztuczne, nieme zmienne objaśniające x 1,, x p Przyjmiemy umownie, że dla obserwacji z j-tej próbki mamy x 1 = 1, x j = 1, zaś wszystkie inne zmienne x-owe są zerami Obrazuje to taka tabelka:

22 150 ROZDZIAŁ 9 MODELE REGRESJI próbka \ zmienne x 1 x 2 x p p Niech Y oznacza długi wektor o n = p j=1 n j współrzędnych, powstały przez ustawienie kolejnych próbek jedna nad drugą Podobnie określamy wektor błędów ε Nieme zmienne umieścimy w macierzy X Model możemy napisać w postaci macierzowej tak: Y ε 11 Y 1n ε 1n1 Y ε 21 µ 1 Y 2n2 = α 2 + ε 2n2, a w skrócie Y p1 Y pnp α p Y = X β + ε n 1 n p p 1 n 1 gdzie β = (µ 1, α 2,, α p ) Zauważmy, że w tym modelu µ 1 odgrywa rolę wyrazu wolnego Można sobie wyobrazić, że średnią µ 1 traktujemy jako poziom bazowy zaś pozostałe parametry uznajemy za odchylenia od poziomu bazowego Hipoteza H 0 : α 2 = = α p = 0 sprowadza się do stwierdzenia, że wszystkie próbki pochodzą z tego samego rozkładu Alternatywa jest bardzo ogólna: H 1 : nie jest prawdą, że α 2 = = α p = 0 (czyli nie wszystkie średnie µ j są jednakowe) Statystyka testowa F wyprowadzona w ogólnej sytuacji we Wniosku 931 przybiera dla modelu wielu próbek szczególnie prostą postać Niech ε p1 ε pnp Ȳ j = 1 n j n j i=1 Y ji

23 93 TESTOWANIE HIPOTEZ 151 będzie średnią w j-tej grupie, zaś Ȳ = 1 n n p j Y ji = 1 n j=1 i=1 p n j Ȳ j j=1 oznacza średnią globalną, obliczoną z połączonych próbek Wprowadźmy oznaczenia TSS = n p j (Y ji Ȳ )2, BSS = j=1 i=1 p n j (Ȳj Ȳ )2, j=1 WSS = n p j (Y ji Ȳj) 2 j=1 i=1 Te skróty są związane ze specyfiką modelu kilku próbek: TSS jest całkowitą sumą kwadratów (ang Total Sum of Squares ) BSS jest sumą kwadratów pomiędzy próbkami (ang Between ), zaś WSS jest sumą kwadratów wewnątrz próbek (ang Within ) Rozpatrujemy tylko szczególny przypadek ogólnego modelu liniowego Łatwo zauważyć związek naszych nowych oznaczeń z używanymi poprzednio Mamy Stąd Ŷ 0 = (Ȳ }, {{, Ȳ ), } n Ŷ = (Ȳ1,, }{{ Ȳ1,, } Ȳp,, Ȳp) }{{} n 1 n p TSS = Y Ŷ0 2, BSS = Ŷ Ŷ0 2, WSS = RSS = Y Ŷ 2 Otrzymujemy podstawową tożsamość analizy wariancji: TSS = BSS + WSS Wiemy również, że WSS χ 2 (n p) Przy założeniu prawdziwości H 0 mamy BSS χ 2 (p 1) Statystyka testowa przyjmuje postać F = BSS/(p 1) WSS/(n p) Hipotezę H 0 odrzucamy, jeśli F > F 1 α (p 1, n p) W praktyce, zamiast ustalać próg odrzuceń, podaje się P -wartość testu Intuicyjny sens statystyki F wydaje się przy tym zrozumiały niezależnie od formalnej konstrukcji testu Zwięzłym podsumowaniem obliczeń jest tak zwan tabelka analizy wariancji (ANOVA) dla modelu p próbek:

24 152 ROZDZIAŁ 9 MODELE REGRESJI Źródło zmienności Sumy kwadratów Stopnie swobody Średnie kwadraty Statystyka między próbkami BSS p 1 BSS/(p 1) F wewnątrz próbek WSS n p WSS/(n p) razem TSS n 1 TSS/(n 1) Uwaga Opisany powyżej sposób zakodowania modelu kilku próbek nie jest najbardziej naturalny Możnaby zdefiniować nieme zmienne objaśniające x 1,, x p inaczej, według takiej tabelki: próbka \ zmienne x 1 x 2 x p p Odpowiada to przyjęciu, że dla obserwacji z j-tej próbki mamy, x j = 1 i wszystkie inne zmienne x-owe są zerami Wtedy w roli wektora współczynników mielibyśmy po prostu wektor średnich w próbkach: β = (µ 1,, µ p ) Interesującą nas hipotezę napisalibyśmy w postaci H 0 : µ 1 = = µ p Nietrudno zauważyć, że oba sposoby kodowania są całkowicie równoważne 932 Przykład Rozważmy trzech klientów towarzystwa ubezpieczeniowego Powiedzmy, że są to firmy wynajmujące samochody Wyobraźmy sobie, że roczne sumy szkód są takie: Lata: średnie indywidualne 1 firma firma firma Średnia globalna jest równa (7/18) 13 + (5/18) 10 + (6/18) 14 = 125 Chcemy sprawdzić, czy wysokości szkód w trzech firmach są istotnie różne Całkiem heurystycznie, możemy wizualnie porównać nasze trzy próbki przy pomocy wykresów pudełkowych Rezultat widoczny jest na rysunku Wydaje się, że różnice pomiędzy rozkładami szkód (średnimi) dla trzech firm są dość wyraźne Formalny test prowadzi do przeciwnego wniosku Testujemy hipotezę zerową: wartości oczekiwane wszystkich trzech próbek są równe Oto tabelka analizy wariancji:

25 93 TESTOWANIE HIPOTEZ Rysunek 93: Wykresy pudełkowe dla 3 próbek w Przykładzie 932

26 154 ROZDZIAŁ 9 MODELE REGRESJI Źródło zmienności Sumy kwadratów Stopnie swobody Średnie kwadraty Statystyka między próbkami F = 196 wewnątrz próbek razem Test F na poziomie istotności α = 005 nie odrzuca hipotezy zerowej, bo F 095 (2, 15) = 369 > 196 (odpowiedni kwantyl został odczytany z tablicy rozkładu Snedecora) Możemy przypuszczać, że wysokość zgłaszanych w przyszłości szkód będzie podobna dla wszystkich trzech firm Nasze dane nie dają dostatecznych podstaw, by zwątpić w to przypuszczenie Dodajmy jeszcze komentarz na temat założeń, które są wymagane przy stosowaniu testu F Możemy dość spokojnie przyjąć, że sumaryczne (lub średnie) szkody w kolejnych latach są zmiennymi losowymi o rozkładzie zbliżonym do normalnego To jest pierwsze z podstawowych założeń modelu Gorzej jest z drugim założeniem: o równości wariancji poszczególnych próbek Jest ono uzasadnione właściwie tylko wtedy, gdy liczba ubezpieczonych samochodów dla trzech firm (i dla kolejnych lat) jest w przybliżeniu równa Hipoteza o braku zależności Wróćmy do liniowej regresji wielorakiej z wyrazem wolnym Wektor współczynników zapisujemy w tej sytuacji jako (β 0, β 1,, β r ), gdzie r + 1 = p Jeśli znikają wszystkie współczynniki funkcji regresji z wyjątkiem wyrazu wolnego, to wartości zmiennej Y nie są powiązane z wartościami zmiennych objaśniających x Ważną kwestią jest więc weryfikacja hipotezy H 0 : β 1 = = β r = 0 przeciw H 1 : β 1 0 lub lub β r 0 W istocie, gdy nie ma podstaw do odrzucenia H 0, to model traci swoją użyteczność Jest to tylko szczególny przypadek zagadnienia testowania hipotezy liniowej i możemy skorzystać z ogólnych wyników Trzeba tylko uważnie liczyć stopnie swobody Oprócz używanego już oznaczenia n RSS = (Y i Ŷi) 2, wprowadźmy nowe nazwy sum kwadratów: n TSS = (Y i Ȳ )2, ESS = i=1 i=1 n (Ŷi Ȳ )2 TSS nazywamy całkowitą sumą kwadratów, zaś ESS sumą kwadratów związana z regresją (ang Sum of Squares, Regression ) Zauważmy, że (Ȳ,, Ȳ ) jest predykcją przy założeniu H 0, a (Ŷ1,, Ŷi) jest predykcją w dużym modelu z r + 1 współczynnikami Stąd natychmiast wynika tożsamość analizy wariancji, TSS = ESS + RSS i=1

27 93 TESTOWANIE HIPOTEZ 155 Tę równość interpretuje się w taki sposób: całkowita zmienność Y = zmienność wyjaśniona regresją + zmienność resztowa Pozostawimy Czytelnikowi wytłumaczenie intuicji stojących za tą sugestywną terminologią Współczynnikiem dopasowania nazywamy R 2 = ESS TSS = 1 RSS TSS Zgodnie z przytoczoną wyżej interpretacją, R 2 jest częścią zmienności, wyjaśnioną przez regresję Zazwyczaj współczynnik dopasowania wyraża się w procentach Im większe R 2, tym lepiej (estymowana) prosta regresji pasuje do punktów doświadczalnych stąd nazwa Z ogólnej teorii wynika, że RSS χ 2 (n r 1) Przy założeniu prawdziwości H 0 mamy ESS χ 2 (r) Statystyka testu Snedecora jest następująca F = ESS/r RSS/(n r 1) Hipotezę H 0 odrzucamy, jeśli F > F 1 α (r, n r 1) lub, równoważnie, jeśli P -wartość testu jest poniżej α Tabelka analizy wariancji przybiera postać: Źródło zmienności Sumy kwadratów Stopnie swobody Średnie kwadraty Statystyka regresja ESS r ESS/r F błąd RSS n r 1 RSS/(n r 1) razem TSS n 1 TSS/(n 1) Wartości statystyki F interpretuje się jako wskaźnik istotnej zależności zmiennej Y od zmiennych x 1,, x r Mówi się w żargonie statystycznym, że zależność jest istotna na poziomie α, jeśli test F na tym poziomie istotności odrzuca hipotezę o braku zależności

28 156 ROZDZIAŁ 9 MODELE REGRESJI 94 Zadania Zadania dotyczące modelu z jedną zmienną objaśniającą (prosta regresja liniowa) 91 W celu zbadania zależności pomiędzy liczbą urodzonych wiosną dzieci (cecha Y ) a liczbą bocianów (cecha x) zebrano wyniki ze 100 miejscowości Otrzymano następujące wyniki n i=1 x i 200 n i=1 x2 i 1400 n i=1 Y i 1000 n i=1 x iy i 7000 Wyznaczyć estymatory współczynników prostej regresji liniowej z wyrazem wolnym traktując liczbę dzieci jako zmienna zależną (objaśnianą) 92 Wyprowadzić wzory (921) na ˆβ 0 i ˆβ 1 93 Wyprowadzić bezpośrednio wzory na Var ˆβ 1 i Var ˆβ 0 94 Pokazać, że zmienne losowe Ȳ i ˆβ 1 są niezależne 95 Wyprowadzić bezpośrednio wzory na VarŶ i Var(Y Ŷ ) Wskazówka: Skorzystać z poprzednich zadań 96 Udowodnić bezpośredno (nie korzystając z geometrycznych rozważań w przestrzeni R n ) podstawową tożsamość analizy wariancji: (Yi Ȳ )2 = (Ŷi Ȳ )2 + (Y i Ŷi) 2 97 Współczynnik korelacji 4 R określamy wzorem (xi x)(y i R = Ȳ ) (xi x) 2 (Y i Ȳ )2 Pokazać, że kwadrat współczynnika korelacji jest współczynnikiem dopasowania 98 Udowodnić fakt sformułowany w Uwadze 93: T 2 = F Pokazać, że test F odrzuca H 0 : β 1 = 0 (na poziomie istotności α) wtedy i tylko wtedy, gdy przedział ufności dla β 1 (na poziomie 1 α) nie zawiera zera 99 Wyprowadzić wzory na estymatory największej wiarogodności w modelu prostej regresji liniowej bez wyrazu wolnego, Y i = βx i + ε i, (i = 1,, n), przyjmując Założenie Związek R z pojęciem korelacji zmiennych losowych staje się jasny, gdy rozpatrujemy model z losową zmienną objaśniającą W modelu z deterministycznym x, przyjmijmy po prostu, że tak się mówi

29 94 ZADANIA 157 Następujące zadania dotyczą analizy wariancji w modelu kilku próbek 910 Uzasadnić elementarnie, bez odwoływania się do geometrii przestrzeni R n, następujące fakty 1 Wyprowadzić tożsamość analizy wariancji : TSS = BSS + WSS 2 Wykazać, że WSS/σ 2 χ 2 (n r), niezależnie od tego, czy H 0 jest prawdziwa, czy nie 3 Wykazać, że BSS/σ 2 χ 2 (r 1), przy założeniu, że H 0 jest prawdziwa Wskazówka: Skorzystać ze Stwierdzenia Pokazać, że statystyka F testu analizy wariancji jest równoważna statystyce ilorazu wiarogodności dla modeli zagnieżdżonych (Punkt 831 w Podrozdziale 83) Wskazówka: Bardzo podobne rozważania przeprowadziliśmy w Przykładzie Wykazać, że dwupróbkowy test Studenta 722 w wersji z dwustronną alternatywą jest równoważny testowi analizy wariancjidla k = 2 Dokładniej, statystyka F jest kwadratem statystyki t i odpowiednie kwantyle są związane relacją F 1 α (1, n 2) = t 1 α/2 (n 2) Następujące zadania dotyczą innych kwestii związanych z modelem liniowym 913 Niech obserwacje Y 1,, Y n będą niezależnymi zmiennymi losowymi takimi, że Y i ma rozkład normalny N(β 0, σ 2 ) dla i = 1,, n oraz N(β 0 + β 1, σ 2 ) dla i = n + 1, 2n Zakładamy, że β 0, β 1, σ są nieznanymi parametrami 1 Podać estymator największej wiarogodności parametrów β 0, β 1 2 Podać estymator największej wiarogodności parametru σ 2 Uwaga: Podać wzory nie zawierające działań na wektorach i macierzach (wraz z uzasadnieniem tych wzorów) 914 Zakładamy (błędnie), że badane przez nas zjawisko opisuje model regresji liniowej dany równaniem: Y = X 1 β 1 + ε, gdzie Y to wektor obserwacji zmiennej objaśnianej, X 1 to macierz obserwacji zmiennych objaśniających, a β 1 jest wektorem nieznanych parametrów Oznaczmy przez ˆβ 1 estymator β 1 uzyskany metodą najmniejszych kwadratów w tym modelu W rzeczywistości, badane zjawisko opisuje prawdziwie model regresji liniowej z dodatkowymi zmiennymi objaniającymi X 2, dany równaniem: Y = X 1 β 1 + X 2 β 2 + ε Wektor błędów losowych ε ma zerową wartość oczekiwaną i macierz wariancji-kowariancji równą σ 2 I 1 Obliczyć obciążenie estymatora ˆβ 1, czyli wielkość E ˆβ 1 β 1, biorąc pod uwagę prawdziwy mechanizm generowania zmiennej objaśnianej Y 2 Obliczyć macierz wariancji-kowariancji estymatora ˆβ 1

30 158 ROZDZIAŁ 9 MODELE REGRESJI