Estymacja i prognozowanie

Podobne dokumenty
1 Regresja liniowa cz. I

Wyk ad II. Stacjonarne szeregi czasowe.

1 Rozk ad normalny. Szczególnym przypadkiem jest standardowy rozk ad normalny N (0; 1), wartości

1 Praktyczne metody wyznaczania podstawowych miar bez zastosowania komputerów

Funkcje dwóch zmiennych

Testowanie hipotez statystycznych

1 Miary asymetrii i koncentracji

Rozdział 8. Regresja. Definiowanie modelu

Pochodne cz ¾astkowe i ich zastosowanie.

1 Wieloczynnikowa analiza wariancji

Równania ró znicowe wg A. Ostoja - Ostaszewski "Matematyka w ekonomii. Modele i metody".

Testowanie hipotez statystycznych

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

O zgodności procedur jednoczesnego testowania zastosowanych do problemu selekcji zmiennych w modelu liniowym

Rozdzia 5. Uog lniona metoda najmniejszych kwadrat w : ::::::::::::: Podstawy uog lnionej metody najmniejszych kwadrat w :::::: Zastos

Testowanie hipotez statystycznych

1 Analiza wariancji H 1 : 1 6= 2 _ 1 6= 3 _ 1 6= 4 _ 2 6= 3 _ 2 6= 4 _ 3 6= 4

1 Poj ¾ecie szeregu czasowego

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Statystyczna analiza danych w programie STATISTICA. Dariusz Gozdowski. Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Własności statystyczne regresji liniowej. Wykład 4

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Wyznaczniki, macierz odwrotna, równania macierzowe

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

1 Praktyczne metody wyznaczania podstawowych miar przy zastosowaniu programu EXCEL

Ocena ryzyka kredytowego

1 Testy statystyczne. 2 Rodzaje testów

Statystyka w analizie i planowaniu eksperymentu

Ekstrema funkcji wielu zmiennych.

Statystyka w analizie i planowaniu eksperymentu

Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki.

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

1 Próba a populacja. Nasze rozwa zania zaczniemy od przedyskutowania podstawowych poj ¾eć statystycznych,

Analiza regresji - weryfikacja założeń

Statystyka w analizie i planowaniu eksperymentu

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

(wymiar macierzy trójk¹tnej jest równy liczbie elementów na g³ównej przek¹tnej). Z twierdzen 1 > 0. Zatem dla zale noœci

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

1 Wieloczynnikowa analiza wariancji ciag ¾ dalszy

KORELACJE I REGRESJA LINIOWA

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Egzamin z ekonometrii wersja IiE, MSEMAT

Wprowadzenie do analizy korelacji i regresji

Ćwiczenia IV

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

E k o n o m e t r i a S t r o n a 1

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Zmienne zależne i niezależne

MODELE LINIOWE. Dr Wioleta Drobik

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Prognozowanie na podstawie modelu ekonometrycznego

1 Rekodowanie w podgrupach i obliczanie wartości w podgrupach

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Statystyka w analizie i planowaniu eksperymentu

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Ekonometria. Zajęcia

Metody Ilościowe w Socjologii

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Analiza autokorelacji

Niestacjonarne zmienne czasowe własności i testowanie

Przykład 2. Stopa bezrobocia

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

3. Modele tendencji czasowej w prognozowaniu

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Weryfikacja hipotez statystycznych

Podstawowe pojęcia: Populacja. Populacja skończona zawiera skończoną liczbę jednostek statystycznych

Wprowadzenie do równań ró znicowych i ró zniczkowych.

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

EKONOMETRIA STOSOWANA PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Normy wektorów i macierzy

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Wyk lad 7 Metoda eliminacji Gaussa. Wzory Cramera

1 Modele ADL - interpretacja współczynników

Statystyka w analizie i planowaniu eksperymentu lista nr 7

Stanisław Cihcocki. Natalia Nehrebecka

IV. UK ADY RÓWNAÑ LINIOWYCH

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

4. Średnia i autoregresja zmiennej prognozowanej

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

Transkrypt:

Estymacja i prognozowanie Maciej Kostrzewski AGH Kraków 1 luty 2010 1 Regresja Wieloraka Motywacja: ceny mieszkań, a...? Rozwiazanie: Opis zwiazku miedzy Y a X 1 ; :::; X k. Tablica danych. y 1 x 11 : : : x 1k... y n x n1 : : : x nk Poszukujemy hiperp aszczyzny najlepiej dopasowanej do tego zbioru. Model regresji z k zmiennymi objaśniajacymi: gdzie x i0 1. y i = 0 x i0 + 1 x i1 + ::: + k x ik + " i, i = 1; :::; n Uwaga 1 0 jest odpowiednikiem wyrazu wolnego w regresji liniowej Postać macierzowa: 2 3 2 y 1 x 10 x 11 : : : x 1k 6 4. y n 7 5 = 6 4... x n0 x n1 : : : x nk 3 2 7 6 5 4 0. k 3 2 7 6 5 + 4 " 1. " n 3 7 5 Y = X + " y - wektor obserwacji zmiennej objaśniajacej (nx1) (realizacja zmiennej Y ) X - macierz obserwacji zmiennych objaśniajacych (nx (1 + k)) - wektor wspó czynników ((1 + k) x1) " -wektor reszt (nx1). Dodatkowe za o zenia 2 3 x 10 : : : x 1k 6 7 X = 4.. 5 x n0 : : : x nk 1

ma ustalone elementy (brak losowości) E" = 0 E"" T = 2 I rz (X) = 1 + k n Obserwacja 1 : 1. rz (X) = 1 + k 2. E" 2 i = 2 3. E" i " j = 0 dla i 6= j. 4. X jest deterministyczna ) X? " Estymacja: by = X b + e Metoda najmniejszych kwadratów: SSE = e T e = Ró zniczkujemy y minsse b b @SSE @ b @SSE @ b X b T y = miny T y b = 2X T y + 2X T X b = 0 X b = y T y 2 T X T y + b T X T X b 2 b T X T y + b T X T X b X T X b = X T y (uk ad równań normalnych b = X T X 1 X T y Gdyby rzx < 1+k wówczas estymator nie jest określony jednoznacznie. Wartości teoretyczne: by = X b e = b" = y Lemat 1 Niech b = X T X 1 X T y wówczas 1. E b = 2. P b b = 2 X T X 1 by 2

De nicja 1 Estymator b jest najlepszym nieobcia zonym estymatorem wektora (inaczej najefektywniejszym), gdy b jest estymatorem nieobcia zonym oraz macierz T T E e e E b b jest nieujemnie okre slona, gdzie e jest dowolnym innym nieobcia zonym estymatorem. Twierdzenie 1 (Gaussa i Markowa) W modelu regresji wielorakiej najlepszym nieobcia zonym estymatorem liniowym wektora jest wektor wyznaczony metoda najmniejszych kwadratów Twierdzenie 2 Nieobcia zonym estymatorem wariancji 2 sk adnika losowego jest 1 b 2 = SSE n k 1 gdzie SSE = e T e = P n i=1 e2 i = P n i=1 (y i by i ) 2. De nicja 2 Klasyczny model normalnej regresji wielorakiej to model regresji wielorakiej z dodatkowym za o zeniem " N 0; 2 I tzn. E" = 0 oraz E"" T = 2 I Obserwacja 2 Z braku korelacji mi edzy " i i " j wynika, ze " i dla i = 1; :::; n sa niezale znymi ziennymi losowymi o rozk adach normalnych t. ze E" i = 0 oraz V ar (" i ) = 2. Wniosek 1 Niech i 2 f0; :::; kg H0 : i = c i t statystyka = b i c i t n k 1 SE bi r gdzie SE bi = 2 (X T X) 1. Jest to test dwustronny. ii Wniosek 2 W praktyce interesuje nas wp yw zmiennych niezale znych (bez wyrazu wolnego) na Y. H0 : 1 = 0; :::; k = 0 H1 : 9i 2 f0; :::; kg : i 6= 0 F statystyka = MSR MSE F k;n k 1 gdzie MSR = SSR k (k bo tyle zmiennych niezaleznych X), MSE = SSE n k 1 (bo n punktów ale k + 1 parametrów do oszacowania), SSR = P n i=1 (by i y) 2. Jest to test prawostronny. 1 Pierwiastek z niego nie jest estymatorem nieobcia zonym odchylenia. 3

Uwaga 2 Je sli nie mo zna odrzucíc hipotezy H0, to analiza regresji si e kończy. W przeciwnym wypadku wiemy, ze sa statystyczne podstawy, by przypuszczać, ze zachodzi zwiazek liniowy pomi edzy zmienna obja sniana i co najmniej jedna zmienna niezale zna. Uwaga 3 W praktyce przeprowadzamy najpierw test F, a dopiero potem testy t. Przedzia y ufności: Idea: estymatorwartość krytyczna*odchylenie standardowe (estymatora) Twierdzenie 3 (1 ) 100% przedzia ufno sci dla parametru i jest postaci: b i t n k 1;=2 SE bi Ćwiczenie 1 Wykonać analiz e regresji wielorakiej dla danych SMSA. Przyjać, ze zmienna Crime jest zmienna obja sniana. Rozwi zanie 1 1. Dokonać wyboru zmiennych kierujac si e intuicja 2. Zaznacz obszar 5x(1+k), nacísnij F2 wpisz =REGLINP(Zakres_Y;Zakres_X;1;1) ; CTRL+SHIFT+ENTER: b b k k b 1 k 2 ::: 0 b SE bk SE bk SE bk ::: SE b0 1 2 r 2 b ::: F df ::: SSR SSE ::: 3. Interpretacja wspó czynników 4. Wykonaj analiz e regresji korzystajac z Narz edzia>analiza Danych>Regresja (zaznaczyć tytu y) 5. Porównaj wyniki uzyskane w punktach 2 i 4: 6. Wyja snij co oznacza "Istotno sć F ". Czy "Istotno sć F "to p-value?[tak] Rozk ad.f(x)=???, a co pisza w Pomocy? 7. Dokonaj analizy istotno sci wp ywu poszczególnych zmiennych obja sniaja- cych, korzystajac z testu t, na zmienna obja sniana Y. 8. Stworzyć macierz korelacji: Narz edzia>analiza Danych>Korelacja. Przeprowadzíc dyskusj e nad doborem zmiennych obja sniajacych. Wspó liniowość: Ćwiczenie 2 Wykonać prób e analizy regresji dla dowolnych zmiennych: Y, X 1, X 2, X 3, gdzie X 3 = 0; 2X 1 0; 4X 2. 4

Za ó zmy, ze zmienna X k+1 wywo uje wspó liniowość po do aczeniu do modelu w którym znajduja sie X 1 ; :::; X k. Niech ta wspó liniowość wynika ze wspó zalezności tej zmiennej ze zbiorem zmiennych niezale znych. Podstawowym skutkiem wspó liniowości jest zbyt wysoka wariancja estymatorów wspó czynników regresji. Aby zmierzyć ten skutek wspó linowości oblicza si e VIF De nicja 3 Wska znik nadmiaru wariancji VIF (variance in ation factor) zwiazany ze zmienna X k+1 : 1 V IF (X k+1 ) = 1 Rk+1 2 gdzie Rk+1 2 jest warto sci a wspó czynnika R2 dla regresji gdzie zmienna zale zna jest X k+1 a zbiorem zmiennych niezale znych jest X 1 ; :::; X k. Uwaga 4 Mo zna wykazać, ze V IF jest ilorazem wariancji estymatora k+1 do wariancji tego wspó czynnika, gdyby zmienna X k+1 by a nieskorelowana z pozosta ymi, stad nazwa miary jako wska znik nadmiaru wariancji estymatora. Uwaga 5 VIF jest kolejnym wska znikiem, obok macierzy korelacji, na istnienie wspó liniowo sci. Ćwiczenie 3 Zastosować VIF jako miar e wspó liniowo sci dla danych SMSA Dobór zmiennych 1. Dobór zmiennych do modelu na podstawie zmian wspó czyn- Ćwiczenie 4 nika Rp: 2 2. Przeprowadzíc dobór zmiennych dla SMSA (ograniczyć zbiór zmiennych obja sniajacych do silnie sokrelowanych z CRIME - powy zej 0,9) metoda w przód. Cz eściowy test F Wychodzimy od modelu w którym znajduje si e ju z k l zmiennych. Chcemy sprawdzić istotność zwiazku Y oraz pewnego l elementowego podzbioru zmiennych objaśniajacych, przy za o zeniu, ze w modelu znajduje sie ju z k l zmiennych -jest to tzw. wzgl edna istotność, bo wzgl edem k l zmiennych. Model Y = 0 + 1 X 1 + ::: + k X k + " nazywamy modelem pe nym. Model zredukowany to model zawierajacy k Statystyka: F l;n (1+k) = (SSE R SSE F ) =l MSE F l zmiennych. gdzie SSE R to SSE dla modelu zredukowanego, SSE F i MSE F = odpowiednio SSE i M SE obie obliczone dla pe nego modelu. SSE F n (1+k) to 5

Dobór w przód Punktem wyjścia jest model bez zmiennych. W kolejnych krokach do acza sie zmienna wg. kryterium: najwy zsza wartość testu F (równowa znemu t) przy za o zeniu, ze F jest powy zej z góry ustalonego (przez u zytkownika lub program) progu. Dobór drugiej i ewentualnie kolejnych odbywa si e za pomoca testu cześciowego F. Procedura kończy sie, gdy nie ma ju z zmiennej dla której wartość statystyki (cz esciowego F ) spe nia aby kryterium progu. Algorithm 1 1. Do modelu do aczamy zmienna X j, gdy j : F j = max ff i : i = 1; :::; kg, jt j j = max fjt i j : i = 1; :::; kg oraz p in p value (j) 2. W modelu znajduje si e wektor zmiennych,gdzie J f1; :::; kg to ich zbiór indeksów. Do acza si e do modelu X j, gdy j : F j = max ff i : i = f1; :::; kg njg gdzie F to cz e sciowy test F oraz p in p value (j) Uwaga 6 Która ze zmiennych wspó liniowych usunać z modelu? Wy aczamy t e zmienna, której usuni ecie najmniej zmniejszy R 2 Regresja krokowa Algorithm 2 1. Do modelu do aczamy zmienna X j, gdy j : F j = max ff i : i = 1; :::; kg, jt j j = max fjt i j : i = 1; :::; kg oraz p in p value (j) 2. Je sli p value (j) > p out to do aczona zmienna wykluczamy - zap etlenie algorytmu; zwrócíc uwag e na ustalenie relacji mi edzy p in a p out 3. W modelu znajduje si e wektor zmiennych,gdzie J f1; :::; kg to ich zbiór indeksów. Do acza si e do modelu X j, gdy j : F j = max ff i : i = f1; :::; kg njg gdzie F to cz e sciowy test F oraz p in p value (j) Z modelu wykluczamy X l, gdy l : F l = min ff i : i 2 Jg gdzie F to cz e sciowy test F oraz p out p value (j) 6

Koniec algorytmu, gdy nie ma zmiennych spe niajacych kryteria do aczenia i nie ma zmiennych spe niajacych zpe niaj acych warunki wykluczenia. Uwaga 7 1. Zwykle p in = 0; 05 i p out = 0; 05 2. Gdyby p in > p out to procedura mo ze okazać sie rozbie zna, tj. w kolejnych krokach zmienna b edzie do aczana, po to by w kolejnym zostać wykluczona. Regresja jakościowa: dane Zarobki 1. Statystyki opsiowe dla zarobków m e zczyzn oraz zarobków kobiet; analiza 2. Korelacja mi edzy wykszta ceniem, a zarobkami 3. Przeprowadzić analize regresji wielorakiej - Y =zarobki, X 1 =wykszta cenie, X 2 =p eć 4. Czy na podstawie analizy regresji mo zna wyciagn ać wniosek o dyskryminacji kobiet? 5. Czy uzyskane dwie linie regresji sa do siebie równoleg e? Przyk ad 1 dane PasyBezpieczeństwa. Regresja nieliniowa: De nicja 4 Model regresji gdzie F jest dowolna funkcja. Modele regresji dzielimy na: 1. modele liniowe (by o) Y = F (X 1 ; :::; X k ), 2. modele nieliniowe linearyzowane (takie, które mo zemy sprowadzić do modeli liniowych) 3. modele nieliniowe nielinearyzowalne Modele linearyzowalne Uwaga 8 Transformacj e mo zemy odgadnać obserwujac wykresy rozrzutu zmiennej zale znej i zmiennych niezale znych. 7

Model Transformacja Model po transformacji Y = ax p " (f.potegowa) ln(y ) ln(y ) = ln (a) + p ln(x) + ln (") Y > Y = ab X " (f.wyk adnicza) ln (Y ) ln (Y ) = ln (a) + ln (b) X + ln (") a > Y = a 0 + a 1 X + ::: + a p X p + " X 1 = X; X 2 = X 2 ; :::; X p = X p Y = a 0 + a 1 X 1 + ::: + a p X p + " Y = a + b 1 X + " (f. hiperboliczna) X 1 = 1 X Y = a + bx 1 + " a Z = 1+be X +" (f. logistyczna) Y = 1 Z, X 1 = e X Y = 1 a + b a X 1 + 1 a " Uwaga 9 Cz esto rezygnujemy z lepszego dopasowania na rzecz gorszego, je sli to drugie ma dobre (lepsze) merytoryczne uzasadnienie (interpretacj e) Modele nieliniowe nielinearyzowalne Modele które nie da sie przekszta cić do modeli liniowych np: Y = ab X + " Przyk ad 2 plik kombajn Regresja pozorna (ang. spurious regression) Regresja pozorna ma miejsce, gdy trend zmiennej objaśniajacej i trend zmiennej objaśnianej sa podobne. Wspó czynniki regresji przy zmiennych objaśniajacych moga być statystycznie istotnie ró zne od zera, wartość wspó czynnika deterinacji R 2 mo ze być wysoka, jednak ze zale zność ma charakter z udny, przypadkowy, pozorny - nie ma bowiem rozsadnego uzasadnienia zwiazku mi edzy zmiennymi! Przyk ad 3 Produkcja czekolady i produkcja energii - plik Komajn Przyk ad 4 Inne... Przyk ad 5 Interpretacja w modelu regresji w oparciu o Rosen (1982) "The Impact of Proposition 13 on Housing Prices in Northern California: A Test of the Interjurisdictional Capitalization Hypothesis": Problem za o zeń modelu regresji Heteroskedastyczność Wst epne badanie przeprowadzamy analizujac wykresy: (by i ; e i ), by i ; e 2 i, (numer obserwacji,ei ). Jeśli reszty rosna lub maleja wraz ze wzrostem wartości teoretycznych y to mamy przes annke za heteroskedastycznościa. Przy heteroskedastyczności estymatory MNK moga nie być efektywne. Heteroskedastyczności mo zna spróbować pozbyć si e stosujac transformacje Boxa i Coxa: y 6= 0 ln jyj = 0 1. = 1, to 1 Y 8

2. = 0, to ln (Y ) (stosujemy, gdy e 2 i rośnie) 3. = 1 2, to p Y 4. = 2, to Y 2 Przyk ad 6 Plik Farmakologia. Normalność. Normalność nie jest wymagana na etapie estymacji, ale jest potrzebna do wery kacji istotności parametrów. Testy t i F sa odporne na niewielkieódchylenia od normalności. Rola za o zenia o normalności zmniejsza si e przy wzrastajacej próbie. Uwaga 10 W praktyce je sli n < 15(1 + k) to przyjmuje si e, ze zbiór danych jest ma y. Wówczas wa zne jest testowanie za o zenia normalno sci. Niezale zność " i : De nicja 5 Autokorelacja zaburzenia losowego z opó znieniem rz edu l to korelacja mi edzy " i i " i l ; oznaczenie l. Uwaga 11 W praktyce najcz e sciej wyst epuje autokorelacja pierwszego rz edu Mowa tu o korelacji mi edzy sk adnikami losowymi, pojawiajaca sie w szeregach czasowych. Korelacja ta wynika z wzajemnego skorelowania pomini etych zmiennych objasniajacych, które sa reprezentowane przez sk adniki losowe (b edy). Twierdzenie 4 Test Durbina-Watsona: Za o zenia: 1. Modelu musi uwzgl edniać wyraz wolny 2. Sk adniki resztowe maja rozk ad normalny 3. W modelu nie wyst epuje zmienna opóźniona (np. nie mo zna stosować testu dla X n = 0 + X n 1 + " n ) d = P n i=2 (e i e i 1 ) 2 P n i=1 e2 i H0 : 1 = 0 H1 : 1 6= 0 brak autokorelacji H1 : 1 > 0 dodatnia autokorelacja, gdy d < 2 H1 : 1 < 0 ujemna autokorelacja, gdy d > 2 9

Dla H1 : 1 6= 0 oraz poziomu istotności 2 : d < d L d L d d U d U < d < 4 d U 4 d U d 4 d L 4 d L < d H1 Test nie roztrzyga H0 Test nie roztrzyga H1 Dla H1 : 1 > 0 oraz poziomu istotności : d < d L d L d d U d U < d < 4 d U 4 d U d 4 d L 4 d L < d H1 Test nie roztrzyga H0 Dla H1 : 1 < 0 oraz poziomu istotności : d < d L d L d d U d U < d < 4 d U 4 d U d 4 d L 4 d L < d H0 Test nie roztrzyga H1 Uwaga 12 Mankamentem testu jest, ze nie dla ka zdej warto sci statystyki test wskazuje na hipotez e Uwaga 13 W przypadku statystycznego udowodnienia istnienia autokorelacji wówczas wyniki analizy regresji sa niewiarygodne, rozwiazaniem jest zastosowanie uogólnionej metody najmniejszych kwadratów. Przyk ad 7 plik TestDW Przyk ad 8 Plik outliers Obserwacje nietypowe Obserwacje nietypowe inaczej obserwacje skrajne (outliers) to obserwacje istotnie ró zniace si e od pozosta ych. Dla regresji prostej wykrycie obserwacji odstajacych umo zliwia analiza wykresu. W przypadku regresji wielorakiej czasami analiza reszt oszacowanego modelu umo zliwia wykrycie obserwacji nietypowych. Uwaga 14 Idealny model nie dopuszcza do obserwacji odstajacych. W idealnym modelu ka zda z obserwacji jest typowa. Uwaga 15 Przyczyny wyst epowania danych nietypowych 1. b edy w trakcie zapisu danych 2. s aby model, który nie uwzgl ednia istotnej zmiennej obja sniajacej - mówimy o danych nietypowych dla modelu. 3. Nietypowe zjawisko/warunki w okresie badanym np. okres trwania wojny Uwaga 16 Jedna z konsekwencji wyst epowania nietypowych danych jest zmiana warto sci estymatorów. Uwaga 17 W sród danych nietypowych wyró zniamy wp ywowe i te nie majace wp ywu na estymacj e parametrów. Pierwsze z nich moga być gro zne. Algorithm 3 1. Identy kacja obserwacji odstajacych. 2. Wyznaczenie wp ywu obserwacji odstajacych na analiz e regresji. 10

3. Decyzja o wykluczeniu lub pozostawieniu w bazie danych przypadków odstajacych i wp ywowych. Uwaga 18 Najprostrze jest usuni ecie zmiennej odstajacej i ponowne wykonanie analizy regresji. Takie dzia anie mo ze prowadzíc do b edów. Uwaga 19 Dane nietypowe moga przyciagać p aszczyzn e regresji do siebie, a wówczas, gdy wyst epuja np. 2 nietypowe obserwacje obok siebie to ich identy- kacja jest trudna - obserwacje te nawzajem tuszuja si e. Uwaga 20 Post epowanie 1. Analiza najmniejszych i najwi ekszych warto sci ka zdej ze zmiennych obja sniajacych i obja snianej. 2. Obserwacja reszt - du ze reszty moga wskazywać na obserwacje odstajace. 3. Wewn etrznie studentyzowane reszty: e st i = e i q [1 h ii ] 1 n 1 k P n i=1 e2 i = e i p MSE [1 hii ], gdzie k to liczba zmiennych niezale znych. przyjrzeć danemu przypadkowi. Je sli je st i j > 3 to nale zy si e 4. b Y = X b = HY, H = X X T X 1 X T, e = (I H) Y, macierz kowariancji P e ie j = 2 (I H), V ar (e i ) = 2 (1 h ii ), gdzie h ii to element z diagonalii H: Mo zna pokazać, ze h ii jest odleg o scia i tego przypadku od srodka ci e zko sci danych"( sredniego przypadku)x. Im wi eksze jest h ii tym mniejsza jest wariancja b edu, gdy z V ar (e i ) = 2 (1 h ii ). W przypadku h ii = 1, to V ar (e i ) = 0, co oznacza, ze warto sć teoretyczna pokrywa si e z prawdziwa. Przypadki z du z a wielko scia h ii maja ma a wariancj e reszt, zatem ich wykrycie na podstawie wy acznie analizy du zych warto sci reszt jest niemo zliwe - jakim s rozwiazaniem jest analiza przypadków o ma ych i du zych warto sciach reszt. h ii to wska znik czy dany przypadek jest odstajacy od pozosta ych (w kontek scie zmiennych obja sniajacyh) oraz czy jest wp ywowy (na model tj.y). h ii nazywany jest d zwignia. Im wi eksza jest warto sć h ii tym jest jego wp yw na analiz e regresji jest wi ekszy, gdy z by i jest liniowa kombinacja Y z waga h ii ( Y b = HY ). Im wi eksza jest warto sć h ii tym bardziej odstajacy jest i ty przypadek, a jednocze snie wi ekszy jest jego wp yw na analiz e regresji. Wskazówka praktyczna: obserwacje uznaje si e za odstajace, gdy h ii > 2(1+k) n. Gdy h ii 0; 5 to mówimy, ze przypadek ma bardzo du z a d zwigni e (wp yw). Gdy 0; 2 < h ii < 0; 5 to mówimy o srednim wp ywie czy sredniej wielko sci d zwignii. 11

5. d i = y i by i(i) e i d i = 1 h ii Zauwa zmy, ze, gdy h ii ro snie to d i ro snie. 6. Studentized deleted Residuals. d i = d p i V ar (di ) = d p i MSE(i) (1 h ii ) d i = e i s n p 1 SSE (1 h ii ) e 2 i Du ze warto sci d i przemawiaj a za tym, ze i-ta obserwacja jest odstaj aca. 7. Identy kacja przypadków wp ywowych - miary DFFITS, DFBETAS i odleg o sć Cook a. DF=ró znica (di erence); FIT=dopasowanie; S=studentyzowalne (DF F IT S) i = by i by i(i) p MSE(i) h ii Miara okre sla wp yw i-tego przypadku na teoretyczna warto sć by i (tj. w sytuacji, gdy ka zdy z przypadków jest brany pod uwag e w analizie). r DF F IT S i = d i hii 1 h ii gdy h ii rosnie to jdf F IT S i j te z ro snie. Wskazówki praktyczne: dla ma ej próby lu z srednio licznej próby je sli jdf F IT S i j > 1 to mówimy, ze przypadek jest wp ywowy; dla licznej to mówimy, ze przypadek jest wp y- q próby je si jdf F IT S i j > 2 wowy Odleg o sć Cooka 1+k n b b (i) T X T X b b (i) D i = (1 + k) MSE F (1 + k; n 1 k) b (i) jest wektorem parametrów wyestymowanych bez uwzgl ednienia i- tego przypadku. Miar e t e mo zna obliczyć dla pe nego modelu, gdy z " # e 2 i h ii D i = (1 + k) MSE (1 h ii ) 2 12

Wraz ze wzrostem e i lub h ii ro snie D i. Wskazówka praktyczna : P (F < D i ) = p, gdzie F F (1+k; n 1 k) to je sli p < 0; 2 to i-ty przypadek ma ma y wp yw na model, je sli p > 0; 5 to i-ty przypadek ma du zy wp yw na model. Uwaga 21 Jesli obserwacja jest nietypowa i nie ma uzasadnienia, ze jest wynikiem b edu gromadzenia danych oraz nie ma sensownej interpretacji jej wystepowania. Wówczas o wiele lepszym posunieciem ni z jej eliminacja jest zmniejszenie jej wp ywu. Je sli obserw. odst. dotyczy jednej ze zmiennych niezale nych wówczas nale zy zastosowac transformacje zmiennych tj logarytm, pierw. kwadratowy i inne. Oczywiscie to mam sens jesli transformacja nie zrodzi innych problemów. Uwaga 22 Excel w kolumnie Std. sk adniki resztowe"podaje: q e i 1 n 1 P n i=1 e2 i 13