Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Podobne dokumenty
Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Natalia Nehrebecka Stanisław Cichocki. Wykład 13

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Egzamin z ekonometrii wersja IiE, MSEMAT

Egzamin z ekonometrii wersja IiE, MSEMat Pytania teoretyczne

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Egzamin z ekonometrii wersja ogolna

Ekonometria Ćwiczenia 19/01/05

Analizowane modele. Dwa modele: y = X 1 β 1 + u (1) y = X 1 β 1 + X 2 β 2 + ε (2) Będziemy analizować dwie sytuacje:

Egzamin z ekonometrii - wersja ogólna

1.5 Problemy ze zbiorem danych

Metoda najmniejszych kwadratów

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Ekonometria egzamin 07/03/2018

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Stanisław Cichocki. Natalia Nehrebecka

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Egzamin z ekonometrii wersja IiE, MSEMAT

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Czasowy wymiar danych

Diagnostyka w Pakiecie Stata

Stanisław Cichocki. Natalia Nehrebecka

Natalia Nehrebecka Stanisław Cichocki. Wykład 6

Problem równoczesności w MNK

Stanisław Cichocki. Natalia Nehrebecka

Diagnostyka w Pakiecie Stata

Stanisław Cichocki Natalia Nehrebecka. Wykład 1

Testowanie hipotez statystycznych

Autokorelacja i heteroskedastyczność

Modele wielorównaniowe (forma strukturalna)

Natalia Nehrebecka. Wykład 1

Budowa modelu i testowanie hipotez

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Wprowadzenie Modele o opóźnieniach rozłożonych Modele autoregresyjne o opóźnieniach rozłożonych. Modele dynamiczne.

Natalia Neherbecka. 11 czerwca 2010

Ekonometria egzamin 31/01/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Stanisław Cichocki. Natalia Nehrebecka

Ekonometria dla IiE i MSEMat Z12

1.9 Czasowy wymiar danych

1 Modele ADL - interpretacja współczynników

Stanisław Cichocki. Natalia Nehrebecka

Przyczynowość Kointegracja. Kointegracja. Kointegracja

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

, a reszta dla pominiętej obserwacji wynosi 0, RSS jest stałe, T SS rośnie, więc zarówno R 2 jak i R2 rosną. R 2 = 1 n 1 n. rosnie. n 2 (1 R2 ) = 1 59

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Ekonometria egzamin wersja Informatyka i Ekonometria 26/06/08

1.7 Ograniczenia nakładane na równanie regresji

Stanisław Cichocki. Natalia Nehrebecka

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Definicja danych panelowych Typy danych panelowych Modele dla danych panelowych. Dane panelowe. Część 1. Dane panelowe

Ekonometria. Metodologia budowy modelu. Jerzy Mycielski. Luty, 2011 WNE, UW. Jerzy Mycielski (WNE, UW) Ekonometria Luty, / 18

Ekonometria egzamin wersja ogólna 17/06/08

Ekonometria dla IiE i MSEMat Z7

Wprowadzenie Testy własności składnika losowego. Diagnostyka modelu. Część 1. Diagnostyka modelu

Wprowadzenie do analizy korelacji i regresji

Natalia Nehrebecka. 18 maja 2010

Stanisław Cichocki Natalia Nehrebecka. Wykład 3

Prawdopodobieństwo i statystyka

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cihcocki. Natalia Nehrebecka

Ekonometria egzamin wersja Informatyka i Ekonometria 29/01/08

Stanisław Cichocki Natalia Nehrebecka. Wykład 3

Stanisław Cichocki Natalia Nehrebecka. Wykład 4

Statystyka i eksploracja danych

Mikroekonometria 2. Mikołaj Czajkowski Wiktor Budziński

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Heteroskedastyczość w szeregach czasowyh

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

1.8 Diagnostyka modelu

Estymator jest nieobciążony, jeśli jego wartośd oczekiwana pokrywa się z wartością szacowanego parametru.

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Zmienne sztuczne i jakościowe

Testowanie hipotez statystycznych

Stanisław Cichocki. Natalia Nehrebecka. Zajęcia 15-16

Stanisław Cichocki. Natalia Nehrebecka. Wykład 11

1.6 Zmienne jakościowe i dyskretne w modelu regresji

Stanisław Cichocki. Natalia Nehrebecka

1 Metoda Najmniejszych Kwadratów (MNK) 2 Interpretacja parametrów modelu. 3 Klasyczny Model Regresji Liniowej (KMRL)

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada

1.1 Klasyczny Model Regresji Liniowej

Testowanie hipotez statystycznych

MODELE LINIOWE. Dr Wioleta Drobik

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Transkrypt:

Stanisław Cichocki Natalia Nehrebecka Wykład 13 1

1. Problemy z danymi Obserwacje nietypowe i błędne Współliniowość. Heteroskedastycznośd i autokorelacja Konsekwencje heteroskedastyczności i autokorelacji

1. Problemy z danymi Obserwacje nietypowe i błędne Współliniowość. Heteroskedastycznośd i autokorelacja Konsekwencje heteroskedastyczności i autokorelacji

Obserwacja nietypowa charakteryzuje się nietypowymi na tle pozostałych obserwacji cechami Mechanizm, który w przypadku tej zmiennej generuje zmienną zależną jest mechanizmem opisywanym przez model Obserwacja błędna jest obserwacją, której powstania nie da się wytłumaczyd w ramach teoretycznego modelu ekonomicznego stanowiącego podstawę estymowanego modelu Obserwacje błędne często pojawiają się w wyniku pomyłek przy wpisywaniu obserwacji do bazy danych

Niekiedy jednak obserwacje błędne są rzeczywistymi obserwacjami, związanymi z pewnymi nietypowymi zdarzeniami, które nie mogą byd wyjaśnione za pomocą naszego modelu Przykład: Estymujemy krzywą popytu na żywnośd dla różnych paostw na świecie. W próbie występują paostwa, w których obowiązuje reglamentacja żywności. Obserwacje takie traktujemy jako obserwacje błędne teoria opisująca krzywą popytu nie znajduje zastosowania w momencie nierynkowego podziału dóbr.

Wpływ obserwacji nietypowej/błędnej na wynik regresji zależy od tego na ile ta obserwacja pasuje do prostej regresji Najbardziej niepokojąca jest sytuacja gdy obserwacja ma nietypowe wartości dla zmiennych niezależnych i słabo pasuje do prostej regresji

Na podstawie samego modelu nie da się ustalid, które obserwacje są błędne fakt, że obserwacja nie pasuje do modelu nie może byd powodem do jej usunięcia tak postępując zawsze udawałoby się nam uzyskad dobrze dopasowany model (usuwając obserwacje, które nie pasują do modelu) Częśd obserwacji możemy uznad za błędne na podstawie teorii np. zmienna wiek przyjmuje dla pewnych obserwacji wartości ujemne wiemy, że wiek musi przyjmowad wartości dodatnie więc obserwacja błędna

Przykład: Badamy wynagrodzenia dla próby osób przebadanych w 007 przez CASE pod kątem wykonywania pracy nierejestrowanej. sum wynagrodzenia Variable Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- zarobki 5773 1339.31 364.34 0 99997 count if wynagrodzenia==99997 703

Uwzględnienie obserwacji nietypowej pozytywnie wpływa na: a) precyzję oszacowao b) dopasowanie modelu Uwzględnienie obserwacji błędnej negatywnie wpływa na: a) precyzję oszacowao b) dopasowanie modelu

Przykład: Porównujemy rentownośc dwóch kontraktów: A i B. Dysponujemy 10 obserwacjami dotyczącymi stóp zwrotu (IRR internal rate of return) dla tych dwóch kontraktów kontrakt stopa zwrotu A 10 8 8 9 11 10 8 9 11 10 B 16 15 18 17 16-80 17 16 16 17

Regresja z pominięciem jednej obserwacji:

Regresja ze wszystkimi obserwacjami:

Statystki służące do wykrycia obserwacji nietypowych, słabo pasujących do prostej regresji, silnie wpływających na wynik regresji: a) dźwignia b) standaryzowane reszty c) odległośd Cooka a

Dźwignia używana do stwierdzenie czy wektor zmiennych niezależnych xi dla obserwacji i jest nietypowy na tle pozostałych x : ' ( ' ) 1 ' ' ( ) i i i i X i X ii h X X X X P P 1 x ( X ' X ) x' i i gdzie: i [0,...,0, 1, 0,...,0]' P X ( X ' X ) X ' X 1

- Dla każdego modelu: 0 1 h i - Dla modelu ze stałą: 1 N h i 1

- Nieformalna reguła mówi, ze obserwacje można traktowad jako nietypową gdy: h i K N -To, że obserwacja jest nietypowa nie oznacza, że nie pasuje do modelu - Aby się o tym przekonad musimy przyjrzed się standaryzowanym resztom

Standaryzowane reszty: Przypomnienie: e M x Wobec tego: Var( e) Var( M ) M ( I ) M M x x x x

Standaryzowane reszty: i i i x i Var( e ) Var( ' e) ' M X X 1 X i i i i [ ' ' ( ' ) ' ] P h i X i i (1 ' ) (1 )

Standaryzowane reszty: Jeśli N (0, I) to: e i N(0,1) Ponieważ jest nieznane stosujemy estymator s: e i 1 h i e i ei ~ tnk s 1 h i

Dla nietypowej obserwacji: e i Jednak (jeżeli błąd losowy ma rozkład normalny), to statystycznie dla ok. 5% obserwacji: e i Niepokojące jest nie tyle fakt występowania dużych reszt, ile raczej występowanie dużych wartości reszt dla obserwacji nietypowych (o dużych dźwigniach)

Odległośd Cook a na wynik regresji: mierzy wpływ pojedynczej obserwacji CD i ( yy( i) )'( yy( i) ) ei hi Ks K 1 h i y gdzie: X b () i ( i) ( i) y X b () i - wartości dopasowne powstałe po usunięciu z próby i tej obserwacji

Odległośd Cook a: Najbardziej wpływowe są obserwacje, która maja równocześnie duże i e i h i Nieformalna zasada mówi, ze powinniśmy uważnie przyjrzed się obserwacjom, dla których: CDi 4 N

numer dochg wydg reszty_st dzwignia cook_d~t --------------------------------------------------------- 1. 11868 58935 413-30.7398.047496 3.53513. 1336 6453 008-13.74937.0087709.836386 3. 509 6645 563-13.3397.0089089.7979006 4. 357 30069 567-1.67469.0115515.9387016 5. 1079 39 189-11.5431.0061053.4095 h i K * 0,0001 N 31679 CD i 4 4 0,0001 N 31679

numer dochg wydg cook_d~t reszty_st dzwignia --------------------------------------------------------- 1. 11868 58935 413 3.53513-30.7398.047496. 1336 6453 008.836386-13.74937.0087709 3. 509 6645 563.7979006-13.3397.0089089 4. 357 30069 567.9387016-1.67469.0115515 5. 1079 39 189.4095-11.5431.0061053

O współliniowości mówimy w przypadku występowania silnej korelacji między zmiennymi objaśniającymi utrudnia to zidentyfikowanie zmiennej, która jest przyczyną zmiennej zależnej Wyróżniamy dwa typy współliniowości: a) dokładną współliniowośd b) niedokładną współliniowośd

O dokładnej współliniowości mówimy, gdy kolumny macierzy obserwacji są współliniowe jedna z kolumn macierzy jest kombinacją liniową pozostałych kolumn macierz X X jest osobliwa i wobec tego nieodwracalna Oznacza to, że jedna ze zmiennych niezależnych jest kombinacją liniową pozostałych zmiennych niezależnych i nie wnosi żadnej dodatkowej informacji do modelu powinniśmy usunąd ja z modelu Dokładna współliniowośd jest wynikiem błędnej specyfikacji modelu

Przykład: zmienne objaśniające w modelu: a) ln(pkb), b) ln(liczba ludności) c) ln(pkb per capita) - Zmienna ln(pkb per capita) jest kombinacją zmiennej ln(pkb) i ln(liczba ludności)

O niedokładnej współliniowości mówimy, gdy występuje silna korelacja między zmiennymi objaśniającymi W przypadku danych ekonometrycznych występowanie korelacji między zmiennymi objaśniającymi jest regułą problemem jest nie samo występowanie korelacji lecz przypadek gdy jest ona bardzo silna obniża to precyzję oszacowao

Statystyka służąca do wykrywania niedokładnej współliniowości nazywa się współczynnikiem inflacji wariancji: VIF k 1 1 R k gdzie: R - R w regresji x na pozostalych zmiennych objaśniających k k

Wysokie wartości VIF (>10) dla zmiennych objaśniających sygnalizują występowanie silnej niedokładnej współliniowości między zmiennymi Rozwiązaniem problemu silnej niedokładnej współliniowości jest usunięcie zmiennej o najwyższym VIF, co powinno poprawid precyzję oszacowao przy pozostałych zmiennych Należy jednak pamiętad, że jeśli usunięta zmienna była istotna w modelu to jej usunięcie może spowodowad obciążenie estymatorów przy zmiennych, z którymi jest skorelowana Niedokładna współliniowośd nie jest wynikiem błędnej specyfikacji modelu lecz wynika z własności konkretnego zbioru danych

reg wydg dochg dochg dochg3 Source SS df MS Number of obs = 31679 -------------+------------------------------ F( 3, 31675) = 8591.16 Model.5996e+10 3 8.6653e+09 Prob > F = 0.0000 Residual 3.1948e+10 31675 100869.31 R-squared = 0.4486 -------------+------------------------------ Adj R-squared = 0.4486 Total 5.7944e+10 31678 189163.0 Root MSE = 1004.3 ------------------------------------------------------------------------------ wydg Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- dochg.861691.00808 107.41 0.000.8459671.877417 dochg -.000075 9.05e-07-30.36 0.000 -.00009 -.000057 dochg3.76e-10 1.58e-11 17.46 0.000.45e-10 3.07e-10 _cons 316.3596 13.51433 3.41 0.000 89.871 34.848

vif Variable VIF 1/VIF -------------+---------------------- dochg 1.44 0.046644 dochg3 13.40 0.074609 dochg 4.35 0.9769 -------------+---------------------- Mean VIF 13.06

1. Problemy z danymi Obserwacje nietypowe i błędne Współliniowość. Heteroskedastycznośd i autokorelacja Konsekwencje heteroskedastyczności i autokorelacji

Przypomnienie: Co to znaczy, że w modelu występuje homoskedastycznośd/heteroskedastycznośd? - heteroskedastycznośd 1 1 1 1 1 1 1 0 0 0 0 0 0 ) ( ), ( ), ( ), ( ) ( ), ( ), ( ), ( ) ( ) ( n n n n n n Var Cov Cov Cov Var Cov Cov Cov Var Var

Stałośd wariancji zaburzeo nazywamy homoskedastycznością zaburzeo. Oznacza to, że zaburzenia losowe są jednakowo rozproszone wokół zerowej wartości oczekiwanej. Jeśli wariancje nie byłyby jednakowe, to sytuację taką nazywamy heteroskedastycznością. y Rys.1. Heteroskedastyczność x

Reszty Oznacza to, że zaburzenia losowe są jednakowo rozproszone wokół zerowej wartości oczekiwanej. Reszty 0 0 x x Homoskedastyczność: reszty zachowują się losowo. Heteroskedastyczność: Wariancja reszt zmienia się wraz ze zmianą zmiennej niezależnej X.

Regresja wydatków na dochodzie

Przypomnienie: Co to znaczy, że w modelu występuje autokorelacja? -Brak autokorelacji 1 1 1 1 1 1 0 0 0 0 0 0 ) ( ), ( ), ( ), ( ) ( ), ( ), ( ), ( ) ( ) ( n n n n n Var Cov Cov Cov Var Cov Cov Cov Var Var

Przypadek zerowych kowariancji dla różnych zaburzeo losowych oraz nazywamy brakiem autokorelacji zaburzeo. Oznacza to, że zaburzenia losowe dla różnych obserwacji są niezależne, a przez to nieskorelowane, a więc nie mają tendencji do gromadzenia się np. wokół dodatnich lub ujemnych (lub naprzemiennie dodatnich i ujemnych) wartości y i j Rys.. Autokorelacja x

Cov(, ) E( ) 0 dla i j - dodatnia autokorelacja i j i j Cov(, ) E( ) 0 dla i j - ujemna autokorelacja i j i j

Jeżeli założenie o homoskedastyczności i autokorelacji jest spełnione to błędy losowe są sferyczne Jeżeli, któreś z tych założeo nie jest spełnione to błędy losowe są niesferyczne a macierz wariancji i kowariancji ma postad dowolnej macierzy symetrycznej i dodatnio półokreślonej: Var( ) V

- Estymator b jest nadal nieobciążony: 1 E( b) E ( X ' X ) X ' y E X X X X X X X 1 1 ( ' ) ' ( ' ) ' 1 ( X ' X ) X ' E( ) - Nie będzie on jednak efektywny można znaleźd estymator o mniejszej wariancji

- Macierz wariancji i kowariancji b: Var( b) E ( X ' X ) X ' ' X ( X ' X ) 1 1 ( X ' X ) X ' X ( X ' X ) 1 1 ( X ' X ) X ' VX ( X ' X ) 1 1 - Wzór ten różni się znacznie od prawidłowego wzoru na wariancję MNK: Var( b) ( X ' X ) 1

- W rezultacie estymator macierzy wariancji i kowariancji b, którym posługiwaliśmy się do tej pory, nie będzie dobrym oszacowaniem macierzy wariancji i kowariancji b

Dziękuję za uwagę 49