Natalia Nehrebecka Stanisław Cichocki. Wykład 13

Podobne dokumenty
Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Analizowane modele. Dwa modele: y = X 1 β 1 + u (1) y = X 1 β 1 + X 2 β 2 + ε (2) Będziemy analizować dwie sytuacje:

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Egzamin z ekonometrii wersja IiE, MSEMat Pytania teoretyczne

MODELE LINIOWE. Dr Wioleta Drobik

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

1.5 Problemy ze zbiorem danych

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Wprowadzenie do analizy korelacji i regresji

Egzamin z ekonometrii wersja IiE, MSEMAT

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Egzamin z ekonometrii wersja ogolna

Metoda najmniejszych kwadratów

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Ekonometria egzamin 07/03/2018

Stanisław Cichocki. Natalia Nehrebecka

ANALIZA REGRESJI SPSS

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Metoda najmniejszych kwadratów

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Ekonometria I Weryfikacja: współliniowość i normalność. Dr Michał Gradzewicz Szkoła Główna Handlowa w Warszawie

Stanisław Cichocki Natalia Nehrebecka. Wykład 1

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Statystyka i Analiza Danych

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Stanisław Cichocki. Natalia Nehrebecka

3. Modele tendencji czasowej w prognozowaniu

Stanisław Cichocki Natalia Nehrebecka. Wykład 1

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki Natalia Nehrebecka. Wykład 1

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Natalia Nehrebecka. Wykład 1

Egzamin z ekonometrii - wersja ogólna

Stanisław Cichocki. Natalia Nehrebecka

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Ćwiczenia IV

Budowa modelu i testowanie hipotez

STATYSTYKA MATEMATYCZNA

Stanisław Cihcocki. Natalia Nehrebecka

1.1 Klasyczny Model Regresji Liniowej

Stanisław Cichocki. Natalia Nehrebecka

Proces modelowania zjawiska handlu zagranicznego towarami

Analiza regresji część II. Agnieszka Nowak - Brzezińska

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

5. Model sezonowości i autoregresji zmiennej prognozowanej

1.6 Zmienne jakościowe i dyskretne w modelu regresji

Metodologia budowy modelu

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Stanisław Cichocki. Natalia Nehrebecka

Statystyka matematyczna i ekonometria

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Analiza regresji - weryfikacja założeń

1.9 Czasowy wymiar danych

Statystyczna analiza danych

Ekonometria Ćwiczenia 19/01/05

Testowanie hipotez statystycznych

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Zmienne Binarne w Pakiecie Stata

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

4. Średnia i autoregresja zmiennej prognozowanej

, a reszta dla pominiętej obserwacji wynosi 0, RSS jest stałe, T SS rośnie, więc zarówno R 2 jak i R2 rosną. R 2 = 1 n 1 n. rosnie. n 2 (1 R2 ) = 1 59

Zmienne zależne i niezależne

Wykład 4 Związki i zależności

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Stanisław Cichocki. Natalia Nehrebecka

Testowanie hipotez statystycznych

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Analiza regresji wielokrotnej - hierarchiczna

Stanisław Cichocki Natalia Neherbecka

Transkrypt:

Natalia Nehrebecka Stanisław Cichocki Wykład 13 1

1. Zmienne pominięte 2. Zmienne nieistotne 3. Obserwacje nietypowe i błędne 4. Współliniowość 2

1. Zmienne pominięte 2. Zmienne nieistotne 3. Obserwacje nietypowe i błędne 4. Współliniowość 3

Wykres 1 10 15 38 40 28 y 0 5 29 8 12 622 1 34 11 33 17 19 21 4 24 37 25 32 10 31 27 16 15 2 14 13 9 35 5 23 30 7 26 318 36 20 39 0 2 4 6 x 4

Obserwacja nietypowa charakteryzuje się nietypowymi na tle pozostałych obserwacji cechami Mechanizm, który w przypadku tej obserwacji generuje zmienną zależną jest mechanizmem opisywanym przez model Obserwacja błędna jest obserwacją, której powstania nie da się wytłumaczyć w ramach teoretycznego modelu ekonomicznego stanowiącego podstawę estymowanego modelu Obserwacje błędne często pojawiają się w wyniku pomyłek przy wpisywaniu obserwacji do bazy danych 5

Niekiedy jednak obserwacje błędne są rzeczywistymi obserwacjami, związanymi z pewnymi nietypowymi zdarzeniami, które nie mogą być wyjaśnione za pomocą naszego modelu Przykład: Estymujemy krzywą popytu na żywność dla różnych państw na świecie. W próbie występują państwa, w których obowiązuje reglamentacja żywności. Obserwacje takie traktujemy jako obserwacje błędne teoria opisująca krzywą popytu nie znajduje zastosowania w momencie nierynkowego podziału dóbr. 6

Wpływ obserwacji nietypowej/błędnej na wynik regresji zależy od tego na ile ta obserwacja pasuje do prostej regresji Najbardziej niepokojąca jest sytuacja gdy obserwacja ma nietypowe wartości dla zmiennych niezależnych i słabo pasuje do prostej regresji 7

Obserwacja nietypowa pasująca do linii regresji 8

Obserwacja nietypowa niepasująca do linii regresji 9

Przykład: Badamy wynagrodzenia dla próby osób przebadanej w 2007 przez CASE pod kątem wykonywania pracy nierejestrowanej. sum wynagrodzenia Variable Obs Mean Std. Dev. Min Max ----------+-------------------------------------------------------- zarobki 5773 13392.31 32264.34 0 99997 count if wynagrodzenia==99997 703 11

Uwzględnienie obserwacji nietypowej pozytywnie wpływa na: a) precyzję oszacowań b) dopasowanie modelu Uwzględnienie obserwacji błędnej negatywnie wpływa na: a) precyzję oszacowań b) dopasowanie modelu 12

Przykład: Porównujemy rentowność dwóch kontraktów: A i B. Dysponujemy 10 obserwacjami dotyczącymi stóp zwrotu (IRR internal rate of return) dla tych dwóch kontraktów kontrakt stopa zwrotu A 10 8 8 9 11 10 8 9 11 10 B 16 15 18 17 16-80 17 16 16 17 13

Regresja z pominięciem jednej obserwacji: Regresja ze wszystkimi obserwacjami: 14

W zależności od wielkości reszty i dźwigni dla danej obserwacji, możemy wyróżnić trzy interesujące grupy obserwacji: duża reszta, leverage points (duża dźwignia), influential points (duże wartości zarówno reszty, jak i leverage). Wszystkie takie obserwacje powinny być dokładnie zbadane: mogą być rezultatem błędu przy wprowadzaniu danych, reprezentować dane spoza badanej populacji lub też zarejestrowane w nadzwyczajnych okolicznościach. mogą jednak również zawierać kluczowe dla nas informacje, zatem nie należy ich lekka ręką usuwać ze zbioru. 15

Można wyróżnić następujące rodzaje obserwacji nietypowych: Pierwszy ich rodzaj zwany nietypowymi obserwacjami zmiennej objaśnianej charakteryzuje się nieoczekiwanie dużymi resztami. 16

Drugi rodzaj, to tak zwane nietypowe obserwacje zmiennych objaśniających lub punkty dźwigniowe (leverage points). Cecha charakterystyczna punktów dźwigniowych jest ich znaczne oddalenie od środka zmienności zmiennych objaśniających, co istotnie wpływa na wyznaczone oceny parametrów przy jednocześnie małej wielkości reszty y $y = b+ bx i 1 2 i $y = b + b x i 1 2 i x 17

Statystyki służące do wykrycia obserwacji nietypowych, słabo pasujących do prostej regresji, silnie wpływających na wynik regresji: a) dźwignia b) standaryzowane reszty c) odległość Cooka a 18

= ' ( ' ) 1 ' = ' = ( ) i i i i X X ii h X X X X P P = 1 x ( X ' X ) x' i i Macierz projekcji (rzutu) i = [0,...,0, 1, 0,...,0]' P = X( X ' X) X ' X 1 19

- Dla każdego modelu: 0 1 h i - Dla modelu ze stałą: 1 N h i 1 20

- Nieformalna reguła mówi, ze obserwacje można traktować jako nietypową gdy: h i 2K N -To, że obserwacja jest nietypowa nie oznacza, że nie pasuje do modelu - Aby się o tym przekonać musimy przyjrzeć się standaryzowanym resztom 21

Standaryzowane reszty: Przypomnienie: e = M x Wobec tego: Var( e) = Var( M ) = M ( I ) M = M 2 2 x x x x 22

23

Odległość Cooka mierzy wpływ pojedynczej obserwacji na wynik regresji: CD i 2 ( yy( i) )'( yy( i) ) ei hi = = 2 Ks K 1 h i gdzie: y = X b () i ( i) ( i) - wartości dopasowane powstałe po usunięciu z próby i tej obserwacji

Odległość Cooka: Najbardziej wpływowe są obserwacje, która maja równocześnie 2 duże e i h i i Nieformalna zasada mówi, ze powinniśmy uważnie przyjrzeć się obserwacjom, dla których: CDi 4 N

numer dochg wydg reszty_st dzwignia cook_d~t --------------------------------------------------------- 1. 11868 58935 4132-30.72398.0474962 23.53513 2. 1336 26453 2008-13.74937.0087709.8363862 3. 25029 26645 2563-13.32397.0089089.7979006 4. 22357 30069 5267-12.67469.0115515.9387016 5. 1079 22392 1892-11.54321.0061053.4092522 h i 2K 2*2 = 0,00012 N 31679 CD i 4 4 = 0,00012 N 31679

1. Zmienne pominięte 2. Zmienne nieistotne 3. Obserwacje nietypowe i błędne 4. Współliniowość 32

O współliniowości mówimy w przypadku występowania silnej korelacji między zmiennymi objaśniającymi utrudnia to zidentyfikowanie zmiennej, która jest przyczyną zmiennej zależnej Wyróżniamy dwa typy współliniowości: a) Dokładną współliniowość b) Niedokładną współliniowość 33

O dokładnej współliniowości mówimy, gdy kolumny macierzy obserwacji są współliniowe jedna z kolumn macierzy jest kombinacją liniową pozostałych kolumn macierz X X jest osobliwa i wobec tego nieodwracalna Oznacza to, że jedna ze zmiennych niezależnych jest kombinacją liniową pozostałych zmiennych niezależnych i nie wnosi żadnej dodatkowej informacji do modelu powinniśmy usunąć ją z modelu Dokładna współliniowość jest wynikiem błędnej specyfikacji modelu 34

- Przykład: zmienne objaśniające w modelu na logarytmach: a) PKB, b) Liczba ludności c) PKB per capita - Zmienna PKB per capita jest kombinacją zmiennej PKB i liczby ludności 35

- Przykład: dla wyjaśnienia mechanizmu zakupu dóbr trwałych w gospodarstwie domowym, zgodnie z hipoteza dochodów permanentnych Miltona Friedmana, za regresory wstawimy trzy wielkości: 1. dochody, 2. dochody permanentne (dochody trwale uzyskiwane) i 3. dochody tranzytywne (przechodnie, okazjonalne), z definicji suma dochodów permanentnych i tranzytywnych jest równa kategorii dochodów, co spowoduje, że kolumny obserwacji na trzech kategoriach dochodów są dokładnie liniowo zależne. 36

O niedokładnej współliniowości mówimy, gdy występuje silna korelacja między zmiennymi objaśniającymi Na przykład przy szacowaniu płacy jako funkcji wykształcenia, płci, wieku, stażu pracy możemy oczekiwać, że wiek badanej osoby i jej staż pracy wykażą silna dodatnia korelacje. W przypadku danych ekonometrycznych występowanie korelacji między zmiennymi objaśniającymi jest regułą problemem jest nie samo występowanie korelacji lecz przypadek gdy jest ona bardzo silna obniża to precyzję oszacowań 37

- Statystyka służąca do wykrywania niedokładnej współliniowości nazywa się współczynnikiem inflacji wariancji: VIF k 1 = 1 R 2 k Gdzie: R - R w regresji x na pozostalych zmiennych objaśniających 2 2 k k 38

Variable VIF 1/VIF -------------+---------------------- wiek_2 41.82 0.023911 wiek 41.81 0.023916 miasto_sre~e 2.15 0.464424 miasto_male 1.88 0.532160 miasto_duze 1.29 0.777298 plec 1.01 0.987011 -------------+---------------------- Mean VIF 14.99 40

1. Co to jest obserwacja nietypowa? Kiedy obserwację nietypową można uznać za błędną? 2. W jakim przypadku obserwacja nietypowa będzie miała znaczący wpływ na wynik regresji? 3. Jakich statystyk używamy do wykrywania obserwacji nietypowych i błędnych? 4. Kiedy mówimy, że zmienne w modelu są dokładnie współliniowe? Jak można rozwiązać ten problem? 5. Jakie są konsekwencje niedokładnej współliniowości? Za pomocą jakiej statystyki można wykryć niedokładną współliniowość w modelu? 41

Dziękuję za uwagę 42