Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Podobne dokumenty
Natalia Nehrebecka Stanisław Cichocki. Wykład 13

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Analizowane modele. Dwa modele: y = X 1 β 1 + u (1) y = X 1 β 1 + X 2 β 2 + ε (2) Będziemy analizować dwie sytuacje:

MODELE LINIOWE. Dr Wioleta Drobik

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

3. Modele tendencji czasowej w prognozowaniu

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Egzamin z ekonometrii wersja IiE, MSEMat Pytania teoretyczne

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka

1.5 Problemy ze zbiorem danych

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Ekonometria egzamin 07/03/2018

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Wprowadzenie do analizy korelacji i regresji

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

Metody Ilościowe w Socjologii

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Metoda najmniejszych kwadratów

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

ANALIZA REGRESJI SPSS

Stanisław Cichocki. Natalia Nehrebecka

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Testowanie hipotez statystycznych

Wnioskowanie statystyczne. Statystyka w 5

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Ekonometria I Weryfikacja: współliniowość i normalność. Dr Michał Gradzewicz Szkoła Główna Handlowa w Warszawie

Egzamin z ekonometrii - wersja ogólna

Egzamin z ekonometrii wersja IiE, MSEMAT

Analiza regresji - weryfikacja założeń

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Stanisław Cihcocki. Natalia Nehrebecka

Własności statystyczne regresji liniowej. Wykład 4

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Testowanie hipotez statystycznych

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Ekonometria Ćwiczenia 19/01/05

Szymon Bargłowski, sb39345 MODEL. 1. Równania rozpatrywanego modelu: 1 PKB t = a 1 a 2 E t a 3 Invest t 1

Proces modelowania zjawiska handlu zagranicznego towarami

Monte Carlo, bootstrap, jacknife

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Natalia Neherbecka. 11 czerwca 2010

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Egzamin z ekonometrii wersja ogolna

Stanisław Cichocki Natalia Neherbecka

Testowanie hipotez statystycznych

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Stanisław Cichocki. Natalia Nehrebecka. Zajęcia 15-16

ANALIZA DYNAMIKI DOCHODU KRAJOWEGO BRUTTO

Ćwiczenia IV

EKONOMETRIA. Prof. dr hab. Eugeniusz Gatnar.

Wojciech Skwirz

Stanisław Cichocki. Natalia Nehrebecka

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

1.1 Klasyczny Model Regresji Liniowej

EKONOMETRIA STOSOWANA PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

Prawdopodobieństwo i statystyka

PDF created with FinePrint pdffactory Pro trial version

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Stanisław Cichocki. Natalia Nehrebecka. Zajęcia 1-2

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Zmienne zależne i niezależne

Transkrypt:

Stanisław Cichocki Natalia Nehrebecka Zajęcia 11-12

1. Zmienne pominięte 2. Zmienne nieistotne 3. Obserwacje nietypowe i błędne 4. Współliniowość

- Mamy 2 modele: y X u 1 1 (1) y X X 1 1 2 2 (2) - Potencjalnie każdy z tych modeli może prawidłowo opisywać zmienną y problemy gdy przy liczeniu estymatorów zastosujemy niewłaściwy model - Załóżmy, ze estymujemy model (1) a prawdziwy jest model (2)

2 0 - Zakładamy, że gdy w rzeczywistości 2 0 - Przypadek ten nazywamy problemem zmiennych pominiętych (ommitted variables)

ˆ 1 - - estymator MNK wektora parametrów w modelu (1) - Załóżmy, że prawdziwy jest model (2) ˆ ( X X ) X y ( X X ) X ( X X ) ' 1 ' ' 1 ' 1 1 1 1 1 1 1 1 1 2 2 ( X X ) X X ( X X ) X ' 1 ' ' 1 ' 1 1 1 1 2 2 1 1 1

- E( ˆ ) ( X X ) X X ( X X ) X E( ) ' 1 ' ' 1 ' ( 1 ) 1 1 1 1 2 2 1 1 1 ( X X ) X X ' 1 ' 1 1 1 1 2 2 - Jeśli więc pominiemy istotne zmienne estymator nie jest estymatorem nieobciążonym - Obciążenie: E ˆ X X X X ( ' 1 ' ( 1 ) 1 1 ( 1 1) 1 2 2

- Dwa przypadki, dla których pominięcie zmiennej nie powoduje obciążenia estymatora a) 2 0 XX ' 1 2 0 b) - zmienne pominięte nie są skorelowane ze zmiennymi objaśniającymi, które zostały uwzględnione w modelu

- Obciążenie może prowadzić do: a) Uznania za zmienną istotną zmiennej, która nie ma żadnego wpływu na zmienna zależną najgorszy przypadek b) Przeszacowania/niedoszacowania wpływu zmiennej objaśniającej na zmienna objaśnianą

- Kierunek obciążenia dla najprostszego przypadku (model ze stałą i jedną zmienną objaśniającą, pominięta jedna dodatkowa zmienna objaśniająca): gdzie: E ( ˆ ) ( 1 2 1 1 2 xx 1 2 s s x x 1 s, s - wariancja empiryczna x, x x 1 2 xx 1 2 x 1 2 - wsp. korelacji miedzy x a x 1 2

- Kierunek obciążenia dla najprostszego przypadku (model ze stałą i jedną zmienną objaśniającą, pominięta jedna dodatkowa zmienna objaśniająca): Przypadek Wpływ zmiennej pominiętej na zmienną zależną Korelacja między zmienną pominiętą a zmienną niezależną Znak obciążenia I + + + (przeszacowanie) II - - + III + - - (niedoszacowanie) IV - + -

- Przykład: Dla pewnej badanej grupy osób przeprowadzono regresję logarytmu wynagrodzenia na latach nauki (zmienna latanauki). Jaki będzie prawdopodobny kierunek obciążenia parametru przy zmiennej latanauki wynikający z pominięcia: a) wielkości miejscowości, w której zamieszkuje badana osoba; b) liczby dzieci badanej osoby?

- Mamy 2 modele: y X u 1 1 (1) y X X 1 1 2 2 (2) - Załóżmy, ze estymujemy model (2) a prawdziwy jest model (1) 2 0 - Zakładamy, że gdy w rzeczywistości 2 0 - Przypadek ten nazywamy problemem zmiennych nieistotnych

1 - Estymator - nieobciążony, ale będzie miał większą wariancję niż estymator uzyskany na podstawie modelu (1) - Inaczej mówiąc, w modelu w którym występują zmienne nieistotne estymator MNK ma wyższą wariancję niż w modelu, z którego usunięto zmienne nieistotne

- Usuwamy z modelu zmienne nieistotne bo: a) Poprawia to precyzję oszacowań parametrów przy zmiennych istotnych (estymator MNK ma mniejszą wariancję) b) Uzyskujemy uproszczenie modelu

Można wyróżnić następujące rodzaje obserwacji nietypowych: Pierwszy ich rodzaj zwany nietypowymi obserwacjami zmiennej objaśnianej charakteryzuje się nieoczekiwanie dużymi resztami. 18

Drugi rodzaj, to tak zwane nietypowe obserwacje zmiennych objaśniających lub punkty dźwigniowe (leverage points). Cecha charakterystyczna punktów dźwigniowych jest ich znaczne oddalenie od środka zmienności zmiennych objaśniających, co istotnie wpływa na wyznaczone oceny parametrów przy jednocześnie małej wielkości reszty 19

- Obserwacja nietypowa charakteryzuje się nietypowymi na tle pozostałych obserwacji cechami - Mechanizm, który w przypadku tej zmiennej generuje zmienną zależną jest mechanizmem opisywanym przez model - Obserwacja błędna jest obserwacją, której powstania nie da się wytłumaczyć w ramach teoretycznego modelu ekonomicznego stanowiącego podstawę estymowanego modelu - Obserwacje błędne często pojawiają się w wyniku pomyłek przy wpisywaniu obserwacji do bazy danych

- Niekiedy jednak obserwacje błędne są rzeczywistymi obserwacjami, związanymi z pewnymi nietypowymi zdarzeniami, które nie mogą być wyjaśnione za pomocą naszego modelu - Wpływ obserwacji nietypowej/błędnej na wynik regresji zależy od tego na ile ta obserwacja pasuje do prostej regresji - Najbardziej niepokojąca jest sytuacja gdy obserwacja ma nietypowe wartości dla zmiennych niezależnych i słabo pasuje do prostej regresji

- Na podstawie samego modelu nie da się ustalić, które obserwacje są błędne fakt, że obserwacja nie pasuje do modelu nie może być powodem do jej usunięcia tak postępując zawsze udawałoby się nam uzyskać dobrze dopasowany model (usuwając obserwacje, które nie pasują do modelu) - Część obserwacji możemy uznać za błędne na podstawie teorii np. zmienna wiek przyjmuje dla pewnych obserwacji wartości ujemne wiemy, że wiek musi przyjmować wartości dodatnie więc obserwacja błędna

W zależności od wielkości reszty i dźwigni dla danej obserwacji, możemy wyróżnić trzy interesujące grupy obserwacji: duża reszta, leverage points (duża dźwignia), influential points (duże wartości zarówno reszty, jak i dźwigni). - Wszystkie takie obserwacje powinny być dokładnie zbadane: mogą być rezultatem błędu przy wprowadzaniu danych, reprezentować dane spoza badanej populacji lub też zarejestrowane w nadzwyczajnych okolicznościach. - Mogą jednak również zawierać kluczowe dla nas informacje, zatem nie należy ich lekka ręką usuwać ze zbioru. 23

- Do stwierdzenia, czy zmienna jest nietypowa na tle pozostałych zmiennych używamy następujących statystyk: a) Dźwignia (leverage): ' ( ' ) 1 ' i i i h X X X X gdzie i ' [0,...,0,1,0,...,0]

- Dla każdego modelu: 0 1 h i - Dla modelu ze stałą: 1 N h i 1

- Nieformalna reguła mówi, ze obserwacje można traktować jako nietypową gdy: h i 2K N - To, że obserwacja jest nietypowa nie oznacza, że posiada duże reszty, aby się o tym przekonać musimy przyjrzeć się standaryzowanym resztom

b) Standaryzowane reszty: e i ei s 1 h i - Uznaje się, że dla nietypowej obserwacji: e i 2 - Jednak (jeżeli błąd losowy ma rozkład normalny), to statystycznie dla ok. 5% obserwacji e i 2

- Niepokojące jest nie tyle fakt występowania dużych reszt, ile raczej występowanie dużych wartości reszt dla obserwacji nietypowych (o dużych dźwigniach)

- Odległość Cooka mierzy wpływ pojedynczej obserwacji na wynik regresji: 2 ei hi CDi K 1 h i - Najbardziej wpływowe są obserwacje, która maja równocześnie duże hi 2 i e i

- Nieformalna zasada mówi, ze powinniśmy uważnie przyjrzeć się obserwacjom, dla których: CDi 4 N

- Test wpływowych obserwacji DFITS : DFITS i eˆ i h 1 i h i

- Nieformalna zasada mówi, ze powinniśmy uważnie przyjrzeć się obserwacjom, dla których DFFITS : DFITS i 2 K N

R - stopa przestępczości; liczba przestępstw zanotowanych przez policje na 1 000 000 osób Age - liczba mężczyzn w wieku 14-24 lata na 1 000 mieszkańców Ed - indeks mierżący wykształcenie, średnia liczba lat nauki dla osób powyżej 25 roku przemnożona przez 10 Ex0 - wydatki na policję U2 - stopa bezrobocia mężczyzn w wieku 35-39 na 1 000 mieszkańców W - "bogactwo" wyrażone jako mediana zasobów majątkowych rodzin X - liczba rodzin na 1 000, których zarobki są poniżej 1/4 mediany dochodów

DFFITS i 2 K N 2 7 0,772 47

- O współliniowości mówimy w przypadku występowania silnej korelacji między zmiennymi objaśniającymi utrudnia to zidentyfikowanie zmiennej, która jest przyczyną zmiennej zależnej - Wyróżniamy dwa typy współliniowości: a) Dokładną współliniowość b) Niedokładną współliniowość

- O dokładnej współliniowości mówimy, gdy kolumny macierzy obserwacji są współliniowe jedna z kolumn macierzy jest kombinacją liniową pozostałych kolumn macierz X X jest osobliwa i wobec tego nieodwracalna - Oznacza to, że jedna ze zmiennych niezależnych jest kombinacją liniową pozostałych zmiennych niezależnych i nie wnosi żadnej dodatkowej informacji do modelu powinniśmy usunąć ja z modelu - Dokładna współliniowość jest wynikiem błędnej specyfikacji modelu

- Przykład: zmienne objaśniające w modelu: a) ln(pkb), b) ln(liczba ludności) c) ln(pkb per capita) - Zmienna ln(pkb per capita) jest kombinacją zmiennej ln(pkb) i ln(liczba ludności)

- O niedokładnej współliniowości mówimy, gdy występuje silna korelacja między zmiennymi objaśniającymi - W przypadku danych ekonometrycznych występowanie korelacji między zmiennymi objaśniającymi jest regułą problemem jest nie samo występowanie korelacji lecz przypadek gdy jest ona bardzo silna obniża to precyzję oszacowań

Statystyka służąca do wykrywania niedokładnej współliniowości nazywa się współczynnikiem inflacji wariancji: VIF k 1 1 R 2 k gdzie R - R w regresji x na pozostalych zmiennych objaśniających 2 2 k k

- Wysokie wartości VIF (>10) dla zmiennych objaśniających sygnalizują występowanie silnej niedokładnej współliniowości między zmiennymi - Rozwiązaniem problemu silnej niedokładnej współliniowości jest usunięcie zmiennej o najwyższym VIF, co powinno poprawić precyzję oszacowań przy pozostałych zmiennych - Niedokładna współliniowość nie jest wynikiem błędnej specyfikacji modelu lecz wynika z własności konkretnego zbioru danych

1. Jakie są skutki pominięcia w równaniu regresji istotnych zmiennych objaśniających? 2. Jakie są efekty dodania w równaniu regresji nieistotnych zmiennych objaśniających? 3. Kiedy mówimy, że zmienne w modelu są dokładnie współliniowe? Jak można rozwiązać ten problem? 4. Jakie są konsekwencje niedokładnej współliniowości? Za pomocą jakiej statystyki można wykryć niedokładną współliniowość w modelu? 5. Co to jest obserwacja nietypowa? Kiedy obserwację nietypową można uznać za błędną? 6. Jakich statystyk używamy do wykrywania obserwacji nietypowych i błędnych?

Dziękuję za uwagę