Mikroekonometria 2 Mikołaj Czajkowski Wiktor Budziński
STATA wczytywanie danych 1. Import danych do Staty Copy-paste z Excela do edytora danych Import z różnych formatów (File -> Import -> ) me.sleep.txt, me.sleep.csv, me.sleep.xlsx Biddle, J. E., and Hamermesh, D. S., 1990. Sleep and the Allocation of Time. Journal of Political Economy, 98(5, Part 1):922-943. me.sleep.description.txt opis danych Wyświetlanie rozszerzeń plików Panel sterowania -> Opcje folderów -> Widok Odznacz 'Ukryj rozszerzenia znanych typów plików' 2. Upewnij się, że w zbiorze nie ma braków danych 3. Przygotowany zbiór można zapisać w formacie.dta i w przyszłości łatwo wczytać bez potrzeby ponownego importu i zachowując opisy zmiennych
Zadanie 1. Korzystając z danych me.sleep.dta sprawdź czy istnieje trade-off między ilością snu, a czasem pracy 1. Wczytaj zbiór me.sleep.dta 2. Przekształć zmienne sleep i totwrk tak, żeby były wyrażone w godzinach na dzień 3. Przeprowadź regresję liniową aby ocenić czy występuje statystycznie istotny związek
Metoda Najmniejszych Kwadratów (MNK) Postać modelu regresji liniowej: yi Xiβ i Modelujemy liniową zależność y od zmiennych objaśniających Parametry modelu β są nieznane, ale możemy je oszacować za pomocą posiadanych danych y, X Domyślnie szacujemy parametry skupiając się na średnich y względem X, ale można też skupiać się na medianie lub innych kwantylach Estymator reguła stosowana w celu znalezienia oszacowania jakiejś wielkości na podstawie danych Estymacja parametrów Metoda Najmniejszych Kwadratów (MNK) Metoda szukania parametrów β, polegająca na tym, żeby nasza liniowa funkcja dawała jak najmniejsze kwadraty różnic między przewidywanymi a obserwowanymi wartościami Wizualizacja X
Metoda Najmniejszych Kwadratów (MNK) Jeśli spełnione są jej założenia (wymogi) to estymator MNK 1. Nieobciążony (wartość oczekiwana szacowanych parametrów będzie równa prawdziwej wartości) 2. Zgodne (im większa próba, tym szacowane parametry będą bliższe prawdziwej wartości) 3. Efektywne (estymator jest najefektywniejszy gdy ma najmniejszą wariancję ze wszystkich estymatorów)
Założenia (wymogi) MNK 1. Liniowa postać funkcji jest faktycznie prawidłowa Jeśli tak nie jest Można estymować model nieliniowy (innymi metodami estymacji niż MNK) Można spróbować dokonać jakiejś transformacji zmiennych objaśnianej lub objaśniających (np. logarytm, kwadrat), która da zależność bliższą liniowej
Założenia (wymogi) MNK 2. Zmienne objaśniające są egzogeniczne Są znane z pewnością, nie trzeba traktować ich jak zmiennych losowych (np. z powodu błędów pomiaru) Nie są skorelowane z błędem losowym E X Czyli (m.in.) błędy losowe mają średnią 0 0 Jeśli tak nie jest (są endogeniczne, czyli korelacja y i X jest możliwa naturalnie, bez zależności przyczynowo-skutkowej) Można zastosować metodę zmiennych instrumentalnych (znaleźć zmienne, które wpływają na X, ale nie mają wpływu na y) Można zastosować metodę analizy wielomianowej (ang. multivariate analysis), w której dowolna zmienna może być traktowana jako objaśniana
Założenia (wymogi) MNK 3. Zmienne objaśniające są liniowo niezależne Żadnej ze zmiennych objaśniających nie da się wyrazić za pomocą liniowej kombinacji pozostałych Zwykle zakłada się także, że ich średnie i wariancje są skończone Jeśli jakieś zmienne objaśniające są współliniowe nie da się dla nich określić jednoznacznych parametrów
Założenia (wymogi) MNK 4. Błędy są sferyczne Brak autokorelacji var 2 X Błędy pomiędzy obserwacjami są nieskorelowane Może być niespełnione np. dla szeregów czasowych, danych panelowych itp. Jeśli tak nie jest estymator MNK nadal jest nieobciążony i zgodny, ale jest nie już efektywny Można zastosować np. Uogólnioną MNK Homoskedastyczność Składnik losowy ma tę samą wariancję dla wszystkich obserwacji I n i j X i j E 0 czyli cov, 0 i j E i X Jeśli tak nie jest estymator MNK nadal jest nieobciążony i zgodny, ale jest nie już efektywny Można zastosować np. Ważoną MNK lub odporne macierze kowariancji Czasem zakłada się dodatkowo normalność składnika losowego Nie jest niezbędne, ale jest potrzebne do dowodów własności testów dla skończonych prób Jeśli błędy są normalne to estymator MNK jest ekwiwalentny do estymatora Metody Największej Wiarygodności (MNW) 2 2
Heteroskedastyczność Dla zjawisk mikroekonomicznych dane przekrojowe często nie spełniają założenia homoskedastyczności Estymator MNK nieefektywny Jak testować homoskedastyczność? Test Breusha-Pagana Regresja kwantylowa Jak sobie radzić z heteroskedastycznością? Odporne macierze kowariancji UMNK
Testowanie homoskedastyczności Testowanie homoskedastyczności odbywa się zazwyczaj dwustopniowo: Estymacja podstawowego modelu: Obliczenie reszt: Dodatkowa (pomocnicza) regresja na resztach (test Breusha- 2 2 Pagana): e Z α u Testowanie przeprowadza się testując hipotezę: Czy reszty da się czymś wyjaśnić (wektor Z i ), czy są one zupełnie losowe? Statystyka testowa: e y X βˆ i i i i 0 i i 2 LM 0.5ESS p y X β i i i H : 0 0
Zadanie 2. Wykorzystując dane me.juice.dta przygotuj model objaśniający wielkość sprzedaży soku Cithi i sprawdź czy w danych występuje problem heteroskedastyczności 1. Przeprowadź regresję objaśniając logarytm sprzedaży soków Cithi (sal_cithi) za pomocą logarytmu cen (pri_cithi), czas od początku roku, czas do kwadratu, to czy sok był prezentowany na wystawie oraz efekty stałe dla sklepów 2. Przeprowadź test Breusha-Pagana w różnych wersjach Uwaga: wynik testu wskazujący na heteroskedastyczność może być spowodowany nieodpowiednią formą funkcyjną modelu lub nienormalnymi resztami. Zawsze warto sprawdzić czy te założenia są spełnione. Czy analizowana przez nas forma funkcyjna jest odpowiednia? Czy reszty są normalne?
Testowanie heteroskedastyczności w Stacie Pomimo heteroskedastyczności estymator MNK wciąż jest zgodny i nieobciążony. Przestaje być on jednak efektywny (wartości błędów standardowych mogą być mylące) Rozwiązanie tzw. odporne macierze kowariancji: 1 n 2 1 Macierz White a: XX e X X XX Bądź inne podobne dostępne w Stacie 3. Policz model regresji liniowej z odpornymi macierzami kowariancji i1 i i i
Uogólniona Metoda Najmniejszych Kwadratów W MNK estymatorem jest: W UMNK estymatorem jest: to znana macierz kowariancji błędów losowych W przypadku występowania heteroskedastyczności jest to macierz 2 diagonalna z elementami na przekątnej w postaci 2 Jeśli Z i jest znane to następujący model heteroskedastyczny: yi Xiβ Zi i można przekształcić do: yi Zi Xβ i Zi i Powyższy model już nie jest heteroskedastyczny, więc estymator MNK jest efektywny bmnk bumnk 1 X X Xy 1 X X X 1 1 Estymację takiego modelu nazywamy Ważoną Metodą Najmniejszych Kwadratów (WMNK) specjalny przypadek UMNK y Z i
Ważona Metoda Najmniejszych Kwadratów Załóżmy, że wiemy, że wariancja składnika losowego jest proporcjonalna do średniej zmiennej objaśnianej. To jest, mamy model następującej postaci: y X β X Gdzie X Xβ 2 2 2 i Model ten można estymować dwustopniowo 8. Oszacuj model za pomocą WMNK i i i i i
Modelowanie heteroskedastyczności W praktyce dokładna postać wariancji jest zazwyczaj nieznana Często chcielibyśmy estymować zależność między wariancją, a zmiennymi objaśniającymi, tak samo jak w przypadku średniej Stata pozwala na to w pewnym stopniu, to jest pozwala oszacować 2 wariancję w postaci: Z 2 exp Z γ Model estymowany przy pomocy Metody Największej Wiarygodności Stata nie posiada bezpośredniej funkcji pozwalającą na taką estymację Można wykorzystać model ARCH i i 9. Policz model ARCH, w którym wariancja zależy od zmiennych: logprice, dis_cith, t, t2. Czy w analizowanym zbiorze danych występuje heteroskedastyczność?
Modelowanie heteroskedastyczności Po co w ogóle modelować wariancję, skoro oszacowania parametrów są zgodne i nieobciążone, a można zastosować odporne macierze kowariancji? Dwa powody: Odporne macierze kowariancji nie zmieniają oszacowań parametrów, w regresji z heteroskedastycznością mogą one się różnić Teoretycznie, dla dużych prób, powinny być bardzo zbliżone, ale w praktyce, bywają różne Czasem chcielibyśmy znać zależność funkcyjną między wariancją, a zmiennymi objaśniającymi Np. rozważmy model w postaci: X β X log i i i i y Jeśli chcielibyśmy prognozować średnie y i przy pewnym poziomie zmiennych objaśnianych to musimy policzyć: E y * * 2 * i Xi exp Xiβ 0,5 Xi
Regresja kwantylowa W standardowej MNK modelujemy warunkową średnią zmiennej objaśnianej: E y X X Pokazaliśmy, że można modelować równocześnie również jej drugi 2 moment, to jest warunkową wariancję: var y Z Z i i i W przypadku rozkładu normalnego, te dwa momenty w sposób jednoznaczny definiują rozkład zmiennej objaśnianej W praktyce, zmienne ciągłe mogą mieć różne inne rozkłady Czasem chcielibyśmy modelować inne charakterystyki rozkładu, aby lepiej zrozumieć co się dzieje w danych Rozwiązanie regresja kwantylowa i i i
Regresja kwantylowa Kwantylem rzędu nazywamy taką wartość, dla której zachodzi: F Taka wartość, że wartości mniejsze lub równe od niej przyjmowane są z prawdopodobieństwem, a większe z prawdopodobieństwem 1 1 Kwantyl można policzyć korzystając ze wzoru: F W regresji kwantylowej chcemy zobaczyć, jak różne kwantyle zależą od wybranych zmiennych objaśniających 1 Definiuje się tzw. kwantyle warunkowe: Q y X F X i i y i Zazwyczaj, analogicznie jak w regresji liniowej, zakłada się zależność liniową: y X Xβ Q i i i Uwaga: w tej notacji parametry mogą być różne dla każdego kwantyla i
Regresja kwantylowa estymacja Najprostszym wariantem regresji kwantylowej jest tzw. regresja na medianie Staramy się znaleźć postać funkcyjną warunkowej mediany Parametry znajdujemy minimalizując następującą funkcję celu: Q β 0,5 0,5 i1 i i 0,5 Bardziej ogólnie, aby oszacować parametry dowolnego kwantyla minimalizujemy funkcję: W literaturze model ten jest również nazywany estymatorem LAD (ang. Least Absolute Deviations) Do optymalizacji używa się metod programowania liniowego (metoda simpleks) N y X β 1 Q β y X β y X β i i i i i: y X β i: y X β i i i i
Regresja kwantylowa w Stacie 1. Policz model regresji kwantylowej dla zbioru me.juice.dta Domyślnie Stata liczy regresję na medianie 2. Policz model regresji kwantylowej dla kwantyli innych rzędów np. 0,25; 0,75 3. Policz model regresji kwantylowej przy użyciu polecenia bsqreg
Zalety regresji kwantylowej Brak założeń na temat rozkładu zmiennej zależnej Można modelować cały rozkład zmiennej, a nie tylko wybrane momenty Łatwość wykrycia heteroskedastyczności Bardziej odporna na występowanie outlierów niż MNK Kwantyl zmiennej przekształconej przy pomocy ściśle rosnącej funkcji g x jest równy przekształconemu kwantylowi oryginalnej zmiennej: i Xi y i Xi Q g y g Q
Wady regresji kwantylowej Wzory analityczne na macierz kowariancji estymatora regresji kwantylowej są skomplikowane, a przez to rzadko stosowane W praktyce stosuje się metody symulacyjne np. bootstrap, przez co model liczy się dłużej niż np. regresja liniowa Współcześnie nie jest to duży problem
Regresja kwantylowa a heteroskedastyczność Regresja kwantylowa może zostać wykorzystana do analizy heteroskedastyczności Parametry różniące się między kwantylami wskazują na istotną heteroskedastyczność 1. Policz regresję kwantylową dla kwantyli rzędu 0.1, 0.25, 0.5, 0.75, 0.9 wykorzystując polecenie sqreg 2. Przetestuj czy w analizowanych danych występuje heteroskedastyczność 3. Przeanalizuje graficznie, czy parametry zmieniają się między kwantylami
Praca domowa ME.2 1. Wykorzystując dane me.juice.lpj oraz model regresji liniowej sprawdź jakie zmienne tłumaczą liczbę sprzedanych sztuk soku wybranej firmy (innej niż na zajęciach). Wykorzystaj więcej zmiennych niż na zajęciach 2. Przeprowadź diagnostykę heteroskedastyczności, formy funkcyjnej modelu oraz normalności błędu losowego 3. Wyjaśnij heteroskedastyczność wykorzystując model arch oraz regresję kwantylową Do przygotowania w grupach trzyosobowych
Praca domowa Rozwiązania pracy domowej wyślij na wbudzinski@wne.uw.edu.pl Termin wtorek (przed kolejnymi zajęciami) do 23:59 W tytule emaila wpisz tylko Praca domowa ME.<nr pracy domowej> W treści emaila podaj wyłącznie osoby przygotowujące tę pracę, w następującym formacie: <nr grupy1> <imię1> <nazwisko1> <nr indeksu1> <nr grupy2> <imię2> <nazwisko2> <nr indeksu2> <nr grupy3> <imię3> <nazwisko3> <nr indeksu3> Nr grupy odnosi się do list studentów podanych na stronie przedmiotu Rozwiązania wszystkich zadań (jeśli jest więcej niż jedno) zamieść w jednym pliku.do załączonym do emaila Plik do nazwij według schematu: ME.<nr pracy domowej> <nr indeksu1> <nr indeksu2> <nr indeksu3>.do Kod programu opatrz niezbędnymi komentarzami, oznaczając kolejność wykonywanych zadań W kodzie zamieść w komentarzach odpowiedzi na pytania (jeśli były zadane) Ścisłe zastosowanie się do powyższych reguł jest warunkiem przyznania pełnej liczby punktów z pracy domowej 2017-03-01 10:27:48