REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

Podobne dokumenty
Metody Ekonometryczne

Natalia Neherbecka. 11 czerwca 2010

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Matematyka ubezpieczeń majątkowych r.

Wielowymiarowy próbnik Gibbsa

Stacjonarność Integracja. Integracja. Integracja

Modele zapisane w przestrzeni stanów

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Zawansowane modele wyborów dyskretnych

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Stanisław Cichocki. Natalia Nehrebecka. Zajęcia 15-16

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Metody systemowe i decyzyjne w informatyce

Ekonometria. Własności składnika losowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Zadanie 1. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k =

Analiza szeregów czasowych: 6. Liniowe modele niestacjonarne

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Metoda najmniejszych kwadratów

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Transformaty. Kodowanie transformujace

Uogolnione modele liniowe

Metody systemowe i decyzyjne w informatyce

Fuzja sygnałów i filtry bayesowskie

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Uogólniona Metoda Momentów

Stanisław Cichocki. Natalia Nehrebecka

5 Błąd średniokwadratowy i obciążenie

Przykład 2. Stopa bezrobocia

Metoda największej wiarogodności

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Testowanie hipotez statystycznych.

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyka matematyczna dla leśników

Metody Ilościowe w Socjologii

Redukcja wariancji w metodach Monte-Carlo

Rozdział 8. Regresja. Definiowanie modelu

Testowanie hipotez statystycznych.

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Metody systemowe i decyzyjne w informatyce

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Geometryczna zbieżność algorytmu Gibbsa

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Stacjonarne procesy gaussowskie, czyli o zwiazkach pomiędzy zwykła

Rozpoznawanie obrazów

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

SPOTKANIE 3: Regresja: Regresja liniowa

Weryfikacja hipotez statystycznych

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Prawdopodobieństwo i rozkład normalny cd.

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

Prawdopodobieństwo i statystyka r.

Algorytmy MCMC i ich zastosowania statystyczne

Ekonometria. Zajęcia

Szeregi czasowe, analiza zależności krótkoi długozasięgowych

Ekonometria. Model nieliniowe i funkcja produkcji. Jakub Mućk. Katedra Ekonomii Ilościowej

Mikroekonometria 2. Mikołaj Czajkowski Wiktor Budziński

1.1 Klasyczny Model Regresji Liniowej

Wst p do ekonometrii II

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Testowanie hipotez statystycznych

Własności statystyczne regresji liniowej. Wykład 4

Analiza składowych głównych

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Metoda największej wiarygodności

Metody systemowe i decyzyjne w informatyce

Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2014/2015

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Ekonometria egzamin 07/03/2018

Modele wielorównaniowe (forma strukturalna)

Ważne rozkłady i twierdzenia c.d.

STATYSTYKA MATEMATYCZNA WYKŁAD grudnia 2009

Wnioskowanie bayesowskie

Podstawowe modele probabilistyczne

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

Agata Boratyńska Statystyka aktuarialna... 1

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Kolokwium ze statystyki matematycznej

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2017/2018

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

Rozpoznawanie obrazów

Transkrypt:

1 REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

2 DOTYCHCZASOWE MODELE Regresja liniowa o postaci: y = Xβ + ε, gdzie ε~n 0 N, h 1 I N. Inaczej: - składnik losowy ma wielowymiarowy rozkład normalny o średniej 0 oraz macierzy kowariancji h 1 I N (składniki losowe są i.i.d.); - elementy macierzy X są stałe lub są losowe, lecz niezależne od ε. Problem znany z klasycznej ekonometrii co jeśli mamy do czynienia ze składnikiem losowym innej postaci?

3 UOGÓLNIJMY Rozważmy lekko zmodyfikowany model: y = Xβ + ε, gdzie ~N 0 N, h 1 Ω, gdzie: Ω dodatnio określona macierz kwadratowa N x N Pozostałe założenia pozostają nie zmienione. Możemy dobierać różne postaci macierzy Ω w zależności od potrzeb i problemu, przed którym stajemy (heteroskedastyczność, autokorelacja, a nawet inny niż normalny rozkład składnika losowego).

4 JAK PODEJŚĆ DO ESTYMACJI? Ponieważ macierz Ω jest dodatnio określona to istnieje macierz P, taka że: PΩP = I N. Pomnóżmy zatem standardowy model liniowy obustronnie przez P: Py = PXβ + Pε, inaczej: y = X β + ε Po takim przekształceniu ε ~N 0 N, h 1 I N. Zatem dokonując transformacji możemy przekształcić model tak, aby otrzymać go we wcześniejszej, prostszej postaci.

5 TROCHĘ WZORÓW Zwykła regresja Funkcja wiarygodności: p y β, h = hn 2 (2π) N 2 exp h 2 y Xβ (y Xβ) Rozkład a priori: p β, h = f NG (β, h β, V, s 2, v) Rozkład a posteriori: p β, h y = NG(β, V, s 2, v) Zmodyfikowana regresja Funkcja wiarygodności: p y β, h = hn 2 (2π) N 2 Ω 1 2 Rozkład a priori: p β, h, Ω = f N exp h 2 y Xβ Ω 1 2(y Xβ) β β, V f G h v, s 2 p(ω) Rozkład a posteriori: - otrzymujemy dość skomplikowane wzory - nie przybiera żadnej z łatwych do określenia form konieczność próbkowania.

6 HETEROSKEDASTYCZNOŚĆ Występuje gdy wariancje składnika losowego różnią się między obserwacjami: Ω = ω 1 0 0 ω N Przykłady powodów występowania: - wariancja błędów dla sprzedaży dużych firm może być inna niż dla małych, - lepiej rozwinięte kraje dysponują lepszymi sposobami zbierania danych, dlatego błędy mogą być dla nich mniejsze.

7 PRZYPADEK 1 ZNANA POSTAĆ Możemy znać lub podejrzewać formę, jaką przybierze heteroskedastyczność: ω i = h z i, α. z i - wektor wszystkich lub niektórych zmiennych objaśniających Częstym wyborem jest: h z i, α = (1 + α 1 z i1 + + α p z ip ) 2. Funkcja wiarygodności oraz rozkład a priori dane są wcześniej określonymi wzorami, zaś aby zbadać rozkład a posteriori stosuje się algorytm Metropolisa-Hastingsa.

8 PRZYPADEK 2 NIEZNANA POSTAĆ Krok 1 elicytacja p λ (λ = λ 1,, λ N = (ω 1 1,, ω N 1 ) : N p λ = f G λ i 1, v λ, λ (λ 1,, λ N ) (ω 1,, ω N ) i=1 otrzymujemy model równoznaczny z regresją liniową, gdzie ε ma rozkład t-studenta, z liczbą stopni swobody v λ p λ y, β, h, v λ N = p λ i y, β, h, v λ, i=1 p λ i y, β, h, v λ = f G λ i v λ + 1 hε i 2 + v λ, v λ + 1

9 PRZYPADEK 2 NIEZNANA POSTAĆ Krok 2 elicytacja p v λ : p v λ = f G (v λ v λ, 2) zatem a posteriori: p v λ y, β, h, λ N η = 1 v λ + 1 2 i=1 v λ 2 ln λ i 1 Nv λ 2 Γ v λ 2 + λ i N exp ηv λ, Gęstość ta jest niestandardowa, zatem konieczne jest wykorzystanie algorytmu Metropolisa-Hastingsa. Ze względu na szacowanie w dwóch (lub więcej) krokach mówimy o a priori hierarchicznym.

10 AUTOKORELACJA Do tej pory zakładaliśmy, że wariancja składnika losowego nie musi być stała, lecz nie dopuszczaliśmy występowania korelacji między składnikami losowymi (zakładaliśmy, że E ε i ε j = 0 dla i j). Chcemy rozluźnić to założenie, a w szczególności założyć, że składniki losowe są kształtowane w wyniku procesu AR(1) (można oczywiście wykorzystać opóźnienia wyższego rzędu idea pozostaje ta sama): ε t = ρε t 1 + u t, gdzie u t i. i. d. N 0, h 1. Możemy przekształcić zapis: ε t = ρ s u t s. s=0 Napotykamy problem aby można było policzyć statystyki (średnia, wariancja i kowariancja) dla ε t, ρ musi spełniać warunek ρ < 1 (innymi słowy proces musi być stacjonarny).

11 MACIERZ KOWARIANCJI Dzięki wcześniejszemu założeniu można zapisać, że macierz kowariancji składnika losowego dana jest w postaci hθ 1, gdzie: 1 ρ ρ 1 ρ 2. ρ T 1 ρ.... ρ 2. 1 ρ ρ 2 ρ 1 θ = 1 1 ρ 2 ρ 2 ρ.. ρ T 1. Dla przypomnienia modele AR(p) możemy zapisać z wykorzystaniem operatora opóźnienia: L m ε t = ε t m. Zatem model można zapisać jako: ρ L ε t = u t gdzie: ρ L = 1 ρ 1 L ρ p L p Jeśli proces jest stacjonarny to pierwiastki równania ρ z = 0 są co do znaku większe od jedności.

12 ESTYMACJA Podobnie jak w przypadku heteroskedastyczności dokonamy przekształcenia zwykłego modelu tak, aby otrzymać model, którego składniki losowe spełniają wszystkie standardowe założenia. Należy wyprowadzić macierz P, taką że PθP = I. Zatem jeśli model y t = x t β + ε t przemnożymy lewostronnie przez ρ L, otrzymamy nowy model spełniający standardowe założenia o składniku losowym: y t = x t β + u t gdzie u t i. i. d. N 0, h 1. Należy pamiętać, że wskutek tego postępowania tracimy p pierwszych obserwacji.

13 ESTYMACJA Rozkład a posteriori β Rozkład a posteriori h gdzie: β y, h, ρ~n(β, V) V = (V 1 + hx X ) 1 β = V(V 1 β + hx y ) h y, β, ρ~g(s 2, v) gdzie: v = T p v s 2 = y X β y X β + v s 2 v

14 ESTYMACJA Rozkład a posteriori ρ jest zależny od rozkładu a priori (który może przyjmować różne postaci). Załóżmy a priori wielowymiarowy rozkład normalny, ograniczony tylko do obszaru stacjonarności Φ : p ρ f N ρ ρ, V ρ 1 ρεφ gdzie 1 ρεφ jest funkcją charakterystyczną zbioru Φ. Zatem rozkład a posteriori przyjmuje postać: p ρ y, β, h f N ρ ρ, V ρ 1 ρεφ V ρ = (V 1 ρ + he E) 1 ρ = Vρ(V 1 ρ + he ε) E macierz (T-p)x k, gdzie t-ty wiersz dany jest (ε t 1,, ε t p )

15 PRÓBNIK GIBBSA Z wykorzystaniem próbnika Gibbsa losujemy kolejno z rozkładu a posteriori: β, następnie h oraz ρ. Jedyną komplikacją jest fakt, że dla ρ losujemy z obciętego wielowymiarowego rozkładu normalnego. Obejściem problemu jest losowanie z nieograniczonego wielowymiarowego rozkładu normalnego oraz odrzucanie losowań, które nie należą do obszaru stacjonarności (otrzymane pierwiastki nie są co do znaku większe od jedności).

16 PRZYKŁAD - DANE Modelowanie wygranych zespołu baseball owego New York Yankees w latach 1903-1999. y t procent wygranych meczy w danym roku, (x t1 - stała), x t2 on-base percentage (skuteczność pałkarzy w osiąganiu bazy), x t3 slugging average, x t4 earned run average. Wykorzystamy rozkład a priori nieinformacyjny.

17 PRZYKŁAD - WYNIKI Kierunek zależności dla obu modeli jest zachowany (oprócz stałej). Średnia wartość ρ = 0.17 wskazuje na słabą siłę autokorelacji. HDPI dla ρ zawiera 0, co przemawia na korzyść modelu zakładającego ρ=0. Wprowadzanie autokorelacji do modelu mogło nie być konieczne.

18 BIBLIOGRAFIA Koop G. (2003) Bayesian Econometrics, Wiley.