1 REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój
2 DOTYCHCZASOWE MODELE Regresja liniowa o postaci: y = Xβ + ε, gdzie ε~n 0 N, h 1 I N. Inaczej: - składnik losowy ma wielowymiarowy rozkład normalny o średniej 0 oraz macierzy kowariancji h 1 I N (składniki losowe są i.i.d.); - elementy macierzy X są stałe lub są losowe, lecz niezależne od ε. Problem znany z klasycznej ekonometrii co jeśli mamy do czynienia ze składnikiem losowym innej postaci?
3 UOGÓLNIJMY Rozważmy lekko zmodyfikowany model: y = Xβ + ε, gdzie ~N 0 N, h 1 Ω, gdzie: Ω dodatnio określona macierz kwadratowa N x N Pozostałe założenia pozostają nie zmienione. Możemy dobierać różne postaci macierzy Ω w zależności od potrzeb i problemu, przed którym stajemy (heteroskedastyczność, autokorelacja, a nawet inny niż normalny rozkład składnika losowego).
4 JAK PODEJŚĆ DO ESTYMACJI? Ponieważ macierz Ω jest dodatnio określona to istnieje macierz P, taka że: PΩP = I N. Pomnóżmy zatem standardowy model liniowy obustronnie przez P: Py = PXβ + Pε, inaczej: y = X β + ε Po takim przekształceniu ε ~N 0 N, h 1 I N. Zatem dokonując transformacji możemy przekształcić model tak, aby otrzymać go we wcześniejszej, prostszej postaci.
5 TROCHĘ WZORÓW Zwykła regresja Funkcja wiarygodności: p y β, h = hn 2 (2π) N 2 exp h 2 y Xβ (y Xβ) Rozkład a priori: p β, h = f NG (β, h β, V, s 2, v) Rozkład a posteriori: p β, h y = NG(β, V, s 2, v) Zmodyfikowana regresja Funkcja wiarygodności: p y β, h = hn 2 (2π) N 2 Ω 1 2 Rozkład a priori: p β, h, Ω = f N exp h 2 y Xβ Ω 1 2(y Xβ) β β, V f G h v, s 2 p(ω) Rozkład a posteriori: - otrzymujemy dość skomplikowane wzory - nie przybiera żadnej z łatwych do określenia form konieczność próbkowania.
6 HETEROSKEDASTYCZNOŚĆ Występuje gdy wariancje składnika losowego różnią się między obserwacjami: Ω = ω 1 0 0 ω N Przykłady powodów występowania: - wariancja błędów dla sprzedaży dużych firm może być inna niż dla małych, - lepiej rozwinięte kraje dysponują lepszymi sposobami zbierania danych, dlatego błędy mogą być dla nich mniejsze.
7 PRZYPADEK 1 ZNANA POSTAĆ Możemy znać lub podejrzewać formę, jaką przybierze heteroskedastyczność: ω i = h z i, α. z i - wektor wszystkich lub niektórych zmiennych objaśniających Częstym wyborem jest: h z i, α = (1 + α 1 z i1 + + α p z ip ) 2. Funkcja wiarygodności oraz rozkład a priori dane są wcześniej określonymi wzorami, zaś aby zbadać rozkład a posteriori stosuje się algorytm Metropolisa-Hastingsa.
8 PRZYPADEK 2 NIEZNANA POSTAĆ Krok 1 elicytacja p λ (λ = λ 1,, λ N = (ω 1 1,, ω N 1 ) : N p λ = f G λ i 1, v λ, λ (λ 1,, λ N ) (ω 1,, ω N ) i=1 otrzymujemy model równoznaczny z regresją liniową, gdzie ε ma rozkład t-studenta, z liczbą stopni swobody v λ p λ y, β, h, v λ N = p λ i y, β, h, v λ, i=1 p λ i y, β, h, v λ = f G λ i v λ + 1 hε i 2 + v λ, v λ + 1
9 PRZYPADEK 2 NIEZNANA POSTAĆ Krok 2 elicytacja p v λ : p v λ = f G (v λ v λ, 2) zatem a posteriori: p v λ y, β, h, λ N η = 1 v λ + 1 2 i=1 v λ 2 ln λ i 1 Nv λ 2 Γ v λ 2 + λ i N exp ηv λ, Gęstość ta jest niestandardowa, zatem konieczne jest wykorzystanie algorytmu Metropolisa-Hastingsa. Ze względu na szacowanie w dwóch (lub więcej) krokach mówimy o a priori hierarchicznym.
10 AUTOKORELACJA Do tej pory zakładaliśmy, że wariancja składnika losowego nie musi być stała, lecz nie dopuszczaliśmy występowania korelacji między składnikami losowymi (zakładaliśmy, że E ε i ε j = 0 dla i j). Chcemy rozluźnić to założenie, a w szczególności założyć, że składniki losowe są kształtowane w wyniku procesu AR(1) (można oczywiście wykorzystać opóźnienia wyższego rzędu idea pozostaje ta sama): ε t = ρε t 1 + u t, gdzie u t i. i. d. N 0, h 1. Możemy przekształcić zapis: ε t = ρ s u t s. s=0 Napotykamy problem aby można było policzyć statystyki (średnia, wariancja i kowariancja) dla ε t, ρ musi spełniać warunek ρ < 1 (innymi słowy proces musi być stacjonarny).
11 MACIERZ KOWARIANCJI Dzięki wcześniejszemu założeniu można zapisać, że macierz kowariancji składnika losowego dana jest w postaci hθ 1, gdzie: 1 ρ ρ 1 ρ 2. ρ T 1 ρ.... ρ 2. 1 ρ ρ 2 ρ 1 θ = 1 1 ρ 2 ρ 2 ρ.. ρ T 1. Dla przypomnienia modele AR(p) możemy zapisać z wykorzystaniem operatora opóźnienia: L m ε t = ε t m. Zatem model można zapisać jako: ρ L ε t = u t gdzie: ρ L = 1 ρ 1 L ρ p L p Jeśli proces jest stacjonarny to pierwiastki równania ρ z = 0 są co do znaku większe od jedności.
12 ESTYMACJA Podobnie jak w przypadku heteroskedastyczności dokonamy przekształcenia zwykłego modelu tak, aby otrzymać model, którego składniki losowe spełniają wszystkie standardowe założenia. Należy wyprowadzić macierz P, taką że PθP = I. Zatem jeśli model y t = x t β + ε t przemnożymy lewostronnie przez ρ L, otrzymamy nowy model spełniający standardowe założenia o składniku losowym: y t = x t β + u t gdzie u t i. i. d. N 0, h 1. Należy pamiętać, że wskutek tego postępowania tracimy p pierwszych obserwacji.
13 ESTYMACJA Rozkład a posteriori β Rozkład a posteriori h gdzie: β y, h, ρ~n(β, V) V = (V 1 + hx X ) 1 β = V(V 1 β + hx y ) h y, β, ρ~g(s 2, v) gdzie: v = T p v s 2 = y X β y X β + v s 2 v
14 ESTYMACJA Rozkład a posteriori ρ jest zależny od rozkładu a priori (który może przyjmować różne postaci). Załóżmy a priori wielowymiarowy rozkład normalny, ograniczony tylko do obszaru stacjonarności Φ : p ρ f N ρ ρ, V ρ 1 ρεφ gdzie 1 ρεφ jest funkcją charakterystyczną zbioru Φ. Zatem rozkład a posteriori przyjmuje postać: p ρ y, β, h f N ρ ρ, V ρ 1 ρεφ V ρ = (V 1 ρ + he E) 1 ρ = Vρ(V 1 ρ + he ε) E macierz (T-p)x k, gdzie t-ty wiersz dany jest (ε t 1,, ε t p )
15 PRÓBNIK GIBBSA Z wykorzystaniem próbnika Gibbsa losujemy kolejno z rozkładu a posteriori: β, następnie h oraz ρ. Jedyną komplikacją jest fakt, że dla ρ losujemy z obciętego wielowymiarowego rozkładu normalnego. Obejściem problemu jest losowanie z nieograniczonego wielowymiarowego rozkładu normalnego oraz odrzucanie losowań, które nie należą do obszaru stacjonarności (otrzymane pierwiastki nie są co do znaku większe od jedności).
16 PRZYKŁAD - DANE Modelowanie wygranych zespołu baseball owego New York Yankees w latach 1903-1999. y t procent wygranych meczy w danym roku, (x t1 - stała), x t2 on-base percentage (skuteczność pałkarzy w osiąganiu bazy), x t3 slugging average, x t4 earned run average. Wykorzystamy rozkład a priori nieinformacyjny.
17 PRZYKŁAD - WYNIKI Kierunek zależności dla obu modeli jest zachowany (oprócz stałej). Średnia wartość ρ = 0.17 wskazuje na słabą siłę autokorelacji. HDPI dla ρ zawiera 0, co przemawia na korzyść modelu zakładającego ρ=0. Wprowadzanie autokorelacji do modelu mogło nie być konieczne.
18 BIBLIOGRAFIA Koop G. (2003) Bayesian Econometrics, Wiley.