Wst p do ekonometrii II

Wst p do ekonometrii II Wykªad 4: Wprowadzenie do ekonometrii bayesowskiej (4) WdE II 1 / 41

Plan wykªadu 1 Podstawowe zasady wnioskowania bayesowskiego 2 Zastosowania ekonometrii bayesowskiej 3 Metody klasy MCMC 4 Ekonometria bayesowska w R 5 MCMC: diagnostyka (4) WdE II 2 / 41

Plan prezentacji 1 Podstawowe zasady wnioskowania bayesowskiego 2 Zastosowania ekonometrii bayesowskiej 3 Metody klasy MCMC 4 Ekonometria bayesowska w R 5 MCMC: diagnostyka (4) WdE II 3 / 41

Zasady wnioskowania bayesowskiego Fundamentalne zasady ekonometrii bayesowskiej (1) Parametry traktujemy jako zmienne losowe. To fundamentalna ró»nica w porównaniu do klasycznej ekonometrii, gdzie zakªadali±my istnienie prawdziwej, nieznanej warto±ci parametru w procesie generuj cym dane / populacji. Pewne elementy my±lenia w kategoriach rozkªadów (np. przedziaª ufno±ci) wi zaªy si wyª cznie z faktem,»e estymatory z próby s zmiennymi losowymi ze wzgl du na losowy dobór próby. Nigdy jednak nie dotyczyªo to prawdziwych parametrów. (4) WdE II 4 / 41

Zasady wnioskowania bayesowskiego Fundamentalne zasady ekonometrii bayesowskiej (2) Takie zaªo»enie odzwierciedla fundamentaln ró»nic mi dzy bayesistami a klasykami w rozumieniu poj cia prawdopodobie«stwa. Klasycy posªuguj si cz sto±ciow interpretacj prawdopodobie«stwa uwa»aj,»e nale»y si tym poj ciem posªugiwa wyª cznie w celu opisania, jak cz sto zachodzi okre±lone zdarzenie (dlatego bayesi±ci okre±laj ich jako frequentists). Bayesi±ci posªuguj si dodatkowo subiektywistyczn interpretacj prawdopodobie«stwa, która pozwala im okre±li rozkªach ich przekona«co do nieznanej warto±ci parametru. (4) WdE II 5 / 41

Zasady wnioskowania bayesowskiego Fundamentalne zasady ekonometrii bayesowskiej (3) Do procesu estymacji wprowadzamy wiedz spoza próby. Formuªujemy j w postaci rozkªadu a priori nieznanych parametrów. Mo»e on znacz co rzutowa na uzyskane wyniki. Miar sukcesu w ekonometrii bayesowskiej jest doprowadzenie do zaw»enia (ang. shrinkage) rozkªadu a priori czyli precyzyjniejszej wiedzy o parametrze po konfrontacji z danymi ni» przed. Nie musi to oznacza przesuni cia warto±ci oczekiwanej, chodzi o zmniejszenie wariancji. Je»eli rozkªad a posteriori niemal pokrywa si z rozkªadem a priori, to oznacza pora»k w analizie empirycznej dane niczego nie wniosªy do naszej wiedzy o parametrze. (4) WdE II 6 / 41

Zasady wnioskowania bayesowskiego Twierdzenie Bayesa zastosowanie w ekonometrii P (B A) P (A) P (A B) = P (B) f (A i B) = f (B A i ) f (A i ) f (B A i ) f (A i ) di I f (X θ) f (θ) f (θ X ) = f (X θ) f (θ) dθ I Jako zdarzenia A i rozpatrzymy ka»d mo»liw warto± parametru θ (zdarzenia θ 1,θ 2,...). Prawdopodobie«stwa tych zdarze«sumuj si do 1, gdy» budujemy funkcj g sto±ci / prawdopodobie«stwa. Zdarzenie B polega na tym,»e zaobserwowali±my okre±lony zestaw danych X. f (θ X ) wyznaczana g sto± a posteriori, tj. warunkowa wzgl dem zaobserwowanych danych f (θ) g sto± a priori f (X θ) funkcja wiarygodno±ci danych X przy zaªo»eniu parametru o warto±ci θ mianownik nie zale»y od θ i peªni rol staªej skaluj cej (4) WdE II 7 / 41

Rozkªady a priori i a posteriori, rozkªady predykcyjne, HPDI Przykªad: rozkªady brzegowe a posteriori w modelu regresji liniowej (4) WdE II 8 / 41

Rozkªady a priori i a posteriori, rozkªady predykcyjne, HPDI Highest posterior density interval (HPDI) (4) WdE II 9 / 41

Rozkªady a priori i a posteriori, rozkªady predykcyjne, HPDI Porównania modeli Caªkuj c licznik wzoru Bayesa otrzymujemy wiarygodno± brzegow modelu. Iloraz wiarygodno±ci brzegowej dwóch modeli to tzw. czynnik Bayesa. Skala Jereysa (1961, The theory of probability) Kass i Raftery (1995, Bayes factors, Journal of the American Statistical Association) BF interpretacja < 10 0 negative (supports M 2 ) 10 0 10 0.5 barely worth mentioning 10 0.5 10 1 substantial 10 1 10 1.5 strong 10 1.5 10 2 very strong > 10 2 decisive BF interpretacja 1 3 not worth more than a bare mention 3 20 positive 20 150 strong > 150 very strong (4) WdE II 10 / 41

Rozkªady a priori i a posteriori, rozkªady predykcyjne, HPDI Rozkªady predykcyjne p (y τ y) = p (y τ, θ y) dθ = p (y τ θ, y) p (θ y) dθ Θ Dalsze post powanie zale»y od tego, czy: y τ jest niezale»ne od y (pierwszy czynnik); znana jest funkcja g sto±ci parametrów a posteriori (drugi czynnik). Θ (4) WdE II 11 / 41

Zastosowania Zastosowania ekonometrii bayesowskiej Ubogi materiaª empiryczny mo»e zosta wzmocniony wiedz a priori w sformalizowany sposób. Uniwersalne instrumentarium do wnioskowania statystycznego, niezale»ne od rozkªadu skªadnika losowego czy stopnia komplikacji zaªo»e«prognostycznych. Przydatne w szeroko rozumianym zarz dzaniu ryzykiem (pozwalaj na wyra»anie i efektywn aktualizacj rozkªadów predykcyjnych o ró»nych ksztaªtach). (4) WdE II 13 / 41

Zastosowania Gdy skªadnik losowy nie ma rozkªadu normalnego... Rozwa»amy model ze skªadnikiem losowym o rozkªadzie t z 4 stopniami swobody (grube ogony). ε N i N ε t4 i t(4) JB = 0.7766, p-value = 0.6782 JB = 28773.93, p-value < 2.2e-16 (4) WdE II 14 / 41

Zastosowania Generujemy sztuczne dane ε t4 i t(4) x 1,i N(µ = 10; σ = 3) x 2,i Poiss (λ = 3) y i = 3 + 2x 1,i + 0, 5x 2,i + ε t4 i Klasyczna analiza z wykorzystaniem OLS: Cho oszacowania parametrów wydaj si nieodlegªe od (wyj tkowo znanych nam) prawdziwych warto±ci, to konstrukcja przedziaªów ufno±ci (i wnioskowanie statystyczne) bazuje na niespeªnionym zaªo»eniu o normalnym rozkªadzie skªadnika losowego. (4) WdE II 15 / 41

MCMC Efekty zastosowania metod numerycznych Bardzo rzadko mo»emy otrzyma analitycznie funkcj g sto±ci a posteriori, z której potraliby±my losowa. Tym samym problematyczne jest wyznaczenie (i) brzegowych g sto±ci a posteriori, (ii) wiarygodno±ci brzegowej modelu, (iii) rozkªadów predykcyjnych. 1 Metody numeryczne powinny prowadzi do otrzymania wyników S-krotnego losowania z rozkªadu a posteriori. Dysponuj c tymi wynikami (oznaczmy je θ (1), θ (2),..., θ (S) ) mo»emy m.in. naszkicowa histogram rozkªadów brzegowych pojedynczych parametrów i przedziaªy ufno±ci HPDI. 2 Mo»emy równie» oszacowa warto± oczekiwan dowolnej funkcji S ) parametrów g(θ) jako 1 g (θ (s). S s=1 Istnieje wiele metod numerycznych. Najpopularniejsz metod klasy MCMC (Monte Carlo Markov chain) jest algorytm Metropolisa-Hastingsa. (4) WdE II 17 / 41

MCMC Algorytm Metropolisa-Hastingsa przypadek ogólny Rozwa»my wektor parametrów θ = (θ 1, θ 2,..., θ K ) o nieznanej g sto±ci a posteriori p (θ y). Nie znamy równie» rozkªadów warunkowych jednego parametru wzgl dem pozostaªych. 1 Wybieramy wektor startowy θ (0) = (θ 1, θ 2,..., θ K ). 2 Losujemy kandydata ( θ korzystaj c z g sto±ci generuj cej kandydatów, q θ θ (0)). ( 3 Obliczamy prawdopodobie«stwo akceptacji kandydata, α θ, θ (0)). θ z prawdopodobieństwem α (θ, θ (0)) 4 θ (1) = θ (0) z prawdopodobieństwem 1 α (θ, θ (0)) 5 Powtarzamy kroki 1-4 z wektorem startowym θ (1). 6 Powtarzamy sekwencj S razy. (4) WdE II 18 / 41

MCMC Algorytm MH g sto± generuj ca kandydatów W ogólnym przypadku zakªadamy,»e jest zale»na od bie» cego punktu θ (s). Najcz stsz implementacj ( ) jest Random Walk MH, gdzie losujemy ε N θ (s), Σ i rozwa»amy kandydata: θ = θ (s) + ε (4) WdE II 19 / 41

MCMC Algorytm MH prawdopodobie«stwo akceptacji α 1 Poniewa» q to funkcja umowna, korzystanie z niej bez dodatkowych korekt nie gwarantuje nam uzyskania sekwencji losowa«przybli»aj cych rozkªad a posteriori. 1 Algorytm bez korekt zbyt cz sto pozostaje w obszarach o wysokiej g sto±ci a posteriori. 2 W zwi zku z tym musimy go skorygowa, by dostatecznie dobrze zwiedzi caª dziedzin parametrów. 2 Korekta polega na nieakceptowaniu wszystkich kandydatów wylosowanych na podstawie g sto±ci q. W przypadku braku akceptacji, kolejnym elementem ªa«cucha jest kopia poprzedniego. 1 Ogólny wzór na prawdopodobie«stwo akceptacji zale»y od g sto±ci a posteriori (p) oraz g sto±ci generuj cej kandydatów (q) dla wektorów: poprzedniego (θ (s) ) oraz kandydata (θ ). 2 W implementacji Random Walk: tylko od p, ale nie q ) [ ] α (θ, θ (0) p(θ = min y) p(θ (s 1) y), 1 (4) WdE II 20 / 41

MCMC Algorytm MH α versus q Miar jako±ci wyników jest m.in. ±rednie prawdopodobie«stwo akceptacji ᾱ. Okazuje si,»e optymalne warto±ci ᾱ [0, 2; 0, 4]. Dostatecznie niskie prawdopodobie«stwo akceptacji oznacza,»e dziedzina g sto±ci a posteriori zostaªa dobrze wyeksplorowana. ᾱ to jednak warto± wynikowa i nie mo»emy jej wprost wybra. Zale»y ona przede wszystkim od doboru g sto±ci generuj cej kandydatów q. W przypadku Random Walk MH, sprowadza si to do odpowiedniego ustalenia wariancji kroku ε, czyli Σ. Relacj mi dzy ᾱ a Σ nale»y zbada w ramach dodatkowej procedury iteracyjnej. Zaczynamy w niej od Σ (0) = c (0) I. W przypadku zbyt wysokiego ᾱ (0) zbyt cz sto akceptujemy, a wi c jeste±my zbyt konserwatywni w zwiedzaniu dziedziny, czyli powinnismy ustali c (1) > c (0). (4) WdE II 21 / 41

MCMC Rozrzedzanie i zwielokrotnienie ªa«cucha Aby unikn efektu silnej autokorelacji w wygenerowanej sekwencji θ (1), θ (2),..., θ (S) decydujemy si czasami na jej rozrzedzanie (thinning), czyli wybór co m-tego elementu. Eliminacja autokorelacji jest istotna, bo pozwala (i) pracowa z równie dªugimi ªa«cuchami ale o lepszej zawarto±ci informacyjnej, (ii) uªatwia kalkulacj miar zwi zanych z diagnostyk zbie»no±ci ªa«cucha (o tym nast pnym razem). Zasadno± tego zabiegu jest jednak czasami przedmiotem kontrowersji w literaturze. Cz sto decydujemy si na u»ycie wi kszej liczby ªa«cuchów ni» tylko jeden (to równie» przydaje si w diagnostyce zbie»no±ci MCMC). (4) WdE II 22 / 41

Ekonometria bayesowska w R Podstawowe programy i pakiety Nie istniej na razie pakiety umo»liwiaj ce w peªni ogólne wnioskowanie bayesowskie przeprowadzane wyª cznie za pomoc R. Istniej ce pakiety do symulacji rozkªadu a posteriori s interfejsami do programów zewn trznych, takich jak: STAN (rstan) BUGS / WinBUGS / JAGS (R2WinBUGS, rjags, R2jags, runjags, dclone,...) LaplacesDemon Na podstawie gotowych ªa«cuchów mo»emy wnioskowa z u»yciem pakietu coda. Istniej równie» pakiety umo»liwiaj ce szybk estymacj wielu modeli specjalnych (MCMCpack, BMR, gecon,...). (4) WdE II 24 / 41

Ekonometria bayesowska w R Praca z rjags / R2jags 1 Deniujemy nasz model w j zyku BUGS, jako funkcj w R (wiersze 46-56 towarzysz cego kodu). 2 Zapisujemy nasz model w pliku zewn trznym (polecenie write.model z pakietu R2WinBUGS, wiersz 59). 3 Nadajemy R dost p do JAGS (wiersz 66; je»eli zainstalowali±my JAGS sami, wówczas ten krok nale»y pomin ). 4 Uruchamiamy symulator a posteriori (70-79). 5 Mo»emy wyznaczy ±redni i dowoln inn statystyk a posteriori, HPDI, numeryczny bª d standardowy. 6 Nale»y równie» zbada zbie»no± i korelacje w ªa«cuchach. 7 Porównania modeli mo»emy dokona za pomoc DIC (deviance information criterion). (4) WdE II 25 / 41

Ekonometria bayesowska w R Denicja modelu (4) WdE II 26 / 41

Ekonometria bayesowska w R Symulacja a posteriori (4) WdE II 27 / 41

Ekonometria bayesowska w R Dost pne pakiety i metody Skorzystali±my z funkcji jags.parallel jako jednego z wielu dost pnych symulatorów a posteriori w R. Na JAGS bazuj jednak ró»ne funkcje (polecam samodzielne testy): jags.model oraz jags.samples z pakietu rjags jags / jags2 / jags.parallel z pakietu R2jags jags.t i jags.part z pakietu dclone Poza pakietami bazuj cymi na JAGS, warte uwagi mog okaza si pakiety bazuj ce na innych rozwi zaniach: rstan LaplaceDemon nimble... (4) WdE II 28 / 41

Diagnostyka zbie»no±ci Numeryczny bª d standardowy O ile przeci tnie mylimy si, szacuj c dan funkcj g (θ) za pomoc ±redniej z uzyskanych ªa«cuchów? Nie nale»y go myli z odchyleniem standardowym a posteriori! Bazuje na oszacowaniu g sto±ci spektralnej ªa«cucha S (0) i centralnym twierdzeniu granicznym (szczegóªy: Koop, s. 65). S(0) ˆσ g = S 1 S0 <- spectrum0(combined.chains) S_1 <- dim(jagsfit$bugsoutput$sims.array)[1] numerical.se <- (S0$spec/S_1)^0.5 (4) WdE II 30 / 41

Diagnostyka zbie»no±ci Numeryczny bª d standardowy summary(combined.chains, quantiles = c(0.025, 0.25, 0.5, 0.75, 0.975)) SD: odchylenie standardowe a posteriori Time-series SE: numeryczny bª d standardowy Naive SE: numeryczny bª d standardowy liczony wprost z CTG (bez uwzgl dnienia autokorelacji) (4) WdE II 31 / 41

Diagnostyka zbie»no±ci Jak dªugi powinien by ªa«cuch? To zale»y: jakiego rz du kwantyl chcemy szacowa (q); jak precyzj szacunku rozwa»amy (q r; q + r); jaki poziom ufno±ci chcemy przypisa temu przedziaªowi (s). Raftery i Lewis (1992, 1995) opracowali wzór na S 1 bazuj cy na trzech powy»szych argumentach, przywoªywany poleceniem raftery.diag. (4) WdE II 32 / 41

Diagnostyka zbie»no±ci Czy ªa«cuchy osi gn ªy zbie»no±? Analiza graczna plot(combined.chains) (4) WdE II 33 / 41

Diagnostyka zbie»no±ci Kryterium Gelmana-Rubina (1) Bazuje na intuicyjnej koncepcji,»e wariancja wewn trz ªa«cucha powinna by równa wariancji mi dzy ªa«cuchami. 1 Dla ka»dego ªa«cucha (i parametru) standardowo wyznaczamy wariancj wewn rz ªa«cucha. 2 U±redniamy j mi dzy ªa«cuchami do poziomu W. 3 Wariancja mi dzy ªa«cuchami to B. 4 Mo»na pokaza,»e caªkowita wariancja T = S1 1 S 1 W + 1 S 1 B (szczegóªy: Koop, s. 66). 5 Je»eli ªa«cuchy nie zbiegªy, wówczas W niedoszacowuje wariancji wszystkich ªa«cuchów. 6 Powinno to prowadzi to warto±ci potential scale reduction T factor= W > 1. W praktyce jako warto± graniczn przyjmujemy 1.2 (powy»ej brak zbie»no±ci). (4) WdE II 34 / 41

Diagnostyka zbie»no±ci Kryterium Gelmana-Rubina (2) gelman.diag(combined.chains) gelman.plot(combined.chains) (4) WdE II 35 / 41

Diagnostyka zbie»no±ci Statystyka Geweke (1) geweke.diag(combined.chains, frac1=0.1, frac2=0.5) 1 Dzielimy ªa«cuch (po odrzuceniu burn-in) na 3 fragmenty, zadane frakcjami jego dªugo±ci. Zwykle przyjmuje si 10%, 50% i 40%. 2 Szacujemy warto± statystyki ĝ(θ) oraz numeryczny bª d standardowy ˆσ g dla pierwszej i trzeciej cz ±ci ªa«cucha. 3 ĝ Statystyka 1 (θ) ĝ 3 (θ) ˆσ S g1 N (0; + ˆσ 1), o ile prawdziwa jest hipoteza,»e ªa«cuch g1 1;1 S 1;3 zbiegª (wi cej: Koop, s. 68). (4) WdE II 36 / 41

Diagnostyka zbie»no±ci Statystyka Geweke (2) Mo»emy równie» iteracyjnie poszukiwa momentu, od którego ªa«cuch uwa»amy za zbie»ny. geweke.plot(combined.chains, frac1 = 0.1, frac2 = 0.5, nbins=40, pvalue=0.05) (4) WdE II 37 / 41

Diagnostyka zbie»no±ci Kryterium Heidelberga-Welcha heidel.diag(combined.chains) 1 Bazuje na denicji stacjonarno±ci: losowania z tego samego rozkªadu (po osi gni ciu zbie»no±ci) powinny generowa szeregi stacjonarne. 2 Wykonywany jest test stacjonarno±ci Cramera-von-Misesa (H 0 : stacjonarno± ) dla: 1 caªego ªa«cucha 2 w przypadku odrzucenia H 0 : dla ªa«cucha bez pierwszych 10% losowa«3 w przypadku odrzucenia H 0 : dla ªa«cucha bez pierwszych 20% losowa«4... 5 w przypadku sekwencji odrzuce«: dla ªa«cucha bez pierwszych 50% losowa«3 Szacowana jest równie» ±rednia ze stacjonarnej cz ±ci ªa«cucha. (4) WdE II 38 / 41

Diagnostyka zbie»no±ci Autokorelacja i krzy»owa korelacja w ªa«cuchu Jest zjawiskiem niepo» danym, cho w ªa«cuchach generowanych np. przez RW-MH nieuniknionym. Metod jej eliminacji jest rozrzedzanie ªa«cucha (thinning). Wysokie korelacje mi dzy parametrami oznaczaj z kolei powoln zbie»no±. (4) WdE II 39 / 41

Porównanie modeli Problem wyznaczenia brzegowej wiarygodno±ci Wyznaczenie brzegowej wiarygodno±ci niezb dne do obliczenia czynników Bayesa. Wielu badaczy korzysta z metod numerycznych opartych na ±redniej harmonicznej. Przykªad takiej metody: Gelfand-Dey (1994; zob. Koop, s. 104-106). Metoda oprogramowana w pakiecie BACC (opis tutaj), który jest ju» niedost pny... Inni badacze krytykuj wszelkie podej±cia bazuj ce na ±redniej harmonicznej. Mo»na znale¹ kody bazuj ce na ró»nych publikacjach, brakuje jednak ugruntowanego konsensusu. (4) WdE II 40 / 41

Porównanie modeli DIC Deviance Information Criterion jedno z podej± do porównania modeli oszacowanych metodami bayesowskimi. Dewiancja: D (θ) = 2p (y θ), Warto± oczekiwana a posteriori dewiancji (miara dopasowania modelu): D = D (θ) p (θ y) dθ Warto± oczekiwana a posteriori parametrów: θ DIC = 2 D D ( θ ) Uzasadnienie: DIC = D + p D, gdzie p D = D D ( θ ) to miara efektywnej liczby parametrów. (4) WdE II 41 / 41