Algorytmy MCMC i ich zastosowania statystyczne

Podobne dokumenty
Imputacja brakujacych danych binarnych w modelu autologistycznym 1

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

5 Błąd średniokwadratowy i obciążenie

Algorytmy MCMC i ich zastosowania statystyczne

Geometryczna zbieżność algorytmu Gibbsa

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

Wielowymiarowy próbnik Gibbsa

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Agata Boratyńska Statystyka aktuarialna... 1

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Testowanie hipotez statystycznych.

Algorytm Metropolisa-Hastingsa

Uogolnione modele liniowe

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Wykład 9: Markov Chain Monte Carlo

Prawdopodobieństwo i statystyka r.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Estymatory nieobciążone

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

STATYSTYKA MAŁYCH OBSZARÓW IV. EMPIRYCZNY NAJLEPSZY PREDYKTOR

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

STATYSTYKA MATEMATYCZNA WYKŁAD grudnia 2009

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

Algorytmy MCMC i ich zastosowania statystyczne

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Statystyka Matematyczna Anna Janicka

Monte Carlo, bootstrap, jacknife

Prawdopodobieństwo i statystyka

Rozpoznawanie obrazów

Statystyka Matematyczna Anna Janicka

Wykład 6 Estymatory efektywne. Własności asymptotyczne estym. estymatorów

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Instytut Matematyczny Uniwersytet Wrocławski. Zakres egzaminu magisterskiego. Wybrane rozdziały anazlizy i topologii 1 i 2

Metody systemowe i decyzyjne w informatyce

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Estymacja parametrów rozkładu cechy

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

1 Wykład 4. Proste Prawa wielkich liczb, CTG i metody Monte Carlo

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 1

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Statystyka Matematyczna Anna Janicka

Metody oparte na logicznej regresji. zastosowaniu do wykrywania interakcji SNPów

Metody systemowe i decyzyjne w informatyce

dla t ściślejsze ograniczenie na prawdopodobieństwo otrzymujemy przyjmując k = 1, zaś dla t > t ściślejsze ograniczenie otrzymujemy przyjmując k = 2.

Prawdopodobieństwo i statystyka

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Ekonometria Bayesowska

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

STATYSTYKA MATEMATYCZNA WYKŁAD października 2009

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Dynamiczne stochastyczne modele równowagi ogólnej

1.1 Wstęp Literatura... 1

Matematyka ubezpieczeń majątkowych r.

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Spacery losowe generowanie realizacji procesu losowego

Na podstawie dokonanych obserwacji:

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Metoda najmniejszych kwadratów

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Metody probabilistyczne

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

WYKŁAD 2 i 3. Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne. autor: Maciej Zięba. Politechnika Wrocławska

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Rachunek Prawdopodobieństwa Anna Janicka

Estymacja parametru rozkładu Rayleigha i logistycznego w terminach k-tych wartości rekordowych

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Optymalizacja ciągła

O ŚREDNIEJ STATYSTYCZNEJ

Redukcja wariancji w metodach Monte-Carlo

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Statystyka. Wykład 2. Krzysztof Topolski. Wrocław, 11 października 2012

Metody Rozmyte i Algorytmy Ewolucyjne

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Pobieranie prób i rozkład z próby

Rachunek prawdopodobieństwa 1B; zadania egzaminacyjne.

Metody probabilistyczne

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz.

Stosowana Analiza Regresji

Spis treści 3 SPIS TREŚCI

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

Kolokwium ze statystyki matematycznej

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Transkrypt:

Algorytmy MCMC i ich zastosowania statystyczne Wojciech Niemiro Uniwersytet Mikołaja Kopernika, Toruń i Uniwersytet Warszawski Statystyka Matematyczna Wisła, grudzień 2010

Wykład 1 1 Co to jest MCMC? 2 Po co jest MCMC? Przykłady wstępne Statystyka małych obszarów Model bayesowski Próbnik Gibbsa Statystyka przestrzenna Model auto-logistyczny Estymator największej wiarogodności Odtwarzanie obrazów PET (Positron Emission Tomography)

Co to jest MCMC? MCMC = (MC) 2 Markov Chain Monte Carlo Metody Monte Carlo wykorzystujace łańcuchy Markowa

Co to jest MCMC? Niech: X przestrzeń wielowymiarowa, π gęstość rozkładu prawdopodobieństwa na X, zwykle znana tylko z dokładnościa do stałej normujacej. Metoda MCMC: generujemy (symulujemy) łańcuch Markowa X 0, X 1,..., X t,... X t π, (t ). Obliczyć całkę Estymator MCMC: π(f ) = X f (x)π(x)dx, ˆπ t,n (f ) = 1 n t+n 1 i=t f (X i ) π(f ) t czas potrzebny, by rozkład X t był bliski π. (n ).

1 Co to jest MCMC? 2 Po co jest MCMC? Przykłady wstępne Statystyka małych obszarów Model bayesowski Próbnik Gibbsa Statystyka przestrzenna Model auto-logistyczny Estymator największej wiarogodności Odtwarzanie obrazów PET (Positron Emission Tomography)

Statystyka małych obszarów Próbka 3500 przedsiębiorstw. Ponad 350 powiatów. Oszacować sprzedaż w powiecie garwolińskim... Małe obszary to pod-populacje w których rozmiar próbki nie jest wystarczajacy, aby zastosować zwykłe estymatory (średnie z próbki). Podejście bayesowskie pozwala pożyczać informację z innych obszarów. Model bayesowski y ij N(θ i, σ 2 ) badana cecha dla j-tej wylosowanej jednostki i-tego obszaru, (j = 1,..., n i ), (i = 1,..., k), θ i N(µ, υ 2 ) interesujaca nas średnia w i-tym obszarze, µ średnia w całej populacji. Estymator bayesowski ˆθ i = E(θ i y) = z i ȳ i + (1 z i )µ, z i = n iυ 2 n i υ 2 + σ 2.

Hierarchiczny model bayesowski y ij N(θ i, σ 2 ), θ i N(µ, υ 2 ), µ N(m, τ 2 ), σ 2 Gamma(p, λ), υ 2 Gamma(q, κ). Łaczny rozkład prawdopodobieństwa: p(y, θ, µ, σ 2, υ 2 ) = p(y θ, σ 2 )p(θ µ, υ 2 )p(µ)p(σ 2 )p(υ 2 ). Rozkład prawdopodobieństwa a posteriori: p(θ, µ, σ 2, υ 2 y) = p(y, θ, µ, σ 2, υ 2 ) p(y) To jest rozkład docelowy π, na przestrzeni X = R k+3, ze nieznana stała normujac a 1/p(y).

Rozkłady warunkowe Rozkład łaczny: p(θ, µ, υ 2, σ 2 y) (σ 2 ) k/2 exp Rozkład warunkowy: (υ 2 ) k/2 exp { σ 2 2 υ 2 2 exp { τ 2 (µ m)2 2 k n i (y ij θ i ) 2 i=1 j=1 } k (θ i µ) 2 i=1 } (σ 2 ) q 1 exp{ κσ 2 } (υ 2 ) p 1 exp{ λυ 2 }. p(υ 2 y, θ, µ, σ 2 ) (υ 2 ) k/2+p 1 { ( ) } 1 k exp (θ i µ) 2 + λ υ 2. 2 i=1

Próbnik Gibbsa Reguła przejścia: (θ, µ, σ 2, υ 2) } {{ } X t (θ, µ, σ 2, υ 2). } {{ } X t+1 Powtarzaj: Wylosuj υ 2 p(υ 2 y, θ, µ, σ 2 ) = Gamma(...), Wylosuj σ 2 p(σ 2 y, θ, µ, υ 2 ) = Gamma(...), Wylosuj µ p(µ y, θ, σ 2, υ 2 ) = N(...), Wylosuj θ p(θ y, µ, σ 2, υ 2 ) = N(...), Łańcuch Markowa zbieżny do rozkładu a posteriori: X t π( ) = p(θ, µ, σ 2, υ 2 y).

Estymator bayesowski Wartość oczekiwana a posteriori: E(θ 1 y) = θ 1 p(θ, µ, σ 2, υ 2 y)dθ 2 dθ k dµdσ 2 dυ 2. Aproksymacja MCMC średnie wzdłuż trajektorii łańcucha: θ 1 (X 0 ), θ 1 (X 1 ),..., θ 1 (X t ),... gdzie θ 1 (x) = θ 1 dla x = (θ 1,..., θ k, µ, σ 2, υ 2 ).

Zbieżność do rozkładu stacjonarnego 1/v2 0 4 8 0 200 400 600 800 1000 step 1/v2 0 4 8 0 200 400 600 800 1000 step

Zbieżność średnich do estymatora bayesowskiego 1/v2 2.1 2.3 2.5 200 400 600 800 1000 step 1/v2 1.4 1.8 200 400 600 800 1000 step

Diagnostyka zbieżności może być watpliwa! Trajektoria v; wartosc modelowa v= 10 v 0 10 20 30 0 5000 10000 15000 20000 iteracja Trajektoria v z odrzuconym poczatkiem dlugosci 500 wartosc modelowa v= 50 v 0 10 20 30 0 5000 10000 15000 20000 iteracja Czy widać zbieżność do rozkładu stacjonarnego?

Diagnostyka zbieżności może być watpliwa! Trajektoria v; wartosc modelowa v= 10 v 0 10 20 30 0 5000 10000 15000 20000 iteracja Trajektoria v z odrzuconym poczatkiem dlugosci 500 wartosc modelowa v= 50 v 0 10 20 30 0 5000 10000 15000 20000 iteracja Czy widać zbieżność do rozkładu stacjonarnego?

Diagnostyka zbieżności może być watpliwa! Trajektoria skumulowanych srednich v skumulowane srednie v 2 4 6 8 10 12 modelowe v= 10 estymowane v= 1.434 0 5000 10000 15000 20000 iteracja Czy widać zbieżność średnich do estymatora bayesowskiego?

Diagnostyka zbieżności może być watpliwa! Trajektoria skumulowanych srednich v skumulowane srednie v 2 4 6 8 10 12 modelowe v= 10 estymowane v= 1.434 0 5000 10000 15000 20000 iteracja Czy widać zbieżność średnich do estymatora bayesowskiego?

Model auto-logistyczny Niech x = (x 1,..., x d ) konfiguracja binarnych zmiennych losowych na X = {0, 1} d. Rozkład Gibbsa: p θ (x) = 1 d Z (θ) exp θ ij x i x j. i,j=1 Stała normujaca Z (θ) = x X exp { } jest typowo niemożliwa do obliczenia. W zastosowaniach przestrzennych indeks i {1,..., d} interpretuje się jako miejsce. Zbiór miejsc wyposażony jest w strukturę grafu. Krawędzie łacz a miejsca sasiaduj ace. Piszemy i j. Najprostszy model: θ = (θ 0, θ 1 ), 0 i j, i j; θ ij = θ 1 i j; θ 0 i = j.

Symulacja Pełne rozkłady warunkowe (full conditionals): exp θ ii + d θ ij x j j=1 j i p θ (x i = 1 x i ) =, 1 + exp θ ii + d θ ij x j gdzie x i = (x j, j i). Zatem: Symulowanie x p θ jest łatwe za pomoca próbnika Gibbsa (PG): x 1 p θ (x 1 x 1 ), x 2 p θ (x 2 x 2 ),... j=1 j i

Estymator największej wiarogodności Estymator największej wiarogodności obliczany metoda Monte Carlo: Geyer and Thopmpson (1992, JRSS). Bardziej ogólna rodzina wykładnicza: p θ (x) = 1 [ ] Z (θ) exp θ T T (x). gdzie T (x) wektor statystyk dostatecznych. Rozkłady autologistyczne tworza rodzinę wykładnicza: θ ustawiona w wektor, statystykami T (x) sa x i i x i x j.

Aproksymacja Z (θ) metoda MC Z (θ) = x = x Z (θ)/z (θ ) = x [ ] exp θ T T (x) [ ] [ ] exp (θ θ ) T T (x) exp θ T T (x). [ ] exp (θ θ ) T T (x) p θ (x) [ ] = E θ exp (θ θ ) T T (x). Generujemy próbkę MC: x (k) p θ, k = 1,..., n gdzie θ jest w zasadzie dowolne, n jest możliwie największe. Ẑ (θ) MC /Z (θ ) = 1 n n k=1 [ ] exp (θ θ ) T T (x (k)).

Estymator największej wiarogodności Próbka MC: x (k) p θ, k = 1,..., n. Aproksymacja logarytmu wiarogodności L(θ) = log p θ (x): ˆL MC (θ) = θ T T (x) log n k=1 e (θ θ )T T (x (k)) }{{} MC przybliżenie Z (θ) +const. Jak losować z rozkładu AL? Próbnik Gibbsa! Uwaga: p θ (x i x i ) ten sam rozkład co w standardowym modelu regresji logistycznej. W kontekscie danych epidemiologicznych, θ może być wstępnym estymatorem obliczonym przy z użyciu standardowych metod GLM (Uogólnionych Modeli Liniowych). Następnie metoda MC obliczamy łatwo jednokrokowy estymator NW. Zalewska, Niemiro, Samoliński (2010 MC& Appl.)

Statystyczny model PET Lasota, Niemiro (2003) i Koronacki, Lasota, Niemiro (2005). s S piksel d D tuba Model: x sd liczba emisji w pikslu s zarejestrowanych w tubie d. x sd Poiss(f sd θ s ), gdzie f sd znane, θ s nieznane parametry. Cel: odtworzyć konfiguracje θ = (θ s ) s S na podstawie obserwacji y = (y d ) d D, gdzie y d = s x sd. Zadanie odwrotne!

Bayesowski model PET Rozkład a priori π(θ) exp [ β s t Ψ(θ s, θ t )] bardziej prawdopodobne sa gładkie konfiguracje (Ψ(θ s, θ t ) kwantyfikuje różnicę między θ s i θ t dla sasiednich piksli s t). Rozkład warunkowy π(θ x) exp [ s θ s + s ( d x sd) log θ s β s t Ψ(θ s, θ t )]. Próbnik Gibbsa oblicza rozkład a posteriori: generujemy θ π(θ x) (rekonstrukcja obrazu θ); generujemy x π(x y, θ) (imputacja brakujacych danych x). W istocie pierwszy krok (rekonstrukcja obrazu θ) jest próbnikiem Gibbsa, w którym θ s π(θ s θ s, x). W istocie... to było trochę bardziej skomplikowane (zmienne pomocnicze).

Dos wiadczenia symulacyjne Figure 3: Phantom I and results of reconstruction after 0, 5, 15, 25 and 40 steps; w = 10. 3 Figure 5: Phantom I and results of reconstruction after 40 steps; for w = 10, w = 20, w = 30, w = 100 and w = 300. 5