Imputacja brakujacych danych binarnych w modelu autologistycznym 1

Podobne dokumenty
Algorytmy MCMC i ich zastosowania statystyczne

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

5 Błąd średniokwadratowy i obciążenie

Uogolnione modele liniowe

Algorytmy MCMC i ich zastosowania statystyczne

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Estymacja parametru rozkładu Rayleigha i logistycznego w terminach k-tych wartości rekordowych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Geometryczna zbieżność algorytmu Gibbsa

Metody oparte na logicznej regresji. zastosowaniu do wykrywania interakcji SNPów

Wielowymiarowy próbnik Gibbsa

Statystyka Matematyczna Anna Janicka

Metody systemowe i decyzyjne w informatyce

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Prawdopodobieństwo i statystyka r.

Wykład 9: Markov Chain Monte Carlo

Statystyka Matematyczna Anna Janicka

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Instytut Matematyczny Uniwersytet Wrocławski. Zakres egzaminu magisterskiego. Wybrane rozdziały anazlizy i topologii 1 i 2

Rozpoznawanie obrazów

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Metody systemowe i decyzyjne w informatyce

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Ekonometryczne modele nieliniowe

Statystyka Matematyczna Anna Janicka

STATYSTYKA

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

(LMP-Liniowy model prawdopodobieństwa)

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Estymatory nieobciążone

Rozpoznawanie obrazów

Agata Boratyńska Statystyka aktuarialna... 1

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak

Regresyjne metody łączenia klasyfikatorów

Zawansowane modele wyborów dyskretnych

Metoda najmniejszych kwadratów

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

SPOTKANIE 3: Regresja: Regresja liniowa

Mikroekonometria 9. Mikołaj Czajkowski Wiktor Budziński

Algorytm Metropolisa-Hastingsa

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 1

Algorytmy MCMC i ich zastosowania statystyczne

WYKŁAD 2. Problem regresji - modele liniowe

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Metody systemowe i decyzyjne w informatyce

Zastosowanie uogólnionych modeli liniowych i uogólnionych mieszanych modeli liniowych do analizy danych dotyczacych występowania zębiniaków

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Monte Carlo, bootstrap, jacknife

Quick Launch Manual:

Program XXXVI Konferencji "Statystyka Matematyczna Wisła 2010"

Prawdopodobieństwo i statystyka

Spis treści 3 SPIS TREŚCI

Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński

Funkcje charakterystyczne zmiennych losowych, linie regresji 1-go i 2-go rodzaju

Spacery losowe generowanie realizacji procesu losowego

STATYSTYKA MAŁYCH OBSZARÓW IV. EMPIRYCZNY NAJLEPSZY PREDYKTOR

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Metody systemowe i decyzyjne w informatyce

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Stanisław Cichocki. Natalia Nehrebecka. Zajęcia 15-16

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta.

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

MODELOWANIE STOCHASTYCZNE CZĘŚĆ II - ŁAŃCUCHY MARKOWA. Biomatematyka Dr Wioleta Drobik-Czwarno

W4 Eksperyment niezawodnościowy

Wybrane metody szacowania rezerw techniczno-ubezpieczeniowych

Algorytmy estymacji stanu (filtry)

Metoda największej wiarygodności

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz.

BAYESOWSKA ANALIZA KRAŃCOWEJ SKŁONNOŚCI DO KONSUMPCJI

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Współczesna technika inwersyjna - dokad zmierzamy? Wojciech Dȩbski

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

PRZEWODNIK PO PRZEDMIOCIE

Komputerowa Analiza Danych Doświadczalnych

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

Wstęp. Regresja logistyczna. Spis treści. Hipoteza. powrót

Kolokwium ze statystyki matematycznej

WYKŁAD II: Klasyfikacja logistyczna. MiNI PW

Transkrypt:

Imputacja brakujacych danych binarnych w modelu autologistycznym 1 Marta Zalewska Warszawski Uniwesytet Medyczny Statystyka Matematyczna Wisła, grudzień 2009 1 Współautorzy: Wojciech Niemiro, UMK Toruń i UW, Bolesław Samoliński, WUM Praca częściowo finansowana przez Grant No. N N206 356036.

Plan 1 Imputacja Bayesowska i Próbnik Gibbsa 2 Model autologistyczny 3 Estymacja Maksimum pseudowiarogodności Maksimum wiarogodności i estymacja Bayesowska 4 Wyniki symulacyjne Metodologia Wyniki

Plan 1 Imputacja Bayesowska i Próbnik Gibbsa 2 Model autologistyczny 3 Estymacja Maksimum pseudowiarogodności Maksimum wiarogodności i estymacja Bayesowska 4 Wyniki symulacyjne Metodologia Wyniki

Plan 1 Imputacja Bayesowska i Próbnik Gibbsa 2 Model autologistyczny 3 Estymacja Maksimum pseudowiarogodności Maksimum wiarogodności i estymacja Bayesowska 4 Wyniki symulacyjne Metodologia Wyniki

Plan 1 Imputacja Bayesowska i Próbnik Gibbsa 2 Model autologistyczny 3 Estymacja Maksimum pseudowiarogodności Maksimum wiarogodności i estymacja Bayesowska 4 Wyniki symulacyjne Metodologia Wyniki

1 Imputacja Bayesowska i Próbnik Gibbsa 2 Model autologistyczny 3 Estymacja Maksimum pseudowiarogodności Maksimum wiarogodności i estymacja Bayesowska 4 Wyniki symulacyjne Metodologia Wyniki

Imputacja Bayesowska i Próbnik Gibbsa Dane: X = (X obs, X mis ) p β. X obs obserwowane dane X mis brakujace dane β π( ) parametr o rozkładzie a priori Próbnik Gibbsa. Powtarzamy dwa kroki: generujemy β z rozkładu π(β X obs, X mis ), generujemy X mis z rozkładu π(x mis X obs, β). Metoda MCMC: łańcuch Markowa zbieżny do π(x mis, β X obs ).

Imputacja Bayesowska i Próbnik Gibbsa Dane: X = (X obs, X mis ) p β. X obs obserwowane dane X mis brakujace dane β π( ) parametr o rozkładzie a priori Próbnik Gibbsa. Powtarzamy dwa kroki: generujemy β z rozkładu π(β X obs, X mis ), generujemy X mis z rozkładu π(x mis X obs, β). Metoda MCMC: łańcuch Markowa zbieżny do π(x mis, β X obs ).

1 Imputacja Bayesowska i Próbnik Gibbsa 2 Model autologistyczny 3 Estymacja Maksimum pseudowiarogodności Maksimum wiarogodności i estymacja Bayesowska 4 Wyniki symulacyjne Metodologia Wyniki

Model Rozkład autologistyczny na X = {0, 1} d : p β (x) := 1 d Z (β) exp β ij x i x j, i,j=1 x AL(β). Parametry: macierz symetryczna β = (β ij ). Pełne rozkłady warunkowe: exp (β ii + ) j i x jβ ij p β (x i = 1 x i ) = 1 + exp (β ii + ), j i x jβ ij gdzie x i = (x j, j i). Rozkład taki sam jak w standardowym modelu regresji logistycznej.

Model Rozkład autologistyczny na X = {0, 1} d : p β (x) := 1 d Z (β) exp β ij x i x j, i,j=1 x AL(β). Parametry: macierz symetryczna β = (β ij ). Pełne rozkłady warunkowe: exp (β ii + ) j i x jβ ij p β (x i = 1 x i ) = 1 + exp (β ii + ), j i x jβ ij gdzie x i = (x j, j i). Rozkład taki sam jak w standardowym modelu regresji logistycznej.

Symulacja i estymacja Wniosek: symulowanie x jest łatwe przy pomocy próbnika Gibbsa, parametry β można estymować standardowymi metodami GLM. Próbka: x(1),..., x(n) i.i.d. AL(β).

Symulacja i estymacja Wniosek: symulowanie x jest łatwe przy pomocy próbnika Gibbsa, parametry β można estymować standardowymi metodami GLM. Próbka: x(1),..., x(n) i.i.d. AL(β).

1 Imputacja Bayesowska i Próbnik Gibbsa 2 Model autologistyczny 3 Estymacja Maksimum pseudowiarogodności Maksimum wiarogodności i estymacja Bayesowska 4 Wyniki symulacyjne Metodologia Wyniki

Maksimum pseudowiarogodności Czastkowe wiarogodności: Pseudowiarogodność: L i (β x) = L i (β i x) := log p β (x i x i ). L ps (β X) = X = (x(1),..., x(n)) próbka. n k=1 i=1 d L i (β x(k)).

Maksimum wiarogodności Estymator największej wiarogodności via MCMC: Geyer i Thopmpson (1992, JRSS). Rodzina wykładnicza: p β (x) = 1 Z (β) eβt T (x), gdzie T (x) wektor statystyk dostatecznych. Z (β) = e βt T (x ) = e (β β ) T T (x ) p β (x )Z (β ) x x = Ee (β β ) T T (x ) Z (β ). gdzie x p β. Aproksymacja wiarogodności: x (1),..., x (n ) p β, L MCMC (β x) = β T T (x) log e (β β ) T T (x (k)) + const. n k=1

Maksimum wiarogodności Estymator największej wiarogodności via MCMC: Geyer i Thopmpson (1992, JRSS). Rodzina wykładnicza: p β (x) = 1 Z (β) eβt T (x), gdzie T (x) wektor statystyk dostatecznych. Z (β) = e βt T (x ) = e (β β ) T T (x ) p β (x )Z (β ) x x = Ee (β β ) T T (x ) Z (β ). gdzie x p β. Aproksymacja wiarogodności: x (1),..., x (n ) p β, L MCMC (β x) = β T T (x) log e (β β ) T T (x (k)) + const. n k=1

Próbkowanie z rozkładu a posteriori Wybieramy β = ˆβ ps, n = n. Estymator jednokrokowy Newtona-Raphsona ˆβ = ˆβ ps 2 L MCMC ( ˆβ ps ) 1 L MCMC ( ˆβ ps ), gdzie ˆβ ps estymator największej pseudowiarogodności, L MCMC aproksymacja wiarogodności na podstawie sztucznej próbki X = (x (1),..., x (n)) wygenerowanej z rozkładu p ˆβps. ˆβ ma w przybliżeniu rozkład π(β X).

Próbkowanie z rozkładu a posteriori Wybieramy β = ˆβ ps, n = n. Estymator jednokrokowy Newtona-Raphsona ˆβ = ˆβ ps 2 L MCMC ( ˆβ ps ) 1 L MCMC ( ˆβ ps ), gdzie ˆβ ps estymator największej pseudowiarogodności, L MCMC aproksymacja wiarogodności na podstawie sztucznej próbki X = (x (1),..., x (n)) wygenerowanej z rozkładu p ˆβps. ˆβ ma w przybliżeniu rozkład π(β X).

1 Imputacja Bayesowska i Próbnik Gibbsa 2 Model autologistyczny 3 Estymacja Maksimum pseudowiarogodności Maksimum wiarogodności i estymacja Bayesowska 4 Wyniki symulacyjne Metodologia Wyniki

Metodologia Dane: ECAP: (Choroby alergiczne w Polsce, 2006-2008). 18617 jednostek (przypadków, respondentów) i 1225 zmiennych (większość binarnych, ale również liczbowe). Do naszych eksperymentów wybraliśmy mała podmacierz: n = 2962 jednostek, d = 6 zmiennych, bez brakujacych danych. generujemy sztucznie braki, imputujemy i estymujemy, porównujemy i sprawdzamy.

Metodologia Dane: ECAP: (Choroby alergiczne w Polsce, 2006-2008). 18617 jednostek (przypadków, respondentów) i 1225 zmiennych (większość binarnych, ale również liczbowe). Do naszych eksperymentów wybraliśmy mała podmacierz: n = 2962 jednostek, d = 6 zmiennych, bez brakujacych danych. generujemy sztucznie braki, imputujemy i estymujemy, porównujemy i sprawdzamy.

Estymatory Estimates of β 11 Estimates of β 12 2.6 2.8 3.0 3.2 3.4 3.6 1.0 0.5 0.0 0.5 1.0 0% 10% 20% 30% 40% Percent of missing data 0% 10% 20% 30% 40% Percent of missing data Estimates of β 13 Estimates of β 14 1.6 1.4 1.2 1.0 0.8 0.6 0.4 2.4 2.2 2.0 1.8 1.6 1.4 1.2 0% 10% 20% 30% 40% 0% 10% 20% 30% 40% Percent of missing data Percent of missing data Estimates of β 15 Estimates of β 16 1.6 1.4 1.2 1.0 0.8 0.6 0.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 0% 10% 20% 30% 40% 0% 10% 20% 30% 40% Percent of missing data Percent of missing data

Rezultaty imputacji 50 wrong correct 40 30 20 10 0 10% 20% 30% 40% Percent of missings correctly and wrongly imputed