Imputacja brakujacych danych binarnych w modelu autologistycznym 1 Marta Zalewska Warszawski Uniwesytet Medyczny Statystyka Matematyczna Wisła, grudzień 2009 1 Współautorzy: Wojciech Niemiro, UMK Toruń i UW, Bolesław Samoliński, WUM Praca częściowo finansowana przez Grant No. N N206 356036.
Plan 1 Imputacja Bayesowska i Próbnik Gibbsa 2 Model autologistyczny 3 Estymacja Maksimum pseudowiarogodności Maksimum wiarogodności i estymacja Bayesowska 4 Wyniki symulacyjne Metodologia Wyniki
Plan 1 Imputacja Bayesowska i Próbnik Gibbsa 2 Model autologistyczny 3 Estymacja Maksimum pseudowiarogodności Maksimum wiarogodności i estymacja Bayesowska 4 Wyniki symulacyjne Metodologia Wyniki
Plan 1 Imputacja Bayesowska i Próbnik Gibbsa 2 Model autologistyczny 3 Estymacja Maksimum pseudowiarogodności Maksimum wiarogodności i estymacja Bayesowska 4 Wyniki symulacyjne Metodologia Wyniki
Plan 1 Imputacja Bayesowska i Próbnik Gibbsa 2 Model autologistyczny 3 Estymacja Maksimum pseudowiarogodności Maksimum wiarogodności i estymacja Bayesowska 4 Wyniki symulacyjne Metodologia Wyniki
1 Imputacja Bayesowska i Próbnik Gibbsa 2 Model autologistyczny 3 Estymacja Maksimum pseudowiarogodności Maksimum wiarogodności i estymacja Bayesowska 4 Wyniki symulacyjne Metodologia Wyniki
Imputacja Bayesowska i Próbnik Gibbsa Dane: X = (X obs, X mis ) p β. X obs obserwowane dane X mis brakujace dane β π( ) parametr o rozkładzie a priori Próbnik Gibbsa. Powtarzamy dwa kroki: generujemy β z rozkładu π(β X obs, X mis ), generujemy X mis z rozkładu π(x mis X obs, β). Metoda MCMC: łańcuch Markowa zbieżny do π(x mis, β X obs ).
Imputacja Bayesowska i Próbnik Gibbsa Dane: X = (X obs, X mis ) p β. X obs obserwowane dane X mis brakujace dane β π( ) parametr o rozkładzie a priori Próbnik Gibbsa. Powtarzamy dwa kroki: generujemy β z rozkładu π(β X obs, X mis ), generujemy X mis z rozkładu π(x mis X obs, β). Metoda MCMC: łańcuch Markowa zbieżny do π(x mis, β X obs ).
1 Imputacja Bayesowska i Próbnik Gibbsa 2 Model autologistyczny 3 Estymacja Maksimum pseudowiarogodności Maksimum wiarogodności i estymacja Bayesowska 4 Wyniki symulacyjne Metodologia Wyniki
Model Rozkład autologistyczny na X = {0, 1} d : p β (x) := 1 d Z (β) exp β ij x i x j, i,j=1 x AL(β). Parametry: macierz symetryczna β = (β ij ). Pełne rozkłady warunkowe: exp (β ii + ) j i x jβ ij p β (x i = 1 x i ) = 1 + exp (β ii + ), j i x jβ ij gdzie x i = (x j, j i). Rozkład taki sam jak w standardowym modelu regresji logistycznej.
Model Rozkład autologistyczny na X = {0, 1} d : p β (x) := 1 d Z (β) exp β ij x i x j, i,j=1 x AL(β). Parametry: macierz symetryczna β = (β ij ). Pełne rozkłady warunkowe: exp (β ii + ) j i x jβ ij p β (x i = 1 x i ) = 1 + exp (β ii + ), j i x jβ ij gdzie x i = (x j, j i). Rozkład taki sam jak w standardowym modelu regresji logistycznej.
Symulacja i estymacja Wniosek: symulowanie x jest łatwe przy pomocy próbnika Gibbsa, parametry β można estymować standardowymi metodami GLM. Próbka: x(1),..., x(n) i.i.d. AL(β).
Symulacja i estymacja Wniosek: symulowanie x jest łatwe przy pomocy próbnika Gibbsa, parametry β można estymować standardowymi metodami GLM. Próbka: x(1),..., x(n) i.i.d. AL(β).
1 Imputacja Bayesowska i Próbnik Gibbsa 2 Model autologistyczny 3 Estymacja Maksimum pseudowiarogodności Maksimum wiarogodności i estymacja Bayesowska 4 Wyniki symulacyjne Metodologia Wyniki
Maksimum pseudowiarogodności Czastkowe wiarogodności: Pseudowiarogodność: L i (β x) = L i (β i x) := log p β (x i x i ). L ps (β X) = X = (x(1),..., x(n)) próbka. n k=1 i=1 d L i (β x(k)).
Maksimum wiarogodności Estymator największej wiarogodności via MCMC: Geyer i Thopmpson (1992, JRSS). Rodzina wykładnicza: p β (x) = 1 Z (β) eβt T (x), gdzie T (x) wektor statystyk dostatecznych. Z (β) = e βt T (x ) = e (β β ) T T (x ) p β (x )Z (β ) x x = Ee (β β ) T T (x ) Z (β ). gdzie x p β. Aproksymacja wiarogodności: x (1),..., x (n ) p β, L MCMC (β x) = β T T (x) log e (β β ) T T (x (k)) + const. n k=1
Maksimum wiarogodności Estymator największej wiarogodności via MCMC: Geyer i Thopmpson (1992, JRSS). Rodzina wykładnicza: p β (x) = 1 Z (β) eβt T (x), gdzie T (x) wektor statystyk dostatecznych. Z (β) = e βt T (x ) = e (β β ) T T (x ) p β (x )Z (β ) x x = Ee (β β ) T T (x ) Z (β ). gdzie x p β. Aproksymacja wiarogodności: x (1),..., x (n ) p β, L MCMC (β x) = β T T (x) log e (β β ) T T (x (k)) + const. n k=1
Próbkowanie z rozkładu a posteriori Wybieramy β = ˆβ ps, n = n. Estymator jednokrokowy Newtona-Raphsona ˆβ = ˆβ ps 2 L MCMC ( ˆβ ps ) 1 L MCMC ( ˆβ ps ), gdzie ˆβ ps estymator największej pseudowiarogodności, L MCMC aproksymacja wiarogodności na podstawie sztucznej próbki X = (x (1),..., x (n)) wygenerowanej z rozkładu p ˆβps. ˆβ ma w przybliżeniu rozkład π(β X).
Próbkowanie z rozkładu a posteriori Wybieramy β = ˆβ ps, n = n. Estymator jednokrokowy Newtona-Raphsona ˆβ = ˆβ ps 2 L MCMC ( ˆβ ps ) 1 L MCMC ( ˆβ ps ), gdzie ˆβ ps estymator największej pseudowiarogodności, L MCMC aproksymacja wiarogodności na podstawie sztucznej próbki X = (x (1),..., x (n)) wygenerowanej z rozkładu p ˆβps. ˆβ ma w przybliżeniu rozkład π(β X).
1 Imputacja Bayesowska i Próbnik Gibbsa 2 Model autologistyczny 3 Estymacja Maksimum pseudowiarogodności Maksimum wiarogodności i estymacja Bayesowska 4 Wyniki symulacyjne Metodologia Wyniki
Metodologia Dane: ECAP: (Choroby alergiczne w Polsce, 2006-2008). 18617 jednostek (przypadków, respondentów) i 1225 zmiennych (większość binarnych, ale również liczbowe). Do naszych eksperymentów wybraliśmy mała podmacierz: n = 2962 jednostek, d = 6 zmiennych, bez brakujacych danych. generujemy sztucznie braki, imputujemy i estymujemy, porównujemy i sprawdzamy.
Metodologia Dane: ECAP: (Choroby alergiczne w Polsce, 2006-2008). 18617 jednostek (przypadków, respondentów) i 1225 zmiennych (większość binarnych, ale również liczbowe). Do naszych eksperymentów wybraliśmy mała podmacierz: n = 2962 jednostek, d = 6 zmiennych, bez brakujacych danych. generujemy sztucznie braki, imputujemy i estymujemy, porównujemy i sprawdzamy.
Estymatory Estimates of β 11 Estimates of β 12 2.6 2.8 3.0 3.2 3.4 3.6 1.0 0.5 0.0 0.5 1.0 0% 10% 20% 30% 40% Percent of missing data 0% 10% 20% 30% 40% Percent of missing data Estimates of β 13 Estimates of β 14 1.6 1.4 1.2 1.0 0.8 0.6 0.4 2.4 2.2 2.0 1.8 1.6 1.4 1.2 0% 10% 20% 30% 40% 0% 10% 20% 30% 40% Percent of missing data Percent of missing data Estimates of β 15 Estimates of β 16 1.6 1.4 1.2 1.0 0.8 0.6 0.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 0% 10% 20% 30% 40% 0% 10% 20% 30% 40% Percent of missing data Percent of missing data
Rezultaty imputacji 50 wrong correct 40 30 20 10 0 10% 20% 30% 40% Percent of missings correctly and wrongly imputed