Metody radzenia sobie z brakującymi obserwacjami 29 kwietnia 2009
Wprowadzenie są to informacje, które zamierzaliśmy zebrać, ale nam się to nie udało. Przykłady: Badany odpowiada tylko na niektóre pytania zawarte w ankiecie Pacjent przestaje przychodzić na badania kontrolne
Wprowadzenie są to informacje, które zamierzaliśmy zebrać, ale nam się to nie udało. Przykłady: Badany odpowiada tylko na niektóre pytania zawarte w ankiecie Pacjent przestaje przychodzić na badania kontrolne
Przykładowy zbiór danych Np. Wiek Głosował Partia Płeć 1 21 TAK OP M 2 43 TAK SIP NA 3 19 NIE K 4 32 TAK NA M 5 NA NIE K 6 27 TAK DLS K 7 55 NA NA M 8 39 TAK LSP M
Przykładowy zbiór danych Np. Wiek Głosował Partia Płeć 1 21 TAK OP M 2 43 TAK SIP NA 3 19 NIE K 4 32 TAK NA M 5 NA NIE K 6 27 TAK DLS K 7 55 NA NA M 8 39 TAK LSP M
Proste metody Proste metody radzenia sobie z brakującymi obserwacjami (BO): Odrzucenie przypadków zawierających BO Uzupełnienie BO Wstawienie wartości średniej Wstawienie ostatniej zaobserwowanej wartości Stworzenie dodatkowej kategorii Metoda dedukcji
Odrzucenie przypadków zawierających BO Np. Wiek Głosował Partia Płeć 1 21 TAK OP M 3 19 NIE K 6 27 TAK DLS K 8 39 TAK LSP M Analizujemy jedynie przypadki bez żadnej BO. Strata dużej ilości informacji Potencjalna utrata reprezentatywności danych (jeżeli występowanie BO nie jest losowe)
Odrzucenie przypadków zawierających BO Np. Wiek Głosował Partia Płeć 1 21 TAK OP M 3 19 NIE K 6 27 TAK DLS K 8 39 TAK LSP M Analizujemy jedynie przypadki bez żadnej BO. Strata dużej ilości informacji Potencjalna utrata reprezentatywności danych (jeżeli występowanie BO nie jest losowe)
Uzupełnianie BO - wartość średnia Np. Wiek 1 21 2 44 3 19 4 NA» 28 W miejsce BO wstawiamy wartość średnią zmiennej losowej opisującej daną cechę. Nie można stosować do zmiennych jakościowych Osłabienie zależności pomiędzy zmiennymi Niedoszacowanie wariancji
Uzupełnianie BO - wartość średnia Np. Wiek 1 21 2 44 3 19 4 NA» 28 W miejsce BO wstawiamy wartość średnią zmiennej losowej opisującej daną cechę. Nie można stosować do zmiennych jakościowych Osłabienie zależności pomiędzy zmiennymi Niedoszacowanie wariancji
Uzupełnianie BO - ostatnia zaobserwowana wartość Np. 1 2 3 4 5 1 3.8 3.1 2.0 NA» 2.0 NA» 2.0 2 4.1 3.5 3.8 2.4 2.8 3 2.7 2.4 2.9 3.5 NA» 3.5 W miejsce BO wstawiamy ostatnią zaobserwowaną wartość badanej cechy. Poważnie zaburza strukturę wartości średnich i kowariancji, nawet w przypadku gdy występowanie BO jest całkowicie losowe
Uzupełnianie BO - ostatnia zaobserwowana wartość Np. 1 2 3 4 5 1 3.8 3.1 2.0 NA» 2.0 NA» 2.0 2 4.1 3.5 3.8 2.4 2.8 3 2.7 2.4 2.9 3.5 NA» 3.5 W miejsce BO wstawiamy ostatnią zaobserwowaną wartość badanej cechy. Poważnie zaburza strukturę wartości średnich i kowariancji, nawet w przypadku gdy występowanie BO jest całkowicie losowe
Uzupełnianie BO - dodatkowa kategoria Np. Głosował 1 0 2 1 3 0 4 NA» 2 Tworzymy nową wartość (kategorię BO ) dla zmiennej jakościowej. Dwie bardzo różne kategorie mogą zostać skupione w jednej grupie Metoda w dużym stopniu zależy od podziału danych pomiędzy prawdziwymi kategoriami
Uzupełnianie BO - dodatkowa kategoria Np. Głosował 1 0 2 1 3 0 4 NA» 2 Tworzymy nową wartość (kategorię BO ) dla zmiennej jakościowej. Dwie bardzo różne kategorie mogą zostać skupione w jednej grupie Metoda w dużym stopniu zależy od podziału danych pomiędzy prawdziwymi kategoriami
Uzupełnienie BO - metoda dedukcji Czasami możliwe jest uzupełnienie BO metodą dedukcji - przykładowo, gdy ktoś zaznaczył w ankiecie, że jest bezrobotny, ale nie podał swoich zarobków, możemy wydedukować, że wynoszą one 0.
Proste metody - podsumowanie Proste metody mogą prowadzić do błędnych wyników - nie powinny być używane, chyba że proporcja BO do wszystkich danych jest bardzo mała Niestety ciężko zdefiniować, co to znaczy mała - oszacowania szansy zajścia rzadkiego zdarzenia mogą być bardzo wrażliwe nawet na kilka BO
Proste metody - podsumowanie Proste metody mogą prowadzić do błędnych wyników - nie powinny być używane, chyba że proporcja BO do wszystkich danych jest bardzo mała Niestety ciężko zdefiniować, co to znaczy mała - oszacowania szansy zajścia rzadkiego zdarzenia mogą być bardzo wrażliwe nawet na kilka BO
Typy niekompletności danych Chcemy przyjrzeć się w jaki sposób prawdopodobieństwo tego, że dana obserwacja jest BO zależy od pozostałych zmiennych i od niej samej Wyróżniamy następujące typy niekompletności danych: MCAR (Missing completely at random) MAR (Missing at random) MNAR (Missing not at random)
Typy niekompletności danych Chcemy przyjrzeć się w jaki sposób prawdopodobieństwo tego, że dana obserwacja jest BO zależy od pozostałych zmiennych i od niej samej Wyróżniamy następujące typy niekompletności danych: MCAR (Missing completely at random) MAR (Missing at random) MNAR (Missing not at random)
MCAR Występowanie BO jest całkowicie losowe - tak jakbyśmy rzucali kostką, żeby zadecydować, które obserwacje usunąć Innymi słowy - prawdopodobieństwo, że dana obserwacja jest BO nie zależy od wartości żadnej z obserwowanych zmiennych Przykład: W laboratorium została upuszczona jedna z probówek
MCAR Występowanie BO jest całkowicie losowe - tak jakbyśmy rzucali kostką, żeby zadecydować, które obserwacje usunąć Innymi słowy - prawdopodobieństwo, że dana obserwacja jest BO nie zależy od wartości żadnej z obserwowanych zmiennych Przykład: W laboratorium została upuszczona jedna z probówek
MCAR Występowanie BO jest całkowicie losowe - tak jakbyśmy rzucali kostką, żeby zadecydować, które obserwacje usunąć Innymi słowy - prawdopodobieństwo, że dana obserwacja jest BO nie zależy od wartości żadnej z obserwowanych zmiennych Przykład: W laboratorium została upuszczona jedna z probówek
MAR Prawdopodobieństwo, że dana obserwacja jest BO nie zależy od wartości niezaobserwowanych zmiennych Przykład: Pacjent może zostać wykluczony z badania, jeżeli jego stan zdrowia pogorszy się (przekroczy jakąś wcześniej ustaloną wartość badanej cechy)
MAR Prawdopodobieństwo, że dana obserwacja jest BO nie zależy od wartości niezaobserwowanych zmiennych Przykład: Pacjent może zostać wykluczony z badania, jeżeli jego stan zdrowia pogorszy się (przekroczy jakąś wcześniej ustaloną wartość badanej cechy)
MNAR Jeżeli niekompletność nie jest typu MCAR, ani MAR to jest typu MNAR Prawdopodobieństwo, że dana obserwacja jest BO zależy od wartości pewnych niezaobserwowanych zmiennych Przykład: Pacjent może zrezygnować z badania, jeżeli leczenie wywoła u niego jakieś nieprzyjemne efekty uboczne
MNAR Jeżeli niekompletność nie jest typu MCAR, ani MAR to jest typu MNAR Prawdopodobieństwo, że dana obserwacja jest BO zależy od wartości pewnych niezaobserwowanych zmiennych Przykład: Pacjent może zrezygnować z badania, jeżeli leczenie wywoła u niego jakieś nieprzyjemne efekty uboczne
Typy niekompletności danych - podsumowanie Analizując dane nie potrafimy stwierdzić czy mamy do czynienia z MCAR, MAR czy MNAR Mimo to potrafimy odróżnić MCAR od MAR Nigdy nie możemy wykluczyć MNAR, ponieważ zależy on od danych niezaobserwowanych Zatem typ niekompletności jest kwestią przyjętych założeń
Typy niekompletności danych - podsumowanie Analizując dane nie potrafimy stwierdzić czy mamy do czynienia z MCAR, MAR czy MNAR Mimo to potrafimy odróżnić MCAR od MAR Nigdy nie możemy wykluczyć MNAR, ponieważ zależy on od danych niezaobserwowanych Zatem typ niekompletności jest kwestią przyjętych założeń
R - impute {Hmisc} Funkcja impute służy do przeprowadzania prostych imputacji. Przyjmuje następujące argumenty: x - wektor, w którym chcemy wykonać imputację fun - funkcja używana w imputacji (domyślnie mediana), może też być pojedynczą wartością lub wektorem
R - aregimpute {Hmisc} Funkcja aregimpute służy do przeprowadzania wielokrotnych imputacji. Korzysta ona z metody PMM. Najważniejsze argumenty: formula - model n.impute - liczba imputacji data - zbiór danych