Metody radzenia sobie z brakującymi obserwacjami



Podobne dokumenty
Metody uzupełniania brakujacych danych statystycznych.

Metody wypełniania braków w danych ang. Missing values in data

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Prawdopodobieństwo i statystyka r.

STUDIA PODYPLOMOWE BEZPIECZEŃSTWO I HIGIENA PRACY

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Metody probabilistyczne

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny?

METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Stosowana Analiza Regresji

Wykład 3 Hipotezy statystyczne

PDF created with FinePrint pdffactory Pro trial version

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Statystyka matematyczna i ekonometria

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

STATYSTYKA MATEMATYCZNA

5. WNIOSKOWANIE PSYCHOMETRYCZNE

Statystyka matematyczna i ekonometria

SYSTEMATYCZNOŚĆ BRAKÓW DANYCH W BADANIACH SONDAŻOWYCH. Jakub Rutkowski

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Agnieszka Nowak Brzezińska Wykład III

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Agnieszka Nowak Brzezińska Wykład III

Testowanie hipotez statystycznych

METODY STATYSTYCZNE W BIOLOGII

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

METODY STATYSTYCZNE W BIOLOGII

TRANSFORMACJE I JAKOŚĆ DANYCH

Klienci (opcjonalnie)

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Statystyka i Analiza Danych

Prawdopodobieństwo i statystyka r.

Statystyka Matematyczna Anna Janicka

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Hierarchiczna analiza skupień

Rozkłady dwuwymiarowe. Tablice dwudzielcze. Przykład (wstępny):

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Statystyka w analizie i planowaniu eksperymentu

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Liczby losowe i pętla while w języku Python

Przykład 1. (A. Łomnicki)

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Oszacowanie i rozkład t

Rozkłady zmiennych losowych

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego

Statystyczne sterowanie procesem

... prognozowanie nie jest celem samym w sobie a jedynie narzędziem do celu...

Rozkłady prawdopodobieństwa zmiennych losowych

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

METODY STATYSTYCZNE W BIOLOGII

Aby przygotować się do kolokwiów oraz do egzaminów należy ponownie przeanalizować zadania

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Statystyka matematyczna i ekonometria

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Z poprzedniego wykładu

Analiza statystyczna w naukach przyrodniczych

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Przykładowe zadania na egzamin z matematyki - dr Anita Tlałka - 1

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Propensity Score Matching

6.4 Podstawowe metody statystyczne

Przykłady 6.1 : charakterystyki liczbowe rozkładów dyskretnych

OPIS MODUŁ KSZTAŁCENIA (SYLABUS)

STATYSTYKA MATEMATYCZNA

Analiza danych. TEMATYKA PRZEDMIOTU

STATYSTYKA MATEMATYCZNA

Wykład 5: Statystyki opisowe (część 2)

Rozstęp Pozycyjne Odchylenie ćwiartkowe Współczynnik zmienności

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

TECHNIKA DRZWI ZATRZAŚNIĘTE PRZED NOSEM

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Rozkład zajęć, statystyka matematyczna, Rok akademicki 2015/16, semestr letni, Grupy dla powtarzających (C15; C16)

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Rozkłady zmiennych losowych

Elektrotechnika II [ Laboratorium Grupa 1 ] 2016/2017 Zimowy. [ Laboratorium Grupa 2 ] 2016/2017 Zimowy

Dokładne i graniczne rozkłady statystyk z próby

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

Transkrypt:

Metody radzenia sobie z brakującymi obserwacjami 29 kwietnia 2009

Wprowadzenie są to informacje, które zamierzaliśmy zebrać, ale nam się to nie udało. Przykłady: Badany odpowiada tylko na niektóre pytania zawarte w ankiecie Pacjent przestaje przychodzić na badania kontrolne

Wprowadzenie są to informacje, które zamierzaliśmy zebrać, ale nam się to nie udało. Przykłady: Badany odpowiada tylko na niektóre pytania zawarte w ankiecie Pacjent przestaje przychodzić na badania kontrolne

Przykładowy zbiór danych Np. Wiek Głosował Partia Płeć 1 21 TAK OP M 2 43 TAK SIP NA 3 19 NIE K 4 32 TAK NA M 5 NA NIE K 6 27 TAK DLS K 7 55 NA NA M 8 39 TAK LSP M

Przykładowy zbiór danych Np. Wiek Głosował Partia Płeć 1 21 TAK OP M 2 43 TAK SIP NA 3 19 NIE K 4 32 TAK NA M 5 NA NIE K 6 27 TAK DLS K 7 55 NA NA M 8 39 TAK LSP M

Proste metody Proste metody radzenia sobie z brakującymi obserwacjami (BO): Odrzucenie przypadków zawierających BO Uzupełnienie BO Wstawienie wartości średniej Wstawienie ostatniej zaobserwowanej wartości Stworzenie dodatkowej kategorii Metoda dedukcji

Odrzucenie przypadków zawierających BO Np. Wiek Głosował Partia Płeć 1 21 TAK OP M 3 19 NIE K 6 27 TAK DLS K 8 39 TAK LSP M Analizujemy jedynie przypadki bez żadnej BO. Strata dużej ilości informacji Potencjalna utrata reprezentatywności danych (jeżeli występowanie BO nie jest losowe)

Odrzucenie przypadków zawierających BO Np. Wiek Głosował Partia Płeć 1 21 TAK OP M 3 19 NIE K 6 27 TAK DLS K 8 39 TAK LSP M Analizujemy jedynie przypadki bez żadnej BO. Strata dużej ilości informacji Potencjalna utrata reprezentatywności danych (jeżeli występowanie BO nie jest losowe)

Uzupełnianie BO - wartość średnia Np. Wiek 1 21 2 44 3 19 4 NA» 28 W miejsce BO wstawiamy wartość średnią zmiennej losowej opisującej daną cechę. Nie można stosować do zmiennych jakościowych Osłabienie zależności pomiędzy zmiennymi Niedoszacowanie wariancji

Uzupełnianie BO - wartość średnia Np. Wiek 1 21 2 44 3 19 4 NA» 28 W miejsce BO wstawiamy wartość średnią zmiennej losowej opisującej daną cechę. Nie można stosować do zmiennych jakościowych Osłabienie zależności pomiędzy zmiennymi Niedoszacowanie wariancji

Uzupełnianie BO - ostatnia zaobserwowana wartość Np. 1 2 3 4 5 1 3.8 3.1 2.0 NA» 2.0 NA» 2.0 2 4.1 3.5 3.8 2.4 2.8 3 2.7 2.4 2.9 3.5 NA» 3.5 W miejsce BO wstawiamy ostatnią zaobserwowaną wartość badanej cechy. Poważnie zaburza strukturę wartości średnich i kowariancji, nawet w przypadku gdy występowanie BO jest całkowicie losowe

Uzupełnianie BO - ostatnia zaobserwowana wartość Np. 1 2 3 4 5 1 3.8 3.1 2.0 NA» 2.0 NA» 2.0 2 4.1 3.5 3.8 2.4 2.8 3 2.7 2.4 2.9 3.5 NA» 3.5 W miejsce BO wstawiamy ostatnią zaobserwowaną wartość badanej cechy. Poważnie zaburza strukturę wartości średnich i kowariancji, nawet w przypadku gdy występowanie BO jest całkowicie losowe

Uzupełnianie BO - dodatkowa kategoria Np. Głosował 1 0 2 1 3 0 4 NA» 2 Tworzymy nową wartość (kategorię BO ) dla zmiennej jakościowej. Dwie bardzo różne kategorie mogą zostać skupione w jednej grupie Metoda w dużym stopniu zależy od podziału danych pomiędzy prawdziwymi kategoriami

Uzupełnianie BO - dodatkowa kategoria Np. Głosował 1 0 2 1 3 0 4 NA» 2 Tworzymy nową wartość (kategorię BO ) dla zmiennej jakościowej. Dwie bardzo różne kategorie mogą zostać skupione w jednej grupie Metoda w dużym stopniu zależy od podziału danych pomiędzy prawdziwymi kategoriami

Uzupełnienie BO - metoda dedukcji Czasami możliwe jest uzupełnienie BO metodą dedukcji - przykładowo, gdy ktoś zaznaczył w ankiecie, że jest bezrobotny, ale nie podał swoich zarobków, możemy wydedukować, że wynoszą one 0.

Proste metody - podsumowanie Proste metody mogą prowadzić do błędnych wyników - nie powinny być używane, chyba że proporcja BO do wszystkich danych jest bardzo mała Niestety ciężko zdefiniować, co to znaczy mała - oszacowania szansy zajścia rzadkiego zdarzenia mogą być bardzo wrażliwe nawet na kilka BO

Proste metody - podsumowanie Proste metody mogą prowadzić do błędnych wyników - nie powinny być używane, chyba że proporcja BO do wszystkich danych jest bardzo mała Niestety ciężko zdefiniować, co to znaczy mała - oszacowania szansy zajścia rzadkiego zdarzenia mogą być bardzo wrażliwe nawet na kilka BO

Typy niekompletności danych Chcemy przyjrzeć się w jaki sposób prawdopodobieństwo tego, że dana obserwacja jest BO zależy od pozostałych zmiennych i od niej samej Wyróżniamy następujące typy niekompletności danych: MCAR (Missing completely at random) MAR (Missing at random) MNAR (Missing not at random)

Typy niekompletności danych Chcemy przyjrzeć się w jaki sposób prawdopodobieństwo tego, że dana obserwacja jest BO zależy od pozostałych zmiennych i od niej samej Wyróżniamy następujące typy niekompletności danych: MCAR (Missing completely at random) MAR (Missing at random) MNAR (Missing not at random)

MCAR Występowanie BO jest całkowicie losowe - tak jakbyśmy rzucali kostką, żeby zadecydować, które obserwacje usunąć Innymi słowy - prawdopodobieństwo, że dana obserwacja jest BO nie zależy od wartości żadnej z obserwowanych zmiennych Przykład: W laboratorium została upuszczona jedna z probówek

MCAR Występowanie BO jest całkowicie losowe - tak jakbyśmy rzucali kostką, żeby zadecydować, które obserwacje usunąć Innymi słowy - prawdopodobieństwo, że dana obserwacja jest BO nie zależy od wartości żadnej z obserwowanych zmiennych Przykład: W laboratorium została upuszczona jedna z probówek

MCAR Występowanie BO jest całkowicie losowe - tak jakbyśmy rzucali kostką, żeby zadecydować, które obserwacje usunąć Innymi słowy - prawdopodobieństwo, że dana obserwacja jest BO nie zależy od wartości żadnej z obserwowanych zmiennych Przykład: W laboratorium została upuszczona jedna z probówek

MAR Prawdopodobieństwo, że dana obserwacja jest BO nie zależy od wartości niezaobserwowanych zmiennych Przykład: Pacjent może zostać wykluczony z badania, jeżeli jego stan zdrowia pogorszy się (przekroczy jakąś wcześniej ustaloną wartość badanej cechy)

MAR Prawdopodobieństwo, że dana obserwacja jest BO nie zależy od wartości niezaobserwowanych zmiennych Przykład: Pacjent może zostać wykluczony z badania, jeżeli jego stan zdrowia pogorszy się (przekroczy jakąś wcześniej ustaloną wartość badanej cechy)

MNAR Jeżeli niekompletność nie jest typu MCAR, ani MAR to jest typu MNAR Prawdopodobieństwo, że dana obserwacja jest BO zależy od wartości pewnych niezaobserwowanych zmiennych Przykład: Pacjent może zrezygnować z badania, jeżeli leczenie wywoła u niego jakieś nieprzyjemne efekty uboczne

MNAR Jeżeli niekompletność nie jest typu MCAR, ani MAR to jest typu MNAR Prawdopodobieństwo, że dana obserwacja jest BO zależy od wartości pewnych niezaobserwowanych zmiennych Przykład: Pacjent może zrezygnować z badania, jeżeli leczenie wywoła u niego jakieś nieprzyjemne efekty uboczne

Typy niekompletności danych - podsumowanie Analizując dane nie potrafimy stwierdzić czy mamy do czynienia z MCAR, MAR czy MNAR Mimo to potrafimy odróżnić MCAR od MAR Nigdy nie możemy wykluczyć MNAR, ponieważ zależy on od danych niezaobserwowanych Zatem typ niekompletności jest kwestią przyjętych założeń

Typy niekompletności danych - podsumowanie Analizując dane nie potrafimy stwierdzić czy mamy do czynienia z MCAR, MAR czy MNAR Mimo to potrafimy odróżnić MCAR od MAR Nigdy nie możemy wykluczyć MNAR, ponieważ zależy on od danych niezaobserwowanych Zatem typ niekompletności jest kwestią przyjętych założeń

R - impute {Hmisc} Funkcja impute służy do przeprowadzania prostych imputacji. Przyjmuje następujące argumenty: x - wektor, w którym chcemy wykonać imputację fun - funkcja używana w imputacji (domyślnie mediana), może też być pojedynczą wartością lub wektorem

R - aregimpute {Hmisc} Funkcja aregimpute służy do przeprowadzania wielokrotnych imputacji. Korzysta ona z metody PMM. Najważniejsze argumenty: formula - model n.impute - liczba imputacji data - zbiór danych