Metody uzupełniania brakujacych danych statystycznych.

Podobne dokumenty
Metody radzenia sobie z brakującymi obserwacjami

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

STATYSTYKA MATEMATYCZNA

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Prawdopodobieństwo i statystyka r.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Estymacja parametrów rozkładu cechy

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

KURS STATYSTYKA. Lekcja 2 Przedziały ufności i estymacja przedziałowa ZADANIE DOMOWE. Strona 1

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Własności statystyczne regresji liniowej. Wykład 4

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

SYSTEMATYCZNOŚĆ BRAKÓW DANYCH W BADANIACH SONDAŻOWYCH. Jakub Rutkowski

STATYSTYKA MATEMATYCZNA

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Pobieranie prób i rozkład z próby

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Wprowadzenie do analizy korelacji i regresji

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Weryfikacja hipotez statystycznych

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

STATYSTYKA MATEMATYCZNA

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

METODY STATYSTYCZNE W BIOLOGII

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Testowanie hipotez statystycznych

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

1.1 Wstęp Literatura... 1

Wykład 3 Hipotezy statystyczne

Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Testowanie hipotez statystycznych

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyka matematyczna i ekonometria

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

PDF created with FinePrint pdffactory Pro trial version

Spis treści 3 SPIS TREŚCI

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Testowanie hipotez statystycznych.

STATYSTYKA INDUKCYJNA. O sondażach i nie tylko

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Wykład 9 Wnioskowanie o średnich

Oszacowanie i rozkład t

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Prawdopodobieństwo i rozkład normalny cd.

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

WNIOSKOWANIE STATYSTYCZNE

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA MATEMATYCZNA

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Prawdopodobieństwo i statystyka r.

Statystyka matematyczna dla leśników

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Testowanie hipotez statystycznych. Wprowadzenie

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych

Analiza danych. TEMATYKA PRZEDMIOTU

Wnioskowanie statystyczne. Statystyka w 5

Statystyka matematyczna i ekonometria

Estymacja parametrów w modelu normalnym

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Metody Statystyczne. Metody Statystyczne.

Metody wypełniania braków w danych ang. Missing values in data

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Transkrypt:

Metody uzupełniania brakujacych danych statystycznych. Arleta Hoppe, Michał Krzemiński Naukowe Koło Matematyki Studentów Politechniki Gdańskiej

Outline 1. Omówienie zagadnienia występowania brakujących wartości w badaniach statystycznych. 2. Przedstawienie sposobów uzupełniania brakujących wartości. 3. Wyniki zastosowania kolejnych metod na przykładzie rzeczywistej bazy danych. 4. Bibliografia.

Outline Niekompletność danych Typy niepełności danych Missing by definition of the subpopulation The missingness mechanisms Usuwanie niekompletności Przykłady Podsumowanie Bibliografia Niekompletność danych NKM PG II Lubelska Konferencja dla Młodych Matematyków "Statystyka" - p. 3/31

Typy niepełności danych niepewność, nie ma wiedzy o tym, czy dane są poprawne;

Typy niepełności danych niepewność, nie ma wiedzy o tym, czy dane są poprawne; niedokładność, dane są w postaci przedziałów lub otrzymaliśmy dane opisowe;

Typy niepełności danych niepewność, nie ma wiedzy o tym, czy dane są poprawne; niedokładność, dane są w postaci przedziałów lub otrzymaliśmy dane opisowe; niespójność, jednemu obiektowi przyporządkowane sa rożne wartości;

Typy niepełności danych niepewność, nie ma wiedzy o tym, czy dane są poprawne; niedokładność, dane są w postaci przedziałów lub otrzymaliśmy dane opisowe; niespójność, jednemu obiektowi przyporządkowane sa rożne wartości; ignorancja, gdy nie mamy żadnej wiedzy o obiekcie;

Typy niepełności danych niepewność, nie ma wiedzy o tym, czy dane są poprawne; niedokładność, dane są w postaci przedziałów lub otrzymaliśmy dane opisowe; niespójność, jednemu obiektowi przyporządkowane sa rożne wartości; ignorancja, gdy nie mamy żadnej wiedzy o obiekcie; niekompletność, gdy nie znamy wartości atrybutu lub atrybutów obiektu.

Niekompletność danych Dane mogą być niekompletne na różne sposoby.

Niekompletność danych Dane mogą być niekompletne na różne sposoby. brakujące dane - możliwe do uzupełnienia brakujące chwilowo możliwe do oszacowania

Niekompletność danych Dane mogą być niekompletne na różne sposoby. brakujące dane - możliwe do uzupełnienia brakujące chwilowo możliwe do oszacowania niedostępne dane - niemożliwe do uzupełnienia np., gdy istnieje instancja, do której nie ma zastosowania wartość atrybutu (Missing by definition of the subpopulation)

Missing by definition of the subpopulation Rozważmy dwa przykłady. Otrzymujemy bazę danych z wynikami meczu i nazwiskami strzelców. Pola BRAMKI jak i STRZELCY pozostaną puste w przypadku meczu bezbramkowego.

Missing by definition of the subpopulation Rozważmy dwa przykłady. Otrzymujemy bazę danych z wynikami meczu i nazwiskami strzelców. Pola BRAMKI jak i STRZELCY pozostaną puste w przypadku meczu bezbramkowego. Ankieta przeprowadzona w celu porównania życia towarzyskiego mężatek i kobiet niezamężnych. Oczywiście pominięcie w badaniach mężczyzn wydaje się oczywiste ze względu na temat ankiety (powiemy, że mężczyźni są traktowani jako brakujący z definicji subpopulacji).

Missing by definition of the subpopulation Większość ankiet posiada kilka kodów na takie rozróżnienie. Kody takie także opisują, czy respondenci 1. odmówili odpowiedzi; 2. odpowiedzieli, że np. niewiedzą; 3. pominęli pytanie z uzasadnionego powodu; 4. lub pytanie zostało pominięte przez błąd ankietera. Pierwsza i trzecia odpowiedź zazwyczaj jest pomijana w modelu, czwarta funkcjonuje jako istotnie brakująca wartość. Z drugą sytuacją stosunkowo trudno sobie poradzić.

NIE WIEM Określenie nie wiem może oznaczać wiele rzeczy.

NIE WIEM Określenie nie wiem może oznaczać wiele rzeczy. 1. coś pomiędzy TAK i NIE 2. coś pomiędzy DUŻO i MAŁO 3. nie wiem, bo nie znam odpowiedzi na to pytanie

NIE WIEM Określenie nie wiem może oznaczać wiele rzeczy. 1. coś pomiędzy TAK i NIE 2. coś pomiędzy DUŻO i MAŁO 3. nie wiem, bo nie znam odpowiedzi na to pytanie Jak radzić sobie z odpowiedziami typu NIE WIEM? - Zapobiegać :).

The missingness mechanisms Outline Niekompletność danych The missingness mechanisms The missingness mechanisms Średnia i odchylenie standardowe, a typy brakujących danych Usuwanie niekompletności Przykłady Podsumowanie Bibliografia NKM PG II Lubelska Konferencja dla Młodych Matematyków "Statystyka" - p. 9/31

The missingness mechanisms ignorowalne nieignorowalne

The missingness mechanisms ignorowalne MCAR - Missing Completely At Random MAR - Missing At Random nieignorowalne

The missingness mechanisms ignorowalne MCAR - Missing Completely At Random MAR - Missing At Random nieignorowalne NMAR / IM - Not Missing At Random

The missingness mechanisms ignorowalne MCAR - Missing Completely At Random brakujące wartości rozłożone są losowo wśród wszystkich obserwacji MAR - Missing At Random nieignorowalne NMAR / IM - Not Missing At Random

The missingness mechanisms ignorowalne MCAR - Missing Completely At Random brakujące wartości rozłożone są losowo wśród wszystkich obserwacji MAR - Missing At Random brak nie jest uzależniony wartością zmiennej, a co najwyżej może zależeć od innej zmiennej nieignorowalne NMAR / IM - Not Missing At Random

The missingness mechanisms ignorowalne MCAR - Missing Completely At Random brakujące wartości rozłożone są losowo wśród wszystkich obserwacji MAR - Missing At Random brak nie jest uzależniony wartością zmiennej, a co najwyżej może zależeć od innej zmiennej nieignorowalne NMAR / IM - Not Missing At Random w pozostałych przypadkach

Średnia a procent braków Rysunek 1: from Dealing with Missing Data Judi Sheffer [3]

Odchylenie std. a procent braków Rysunek 2: from Dealing with Missing Data Judi Sheffer [3]

Usuwanie niekompletności Outline Niekompletność danych The missingness mechanisms Usuwanie niekompletności Listwise (case) deletion Pairwise deletion Wstawianie wartości Expectation-maximization algorithm Przykłady Podsumowanie Bibliografia NKM PG II Lubelska Konferencja dla Młodych Matematyków "Statystyka" - p. 13/31

Podejście tradycyjne Naiwnym podejściem jest po prostu wykluczenie danych (rekordów lub zmiennych) zawierających brakujące wartości. Wyróżniamy dwa typy takiego postępowania:

Podejście tradycyjne Naiwnym podejściem jest po prostu wykluczenie danych (rekordów lub zmiennych) zawierających brakujące wartości. Wyróżniamy dwa typy takiego postępowania: listwise (case) deletion pairwise deletion

Podejście tradycyjne Naiwnym podejściem jest po prostu wykluczenie danych (rekordów lub zmiennych) zawierających brakujące wartości. Wyróżniamy dwa typy takiego postępowania: listwise (case) deletion pairwise deletion Z drugiej strony zamiast usuwać wybrakowane rekordy, możemy uzupełniać luki wartościami np. średnia, moda czy mediana.

Listwise (case) deletion Wykluczamy ze wszystkich analiz przypadki, w których brakowało choćby jednej wartości dla zmiennych modelu.

Listwise (case) deletion Wykluczamy ze wszystkich analiz przypadki, w których brakowało choćby jednej wartości dla zmiennych modelu. Jeżeli wartości sa typu MCAR, to postępowanie to sztucznie zawyża błąd standardowy i zmniejsza poziom istotności testów (mniejsza liczność próby).

Listwise (case) deletion Wykluczamy ze wszystkich analiz przypadki, w których brakowało choćby jednej wartości dla zmiennych modelu. Jeżeli wartości sa typu MCAR, to postępowanie to sztucznie zawyża błąd standardowy i zmniejsza poziom istotności testów (mniejsza liczność próby). Jeżeli wartości nie sa typu MCAR, wtedy listwise deletion może prowadzić do stronniczych estymacji (dane nie będą reprezentatywne dla całej populacji).

Pairwise deletion Korzystamy ze wszystkich dostępnych danych.

Pairwise deletion Korzystamy ze wszystkich dostępnych danych. Stosujemy listwise deletion dla każdej pary zmiennych uzyskując przypadek pełnych wartości oraz obliczamy kowariancję pomiędzy tymi zmiennymi.

Pairwise deletion Korzystamy ze wszystkich dostępnych danych. Stosujemy listwise deletion dla każdej pary zmiennych uzyskując przypadek pełnych wartości oraz obliczamy kowariancję pomiędzy tymi zmiennymi. Przypadki usuwane są tylko wtedy, gdy brakuje im wartości dla konkretnych zmiennych, dla których w tym momencie robimy analizę.

Pairwise deletion Problemy: kolejne obliczenia kowariancji dokonywane są na różnych i do tego różnej liczności próbkach; tak uzyskana macierz kowariancji może nie być pełnego rzędu (nieodwracalna), a co za tym idzie nieprzydatna np. w modelach regresji czy równań strukturalnych; istotne jest założenie o wartościach typu MCAR.

Wstawianie wartości Równie oczywistymi metodami wydają się te polegające na wstawieniu w puste pola brakujących wartości na podstawie np. średniej z dostępnych danych,

Wstawianie wartości Równie oczywistymi metodami wydają się te polegające na wstawieniu w puste pola brakujących wartości na podstawie np. średniej z dostępnych danych, średniej lokalnej, czyli średnich dla pewnych logicznych segmentów danych,

Wstawianie wartości Równie oczywistymi metodami wydają się te polegające na wstawieniu w puste pola brakujących wartości na podstawie np. średniej z dostępnych danych, średniej lokalnej, czyli średnich dla pewnych logicznych segmentów danych, czy w niektórych przypadkach przypadkach mediany.

Wstawianie wartości Równie oczywistymi metodami wydają się te polegające na wstawieniu w puste pola brakujących wartości na podstawie np. średniej z dostępnych danych, średniej lokalnej, czyli średnich dla pewnych logicznych segmentów danych, czy w niektórych przypadkach przypadkach mediany. Dane muszą być typu MCAR, inaczej wpisane wartości nie będą reprezentatywne dla populacji.

Wstawianie wartości Równie oczywistymi metodami wydają się te polegające na wstawieniu w puste pola brakujących wartości na podstawie np. średniej z dostępnych danych, średniej lokalnej, czyli średnich dla pewnych logicznych segmentów danych, czy w niektórych przypadkach przypadkach mediany. Dane muszą być typu MCAR, inaczej wpisane wartości nie będą reprezentatywne dla populacji. Metoda ta powoduje redukcję wariancji zmiennych, która to wpływa na mniejszą wartość korelacji.

Nowsze metody Regresja wielokrotna

Nowsze metody Regresja wielokrotna jeżeli zmienna z brakującymi wartościami jest w pewien sposób skorelowana z innymi zmiennymi, w oparciu o dostępne wartości przewidujemy wartości brakujące, dodatkowo możemy uwzględnić pewien czynnik losowy - regresja stochastyczna.

Nowsze metody Pattern matching

Nowsze metody Pattern matching Zastępujemy brakującą wartość inną, pochodzącą z rekordu o podobnym profilu.

Nowsze metody Pattern matching Zastępujemy brakującą wartość inną, pochodzącą z rekordu o podobnym profilu. Metoda ta jest bardzo skuteczna w przypadku, gdy braków jest stosunkowo mało i są rozsiane po wielu różnych zmiennych.

Expectation-maximization algorithm Algorytm maksymalizacji wartości oczekiwanej pozwala na wyznaczenie estymatorów o największym prawdopodobieństwie w modelach o niepełnych danych.

Expectation-maximization algorithm Algorytm maksymalizacji wartości oczekiwanej pozwala na wyznaczenie estymatorów o największym prawdopodobieństwie w modelach o niepełnych danych. Wielokrotna imputacja wykorzystuje dotychczas wyznaczone estymatory jako dodatkową informację.

Expectation-maximization algorithm Algorytm maksymalizacji wartości oczekiwanej pozwala na wyznaczenie estymatorów o największym prawdopodobieństwie w modelach o niepełnych danych. Wielokrotna imputacja wykorzystuje dotychczas wyznaczone estymatory jako dodatkową informację. Dodatkowo otrzymujemy estymację błędu standardowego, który nie jest stronniczy.

Expectation-maximization algorithm Algorytm maksymalizacji wartości oczekiwanej pozwala na wyznaczenie estymatorów o największym prawdopodobieństwie w modelach o niepełnych danych. Wielokrotna imputacja wykorzystuje dotychczas wyznaczone estymatory jako dodatkową informację. Dodatkowo otrzymujemy estymację błędu standardowego, który nie jest stronniczy. Zakładamy wartości typu MAR.

Expectation-maximization algorithm Traktujemy brakujące wartości jako zmienne losowe. X - zbiór ukrytych zmiennych, wartości X mogą brakować częściowo lub całkowicie, na Ω X Y - zbiór obserwowanych zmiennych na Ω Y

Expectation-maximization algorithm Traktujemy brakujące wartości jako zmienne losowe. X - zbiór ukrytych zmiennych, wartości X mogą brakować częściowo lub całkowicie, na Ω X Y - zbiór obserwowanych zmiennych na Ω Y f(x,y θ) rodzina funkcji generujących kompletne próbki (x,y) g(y θ) rodzina funkcji generująca próbki niekompletne, gdzie g(y θ) = f(x,y θ)dx x Ω

Expectation-maximization algorithm E-krok Przypuśćmy, że x jest brakującą wartością, a y zaobserwowaną daną.

Expectation-maximization algorithm E-krok Przypuśćmy, że x jest brakującą wartością, a y zaobserwowaną daną. Obliczamy warunkową wartość oczekiwaną logarytmu prawdopodobieństwa Q(θ θ ) = E[log p(x,y θ) θ,y], gdzie x zmienna losowa, a warunkujemy rozkładem p(x θ,y).

Expectation-maximization algorithm M-krok Znajdujemy estymatory maksymalizujące Q.

Expectation-maximization algorithm M-krok Znajdujemy estymatory maksymalizujące Q. Kroki te kolejno iterujemy do uzyskania wyniku.

Expectation-maximization algorithm M-krok Znajdujemy estymatory maksymalizujące Q. Kroki te kolejno iterujemy do uzyskania wyniku. Proces ten jest zazwyczaj bardzo szybko zbieżny, jednak dla dużej liczby zmiennych lub braków może być bardzo złożony obliczeniowo.

Multiple imputation using EM Na m (od 3 do 10) różnych zbiorach danych estymujemy parametry metodą EM, które następnie porównujemy.

Multiple imputation using EM Na m (od 3 do 10) różnych zbiorach danych estymujemy parametry metodą EM, które następnie porównujemy. Jeżeli są one podobne w większości przypadków, wnioskujemy o ich poprawności.

Multiple imputation using EM Na m (od 3 do 10) różnych zbiorach danych estymujemy parametry metodą EM, które następnie porównujemy. Jeżeli są one podobne w większości przypadków, wnioskujemy o ich poprawności. Jeżeli natomiast różnią się znacznie, należy pamiętać, aby uwzględnić te niepewności w błędach standardowych.

Outline Niekompletność danych The missingness mechanisms Usuwanie niekompletności Przykłady Podsumowanie Bibliografia Przykłady NKM PG II Lubelska Konferencja dla Młodych Matematyków "Statystyka" - p. 26/31

Outline Niekompletność danych The missingness mechanisms Usuwanie niekompletności Przykłady Podsumowanie Podsumowanie Bibliografia Podsumowanie NKM PG II Lubelska Konferencja dla Młodych Matematyków "Statystyka" - p. 27/31

Podsumowanie Najlepszym rozwiązaniem jest minimalizowanie liczby brakujących wartości w danych w momencie ich pozyskiwania.

Podsumowanie Najlepszym rozwiązaniem jest minimalizowanie liczby brakujących wartości w danych w momencie ich pozyskiwania. Do zbioru danych warto dołączyć informację jaki procent danych brakuje lub został już usunięty.

Podsumowanie Najlepszym rozwiązaniem jest minimalizowanie liczby brakujących wartości w danych w momencie ich pozyskiwania. Do zbioru danych warto dołączyć informację jaki procent danych brakuje lub został już usunięty. Powinniśmy zachowywać informację o tym, dlaczego brakuje wartości.

Podsumowanie Najlepszym rozwiązaniem jest minimalizowanie liczby brakujących wartości w danych w momencie ich pozyskiwania. Do zbioru danych warto dołączyć informację jaki procent danych brakuje lub został już usunięty. Powinniśmy zachowywać informację o tym, dlaczego brakuje wartości. Odpowiednie traktowanie odpowiedzi typu NIE WIEM.

Podsumowanie Najlepszym rozwiązaniem jest minimalizowanie liczby brakujących wartości w danych w momencie ich pozyskiwania. Do zbioru danych warto dołączyć informację jaki procent danych brakuje lub został już usunięty. Powinniśmy zachowywać informację o tym, dlaczego brakuje wartości. Odpowiednie traktowanie odpowiedzi typu NIE WIEM. Nawet najbardziej wyszukane techniki uzupełniania danych nie sprawdzą się, jeśli źle przygotujemy dane.

Podsumowanie Wstawianie średniej wydaje się najgorszym rozwiązaniem naszego problemu.

Podsumowanie Wstawianie średniej wydaje się najgorszym rozwiązaniem naszego problemu. LISTWISE i CASEWISE DELETION jest dopuszczalne w przypadku danych typu MCAR, odpowiednio dużej próbki i małej liczby braków.

Podsumowanie Wstawianie średniej wydaje się najgorszym rozwiązaniem naszego problemu. LISTWISE i CASEWISE DELETION jest dopuszczalne w przypadku danych typu MCAR, odpowiednio dużej próbki i małej liczby braków. Pojedyncza imputacja nie jest optymalną strategią postępowania w przypadku końcowych analiz i formułowania wniosków.

Outline Niekompletność danych The missingness mechanisms Usuwanie niekompletności Przykłady Podsumowanie Bibliografia Bibliografia NKM PG II Lubelska Konferencja dla Młodych Matematyków "Statystyka" - p. 30/31

Bibliografia [1] Alan C. Acock Working with missing values [2] Thomas W. O Rourke Methodological techniques for dealing with missing data American Journal of Health Studies, Spring-Summer, 2003 [3] Judi Scheffer Dealing with missing data Res. Lett. Inf. Math. Sci. (2002) 3, 153-160 [4] Kathy Gerber Missing values analysys and imputation [5] Sam Kozlowsky Handling missing data problems [6] D. B. Rubin Multiple imputation for nonresponse in surveys John Wiley and Sons, New York 1987 [7] Rufus Lynn Carter Solutions for missing data in structural equation modeling Marymount University