Metody uzupełniania brakujacych danych statystycznych.

Transkrypt

1 Metody uzupełniania brakujacych danych statystycznych. Arleta Hoppe, Michał Krzemiński Naukowe Koło Matematyki Studentów Politechniki Gdańskiej

2 Outline 1. Omówienie zagadnienia występowania brakujących wartości w badaniach statystycznych. 2. Przedstawienie sposobów uzupełniania brakujących wartości. 3. Wyniki zastosowania kolejnych metod na przykładzie rzeczywistej bazy danych. 4. Bibliografia.

3 Outline Niekompletność danych Typy niepełności danych Missing by definition of the subpopulation The missingness mechanisms Usuwanie niekompletności Przykłady Podsumowanie Bibliografia Niekompletność danych NKM PG II Lubelska Konferencja dla Młodych Matematyków "Statystyka" - p. 3/31

4 Typy niepełności danych niepewność, nie ma wiedzy o tym, czy dane są poprawne;

5 Typy niepełności danych niepewność, nie ma wiedzy o tym, czy dane są poprawne; niedokładność, dane są w postaci przedziałów lub otrzymaliśmy dane opisowe;

6 Typy niepełności danych niepewność, nie ma wiedzy o tym, czy dane są poprawne; niedokładność, dane są w postaci przedziałów lub otrzymaliśmy dane opisowe; niespójność, jednemu obiektowi przyporządkowane sa rożne wartości;

7 Typy niepełności danych niepewność, nie ma wiedzy o tym, czy dane są poprawne; niedokładność, dane są w postaci przedziałów lub otrzymaliśmy dane opisowe; niespójność, jednemu obiektowi przyporządkowane sa rożne wartości; ignorancja, gdy nie mamy żadnej wiedzy o obiekcie;

8 Typy niepełności danych niepewność, nie ma wiedzy o tym, czy dane są poprawne; niedokładność, dane są w postaci przedziałów lub otrzymaliśmy dane opisowe; niespójność, jednemu obiektowi przyporządkowane sa rożne wartości; ignorancja, gdy nie mamy żadnej wiedzy o obiekcie; niekompletność, gdy nie znamy wartości atrybutu lub atrybutów obiektu.

9 Niekompletność danych Dane mogą być niekompletne na różne sposoby.

10 Niekompletność danych Dane mogą być niekompletne na różne sposoby. brakujące dane - możliwe do uzupełnienia brakujące chwilowo możliwe do oszacowania

11 Niekompletność danych Dane mogą być niekompletne na różne sposoby. brakujące dane - możliwe do uzupełnienia brakujące chwilowo możliwe do oszacowania niedostępne dane - niemożliwe do uzupełnienia np., gdy istnieje instancja, do której nie ma zastosowania wartość atrybutu (Missing by definition of the subpopulation)

12 Missing by definition of the subpopulation Rozważmy dwa przykłady. Otrzymujemy bazę danych z wynikami meczu i nazwiskami strzelców. Pola BRAMKI jak i STRZELCY pozostaną puste w przypadku meczu bezbramkowego.

13 Missing by definition of the subpopulation Rozważmy dwa przykłady. Otrzymujemy bazę danych z wynikami meczu i nazwiskami strzelców. Pola BRAMKI jak i STRZELCY pozostaną puste w przypadku meczu bezbramkowego. Ankieta przeprowadzona w celu porównania życia towarzyskiego mężatek i kobiet niezamężnych. Oczywiście pominięcie w badaniach mężczyzn wydaje się oczywiste ze względu na temat ankiety (powiemy, że mężczyźni są traktowani jako brakujący z definicji subpopulacji).

14 Missing by definition of the subpopulation Większość ankiet posiada kilka kodów na takie rozróżnienie. Kody takie także opisują, czy respondenci 1. odmówili odpowiedzi; 2. odpowiedzieli, że np. niewiedzą; 3. pominęli pytanie z uzasadnionego powodu; 4. lub pytanie zostało pominięte przez błąd ankietera. Pierwsza i trzecia odpowiedź zazwyczaj jest pomijana w modelu, czwarta funkcjonuje jako istotnie brakująca wartość. Z drugą sytuacją stosunkowo trudno sobie poradzić.

15 NIE WIEM Określenie nie wiem może oznaczać wiele rzeczy.

16 NIE WIEM Określenie nie wiem może oznaczać wiele rzeczy. 1. coś pomiędzy TAK i NIE 2. coś pomiędzy DUŻO i MAŁO 3. nie wiem, bo nie znam odpowiedzi na to pytanie

17 NIE WIEM Określenie nie wiem może oznaczać wiele rzeczy. 1. coś pomiędzy TAK i NIE 2. coś pomiędzy DUŻO i MAŁO 3. nie wiem, bo nie znam odpowiedzi na to pytanie Jak radzić sobie z odpowiedziami typu NIE WIEM? - Zapobiegać :).

18 The missingness mechanisms Outline Niekompletność danych The missingness mechanisms The missingness mechanisms Średnia i odchylenie standardowe, a typy brakujących danych Usuwanie niekompletności Przykłady Podsumowanie Bibliografia NKM PG II Lubelska Konferencja dla Młodych Matematyków "Statystyka" - p. 9/31

19 The missingness mechanisms ignorowalne nieignorowalne

20 The missingness mechanisms ignorowalne MCAR - Missing Completely At Random MAR - Missing At Random nieignorowalne

21 The missingness mechanisms ignorowalne MCAR - Missing Completely At Random MAR - Missing At Random nieignorowalne NMAR / IM - Not Missing At Random

22 The missingness mechanisms ignorowalne MCAR - Missing Completely At Random brakujące wartości rozłożone są losowo wśród wszystkich obserwacji MAR - Missing At Random nieignorowalne NMAR / IM - Not Missing At Random

23 The missingness mechanisms ignorowalne MCAR - Missing Completely At Random brakujące wartości rozłożone są losowo wśród wszystkich obserwacji MAR - Missing At Random brak nie jest uzależniony wartością zmiennej, a co najwyżej może zależeć od innej zmiennej nieignorowalne NMAR / IM - Not Missing At Random

24 The missingness mechanisms ignorowalne MCAR - Missing Completely At Random brakujące wartości rozłożone są losowo wśród wszystkich obserwacji MAR - Missing At Random brak nie jest uzależniony wartością zmiennej, a co najwyżej może zależeć od innej zmiennej nieignorowalne NMAR / IM - Not Missing At Random w pozostałych przypadkach

25 Średnia a procent braków Rysunek 1: from Dealing with Missing Data Judi Sheffer [3]

26 Odchylenie std. a procent braków Rysunek 2: from Dealing with Missing Data Judi Sheffer [3]

27 Usuwanie niekompletności Outline Niekompletność danych The missingness mechanisms Usuwanie niekompletności Listwise (case) deletion Pairwise deletion Wstawianie wartości Expectation-maximization algorithm Przykłady Podsumowanie Bibliografia NKM PG II Lubelska Konferencja dla Młodych Matematyków "Statystyka" - p. 13/31

28 Podejście tradycyjne Naiwnym podejściem jest po prostu wykluczenie danych (rekordów lub zmiennych) zawierających brakujące wartości. Wyróżniamy dwa typy takiego postępowania:

29 Podejście tradycyjne Naiwnym podejściem jest po prostu wykluczenie danych (rekordów lub zmiennych) zawierających brakujące wartości. Wyróżniamy dwa typy takiego postępowania: listwise (case) deletion pairwise deletion

30 Podejście tradycyjne Naiwnym podejściem jest po prostu wykluczenie danych (rekordów lub zmiennych) zawierających brakujące wartości. Wyróżniamy dwa typy takiego postępowania: listwise (case) deletion pairwise deletion Z drugiej strony zamiast usuwać wybrakowane rekordy, możemy uzupełniać luki wartościami np. średnia, moda czy mediana.

31 Listwise (case) deletion Wykluczamy ze wszystkich analiz przypadki, w których brakowało choćby jednej wartości dla zmiennych modelu.

32 Listwise (case) deletion Wykluczamy ze wszystkich analiz przypadki, w których brakowało choćby jednej wartości dla zmiennych modelu. Jeżeli wartości sa typu MCAR, to postępowanie to sztucznie zawyża błąd standardowy i zmniejsza poziom istotności testów (mniejsza liczność próby).

33 Listwise (case) deletion Wykluczamy ze wszystkich analiz przypadki, w których brakowało choćby jednej wartości dla zmiennych modelu. Jeżeli wartości sa typu MCAR, to postępowanie to sztucznie zawyża błąd standardowy i zmniejsza poziom istotności testów (mniejsza liczność próby). Jeżeli wartości nie sa typu MCAR, wtedy listwise deletion może prowadzić do stronniczych estymacji (dane nie będą reprezentatywne dla całej populacji).

34 Pairwise deletion Korzystamy ze wszystkich dostępnych danych.

35 Pairwise deletion Korzystamy ze wszystkich dostępnych danych. Stosujemy listwise deletion dla każdej pary zmiennych uzyskując przypadek pełnych wartości oraz obliczamy kowariancję pomiędzy tymi zmiennymi.

36 Pairwise deletion Korzystamy ze wszystkich dostępnych danych. Stosujemy listwise deletion dla każdej pary zmiennych uzyskując przypadek pełnych wartości oraz obliczamy kowariancję pomiędzy tymi zmiennymi. Przypadki usuwane są tylko wtedy, gdy brakuje im wartości dla konkretnych zmiennych, dla których w tym momencie robimy analizę.

37 Pairwise deletion Problemy: kolejne obliczenia kowariancji dokonywane są na różnych i do tego różnej liczności próbkach; tak uzyskana macierz kowariancji może nie być pełnego rzędu (nieodwracalna), a co za tym idzie nieprzydatna np. w modelach regresji czy równań strukturalnych; istotne jest założenie o wartościach typu MCAR.

38 Wstawianie wartości Równie oczywistymi metodami wydają się te polegające na wstawieniu w puste pola brakujących wartości na podstawie np. średniej z dostępnych danych,

39 Wstawianie wartości Równie oczywistymi metodami wydają się te polegające na wstawieniu w puste pola brakujących wartości na podstawie np. średniej z dostępnych danych, średniej lokalnej, czyli średnich dla pewnych logicznych segmentów danych,

40 Wstawianie wartości Równie oczywistymi metodami wydają się te polegające na wstawieniu w puste pola brakujących wartości na podstawie np. średniej z dostępnych danych, średniej lokalnej, czyli średnich dla pewnych logicznych segmentów danych, czy w niektórych przypadkach przypadkach mediany.

41 Wstawianie wartości Równie oczywistymi metodami wydają się te polegające na wstawieniu w puste pola brakujących wartości na podstawie np. średniej z dostępnych danych, średniej lokalnej, czyli średnich dla pewnych logicznych segmentów danych, czy w niektórych przypadkach przypadkach mediany. Dane muszą być typu MCAR, inaczej wpisane wartości nie będą reprezentatywne dla populacji.

42 Wstawianie wartości Równie oczywistymi metodami wydają się te polegające na wstawieniu w puste pola brakujących wartości na podstawie np. średniej z dostępnych danych, średniej lokalnej, czyli średnich dla pewnych logicznych segmentów danych, czy w niektórych przypadkach przypadkach mediany. Dane muszą być typu MCAR, inaczej wpisane wartości nie będą reprezentatywne dla populacji. Metoda ta powoduje redukcję wariancji zmiennych, która to wpływa na mniejszą wartość korelacji.

43 Nowsze metody Regresja wielokrotna

44 Nowsze metody Regresja wielokrotna jeżeli zmienna z brakującymi wartościami jest w pewien sposób skorelowana z innymi zmiennymi, w oparciu o dostępne wartości przewidujemy wartości brakujące, dodatkowo możemy uwzględnić pewien czynnik losowy - regresja stochastyczna.

45 Nowsze metody Pattern matching

46 Nowsze metody Pattern matching Zastępujemy brakującą wartość inną, pochodzącą z rekordu o podobnym profilu.

47 Nowsze metody Pattern matching Zastępujemy brakującą wartość inną, pochodzącą z rekordu o podobnym profilu. Metoda ta jest bardzo skuteczna w przypadku, gdy braków jest stosunkowo mało i są rozsiane po wielu różnych zmiennych.

48 Expectation-maximization algorithm Algorytm maksymalizacji wartości oczekiwanej pozwala na wyznaczenie estymatorów o największym prawdopodobieństwie w modelach o niepełnych danych.

49 Expectation-maximization algorithm Algorytm maksymalizacji wartości oczekiwanej pozwala na wyznaczenie estymatorów o największym prawdopodobieństwie w modelach o niepełnych danych. Wielokrotna imputacja wykorzystuje dotychczas wyznaczone estymatory jako dodatkową informację.

50 Expectation-maximization algorithm Algorytm maksymalizacji wartości oczekiwanej pozwala na wyznaczenie estymatorów o największym prawdopodobieństwie w modelach o niepełnych danych. Wielokrotna imputacja wykorzystuje dotychczas wyznaczone estymatory jako dodatkową informację. Dodatkowo otrzymujemy estymację błędu standardowego, który nie jest stronniczy.

51 Expectation-maximization algorithm Algorytm maksymalizacji wartości oczekiwanej pozwala na wyznaczenie estymatorów o największym prawdopodobieństwie w modelach o niepełnych danych. Wielokrotna imputacja wykorzystuje dotychczas wyznaczone estymatory jako dodatkową informację. Dodatkowo otrzymujemy estymację błędu standardowego, który nie jest stronniczy. Zakładamy wartości typu MAR.

52 Expectation-maximization algorithm Traktujemy brakujące wartości jako zmienne losowe. X - zbiór ukrytych zmiennych, wartości X mogą brakować częściowo lub całkowicie, na Ω X Y - zbiór obserwowanych zmiennych na Ω Y

53 Expectation-maximization algorithm Traktujemy brakujące wartości jako zmienne losowe. X - zbiór ukrytych zmiennych, wartości X mogą brakować częściowo lub całkowicie, na Ω X Y - zbiór obserwowanych zmiennych na Ω Y f(x,y θ) rodzina funkcji generujących kompletne próbki (x,y) g(y θ) rodzina funkcji generująca próbki niekompletne, gdzie g(y θ) = f(x,y θ)dx x Ω

54 Expectation-maximization algorithm E-krok Przypuśćmy, że x jest brakującą wartością, a y zaobserwowaną daną.

55 Expectation-maximization algorithm E-krok Przypuśćmy, że x jest brakującą wartością, a y zaobserwowaną daną. Obliczamy warunkową wartość oczekiwaną logarytmu prawdopodobieństwa Q(θ θ ) = E[log p(x,y θ) θ,y], gdzie x zmienna losowa, a warunkujemy rozkładem p(x θ,y).

56 Expectation-maximization algorithm M-krok Znajdujemy estymatory maksymalizujące Q.

57 Expectation-maximization algorithm M-krok Znajdujemy estymatory maksymalizujące Q. Kroki te kolejno iterujemy do uzyskania wyniku.

58 Expectation-maximization algorithm M-krok Znajdujemy estymatory maksymalizujące Q. Kroki te kolejno iterujemy do uzyskania wyniku. Proces ten jest zazwyczaj bardzo szybko zbieżny, jednak dla dużej liczby zmiennych lub braków może być bardzo złożony obliczeniowo.

59 Multiple imputation using EM Na m (od 3 do 10) różnych zbiorach danych estymujemy parametry metodą EM, które następnie porównujemy.

60 Multiple imputation using EM Na m (od 3 do 10) różnych zbiorach danych estymujemy parametry metodą EM, które następnie porównujemy. Jeżeli są one podobne w większości przypadków, wnioskujemy o ich poprawności.

61 Multiple imputation using EM Na m (od 3 do 10) różnych zbiorach danych estymujemy parametry metodą EM, które następnie porównujemy. Jeżeli są one podobne w większości przypadków, wnioskujemy o ich poprawności. Jeżeli natomiast różnią się znacznie, należy pamiętać, aby uwzględnić te niepewności w błędach standardowych.

62 Outline Niekompletność danych The missingness mechanisms Usuwanie niekompletności Przykłady Podsumowanie Bibliografia Przykłady NKM PG II Lubelska Konferencja dla Młodych Matematyków "Statystyka" - p. 26/31

63 Outline Niekompletność danych The missingness mechanisms Usuwanie niekompletności Przykłady Podsumowanie Podsumowanie Bibliografia Podsumowanie NKM PG II Lubelska Konferencja dla Młodych Matematyków "Statystyka" - p. 27/31

64 Podsumowanie Najlepszym rozwiązaniem jest minimalizowanie liczby brakujących wartości w danych w momencie ich pozyskiwania.

65 Podsumowanie Najlepszym rozwiązaniem jest minimalizowanie liczby brakujących wartości w danych w momencie ich pozyskiwania. Do zbioru danych warto dołączyć informację jaki procent danych brakuje lub został już usunięty.

66 Podsumowanie Najlepszym rozwiązaniem jest minimalizowanie liczby brakujących wartości w danych w momencie ich pozyskiwania. Do zbioru danych warto dołączyć informację jaki procent danych brakuje lub został już usunięty. Powinniśmy zachowywać informację o tym, dlaczego brakuje wartości.

67 Podsumowanie Najlepszym rozwiązaniem jest minimalizowanie liczby brakujących wartości w danych w momencie ich pozyskiwania. Do zbioru danych warto dołączyć informację jaki procent danych brakuje lub został już usunięty. Powinniśmy zachowywać informację o tym, dlaczego brakuje wartości. Odpowiednie traktowanie odpowiedzi typu NIE WIEM.

68 Podsumowanie Najlepszym rozwiązaniem jest minimalizowanie liczby brakujących wartości w danych w momencie ich pozyskiwania. Do zbioru danych warto dołączyć informację jaki procent danych brakuje lub został już usunięty. Powinniśmy zachowywać informację o tym, dlaczego brakuje wartości. Odpowiednie traktowanie odpowiedzi typu NIE WIEM. Nawet najbardziej wyszukane techniki uzupełniania danych nie sprawdzą się, jeśli źle przygotujemy dane.

69 Podsumowanie Wstawianie średniej wydaje się najgorszym rozwiązaniem naszego problemu.

70 Podsumowanie Wstawianie średniej wydaje się najgorszym rozwiązaniem naszego problemu. LISTWISE i CASEWISE DELETION jest dopuszczalne w przypadku danych typu MCAR, odpowiednio dużej próbki i małej liczby braków.

71 Podsumowanie Wstawianie średniej wydaje się najgorszym rozwiązaniem naszego problemu. LISTWISE i CASEWISE DELETION jest dopuszczalne w przypadku danych typu MCAR, odpowiednio dużej próbki i małej liczby braków. Pojedyncza imputacja nie jest optymalną strategią postępowania w przypadku końcowych analiz i formułowania wniosków.

72 Outline Niekompletność danych The missingness mechanisms Usuwanie niekompletności Przykłady Podsumowanie Bibliografia Bibliografia NKM PG II Lubelska Konferencja dla Młodych Matematyków "Statystyka" - p. 30/31

73 Bibliografia [1] Alan C. Acock Working with missing values [2] Thomas W. O Rourke Methodological techniques for dealing with missing data American Journal of Health Studies, Spring-Summer, 2003 [3] Judi Scheffer Dealing with missing data Res. Lett. Inf. Math. Sci. (2002) 3, [4] Kathy Gerber Missing values analysys and imputation [5] Sam Kozlowsky Handling missing data problems [6] D. B. Rubin Multiple imputation for nonresponse in surveys John Wiley and Sons, New York 1987 [7] Rufus Lynn Carter Solutions for missing data in structural equation modeling Marymount University