SYSTEMATYCZNOŚĆ BRAKÓW DANYCH W BADANIACH SONDAŻOWYCH Jakub Rutkowski
NA NA NA NA NA NA NA NA NA NA
Braki danych 3 Wskaźnik zrealizowania próby (response rate): Wskaźnik frakcji jednostek niedostępnych (non-response rate): Gdzie: RR n 1 to liczba przeprowadzonych wywiadów. NR n 0 to liczba jednostek wylosowanych do badania, z którymi nie przeprowadzono badania. n 0 n n1 n 0 1 n0 n 1
Klasyfikacja braków danych 4 Braki danych (non-response) Braki udziału (unit non-response) Braki odpowiedzi (item non-response)
Składowe błędu niedostępności Losowe Przypadkowa okoliczność sprawiająca że respondent był niedostępny: przypadkowy błąd w danych o adresie. Systematyczne Niedostępność wynikająca lub skorelowana z cechami respondenta: nieufność, brak czasu, mobilność.
Klasyfikacja braków danych 6 Braki danych Zupełnie losowe braki danych (MCAR) Losowe braki danych (MAR) Nielosowe braki danych (NMAR) Paul David Allison (2001); Missing Data; SAGE.
Zupełnie losowe braki danych 7 Prawdopodobieństwo wystąpienia braku danych dla zmiennej X jest niezależne od wartości zmiennej X oraz jest niezależne od innych zmiennych np. prawdopodobieństwo wystąpienia braku danych w pytaniu o dochody nie zależy ani od wysokości dochodu respondenta, ani od innych jego cech Paul David Allison (2001); Missing Data; SAGE.
Losowe braki danych 8 Prawdopodobieństwo wystąpienia braku danych zmiennej X jest niezależne od wartości zmiennej X, ale może być zależne od innych zmiennych np. prawdopodobieństwo wystąpienia braku danych w pytaniu o dochody zależy tylko od zawodu respondenta, ale nie od wysokości jego dochodu Paul David Allison (2001); Missing Data; SAGE.
Nielosowe braki danych 9 Prawdopodobieństwo wystąpienia braku danych zmiennej X jest zależne od wartości zmiennej X i może być zależne od innych zmiennych np. prawdopodobieństwo wystąpienia braku odpowiedzi na pytanie o dochody zależy od wysokości dochodów osoby o wyższym lub niższym dochodzie częściej lub rzadziej udzielają odpowiedzi na to pytanie Paul David Allison (2001); Missing Data; SAGE.
10
11 Poziom realizacji prób CBOS w latach 1984-2005 Z. Kołakowska; Metodologiczne problemy zjawiska niedostępności w badaniach sondażowych; Warszawa 2006.
12 Poziom realizacji prób OBOP w latach 1973-2003 Z. Kołakowska; Metodologiczne problemy zjawiska niedostępności w badaniach sondażowych; Warszawa 2006.
1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 13 Poziom realizacji prób PGSS w latach 1991-2008 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 82% 83%81% 80% 75% 67% 62% 61% 52% B. Cichomski 2009. Polish General Social Surveys: machine readable data file 1992-2008. Institute for Social Studies, Warsaw: University of Warsaw; Za: P. B. Sztabiński, F. Sztabiński; Why do people not participate In surveys: societal factors. The case of Poland
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 14 Poziom realizacji prób ESS w latach 2002-2010 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 70,9% 71,5% 70,2% 71,2% 70,3%
Przyczyny braków udziału 15 Z. Kołakowska; Metodologiczne problemy zjawiska niedostępności w badaniach sondażowych; Warszawa 2006.
Przyczyny braków udziału 16 Polacy stają się społeczeństwem zorientowanym na konsumpcję Praca zajmuje im coraz więcej czasu Polacy są przywiązani do wartości rodzinnych Powstaje napięcie miedzy czasem poświęcanym na pracę, rodzinę i odpoczynek Nie ma czasu na uczestniczenie w badaniach P. B. Sztabiński, F. Sztabiński; Why do people not participate in surveys: societal factors. The case of Poland (referat wygłoszony w czasie konferencji Polska a Europa. Kontynuacje i zmiany ; 14 grudnia 2011)
17 Nielosowy charakter błędu (1) RR dla płci Z. Kołakowska; Metodologiczne problemy zjawiska niedostępności w badaniach sondażowych; Warszawa 2006.
18 Nielosowy charakter błędu (2) RR dla grup wiekowych Z. Kołakowska; Metodologiczne problemy zjawiska niedostępności w badaniach sondażowych; Warszawa 2006.
19 Nielosowy charakter błędu (3) RR dla wielkości miejscowości Z. Kołakowska; Metodologiczne problemy zjawiska niedostępności w badaniach sondażowych; Warszawa 2006.
Częstość braków odpowiedzi 21 50% 45% 40% 35% 30% 25% 20% 15% 10% 5% 0% Częstość braków odpowiedzi na pytania o dochody 44% 35% 12% ESS 2010 PGSS 2008 PBC 2012 J. Rutkowski; Braki odpowiedzi na pytania o wysokość dochodów w badaniach sondażowych. Przegląd problematyki; Warszawa 2012.
22 Przyczyny braków odpowiedzi na pytania o dochody 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 87% 66% 64% 36% 30% 13% ESS 2010 PGSS 2008 PBC 2012 Odsetek odmów odpowiedzi wśród braków odpowiedzi Odsetek odpowiedzi beztreściowych wśród braków odpowiedzi J. Rutkowski; Braki odpowiedzi na pytania o wysokość dochodów w badaniach sondażowych. Przegląd problematyki; Warszawa 2012.
23 Nielosowy charakter błędu (1) RR dla statusu zawodowego 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 91% 72% 75% 61% 38% 33% ESS 2010 PGSS 2008 PBC 2012 Właściciel Pracownik najemny J. Rutkowski; Braki odpowiedzi na pytania o wysokość dochodów w badaniach sondażowych. Przegląd problematyki; Warszawa 2012.
24 Nielosowy charakter błędu (2) RR dla zawodu respondenta 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 71% 64% 62% 67% 64% 28% ESS 2010 68% 85% 68% Przedstawiciele władz publicznych, wyżsi urzędnicy i kierownicy Specjaliści Technicy i inny sredni personel Pracownicy biurowi Pracownicy usług osobistych i sprzedawcy Rolnicy, ogrodnicy, leśnicy i rybacy Robotnicy przemysłowi i rzemieślnicy Operatorzy i monterzy maszyn i urzadzeń Pracownicy przy pracach prostych J. Rutkowski; Braki odpowiedzi na pytania o wysokość dochodów w badaniach sondażowych. Przegląd problematyki; Warszawa 2012.
25
26 Sposoby radzenia sobie z problemem jednostek niedostępnych Ulepszanie procedury docierania do respondentów Próby rezerwowe Ważenie poststratyfikacyjne Imputacje Dodatkowe badania Dane zewnętrzne
Ulepszanie procedury docierania do 27 respondentów Jedynym dobrym sposobem na poradzenie sobie z brakami danych jest ich niewystępowanie Paul Allison Zwiększenie liczby prób dotarcia do respondentów. Dbanie o umiejętności ankieterów. Kontrola ankieterów. Listy zapowiadające. Paul David Allison; Missing Data; SAGE 2001.
Próby rezerwowe 28 Często stosuje się próby rezerwowe, aby zastąpić jednostki niedostępne w próbie, jednostkami z próby rezerwowej (lub kilku prób rezerwowych). Jednak jeżeli w pierwszej próbie jednostka była niedostępna, a w drugiej udało się dotrzeć do jednostki z próby rezerwowej, to najprawdopodobniej dotarto do jednostki o innych cechach. Nie jest to zatem procedura rozwiązująca problem jednostek niedostępnych.
Ważenie poststratyfikacyjne 29 Kolejna często stosowana metoda: przeważanie zbioru, tak aby rozkłady pewnych zmiennych miały rozkład znany z danych zewnętrznych. Problemy: Rośnie wariancja estymatora Opiera się na założeniu, że jednostki niedostępne w próbie o pewnych cechach nie różnią się od jednostek dostępnych o tych samych cechach Nie niweluje błędu wynikającego z istnienia jednostek niedostępnych.
Dodatkowe badania 30 Losowanie małej próby jednostek z warstwy niedostępnej i próba dotarcia za wszelką cenę. Pozwala to zawęzić zakres w jakim może znajdować się średnia w warstwie niedostępnej. Jednak jest to metoda niezwykle trudna w realizacji.
Dane zewnętrzne 31 Mogą pomóc w przeprowadzeniu lepszej procedury imputacji lub ocenić poprawność wykonanej procedury (np. znajomość rozkładu imputowanej zmiennej z badań publicznych lub danych administracyjnych). Mogą zawęzić zakres jaki może osiągać średnia w warstwie niedostępnej, co zmniejsza długość przedziału ufności.
Imputacje 32 Imputacje jest to grupa metod przypisujących według różnych algorytmów wartości zmiennej za braki odpowiedzi, najczęściej w oparciu o inne, znane wartości zmiennych dla tej jednostki Imputacje opierają się na różnych założeniach, ale wszystkie są obarczone ryzykiem popełnienia błędu
DZIĘKUJĘ ZA UWAGĘ