SYSTEMATYCZNOŚĆ BRAKÓW DANYCH W BADANIACH SONDAŻOWYCH. Jakub Rutkowski

Podobne dokumenty
Prognoza liczby pracujących w rolnictwie w przekroju grup zawodów

Zaktualizowana prognoza zatrudnienia według wielkich grup zawodów w Polsce na lata

Zaktualizowana prognoza zatrudnienia według wielkich grup zawodów w przekroju sektorów na lata

Prognoza liczby pracujących w usługach rynkowych w przekroju grup zawodów

Sytuacja osób bezrobotnych w wieku do 30 lat na dolnośląskim rynku pracy. (stan na 31 grudnia 2015 r.)

Prognoza liczby pracujących w usługach nierynkowych w przekroju grup zawodów

Kwestionariusz do badania przedsiębiorstw w powiecie w 20.. roku

Oczekiwania zachodniopomorskich pracodawców w kontekście szkolnictwa zawodowego

Prognoza liczby pracujących w przemyśle w przekroju grup zawodów

Kwestionariusz do badania przedsiębiorstw w powiecie w 20.. roku

UWAGI METODYCZNE Popyt na pracę Wolne miejsca pracy Nowo utworzone miejsca pracy

RÓŻNICE W WYNAGRODZENIACH KOBIET I MĘŻCZYZN W POLSCE

Analiza struktury wynagrodzeń w województwie zachodniopomorskim

Praktyczne aspekty doboru próby. Dariusz Przybysz Warszawa, 2 czerwca 2015

Czy poziom 5 może być z zakresu ochrony środowiska?

W8. Metody doboru próby w badaniach rynkowych

Informacja o bezrobotnych według grup zawodów i specjalności w I półroczu 2006 roku

STRUKTURA WYNAGRODZEŃ WEDŁUG ZAWODÓW W PAŹDZIERNIKU 2014 R.

Wagi poststratyfikacyjne w Europejskim Sondażu Społecznym:

UDZIAŁ KOBIET W OGÓLNEJ LICZBIE ZATRUDNIONYCH W POLSCE % 50. Źródło: Rocznik Statystyczny Pracy 2012.

Cykliczne badanie popytu na pracę w ramach projektu Opolskie Obserwatorium Rynku Pracy III cykl I: sierpień - wrzesień 2013

INFORMACJA O STANIE I STRUKTURZE BEZROBOCIA W POWIECIE ŁĘCZYCKIM WEDŁUG STANU NA KONIEC 2010r i 2011r

Sytuacja zawodowa osób z wyższym wykształceniem w Polsce i w krajach Unii Europejskiej w 2012 r.

MONITORING ZAWODÓW DEFICYTOWYCH I NADWYŻKOWYCH W WOJEWÓDZTWIE POMORSKIM W 2007 r.

Zawody deficytowe i nadwyżkowe w latach relacja popytu i podaży

Wnioskowanie statystyczne. Statystyka w 5

Pobieranie prób i rozkład z próby

20,1% 19,7% 18,9% 18,0% 16,2% 16,9% 16,3% 16,3% 18,8%

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Monitoring zawodów deficytowych i nadwyżkowych

TRENDY NA RYNKU PRACY

Aktywność ekonomiczna ludności Z punktu widzenia sytuacji na rynku pracy ludność dzieli się na aktywnych i biernych zawodowo.

STATYSTYKA MATEMATYCZNA

POWIATOWY URZĄD PRACY W TARNOWIE. w TARNOWIE w 2005 roku RANKING ZAWODÓW DEFICYTOWYCH I NADWYŻKOWYCH. TARNÓW 2005 r.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

IMIGRANCI NA RYNKU PRACY W WOJEWÓDZTWIE ZACHODNIOPOMORSKIM

ZAKŁAD UBEZPIECZEŃ SPOŁECZNYCH DEPARTAMENT STATYSTYKI UBEZPIECZENI PODDANI REHABILITACJI LECZNICZEJ W RAMACH PREWENCJI RENTOWEJ ZUS W 2004 ROKU

Metody Statystyczne. Metody Statystyczne.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Poziom oraz struktura sektorowa i zawodowa podaży pracy w województwie łódzkim w latach

Rozkłady statystyk z próby. Statystyka

Zapotrzebowanie na kwalifikacje zawodowe do 2020 roku województwo łódzkie

Metody doboru próby do badań. Dr Kalina Grzesiuk

Projekt Kapitał ludzki i społeczny jako czynniki rozwoju regionu łódzkiego"

LUDNOŚĆ WEDŁUG EKONOMICZNYCH GRUP WIEKU W LATACH

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Estymacja parametrów rozkładu cechy

Badanie pracodawców realizacja i wyniki

URZĄD STATYSTYCZNY W KRAKOWIE

Badania marketingowe

Sytuacja kobiet na mazowieckim rynku pracy prognozy Edyta Łaszkiewicz, Marzena Pawłowska

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Ranking zawodów deficytowych i nadwyżkowych w powiecie choszczeńskim w 2007 roku - część 2.

GŁÓWNY URZĄD STATYSTYCZNY, al. Niepodległości 208, Warszawa SG-01. Statystyka gminy: samorząd i transport. za rok 2014 SAMORZĄD

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

MONITORING ZAWODÓW DEFICYTOWYCH I NADWYŻKOWYCH W WOJEWÓDZTWIE POMORSKIM W 2013 r. - CZĘŚĆ II

POPYT NA PRACĘ W WOJEWÓDZTWIE WIELKOPOLSKIM W 2013 R.

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

INFORMACJA O SYTUACJI NA LOKALNYM RYNKU PRACY W 2017 ROKU

ABSOLWENCI SZKÓŁ NA STARCIE ZAWODOWYM. Warszawa,

INFORMACJA O SYTUACJI NA LOKALNYM RYNKU PRACY W I PÓŁROCZU 2019 ROKU

INFORMACJA O SYTUACJI NA LOKALNYM RYNKU PRACY W 2018 ROKU

WOJEWÓDZKI URZĄD PRACY W SZCZECINIE

Zmiany bezrobocia w województwie zachodniopomorskim w I półroczu 2018 roku

INFORMACJA O SYTUACJI NA LOKALNYM RYNKU PRACY W I PÓŁROCZU 2018 ROKU

INFORMACJA O SYTUACJI NA LOKALNYM RYNKU PRACY

INFORMACJA O SYTUACJI NA LOKALNYM RYNKU PRACY W I PÓŁROCZU 2019 ROKU

METROPOLITALNY I MAZOWIECKI RYNEK PRACY

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

WYNIKI BADAŃ W SZKOŁACH PONADGIMNAZJALNYCH

BEZROBOCIE REJESTROWANE W WOJEWÓDZTWIE LUBELSKIM W 2015 R. Stan w I półroczu

Ocena nowelizacji ustawy refundacyjnej leków R A P O R T Z B A D A N I A C AT I B U S

PERSPEKTYWY PODLASKIEGO RYNKU PRACY. Dr Cecylia Sadowska-Snarska Wydział Ekonomii i Zarządzania Uniwersytetu w Białymstoku

INFORMACJA O SYTUACJI NA LOKALNYM RYNKU PRACY

INFORMACJA O SYTUACJI NA LOKALNYM RYNKU PRACY W 2018 ROKU

INFORMACJA O SYTUACJI NA LOKALNYM RYNKU PRACY W 2017 ROKU

Statystyka rynku pracy - woj. mazowieckie

INFORMACJA O SYTUACJI NA LOKALNYM RYNKU PRACY W I PÓŁROCZU 2018 ROKU

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD STATYSTYK Z PRÓBY

CAŁA POLSKA CZYTA DZIECIOM raport

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

INFORMACJA O SYTUACJI NA LOKALNYM RYNKU PRACY

URZĄD STATYSTYCZNY W KRAKOWIE

WYNIKI BADAŃ W SZKOŁACH PONADGIMNAZJALNYCH

GŁÓWNY URZĄD STATYSTYCZNY, al. Niepodległości 208, Warszawa SG-01. Statystyka gminy: samorząd i transport. za rok 2014 SAMORZĄD

INFORMACJA O SYTUACJI NA LOKALNYM RYNKU PRACY w I półroczu 2017 roku

RAPORT Co Polacy wiedzą o in vitro?

Polacy 88 : dynamika konfliktu a szansa reform. Zespół aut.: Władysław Adamski i in. Warszawa 1989 ANEKSY CHARAKTERYSTYKA PRÓBY


GŁÓWNY URZĄD STATYSTYCZNY Departament Pracy. Struktura wynagrodzeń według zawodów w październiku 2010 r.

INFORMACJA O SYTUACJI NA LOKALNYM RYNKU PRACY w I półroczu 2017 roku

Oszacowanie i rozkład t

W związku z przypadającym w dniu 8 marca Dniem Kobiet postanowiliśmy przyjrzed się zawodowej sytuacji pao w Polsce.

Zmiany bezrobocia w województwie zachodniopomorskim w 2015 roku

Zawody deficytowe i nadwyżkowe w świetle zmian na kujawsko-pomorskim rynku pracy w 2013 r.

Zmiany bezrobocia w województwie zachodniopomorskim w 2018 roku

STATYSTYKA wykład 5-6

Zmiany bezrobocia w województwie zachodniopomorskim w 2016 roku

AKTYWNOŚĆ EKONOMICZNA LUDNOŚCI W WOJEWÓDZTWIE ŚWIĘTOKRZYSKIM W IV KWARTALE 2011 R.

Zmiany bezrobocia w województwie zachodniopomorskim w 2017 roku

Transkrypt:

SYSTEMATYCZNOŚĆ BRAKÓW DANYCH W BADANIACH SONDAŻOWYCH Jakub Rutkowski

NA NA NA NA NA NA NA NA NA NA

Braki danych 3 Wskaźnik zrealizowania próby (response rate): Wskaźnik frakcji jednostek niedostępnych (non-response rate): Gdzie: RR n 1 to liczba przeprowadzonych wywiadów. NR n 0 to liczba jednostek wylosowanych do badania, z którymi nie przeprowadzono badania. n 0 n n1 n 0 1 n0 n 1

Klasyfikacja braków danych 4 Braki danych (non-response) Braki udziału (unit non-response) Braki odpowiedzi (item non-response)

Składowe błędu niedostępności Losowe Przypadkowa okoliczność sprawiająca że respondent był niedostępny: przypadkowy błąd w danych o adresie. Systematyczne Niedostępność wynikająca lub skorelowana z cechami respondenta: nieufność, brak czasu, mobilność.

Klasyfikacja braków danych 6 Braki danych Zupełnie losowe braki danych (MCAR) Losowe braki danych (MAR) Nielosowe braki danych (NMAR) Paul David Allison (2001); Missing Data; SAGE.

Zupełnie losowe braki danych 7 Prawdopodobieństwo wystąpienia braku danych dla zmiennej X jest niezależne od wartości zmiennej X oraz jest niezależne od innych zmiennych np. prawdopodobieństwo wystąpienia braku danych w pytaniu o dochody nie zależy ani od wysokości dochodu respondenta, ani od innych jego cech Paul David Allison (2001); Missing Data; SAGE.

Losowe braki danych 8 Prawdopodobieństwo wystąpienia braku danych zmiennej X jest niezależne od wartości zmiennej X, ale może być zależne od innych zmiennych np. prawdopodobieństwo wystąpienia braku danych w pytaniu o dochody zależy tylko od zawodu respondenta, ale nie od wysokości jego dochodu Paul David Allison (2001); Missing Data; SAGE.

Nielosowe braki danych 9 Prawdopodobieństwo wystąpienia braku danych zmiennej X jest zależne od wartości zmiennej X i może być zależne od innych zmiennych np. prawdopodobieństwo wystąpienia braku odpowiedzi na pytanie o dochody zależy od wysokości dochodów osoby o wyższym lub niższym dochodzie częściej lub rzadziej udzielają odpowiedzi na to pytanie Paul David Allison (2001); Missing Data; SAGE.

10

11 Poziom realizacji prób CBOS w latach 1984-2005 Z. Kołakowska; Metodologiczne problemy zjawiska niedostępności w badaniach sondażowych; Warszawa 2006.

12 Poziom realizacji prób OBOP w latach 1973-2003 Z. Kołakowska; Metodologiczne problemy zjawiska niedostępności w badaniach sondażowych; Warszawa 2006.

1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 13 Poziom realizacji prób PGSS w latach 1991-2008 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 82% 83%81% 80% 75% 67% 62% 61% 52% B. Cichomski 2009. Polish General Social Surveys: machine readable data file 1992-2008. Institute for Social Studies, Warsaw: University of Warsaw; Za: P. B. Sztabiński, F. Sztabiński; Why do people not participate In surveys: societal factors. The case of Poland

2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 14 Poziom realizacji prób ESS w latach 2002-2010 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 70,9% 71,5% 70,2% 71,2% 70,3%

Przyczyny braków udziału 15 Z. Kołakowska; Metodologiczne problemy zjawiska niedostępności w badaniach sondażowych; Warszawa 2006.

Przyczyny braków udziału 16 Polacy stają się społeczeństwem zorientowanym na konsumpcję Praca zajmuje im coraz więcej czasu Polacy są przywiązani do wartości rodzinnych Powstaje napięcie miedzy czasem poświęcanym na pracę, rodzinę i odpoczynek Nie ma czasu na uczestniczenie w badaniach P. B. Sztabiński, F. Sztabiński; Why do people not participate in surveys: societal factors. The case of Poland (referat wygłoszony w czasie konferencji Polska a Europa. Kontynuacje i zmiany ; 14 grudnia 2011)

17 Nielosowy charakter błędu (1) RR dla płci Z. Kołakowska; Metodologiczne problemy zjawiska niedostępności w badaniach sondażowych; Warszawa 2006.

18 Nielosowy charakter błędu (2) RR dla grup wiekowych Z. Kołakowska; Metodologiczne problemy zjawiska niedostępności w badaniach sondażowych; Warszawa 2006.

19 Nielosowy charakter błędu (3) RR dla wielkości miejscowości Z. Kołakowska; Metodologiczne problemy zjawiska niedostępności w badaniach sondażowych; Warszawa 2006.

Częstość braków odpowiedzi 21 50% 45% 40% 35% 30% 25% 20% 15% 10% 5% 0% Częstość braków odpowiedzi na pytania o dochody 44% 35% 12% ESS 2010 PGSS 2008 PBC 2012 J. Rutkowski; Braki odpowiedzi na pytania o wysokość dochodów w badaniach sondażowych. Przegląd problematyki; Warszawa 2012.

22 Przyczyny braków odpowiedzi na pytania o dochody 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 87% 66% 64% 36% 30% 13% ESS 2010 PGSS 2008 PBC 2012 Odsetek odmów odpowiedzi wśród braków odpowiedzi Odsetek odpowiedzi beztreściowych wśród braków odpowiedzi J. Rutkowski; Braki odpowiedzi na pytania o wysokość dochodów w badaniach sondażowych. Przegląd problematyki; Warszawa 2012.

23 Nielosowy charakter błędu (1) RR dla statusu zawodowego 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 91% 72% 75% 61% 38% 33% ESS 2010 PGSS 2008 PBC 2012 Właściciel Pracownik najemny J. Rutkowski; Braki odpowiedzi na pytania o wysokość dochodów w badaniach sondażowych. Przegląd problematyki; Warszawa 2012.

24 Nielosowy charakter błędu (2) RR dla zawodu respondenta 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 71% 64% 62% 67% 64% 28% ESS 2010 68% 85% 68% Przedstawiciele władz publicznych, wyżsi urzędnicy i kierownicy Specjaliści Technicy i inny sredni personel Pracownicy biurowi Pracownicy usług osobistych i sprzedawcy Rolnicy, ogrodnicy, leśnicy i rybacy Robotnicy przemysłowi i rzemieślnicy Operatorzy i monterzy maszyn i urzadzeń Pracownicy przy pracach prostych J. Rutkowski; Braki odpowiedzi na pytania o wysokość dochodów w badaniach sondażowych. Przegląd problematyki; Warszawa 2012.

25

26 Sposoby radzenia sobie z problemem jednostek niedostępnych Ulepszanie procedury docierania do respondentów Próby rezerwowe Ważenie poststratyfikacyjne Imputacje Dodatkowe badania Dane zewnętrzne

Ulepszanie procedury docierania do 27 respondentów Jedynym dobrym sposobem na poradzenie sobie z brakami danych jest ich niewystępowanie Paul Allison Zwiększenie liczby prób dotarcia do respondentów. Dbanie o umiejętności ankieterów. Kontrola ankieterów. Listy zapowiadające. Paul David Allison; Missing Data; SAGE 2001.

Próby rezerwowe 28 Często stosuje się próby rezerwowe, aby zastąpić jednostki niedostępne w próbie, jednostkami z próby rezerwowej (lub kilku prób rezerwowych). Jednak jeżeli w pierwszej próbie jednostka była niedostępna, a w drugiej udało się dotrzeć do jednostki z próby rezerwowej, to najprawdopodobniej dotarto do jednostki o innych cechach. Nie jest to zatem procedura rozwiązująca problem jednostek niedostępnych.

Ważenie poststratyfikacyjne 29 Kolejna często stosowana metoda: przeważanie zbioru, tak aby rozkłady pewnych zmiennych miały rozkład znany z danych zewnętrznych. Problemy: Rośnie wariancja estymatora Opiera się na założeniu, że jednostki niedostępne w próbie o pewnych cechach nie różnią się od jednostek dostępnych o tych samych cechach Nie niweluje błędu wynikającego z istnienia jednostek niedostępnych.

Dodatkowe badania 30 Losowanie małej próby jednostek z warstwy niedostępnej i próba dotarcia za wszelką cenę. Pozwala to zawęzić zakres w jakim może znajdować się średnia w warstwie niedostępnej. Jednak jest to metoda niezwykle trudna w realizacji.

Dane zewnętrzne 31 Mogą pomóc w przeprowadzeniu lepszej procedury imputacji lub ocenić poprawność wykonanej procedury (np. znajomość rozkładu imputowanej zmiennej z badań publicznych lub danych administracyjnych). Mogą zawęzić zakres jaki może osiągać średnia w warstwie niedostępnej, co zmniejsza długość przedziału ufności.

Imputacje 32 Imputacje jest to grupa metod przypisujących według różnych algorytmów wartości zmiennej za braki odpowiedzi, najczęściej w oparciu o inne, znane wartości zmiennych dla tej jednostki Imputacje opierają się na różnych założeniach, ale wszystkie są obarczone ryzykiem popełnienia błędu

DZIĘKUJĘ ZA UWAGĘ