Instytut Filozofii i Socjologii PAN Dobór próby w ESS6. Opis zmiennych zbioru doboru próby Próba do badania Europejski Sondaż Społeczny ma charakter losowy i jest realizowana do wyczerpania. Przedmiotem doboru są osoby mieszkające w Polce. Populacja badana obejmuje ludność w wieku 15 lub więcej lat. W fazie losowania przyjęto, że do osób spełniających kryterium wieku zaliczone zostaną osoby urodzone 30 września 1997 roku lub wcześniej. Próba do badania została dobrana z operatu PESEL prowadzonego przez Ministerstwo Spraw Wewnętrznych i Administracji. Dobór próby miał charakter losowania wielostopniowego. Zgodnie z założeniami badania liczebność próby losowanej została wyznaczona w taki sposób, aby zapewnić przynajmniej 1752 zrealizowanych wywiadów, co gwarantuje osiągnięcie tzw. efektywnej wielkości próby na poziomie przynajmniej 1500 osób (tj, przy pewnych założeniach próba 1752 osób pozwala estymować parametry z dokładnością porównywalną do tej, jaką by uzyskano przy próbie prostej bezzwrotnej o liczebności 1500 osób). Oszacowując liczebność próby założono, że poziomem realizacji (response rate) tj. stosunek liczby wywiadów zakończonych sukcesem do liczby wylosowanych osób, które należą do badanej populacji wyniesie w przybliżeniu 70% (w praktyce okazało się, że uzyskano poziom realizacji 75%). Dodatkowo należało uwzględnić, ze operat PESEL obejmuje osoby, które nie wchodzą w zakres badanej populacji (tzw. kategorii ineligibles, m. in. osoby mieszkające w momencie badania za granicą, osoby zmarłe pomiędzy momentem losowania próby a rozpoczęciem badania). Na podstawie dostępnych źródeł i poprzednich edycji ESS ich odsetek został oszacowany na 7,1%. Z tych względów liczebność losowanej próby została ustalona na 2706 osób. Poniżej pokrótce opisujemy najważniejsze kwestie związane z doborem próby w ESS6, tj. kwestię przewidywanej wielkości próby w miejscowościach różnej wielkości, opis schematu doboru próby i opis zmiennych ze zbioru doboru próby, których uwzględnienie pozwala na poprawne wyznaczenie błędów standardowych szacowanych parametrów. 1
1. Przewidywana realizacja w miejscowościach różnej wielkości Istotnym elementem metodologii doboru próby było uwzględnienie niejednakowych współczynników realizacji w miejscowościach o różnej wielkości. Czynnik ten uwzględniono określając liczbę losowanych osób w poszczególnych klasach wielkości miejscowości. Poniższa tabela przedstawia przewidywany poziom realizacji w ESS 6. Ich estymacji dokonano na podstawie analizy pracy sieci ORBS IFiS PAN w ostatnio realizowanych badaniach, a także na podstawie informacji o trudnościach w realizacji badań występujących w innych sieciach ankieterskich. W szczególności uwzględniono doświadczenia poprzednich edycji badania ESS. Liczba osób losowanych w poszczególnych klasach wielkości miejscowości została przemnożona przez odwrotność przewidywanego poziomu realizacji. Tabela 1. Przewidywany poziom realizacji w kategoriach miejscowości o różnej wielkości Kategoria wielkości miejscowości Udział w populacji osób w wieku 15 lub więcej lat* Przewidywany poziom realizacji Udział w wylosowanej próbie Wsie 38,2% 80% 33,32% Miasta poniżej 10 tys. mieszkańców 6,0% 75% 5,56% Miasta 10-19 tys. mieszkańców 6,9% 70% 6,87% Miasta 20-49 tys. mieszkańców 11,1% 70% 11,01% Miasta 50-99 tys. mieszkańców 8,5% 65% 9,07% Miasta 100-199 tys. mieszkańców 8,1% 60% 9,42% Miasta 200-500 tys. mieszkańców 9,4% 60% 10,92% Miasta 500-999 tys. mieszkańców 7,2% 60% 8,43% Warszawa 4,6% 60% 5,38% Razem 100% 69,96% 100% *Dane GUS, 31 grudnia 2010. 2
2. Opis doboru próby Specyfiką doboru próby do badania Europejski Sondaż Społeczny jest podział populacji ludności Polski na dwie części, w ramach których losowanie przebiegało według odmiennych schematów. Pierwsza część objęła populację osób mieszkających w miastach o wielkości ponad 50 tys. mieszkańców, zaś druga osoby mieszkające w pozostałych miejscowościach (miasta poniżej 50 tys. mieszkańców oraz wsie). Poniżej omawiamy schemat doboru próby w obydwu podzbiorowościach. 2.1 Dobór próby w miastach ponad 50 tys. mieszkańców Wielkość populacji ludności w wieku 15 lub więcej lat mieszkającej w miastach ponad 50 tys. mieszkańców wynosi 12 275 805 osób. Kategoria ta obejmuje 86 miast, w sumie ludność tych miast obejmuje 37,8% ogółu populacji ludności Polski w wieku 15 lub więcej lat. Próba w tej części populacji została dobrana jako próba prosta losowana bezzwrotnie w każdym mieście osobno. Mówiąc inaczej, próba w tej części miała charakter warstwowy, przy czym każde miasto stanowiło odrębną warstwę. Osoby losowane były bezpośrednio spośród wszystkich mieszkańców danego miasta 1, z pominięciem fazy wiązkowania. Schemat prostej próby losowej zastosowano z tego względu, że jest on bardziej efektywny niż wiązkowanie. W każdym z 86 miast liczących ponad 50 tys. mieszkańców osobno określono liczbę osób, która zostanie wylosowana. Liczby te ustalono jako proporcjonalne do udziału ludności w wieku 15 lub więcej lat w danym mieście do ogółu populacji w tym wieku. Wyliczając liczbę wylosowanych osób w poszczególnych miastach uwzględniono także niejednakowe współczynniki realizowalności w różnych klasach wielkości miast (patrz powyżej). Dopiero złożenie tych dwóch czynników pozwoliło obliczyć liczbę dobieranych osób. Informacje o liczebności próby w poszczególnych miastach przedstawia tabela 2. 1 W przypadku największych polskich miast: Warszawy, Łodzi, Poznania i Wrocławia próbę losowano spośród mieszkańców dzielnic tych miast. Dla przykładu, Warszawa dzieli się na 18 dzielnic; respondentów losowano z każdej dzielnicy osobno. 3
Tabela 2. Wielkości populacji osób w wieku 15 lub więcej lat w miastach o liczebności populacji ponad 50 tys. mieszkańców Województwo TERYT Miasto Ludność 15+ Wielkość próby Dolnośląskie 0203011 Głogów 57 659 5 Dolnośląskie 0211011 Lubin 63 876 5 Dolnośląskie 0219011 Świdnica 51 681 4 Dolnośląskie 0221091 Wałbrzych 105 814 10 Dolnośląskie 0261011 Jelenia Góra 74 392 6 Dolnośląskie 0262011 Legnica 89 769 8 Dolnośląskie 0264029 Wrocław Fabryczna 173 699 17 Dolnośląskie 0264039 Wrocław Krzyki 146 728 14 Dolnośląskie 0264049 Wrocław Psie Pole 81 410 8 Dolnośląskie 0264059 Wrocław Stare Miasto 48 266 4 Dolnośląskie 0264069 Wrocław Śródmieście 106 133 10 Kujawsko-Pomorskie 0407011 Inowrocław 65 774 6 Kujawsko-Pomorskie 0461011 Bydgoszcz 310 464 30 Kujawsko-Pomorskie 0462011 Grudziądz 84 603 7 Kujawsko-Pomorskie 0463011 Toruń 178 128 17 Kujawsko-Pomorskie 0464011 Włocławek 101 023 10 Lubelskie 0661011 Biała Podlaska 49 131 4 Lubelskie 0662011 Chełm 58 478 5 Lubelskie 0663011 Lublin 30 3261 29 Lubelskie 0664011 Zamość 56 954 5 Lubuskie 0861011 Gorzów Wielkopolski 108 211 10 Lubuskie 0862011 Zielona Góra 102 071 10 Łódzkie 1001011 Bełchatów 52 361 4 Łódzkie 1008021 Pabianice 60 113 5 Łódzkie 1016011 Tomaszów Mazowiecki 55 933 5 Łódzkie 1020031 Zgierz 50 245 4 Łódzkie 1061029 Łódź Bałuty 18 8816 18 Łódzkie 1061039 Łódź Górna 153 576 15 Łódzkie 1061049 Łódź Polesie 127 062 12 Łódzkie 1061059 Łódź Śródmieście 65 029 6 Łódzkie 1061069 Łódź Widzew 121 610 12 Łódzkie 1062011 Piotrków Trybunalski 66 384 6 Małopolskie 1261011 Kraków 659 913 64 Małopolskie 1262011 Nowy Sącz 71 294 6 Małopolskie 1263011 Tarnów 99 682 9 Mazowieckie 1408011 Legionowo 43 728 4 Mazowieckie 1421021 Pruszków 48 212 4 Mazowieckie 1461011 Ostrołęka 45 628 4 Mazowieckie 1462011 Płock 108 224 10 Mazowieckie 1463011 Radom 190 749 18 Mazowieckie 1464011 Siedlce 65 278 6 Mazowieckie 1465028 Warszawa Bemowo 99 311 9 Mazowieckie 1465038 Warszawa Białołęka 73 259 7 4
Mazowieckie 1465048 Warszawa Bielany 118 672 11 Mazowieckie 1465058 Warszawa Mokotów 199 219 19 Mazowieckie 1465068 Warszawa Ochota 79 837 8 Mazowieckie 1465078 Warszawa Praga Południe 160 999 15 Mazowieckie 1465088 Warszawa Praga Północ 62 144 6 Mazowieckie 1465098 Warszawa Rembertów 20 161 2 Mazowieckie 1465108 Warszawa Śródmieście 113 207 11 Mazowieckie 1465118 Warszawa Targówek 107 715 10 Mazowieckie 1465128 Warszawa Ursus 42 621 4 Mazowieckie 1465138 Warszawa Ursynów 129 550 12 Mazowieckie 1465148 Warszawa Wawer 59 613 6 Mazowieckie 1465158 Warszawa Wesoła 18 947 2 Mazowieckie 1465168 Warszawa Wilanów 16 720 1 Mazowieckie 1465178 Warszawa Włochy 34 640 3 Mazowieckie 1465188 Warszawa Wola 122 956 12 Mazowieckie 1465198 Warszawa Żoliborz 42 422 4 Opolskie 1603011 Kędzierzyn Koźle 55 874 5 Opolskie 1661011 Opole 110 664 10 Podkarpackie 1811011 Mielec 52 070 4 Podkarpackie 1818011 Stalowa Wola 54 971 5 Podkarpackie 1862011 Przemyśl 56 957 5 Podkarpackie 1863011 Rzeszów 152 866 15 Podlaskie 2061011 Białystok 255 185 24 Podlaskie 2062011 Łomża 54 096 5 Podlaskie 2063011 Suwałki 58 255 5 Pomorskie 2214011 Tczew 50 419 4 Pomorskie 2261011 Gdańsk 395 525 38 Pomorskie 2262011 Gdynia 214 636 21 Pomorskie 2263011 Słupsk 84 011 7 Śląskie 2401011 Będzin 51 069 4 Śląskie 2411011 Racibórz 48 999 4 Śląskie 2413041 Tarnowskie Góry 52 637 4 Śląskie 2416021 Zawiercie 45 135 4 Śląskie 2461011 Bielsko Biała 151 045 14 Śląskie 2462011 Bytom 158 057 15 Śląskie 2463011 Chorzów 96 970 9 Śląskie 2464011 Częstochowa 208 792 20 Śląskie 2465011 Dąbrowa Górnicza 111 933 11 Śląskie 2466011 Gliwice 171 409 16 Śląskie 2467011 Jastrzębie Zdrój 78 548 7 Śląskie 2468011 Jaworzno 82 332 7 Śląskie 2469011 Katowice 270 612 26 Śląskie 2470011 Mysłowice 64 293 6 Śląskie 2471011 Piekary Śląskie 50 542 4 Śląskie 2472011 Ruda Śląska 122 266 12 Śląskie 2473011 Rybnik 120 443 11 Śląskie 2474011 Siemianowice Śląskie 61 262 5 5
Śląskie 2475011 Sosnowiec 193 312 18 Śląskie 2476011 Świętochłowice 46 326 4 Śląskie 2477011 Tychy 112 049 11 Śląskie 2478011 Zabrze 162 649 16 Śląskie 2479011 Żory 52 167 4 Świętokrzyskie 2607011 Ostrowiec Świętokrzyski 62 876 5 Świętokrzyskie 2611011 Starachowice 45 194 4 Świętokrzyskie 2661011 Kielce 178 825 17 Warmińsko-Mazurskie 2805011 Ełk 48 485 4 Warmińsko-Mazurskie 2861011 Elbląg 108 702 10 Warmińsko-Mazurskie 2862011 Olsztyn 152 744 15 Wielkopolskie 3003011 Gniezno 58 934 5 Wielkopolskie 3017011 Ostrów Wielkopolski 62 361 5 Wielkopolskie 3019011 Piła 63 387 5 Wielkopolskie 3061011 Kalisz 91 989 9 Wielkopolskie 3062011 Konin 68 442 6 Wielkopolskie 3063011 Leszno 54 504 5 Wielkopolskie 3064029 Poznań Grunwald 103 662 10 Wielkopolskie 3064039 Poznań Jeżyce 69 650 6 Wielkopolskie 3064049 Poznań Nowe Miasto 122 870 12 Wielkopolskie 3064059 Poznań Stare Miasto 133 955 13 Wielkopolskie 3064069 Poznań Wilda 53 246 5 Zachodniopomorskie 3214011 Stargard Szczeciński 59 730 5 Zachodniopomorskie 3261011 Koszalin 94 608 9 Zachodniopomorskie 3262011 Szczecin 354 609 34 2.2 Dobór próby w miastach poniżej 50 tys. mieszkańców oraz na wsi W przypadku pozostałej części populacji obejmującej miasta o liczebności populacji poniżej 50 tys. mieszkańców oraz ludność zamieszkałą na wsi zastosowano odmienny schemat losowania próby, a mianowicie dwustopniowy losowy dobór warstwowy. W przypadku rozważanej klasy miejscowości w pierwszej fazie losowano nie pojedyncze osoby, lecz miejscowości, z których następnie losowano wiązki 4-osobowe. Dobór miejscowości miał charakter doboru warstwowego, przy czym warstwy wyróżniono ze względu na (i) kategorię wielkości miejscowości (wieś, miasto do 10 tys. mieszkańców, miasto 10-20 tys. mieszkańców, miasto 20-50 tys. mieszkańców) oraz (ii) województwo. Łącznie wyróżniono więc 64 warstwy. W obrębie każdej warstwy miejscowości zostały dobrane metodą losowania ze zwracaniem, przy czym prawdopodobieństwa losowania poszczególnych miejscowości przyjęto jako proporcjonalne do ich wielkości (tj. proporcjonalnie do liczby mieszkańców w wieku 15 lub więcej). 6
W kolejnym etapie w ramach każdej z wylosowanych miejscowości (miasta lub wsi) losowana była wiązka 4 osobowa tj. losowano 4 osoby w sposób prosty bezzwrotny. Schemat dwustopniowego doboru zawierający element wiązkowania jest mniej efektywny od schematu prostej próby losowej. Niemniej, zastosowanie wiązkowania w przypadku wsi i małych miast było uzasadnione kwestami organizacyjnymi i finansowymi. Ponieważ fakt zastosowania dwustopniowego schematu losowania ma wpływ na wariancję estymatorów i prowadzi do obniżenia tzw. efektywnej wielkości próby, czynnik ten nie może być zignorowany podczas analizy wyników badania. Zamieszczamy zbiór z danymi opisującymi prawdopodobieństwa wylosowania poszczególnych miejscowości, osób, informacje o warstwach etc. ( ESS6PL_dane_doboru_proby.csv ). Poniżej znajduje się opis zmiennych zawartych w tym zbiorze. Tabela 3. Opis zmiennych w zbiorze doboru próby (ESS6PL_dane_doboru_proby.csv) NAZWA OPIS ZMIENNEJ IDNO Jest to zanoniminizowana zmienna identyfikująca poszczególne jednostki obserwacji; Zmienną z taką samą nazwą można znaleźć w zbiorach danych ESS zamieszczonych na stronie www.europeansocialsurvey.org. Możliwe jest więc zintegrowanie zmiennych opisujących kwestie doboru próby z danymi dla polskiego zbioru ESS6. PROB1 Zmienna określa prawdopodobieństwo wylosowania danej miejscowości. W przypadku miast o liczbie mieszkańców powyżej 50 tys. mieszkańców wynosi ono 1. W przypadku miast o liczbie mieszkańców poniżej 50 tys. mieszkańców lub wsi jest ono mniejsze od 1. PROB2 Zmienna określa prawdopodobieństwo wylosowania osoby w obrębie miejscowości (miasta lub wsi). STRATEX1 Zmienna stratyfikująca. W przypadku miast poniżej 50 tys. mieszkańców, warstwa jest kombinacją klasy wielkości miejscowości (pierwsza cyfra - 1. wsie, 2. miasta poniżej 10 tys. mieszkańców, 3. miasta 10-19 tys. mieszkańców, 4. miasta 20-49 tys. mieszkańców) i województwa (kolejne dwie cyfry - zgodne z klasyfikacją TERYT). W 7
przypadku miast powyżej 50 tys. mieszkańców, zmienna ma unikatową wartość dla każdego miasta (również w tym przypadku pierwsza cyfra wskazuje na klasę wielkości miejscowości). PSU Oznaczenie danej miejscowości wylosowanej z poszczególnej warstwy. W przypadku miast powyżej 50 tys. mieszkańców zmienna jest tożsama ze zmienną STRATEX. OUTCOME Zmienna wskazuje na informacje dotyczące realizacji wywiadu dla danej osoby (1-wywiad zrealizowany; 2-wywiad niezrealizowany; 3- osoba nie wchodząca w skald populacji (tzw. kategorii ineligibles). POP15_STRATEX1 Wielkość populacji odpowiadająca danej warstwie (na podstawie danych GUS, 30 XII 2010) liczba osób powyżej 15 roku życia. 8