Ustalanie mocy testu i optymalnej wielkości próby

Warsztaty szkoleniowe z zakresu oceny oddziaływania instrumentów aktywnej polityki rynku pracy Ustalanie mocy testu i optymalnej wielkości próby Piotr Ćwiakowski, Kraków, 7 czerwca 2017 r.

Plan wykładu Dlaczego próbkowanie jest potrzebne? (powtórzenie) Jakie znaczenie ma wielkość próby? (nowość) Jaka próba jest dostatecznie duża? (nowość) Jak zwiększyć moc testu? (nowość)

DLACZEGO PRÓBKOWANIE JEST KONIECZNE?

Próbkowanie pozwala wnioskować o charakterystykach populacji 1. Populacja docelowa 2. Próba badawcza Takie same charakterystyki (trafność zewnętrzna)

Typowe dylematy badacza (o wielkości próby) Powinienem wylosować 200, czy raczej 500 obserwacji do mojej próby? Jaka jest praktyczna różnica między próbą 200 a 500? Czy da się to skwantyfikować? Czy są jakieś reguły pozwalające ustalić optymalną wielkość próby? Jak duża próba jest już wystarczająco duża?

JAKIE ZNACZENIE MA WIELKOŚĆ PRÓBY?

Przykład badanie wzrostu Polaków Załóżmy, że wybraliśmy (losowo) 10 osób z populacji Polski, mierząc ich wzrost i następnie opierając się o prostą średnią wzrostu w próbie, twierdzimy: średni wzrost Polaka wynosi 170 cm Dajecie wiarę temu wnioskowi? Dlaczego? Dlaczego nie?

Przykład badanie wzrostu Polaków Załóżmy teraz, że wybraliśmy (losowo) 1000 osób z populacji Polski, mierząc ich wzrost i następnie opierając się o prostą średnią wzrostu w próbie, twierdzimy: średni wzrost Polaka to 170 cm Czy wierzycie teraz mniej lub bardziej we wnioski z badania? Dlaczego?

Znaczenie wielkości próby Duża próba losowa zwiększa wiarygodność badania, ponieważ: Mamy większą pewność że próba ma takie same charakterystyki jak populacja. Jest mniejsza szansa, że ewentualne obserwacje odstające spowodują obciążenie wyników. Jest większa szansa, że otrzymany wynik będzie bliższy prawdziwemu i że błąd wynikający z przypadkowości losowania będzie mniejszy. Intuicyjnie: Im większa jest próba, tym mniejsza niepewność związana z wynikiem.

Case study - opis Pewien PUP postanowił zbadać średni wzrost osób bezrobotnych w swoim okręgu. Całkowita liczba bezrobotnych w powiecie wynosi 1553. Jakie mamy możliwości?

Case study - opis Pewien PUP postanowił zbadać średni wzrost osób bezrobotnych w swoim okręgu. Całkowita liczba bezrobotnych w powiecie wynosi 1553. Jakie mamy możliwości? 1) Zmierzyć wzrost wszystkich osób w populacji docelowej i podać wynik (średnia). 2) Skonstruować próbę losową, policzyć średnią, przeprowadzić prosty test statystyczny i wyciągnąć wnioski nt. wzrostu w populacji. Ponieważ było wystarczające finansowanie projektu, analitycy PUP-u zmierzyli wzrost wszystkich osób bezrobotnych w powiecie. Zatem bez wykorzystania testów statystycznych, mogli stwierdzić że prawdziwy średni wzrost wśród bezrobotnych (na terenie ich powiatu) wynosi 165,1 cm. Dodatkowo, pewien dociekliwy analityk postanowił sprawdzić co by było, gdyby zamiast obranej strategii zdecydowano się oprzeć badanie na próbie losowej i estymować oczekiwany wzrost bezrobotnego, za pomocą średniej z próby. Badacz przeprowadził w tym celu następujący eksperyment. Z tej samej populacji wylosował 30 podprób 10 po 5 os., 10 po 10 os. wreszcie 10 po 20 os.

Case study - analiza wyników Średnie w podpróbach n = 5 n = 10 n = 20 170,1 170 170 169,4 169 169 168 168,5 168,4 167,19 167 167 166,8 166,16 166,2 165,7 165,70 165,95 164,0 164,51 164,65 163,22 163 163,6 162,4 162 162,9 161 161,9 161 Średnie z średnich 166,0 165,5 165,4 Błąd standardowy oszacowań 2,72 1,78 1,51 Źródło: Kopczyński M. (2005). Podstawy statystyki. Podręcznik dla humanistów. Warszawa: Oficyna Wydawnicza Mówią wieki.

Case study - analiza wyników Ta liczba oznacza, że w pierwszej podpróbie składającej się z 5 obs. średni wzrost wyniósł 170,1 cm Średnie w podpróbach n = 5 n = 10 n = 20 170,1 170 170 169,4 169 169 168 168,5 168,4 167,19 167 167 166,8 166,16 166,2 165,7 165,70 165,95 164,0 164,51 164,65 163,22 163 163,6 162,4 162 162,9 161 161,9 161 Średnie z średnich 166,0 165,5 165,4 Błąd standardowy oszacowań Ta liczba oznacza, że w drugiej podpróbie składającej się z 10 obs. średni wzrost wyniósł 169 cm. 2,72 1,78 1,51 Ta liczba oznacza, że w trzeciej podpróbie składającej się z 20 obs. średni wzrost wyniósł 168,4 cm.

Case study - wnioski Średnie w podpróbach n = 5 n = 10 n = 20 170,1 170 170 169,4 169 169 168 168,5 168,4 167,19 167 167 166,8 166,16 166,2 165,7 165,70 165,95 164,0 164,51 164,65 163,22 163 163,6 162,4 162 162,9 161 161,9 161 Średnie z średnich 166,0 165,5 165,4 Błąd standardowy oszacowań 2,72 1,78 1,51 Przeciętny rezultat eksperymentu jest bliższy prawdzie w próbie liczniejszej.

Case study - wnioski Średnie w podpróbach n = 5 n = 10 n = 20 170,1 170 170 169,4 169 169 168 168,5 168,4 167,19 167 167 166,8 166,16 166,2 165,7 165,70 165,95 164,0 164,51 164,65 163,22 163 163,6 162,4 162 162,9 161 161,9 161 Średnie z średnich 166,0 165,5 165,4 Błąd standardowy oszacowań 2,72 1,78 1,51 Niepewność wyniku (mierzona bł. std.) jest mniejsza dla prób liczniejszych

Case study - podsumowanie - W liczniejszej próbie jest większa szansa na to aby wynik był dokładniejszy. - Liczniejsze próby mają mniejszy błąd wyniku związany z losowaniem (błąd czysto losowy). - Liczniejsze próby mają bardziej stabilny wynik w ramach eksperymentu (mniejszy błąd standardowy).

Skąd wiemy, że wnioski z badań nie są przypadkowe? Przedziały ufności są statystyczną miarą naszej ufności w wyniki. Przez ufność rozumiemy pewność, że zaobserwowany wynik nie jest przypadkowy (tzn. że nie wynika z błędu czysto losowego). Zwyczajowo przyjmuje się 95% poziom ufności.

Testowanie przedziałem ufności Poziom bezrobocia Statystycznie nieistotny wynik 45% 40% 95% poziom ufności Wielkość próby = 200 35% Grupa eksperymentalna Grupa kontrolna

Przykład Rząd chciałby przetestować nowy model aktywizacji bezrobotnych i zdecydował się na przeprowadzenie programu pilotażowego w jednym z powiatów. Połowa losowo wyselekcjonowanych bezrobotnych została wybrana do nowego programu, a wobec pozostałych stosowano politykę sprzed reformy. Do badania ewaluacyjnego wylosowano po 200 osób do grupy kontrolnej i eksperymentalnej. Załóżmy teraz, że stopa zatrudnienia po roku działania wśród osób obserwowanych w badaniu ewaluacyjnym, objętych nowym programem wynosiła 65%, a w grupie kontrolnej 55%. Pojawia się kluczowe pytanie: Czy różnica między grupami jest statystycznie istotna? Spróbujmy rozważyć kilka analiz statystycznych z różnymi zestawami parametrów badawczych.

Testowanie przedziałem ufności Poziom bezrobocia Statystycznie nieistotny wynik 45% 30% 95% poziom ufności Wielkość próby = 200 35% Grupa eksperymentalna Grupa kontrolna

Przykład (2) ufność w wyniki Co by się stało, gdyby wskaźniki 55% i 65% były prawdziwe, a my byśmy wyselekcjonowali do badania 1000 osób (500+500) zamiast 400 (200+200).

Poziom bezrobocia 45% 40% Liczniejsza próba oznacza pewność Statystycznie istotny wynik wyniku 95% poziom ufności Wielkość próby = 500 35% Grupa eksperymentalna Grupa kontrolna

Intuicja: szerokość przedziału ufności (błąd) a wielkość próby błąd = ½ * szerokość przedziału ufności/efektu programu

Duża próba v. mała próba wnioski Liczniejsza próba zwęża przedziały ufności, co odzwierciedla wzrost pewności wyników. Z licznością próby rośnie prawdopodobieństwo zaobserwowania statystycznie istotnego wyniku.

Przykład (2) Wielkość efektu (effect size) Załóżmy, że w wyniku działania tego samego programu spodziewany jest większy efekt (20 punktów procentowych różnicy zamiast wyjściowych 10 pp.). Projektując ewaluację, powinno się zwiększyć czy zmniejszyć próbę badawczą?

CLICKER QUESTION Program A: oczekujemy dużej różnicy w stopie zatrudnienia pomiędzy grupą eksperymentalną a kontrolną (20 pp.) Program B: oczekujemy małej różnicy w stopie zatrudnienia pomiędzy grupą eksperymentalną a kontrolną (10 pp.) Aby oba badania miały tę samą moc, który scenariusz badawczy powinien zakładać większą próbę? A. Program A B. Program B C. Taka sama próba dla scenariuszy A and B 0% 0% 0% A. B. C.

Wielkość efektu v. wielkość próby N = 200 N = 500

Wielkość efektu wnioski Im większy rezultat naszej polityki, tym mniejszej próby potrzebujemy aby go udowodnić.

Podsumowanie Zakładając, że estymowany efekt jest prawdziwy, zwiększamy prawdopodobieństwo jego udowodnienia jeśli nasza próba będzie dostatecznie duża. Więc jeśli zwiększanie próby może tylko poprawić jakość badania, czemu nie badać za każdym razem całej populacji?

Podsumowanie Zakładając, że estymowany efekt jest prawdziwy, zwiększamy prawdopodobieństwo jego udowodnienia jeśli nasza próba będzie dostatecznie duża. Więc jeśli zwiększanie próby może tylko poprawić jakość badania, czemu nie badać za każdym razem całej populacji? ograniczone fundusze, malejąca korzyść z dodatkowej jednostki w próbie (np. malejący wzrost wiarygodności wyników z 1 dodatkowej osoby w dużej próbie). Potrzebne jest zatem narzędzie, które pozwoli na policzenie optymalnej wielkości próby. Optymalnej, czyli minimalnej próby potrzebnej do udowodnienia na danym poziomie ufności założonego a priori efektu.

POWER CALCULATIONS JAKA PRÓBA JEST DOSTATECZNIE DUŻA?

Moc Prawdopodobieństwo wykrycia efektu, pod warunkiem że hipoteza o istnieniu efektu jest prawdziwa. Standardowo przyjmuje się poziom mocy testu 80%. Oznacza to akceptację 20% prawdopodobieństwa nie wykrycia efektu nawet jeśli jest prawdziwy. Potrzebna jest większa próba, aby moc była większa!

Liczenie wielkości próby Mając: ustalony poziom ufności (zwykle 95%), założony poziom mocy testu (zwykle 80%), założoną wielkość efektu (zależy od charakteru programu, ale za istotny uznaje się efekt co najmniej na poziomie 20% odchylenia standardowego w próbie), możemy wyznaczyć minimalną wielkość próby potrzebną do otrzymania statystycznie istotnego wyniku.

Liczenie wielkości próby - przykład

Minimalny wykrywalny efekt Mając: ustalony poziom ufności (zwykle 95%), założony poziom mocy testu (zwykle 80%), założoną wielkość próby, możemy policzyć minimalny efekt, jaki musimy osiągnąć, aby udowodnić pozytywne skutki ewaluowanej polityki.

JAK ZWIĘKSZYĆ MOC?

Moc testu zależy od wielu czynników 1. Zmienności w populacji 2. Wielkości efektu 3. Reprezentatywności próby Czy potrzebujemy stratyfikacji w schemacie losowania? 4. Sposobu randomizacji (jednostki v. grupy): Czy losujemy pojedynczych respondentów, czy raczej klastry? (szkoły, powiaty, etc.)

1. Jak podobne/różne są osoby w populacji? Populacja jednorodna Populacja zróżnicowan a

Test: Jak reagują na zmiany? Podobnie W różny sposób

Jeśli populacja jest jednorodna, jest mniejsza szansa na uzyskanie przypadkowego wyniku 140 cm 130 cm 130 cm Bez dodatkowego dożywiania wzrost dzieci wynosi 130 cm. Jeśli w grupie eksperymentalnej dzieci są wyższe (140 cm) to jest to wynik działania programu. W eksperymencie kontrolowanym przeprowadzonym na grupie heterogenicznej wnioskowanie nie jest takie proste przypadkowość wyniku jest większa.

2. Jak poprawnie założyć wielkość efektu? Jeśli oczekiwany jest duży efekt, zostanie wykryty nawet w małej próbie badawczej. Dlaczego? Ponieważ przy zaobserwowaniu dużej różnicy w punkcie końcowym prawdopodobieństwo, że taki wynik jest przypadkowy, jest niewielkie. Odwrotnie, jeśli oczekujemy małych efektów (ale mających praktyczne znaczenie), należy zwiększyć próbę aby zwiększyć szansę udowodnienia go w analizie statystycznej. UWAGA: NIE NALEŻY ROBIĆ NIEREALISTYCZNYCH ZAŁOŻEŃ ODNOŚNIE WIELKOŚCI EFEKTU!!

Kto jest wyższy?

3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco duża, abyśmy ex ante mieli zapewnioną reprezentatywność badania (trafność zewnętrzna) więc może okazać, że nie możemy rozciągnąć wniosków z badania na populację. Dlatego, musimy w schemacie losowania dokonać stratyfikacji (warstwowania) aby upewnić się, że kluczowe charakterystyki będą miały taki sam rozkład w próbie i populacji.

4. Losowanie grupowe Czasami zależy nam na posiadaniu w próbie osób należących do różnych jednostek szkół, miejscowości, powiatów, etc. Co wtedy?

TEST Rząd zamierza dokonać ewaluacji nowego programu edukacyjnego w szkołach podstawowych. Badanie ewaluacyjne jest randomizowane na poziomie powiatu. Aby zwiększyć moc testu i wiarygodność badania analityk ma do wyboru jedną z dwóch strategii. Którą powinien zastosować? A. Zwiększyć liczbę osób badanych na poziomie wybranego powiatu B. Zwiększyć liczbę powiatów wyselekcjonowanych do badania Zwiększyć liczbę osób b... 0% Zwiększyć liczbę powiat.. 0%

Przykład: losowanie grupowe v. indywidualne

4. Losowanie grupowe Czasami zależy nam na posiadaniu w próbie osób należących do różnych jednostek szkół, miejscowości, powiatów, etc. Co wtedy? Jeśli losujemy na poziomie klastrów (np. powiatów), aby utrzymać moc testu musimy zwiększyć ich liczbę. Zwiększenie liczby osób wewnątrz klastrów nic nie da do próby będą trafiały osoby z tych samych klastrów, wnosząc relatywnie niewiele nowej informacji ich zachowanie jest silnie powiązane z przynależnością do konkretnego klastra.

Przykład: wyniki uczniów w ramach szkoły Szkoła A Szkoła B

Intuicyjnie: obciążenie wyników przy małej liczbie klastrów A A B B

Zwiększenie liczby uczniów w klastrze nie zwiększa wiarygodności badania. Uczniowie w ramach szkoły będą podobni (profil ucznia w ramach szkoły jest w miarę jednolity). Nowy uczeń z tej samej szkoły w badaniu nie niesie zbyt wielu nowych informacji i nie zwiększa znacząco reprezentatywności badania. Aby zwiększyć moc badania trzeba zwiększyć liczbę szkół (czyli klastrów).

Współczynnik korelacji wewnątrzgrupowej (ρ) Stopień w jakim są podobni (homogeniczni) respondenci w ramach klastra. Jeśli ρ=1 Wszystkie osoby w ramach klastra są takie same. Zwiększenie liczby osób w ramach klastra w ogóle nie poprawia jakości badania Efektywna wielkość próby jest równa liczbie klastrów Jeśli ρ=0 Sytuacja taka sama, jak gdybyśmy mieli do czynienia z randomizacją na poziomie osób (z pominięciem klastrów).

Przykład - klastry Poniższe badania mają dokładnie taką samą moc:* 80 klastrów, 20 osób w klastrze 40 klastrów, 1 067 osób w klastrze Porównajmy koszty: 1 600 osób v. 42 680! *Założony współczynnik korelacji wewnątrzgrupowej 5%

Przykład klastry vs losowanie indywidualne Oba poniższe badania mają taką samą moc*: Poziom indywidualny: po 393 w grupie kontrolnej i eksperymentalnej [N=786] Losowanie grupowe: 80 klastrów, 20 osób na klaster [N=1600] Jeśli losujemy z klastrów, potrzebna jest większa próba. *Założony współczynnik korelacji wewnątrzgrupowej 5%

CLICKER QUESTION Zakładając, że rząd ma fundusze na 2000 wywiadów, którą opcję powinniśmy wybrać aby zmaksymalizować moc badania? (Wnioski z analizy mają dotyczyć populacji bezrobotnych w całej Polsce) A. Przeprowadzenie 20 ankiet na powiat w 100 powiatach. B. Przeprowadzenie 50 ankiet na powiat w 40 powiatach. C. Przeprowadzenie 500 ankiet na powiat w 4 powiatach. D. Nie ma znaczenia, moc testu i tak będzie wystarczająca. 0% 0% 0% 0% A. B. C. D.

Inne sposoby zwiększania mocy przy tej samej wielkości próby Stratyfikacja Kontrolowanie wszystkich istotnych zmiennych (e.g. płeć, wiek, zawód) Solidne, rzetelne zbieranie danych Adekwatna metoda statystyczna

REGUŁY KCIUKA wskazówki dla analityków

Reguły kciuka Losowanie indywidualne: 100 osoba próba losowa rzadko jest wystarczająca. 1000 osobowa próba losowa (i równy podział między grupę kontrolną i eksperymentalną) zwykle wystarcza. Dobór grupowy: 10 klastrów w grupie eksperymentalnej i 10 w kontrolnej rzadko jest wystarczające. 50 klastrów w grupie eksperymentalnej i 50 w kontrolnej, z co najmniej 15 osobami w klastrze, zwykle wystarcza. ZASTRZEŻENIE: ostateczna optymalna wielkość próby zależy od takich czynników jak: zmienność zjawiska, korelacja wewnątrzgrupowa, oczekiwana wielkość efektu, korelacja między wartościami punktów końcowych przed i po badaniu, itd.

Kluczowe wnioski z wykładu Aby badanie było wiarygodne należy mieć odpowiednią wielkość próby Zwiększenie próby powoduje zwiększenie mocy badania Randomizacja na poziomie osób poprzez wzrost liczby osób Randomizacja na poziomie klastrów poprzez wzrost liczby klastrów (a nie osób w klastrach) Wykrycie mniejszego efektu wymaga użycia większej próby