Ustalanie mocy testu i optymalnej wielkości próby

Podobne dokumenty
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

METODY STATYSTYCZNE W BIOLOGII

Projektowanie eksperymentu część 2

Pomiar wpływu I: Jak mierzyć wpływ? Wstęp do projektowania ewaluacji

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Rozstęp Pozycyjne Odchylenie ćwiartkowe Współczynnik zmienności

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Pobieranie prób i rozkład z próby

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Wykład 9 Wnioskowanie o średnich

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Wnioskowanie statystyczne. Statystyka w 5

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej!

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Metody doboru próby do badań. Dr Kalina Grzesiuk

Wykład 2: Tworzenie danych

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Warsztat: Randomizacja w programie Excel

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Zadania ze statystyki cz.8. Zadanie 1.

Pomiar wpływu I: Jak mierzyć wpływ? Wstęp do projektowania ewaluacji

Metody probabilistyczne

Statystyka matematyczna dla leśników

Badania marketingowe

Wykład 10 Zrandomizowany plan blokowy

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

ZALICZENIA. W celu uzyskania zaliczenia należy wybrać jeden z trzech poniższych wariantów I, II lub III

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

Badania sondażowe. Schematy losowania. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

METODY STATYSTYCZNE W BIOLOGII

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Prawdopodobieństwo i rozkład normalny cd.

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

METODY STATYSTYCZNE W BIOLOGII

Testowanie hipotez statystycznych

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Praktyczne aspekty doboru próby. Dariusz Przybysz Warszawa, 2 czerwca 2015

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Testowanie hipotez statystycznych

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Rozkłady statystyk z próby. Statystyka

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Statystyka matematyczna i ekonometria

PDF created with FinePrint pdffactory Pro trial version

WNIOSKOWANIE STATYSTYCZNE

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Propensity Score Matching

Oszacowanie i rozkład t

Zadanie Punkty Ocena

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Psychometria. Psychologia potoczna. Psychometria (z gr. psyche dusza, metria miara) Plan wykładów. Plan wykładów. Wprowadzenie w problematykę zajęć

Testowanie hipotez statystycznych. Wprowadzenie

Zadania ze statystyki, cz.6

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

ESTYMACJA. Przedział ufności dla średniej

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Statystyka matematyczna i ekonometria

Wykład 8: Testy istotności

Może faktycznie ceny na Opolszczyźnie są wyższe niż w Polsce. Ceny na Opolszczyźnie są podobne, a akurat trafiliśmy na próbę droższych piekarni.

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Analiza wariancji. dr Janusz Górczyński

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Przykład 1. (A. Łomnicki)

Model EWD dla II etapu edukacyjnego.

Grupowanie materiału statystycznego

Porównywanie populacji

166 Wstęp do statystyki matematycznej

Kontekstowe wskaźniki efektywności nauczania - warsztaty

Metody Statystyczne. Metody Statystyczne.

R-PEARSONA Zależność liniowa

I jest narzędziem służącym do porównywania rozproszenia dwóch zmiennych. Używamy go tylko, gdy pomiędzy zmiennymi istnieje logiczny związek

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Analiza wariancji - ANOVA

5. WNIOSKOWANIE PSYCHOMETRYCZNE

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

Z poprzedniego wykładu

Modele quasi-eksperymentalne: Model regresji nieciągłej

Rozkłady statystyk z próby

METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II

Szkice rozwiązań z R:

Wnioskowanie bayesowskie

Modele quasi-eksperymentalne: Model regresji nieciągłej

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

STATYSTYKA wykład 5-6

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Transkrypt:

Warsztaty szkoleniowe z zakresu oceny oddziaływania instrumentów aktywnej polityki rynku pracy Ustalanie mocy testu i optymalnej wielkości próby Piotr Ćwiakowski, Kraków, 7 czerwca 2017 r.

Plan wykładu Dlaczego próbkowanie jest potrzebne? (powtórzenie) Jakie znaczenie ma wielkość próby? (nowość) Jaka próba jest dostatecznie duża? (nowość) Jak zwiększyć moc testu? (nowość)

DLACZEGO PRÓBKOWANIE JEST KONIECZNE?

Próbkowanie pozwala wnioskować o charakterystykach populacji 1. Populacja docelowa 2. Próba badawcza Takie same charakterystyki (trafność zewnętrzna)

Typowe dylematy badacza (o wielkości próby) Powinienem wylosować 200, czy raczej 500 obserwacji do mojej próby? Jaka jest praktyczna różnica między próbą 200 a 500? Czy da się to skwantyfikować? Czy są jakieś reguły pozwalające ustalić optymalną wielkość próby? Jak duża próba jest już wystarczająco duża?

JAKIE ZNACZENIE MA WIELKOŚĆ PRÓBY?

Przykład badanie wzrostu Polaków Załóżmy, że wybraliśmy (losowo) 10 osób z populacji Polski, mierząc ich wzrost i następnie opierając się o prostą średnią wzrostu w próbie, twierdzimy: średni wzrost Polaka wynosi 170 cm Dajecie wiarę temu wnioskowi? Dlaczego? Dlaczego nie?

Przykład badanie wzrostu Polaków Załóżmy teraz, że wybraliśmy (losowo) 1000 osób z populacji Polski, mierząc ich wzrost i następnie opierając się o prostą średnią wzrostu w próbie, twierdzimy: średni wzrost Polaka to 170 cm Czy wierzycie teraz mniej lub bardziej we wnioski z badania? Dlaczego?

Znaczenie wielkości próby Duża próba losowa zwiększa wiarygodność badania, ponieważ: Mamy większą pewność że próba ma takie same charakterystyki jak populacja. Jest mniejsza szansa, że ewentualne obserwacje odstające spowodują obciążenie wyników. Jest większa szansa, że otrzymany wynik będzie bliższy prawdziwemu i że błąd wynikający z przypadkowości losowania będzie mniejszy. Intuicyjnie: Im większa jest próba, tym mniejsza niepewność związana z wynikiem.

Case study - opis Pewien PUP postanowił zbadać średni wzrost osób bezrobotnych w swoim okręgu. Całkowita liczba bezrobotnych w powiecie wynosi 1553. Jakie mamy możliwości?

Case study - opis Pewien PUP postanowił zbadać średni wzrost osób bezrobotnych w swoim okręgu. Całkowita liczba bezrobotnych w powiecie wynosi 1553. Jakie mamy możliwości? 1) Zmierzyć wzrost wszystkich osób w populacji docelowej i podać wynik (średnia). 2) Skonstruować próbę losową, policzyć średnią, przeprowadzić prosty test statystyczny i wyciągnąć wnioski nt. wzrostu w populacji. Ponieważ było wystarczające finansowanie projektu, analitycy PUP-u zmierzyli wzrost wszystkich osób bezrobotnych w powiecie. Zatem bez wykorzystania testów statystycznych, mogli stwierdzić że prawdziwy średni wzrost wśród bezrobotnych (na terenie ich powiatu) wynosi 165,1 cm. Dodatkowo, pewien dociekliwy analityk postanowił sprawdzić co by było, gdyby zamiast obranej strategii zdecydowano się oprzeć badanie na próbie losowej i estymować oczekiwany wzrost bezrobotnego, za pomocą średniej z próby. Badacz przeprowadził w tym celu następujący eksperyment. Z tej samej populacji wylosował 30 podprób 10 po 5 os., 10 po 10 os. wreszcie 10 po 20 os.

Case study - analiza wyników Średnie w podpróbach n = 5 n = 10 n = 20 170,1 170 170 169,4 169 169 168 168,5 168,4 167,19 167 167 166,8 166,16 166,2 165,7 165,70 165,95 164,0 164,51 164,65 163,22 163 163,6 162,4 162 162,9 161 161,9 161 Średnie z średnich 166,0 165,5 165,4 Błąd standardowy oszacowań 2,72 1,78 1,51 Źródło: Kopczyński M. (2005). Podstawy statystyki. Podręcznik dla humanistów. Warszawa: Oficyna Wydawnicza Mówią wieki.

Case study - analiza wyników Ta liczba oznacza, że w pierwszej podpróbie składającej się z 5 obs. średni wzrost wyniósł 170,1 cm Średnie w podpróbach n = 5 n = 10 n = 20 170,1 170 170 169,4 169 169 168 168,5 168,4 167,19 167 167 166,8 166,16 166,2 165,7 165,70 165,95 164,0 164,51 164,65 163,22 163 163,6 162,4 162 162,9 161 161,9 161 Średnie z średnich 166,0 165,5 165,4 Błąd standardowy oszacowań Ta liczba oznacza, że w drugiej podpróbie składającej się z 10 obs. średni wzrost wyniósł 169 cm. 2,72 1,78 1,51 Ta liczba oznacza, że w trzeciej podpróbie składającej się z 20 obs. średni wzrost wyniósł 168,4 cm.

Case study - wnioski Średnie w podpróbach n = 5 n = 10 n = 20 170,1 170 170 169,4 169 169 168 168,5 168,4 167,19 167 167 166,8 166,16 166,2 165,7 165,70 165,95 164,0 164,51 164,65 163,22 163 163,6 162,4 162 162,9 161 161,9 161 Średnie z średnich 166,0 165,5 165,4 Błąd standardowy oszacowań 2,72 1,78 1,51 Przeciętny rezultat eksperymentu jest bliższy prawdzie w próbie liczniejszej.

Case study - wnioski Średnie w podpróbach n = 5 n = 10 n = 20 170,1 170 170 169,4 169 169 168 168,5 168,4 167,19 167 167 166,8 166,16 166,2 165,7 165,70 165,95 164,0 164,51 164,65 163,22 163 163,6 162,4 162 162,9 161 161,9 161 Średnie z średnich 166,0 165,5 165,4 Błąd standardowy oszacowań 2,72 1,78 1,51 Niepewność wyniku (mierzona bł. std.) jest mniejsza dla prób liczniejszych

Case study - podsumowanie - W liczniejszej próbie jest większa szansa na to aby wynik był dokładniejszy. - Liczniejsze próby mają mniejszy błąd wyniku związany z losowaniem (błąd czysto losowy). - Liczniejsze próby mają bardziej stabilny wynik w ramach eksperymentu (mniejszy błąd standardowy).

Skąd wiemy, że wnioski z badań nie są przypadkowe? Przedziały ufności są statystyczną miarą naszej ufności w wyniki. Przez ufność rozumiemy pewność, że zaobserwowany wynik nie jest przypadkowy (tzn. że nie wynika z błędu czysto losowego). Zwyczajowo przyjmuje się 95% poziom ufności.

Testowanie przedziałem ufności Poziom bezrobocia Statystycznie nieistotny wynik 45% 40% 95% poziom ufności Wielkość próby = 200 35% Grupa eksperymentalna Grupa kontrolna

Przykład Rząd chciałby przetestować nowy model aktywizacji bezrobotnych i zdecydował się na przeprowadzenie programu pilotażowego w jednym z powiatów. Połowa losowo wyselekcjonowanych bezrobotnych została wybrana do nowego programu, a wobec pozostałych stosowano politykę sprzed reformy. Do badania ewaluacyjnego wylosowano po 200 osób do grupy kontrolnej i eksperymentalnej. Załóżmy teraz, że stopa zatrudnienia po roku działania wśród osób obserwowanych w badaniu ewaluacyjnym, objętych nowym programem wynosiła 65%, a w grupie kontrolnej 55%. Pojawia się kluczowe pytanie: Czy różnica między grupami jest statystycznie istotna? Spróbujmy rozważyć kilka analiz statystycznych z różnymi zestawami parametrów badawczych.

Testowanie przedziałem ufności Poziom bezrobocia Statystycznie nieistotny wynik 45% 30% 95% poziom ufności Wielkość próby = 200 35% Grupa eksperymentalna Grupa kontrolna

Przykład (2) ufność w wyniki Co by się stało, gdyby wskaźniki 55% i 65% były prawdziwe, a my byśmy wyselekcjonowali do badania 1000 osób (500+500) zamiast 400 (200+200).

Poziom bezrobocia 45% 40% Liczniejsza próba oznacza pewność Statystycznie istotny wynik wyniku 95% poziom ufności Wielkość próby = 500 35% Grupa eksperymentalna Grupa kontrolna

Intuicja: szerokość przedziału ufności (błąd) a wielkość próby błąd = ½ * szerokość przedziału ufności/efektu programu

Duża próba v. mała próba wnioski Liczniejsza próba zwęża przedziały ufności, co odzwierciedla wzrost pewności wyników. Z licznością próby rośnie prawdopodobieństwo zaobserwowania statystycznie istotnego wyniku.

Przykład (2) Wielkość efektu (effect size) Załóżmy, że w wyniku działania tego samego programu spodziewany jest większy efekt (20 punktów procentowych różnicy zamiast wyjściowych 10 pp.). Projektując ewaluację, powinno się zwiększyć czy zmniejszyć próbę badawczą?

CLICKER QUESTION Program A: oczekujemy dużej różnicy w stopie zatrudnienia pomiędzy grupą eksperymentalną a kontrolną (20 pp.) Program B: oczekujemy małej różnicy w stopie zatrudnienia pomiędzy grupą eksperymentalną a kontrolną (10 pp.) Aby oba badania miały tę samą moc, który scenariusz badawczy powinien zakładać większą próbę? A. Program A B. Program B C. Taka sama próba dla scenariuszy A and B 0% 0% 0% A. B. C.

Wielkość efektu v. wielkość próby N = 200 N = 500

Wielkość efektu wnioski Im większy rezultat naszej polityki, tym mniejszej próby potrzebujemy aby go udowodnić.

Podsumowanie Zakładając, że estymowany efekt jest prawdziwy, zwiększamy prawdopodobieństwo jego udowodnienia jeśli nasza próba będzie dostatecznie duża. Więc jeśli zwiększanie próby może tylko poprawić jakość badania, czemu nie badać za każdym razem całej populacji?

Podsumowanie Zakładając, że estymowany efekt jest prawdziwy, zwiększamy prawdopodobieństwo jego udowodnienia jeśli nasza próba będzie dostatecznie duża. Więc jeśli zwiększanie próby może tylko poprawić jakość badania, czemu nie badać za każdym razem całej populacji? ograniczone fundusze, malejąca korzyść z dodatkowej jednostki w próbie (np. malejący wzrost wiarygodności wyników z 1 dodatkowej osoby w dużej próbie). Potrzebne jest zatem narzędzie, które pozwoli na policzenie optymalnej wielkości próby. Optymalnej, czyli minimalnej próby potrzebnej do udowodnienia na danym poziomie ufności założonego a priori efektu.

POWER CALCULATIONS JAKA PRÓBA JEST DOSTATECZNIE DUŻA?

Moc Prawdopodobieństwo wykrycia efektu, pod warunkiem że hipoteza o istnieniu efektu jest prawdziwa. Standardowo przyjmuje się poziom mocy testu 80%. Oznacza to akceptację 20% prawdopodobieństwa nie wykrycia efektu nawet jeśli jest prawdziwy. Potrzebna jest większa próba, aby moc była większa!

Liczenie wielkości próby Mając: ustalony poziom ufności (zwykle 95%), założony poziom mocy testu (zwykle 80%), założoną wielkość efektu (zależy od charakteru programu, ale za istotny uznaje się efekt co najmniej na poziomie 20% odchylenia standardowego w próbie), możemy wyznaczyć minimalną wielkość próby potrzebną do otrzymania statystycznie istotnego wyniku.

Liczenie wielkości próby - przykład

Minimalny wykrywalny efekt Mając: ustalony poziom ufności (zwykle 95%), założony poziom mocy testu (zwykle 80%), założoną wielkość próby, możemy policzyć minimalny efekt, jaki musimy osiągnąć, aby udowodnić pozytywne skutki ewaluowanej polityki.

JAK ZWIĘKSZYĆ MOC?

Moc testu zależy od wielu czynników 1. Zmienności w populacji 2. Wielkości efektu 3. Reprezentatywności próby Czy potrzebujemy stratyfikacji w schemacie losowania? 4. Sposobu randomizacji (jednostki v. grupy): Czy losujemy pojedynczych respondentów, czy raczej klastry? (szkoły, powiaty, etc.)

1. Jak podobne/różne są osoby w populacji? Populacja jednorodna Populacja zróżnicowan a

Test: Jak reagują na zmiany? Podobnie W różny sposób

Jeśli populacja jest jednorodna, jest mniejsza szansa na uzyskanie przypadkowego wyniku 140 cm 130 cm 130 cm Bez dodatkowego dożywiania wzrost dzieci wynosi 130 cm. Jeśli w grupie eksperymentalnej dzieci są wyższe (140 cm) to jest to wynik działania programu. W eksperymencie kontrolowanym przeprowadzonym na grupie heterogenicznej wnioskowanie nie jest takie proste przypadkowość wyniku jest większa.

2. Jak poprawnie założyć wielkość efektu? Jeśli oczekiwany jest duży efekt, zostanie wykryty nawet w małej próbie badawczej. Dlaczego? Ponieważ przy zaobserwowaniu dużej różnicy w punkcie końcowym prawdopodobieństwo, że taki wynik jest przypadkowy, jest niewielkie. Odwrotnie, jeśli oczekujemy małych efektów (ale mających praktyczne znaczenie), należy zwiększyć próbę aby zwiększyć szansę udowodnienia go w analizie statystycznej. UWAGA: NIE NALEŻY ROBIĆ NIEREALISTYCZNYCH ZAŁOŻEŃ ODNOŚNIE WIELKOŚCI EFEKTU!!

Kto jest wyższy?

Kto jest wyższy?

3. Stratyfikacja próby losowej Czasami próba losowa nie jest wystarczająco duża, abyśmy ex ante mieli zapewnioną reprezentatywność badania (trafność zewnętrzna) więc może okazać, że nie możemy rozciągnąć wniosków z badania na populację. Dlatego, musimy w schemacie losowania dokonać stratyfikacji (warstwowania) aby upewnić się, że kluczowe charakterystyki będą miały taki sam rozkład w próbie i populacji.

4. Losowanie grupowe Czasami zależy nam na posiadaniu w próbie osób należących do różnych jednostek szkół, miejscowości, powiatów, etc. Co wtedy?

TEST Rząd zamierza dokonać ewaluacji nowego programu edukacyjnego w szkołach podstawowych. Badanie ewaluacyjne jest randomizowane na poziomie powiatu. Aby zwiększyć moc testu i wiarygodność badania analityk ma do wyboru jedną z dwóch strategii. Którą powinien zastosować? A. Zwiększyć liczbę osób badanych na poziomie wybranego powiatu B. Zwiększyć liczbę powiatów wyselekcjonowanych do badania Zwiększyć liczbę osób b... 0% Zwiększyć liczbę powiat.. 0%

Przykład: losowanie grupowe v. indywidualne

Przykład: losowanie grupowe v. indywidualne

Przykład: losowanie grupowe v. indywidualne

4. Losowanie grupowe Czasami zależy nam na posiadaniu w próbie osób należących do różnych jednostek szkół, miejscowości, powiatów, etc. Co wtedy? Jeśli losujemy na poziomie klastrów (np. powiatów), aby utrzymać moc testu musimy zwiększyć ich liczbę. Zwiększenie liczby osób wewnątrz klastrów nic nie da do próby będą trafiały osoby z tych samych klastrów, wnosząc relatywnie niewiele nowej informacji ich zachowanie jest silnie powiązane z przynależnością do konkretnego klastra.

Przykład: wyniki uczniów w ramach szkoły Szkoła A Szkoła B

Intuicyjnie: obciążenie wyników przy małej liczbie klastrów A A B B

Zwiększenie liczby uczniów w klastrze nie zwiększa wiarygodności badania. Uczniowie w ramach szkoły będą podobni (profil ucznia w ramach szkoły jest w miarę jednolity). Nowy uczeń z tej samej szkoły w badaniu nie niesie zbyt wielu nowych informacji i nie zwiększa znacząco reprezentatywności badania. Aby zwiększyć moc badania trzeba zwiększyć liczbę szkół (czyli klastrów).

Współczynnik korelacji wewnątrzgrupowej (ρ) Stopień w jakim są podobni (homogeniczni) respondenci w ramach klastra. Jeśli ρ=1 Wszystkie osoby w ramach klastra są takie same. Zwiększenie liczby osób w ramach klastra w ogóle nie poprawia jakości badania Efektywna wielkość próby jest równa liczbie klastrów Jeśli ρ=0 Sytuacja taka sama, jak gdybyśmy mieli do czynienia z randomizacją na poziomie osób (z pominięciem klastrów).

Przykład - klastry Poniższe badania mają dokładnie taką samą moc:* 80 klastrów, 20 osób w klastrze 40 klastrów, 1 067 osób w klastrze Porównajmy koszty: 1 600 osób v. 42 680! *Założony współczynnik korelacji wewnątrzgrupowej 5%

Przykład klastry vs losowanie indywidualne Oba poniższe badania mają taką samą moc*: Poziom indywidualny: po 393 w grupie kontrolnej i eksperymentalnej [N=786] Losowanie grupowe: 80 klastrów, 20 osób na klaster [N=1600] Jeśli losujemy z klastrów, potrzebna jest większa próba. *Założony współczynnik korelacji wewnątrzgrupowej 5%

CLICKER QUESTION Zakładając, że rząd ma fundusze na 2000 wywiadów, którą opcję powinniśmy wybrać aby zmaksymalizować moc badania? (Wnioski z analizy mają dotyczyć populacji bezrobotnych w całej Polsce) A. Przeprowadzenie 20 ankiet na powiat w 100 powiatach. B. Przeprowadzenie 50 ankiet na powiat w 40 powiatach. C. Przeprowadzenie 500 ankiet na powiat w 4 powiatach. D. Nie ma znaczenia, moc testu i tak będzie wystarczająca. 0% 0% 0% 0% A. B. C. D.

Inne sposoby zwiększania mocy przy tej samej wielkości próby Stratyfikacja Kontrolowanie wszystkich istotnych zmiennych (e.g. płeć, wiek, zawód) Solidne, rzetelne zbieranie danych Adekwatna metoda statystyczna

REGUŁY KCIUKA wskazówki dla analityków

Reguły kciuka Losowanie indywidualne: 100 osoba próba losowa rzadko jest wystarczająca. 1000 osobowa próba losowa (i równy podział między grupę kontrolną i eksperymentalną) zwykle wystarcza. Dobór grupowy: 10 klastrów w grupie eksperymentalnej i 10 w kontrolnej rzadko jest wystarczające. 50 klastrów w grupie eksperymentalnej i 50 w kontrolnej, z co najmniej 15 osobami w klastrze, zwykle wystarcza. ZASTRZEŻENIE: ostateczna optymalna wielkość próby zależy od takich czynników jak: zmienność zjawiska, korelacja wewnątrzgrupowa, oczekiwana wielkość efektu, korelacja między wartościami punktów końcowych przed i po badaniu, itd.

Kluczowe wnioski z wykładu Aby badanie było wiarygodne należy mieć odpowiednią wielkość próby Zwiększenie próby powoduje zwiększenie mocy badania Randomizacja na poziomie osób poprzez wzrost liczby osób Randomizacja na poziomie klastrów poprzez wzrost liczby klastrów (a nie osób w klastrach) Wykrycie mniejszego efektu wymaga użycia większej próby