Pomiar wpływu I: Jak mierzyć wpływ? Wstęp do projektowania ewaluacji

Warsztaty szkoleniowe z zakresu oceny oddziaływania instrumentów aktywnej polityki rynku pracy Pomiar wpływu I: Jak mierzyć wpływ? Wstęp do projektowania ewaluacji Maciej Jakubowski, Kraków, 6 czerwca 2017 r.

Spis Cel Idealne stany kontrfaktyczne Niepoprawne analizy kontrfaktyczne Przed i po Osoby przyjęte a osoby nieprzyjęte Badanie metodą eksperymentu z grupa kontrolną (RCT)

Ewaluacja wpływu Jaki jest nasz cel?

Nasz cel Oszacuj efekt (wpływ) na wynik (Y) programu (P). Wpływ= Y T - Y C P = program bądź działanie Y = wskaźnik, miara sukcesu Y T = wynik przy wdrożeniu programu Y C = wynik bez wdrażania programu (kontrola)

Pytanie badawcze Jaki wpływ ma......interwencja: szkolenia młodych... (P)...na prawdopodobieństwo zdobycia zatrudnienia? (Y)

Wyzwanie - brak stanu kontrfaktycznego Wpływ= Y T - Y C Nie sprawdzamy, co spotkałoby osoby poszukujące pracy, jeśli nie wzięłyby udziału w żadnym szkoleniu (stan kontrafaktyczny)?

Idealny stan kontrfaktyczny RZECZYWISTOŚĆ KLONÓW/RÓWNOLEGŁA

Idealny eksperyment W pierwszej kolejności należy określić docelową grupę uczestników...

Idealny eksperyment...a następnie powielić docelowych uczestników

Idealny eksperyment...później poddać docelowych uczestników szkoleniu

Idealny eksperyment - klony...i za jakiś czas porównać prawdopodobieństwo znalezienia zatrudnienia między grupami. Jako że osoby, które przeszły szkolenie, są dokładnie tymi samymi osobami, które nie brały udziału w szkoleniu, można rzeczywiście stwierdzić, że to program spowodował różnicę.

Niepoprawne analizy kontrfaktyczne Przypadek 1: Przed i po

Przypadek 1: Przed i po (1) Obserwacja tylko osób uczestniczących Y 78 A (2) Dwie obserwacje na przestrzeni czasu: Status zatrudnienia na 12 miesięcy przed programem Status zatrudnienia 12 miesięcy po programie 65 t=-12 miesięcy B t=+12 miesięcy 13 Czas OCENA WPŁYWU =A-B= +13 punktów procentowych

Przypadek 1: Przed i po Problem: nie wiemy, co by się stało, gdyby programu nie było Boom gospodarczy: o Rzeczywisty wpływ=a-c o A-B przecenia wpływ Recesja: o Rzeczywisty wpływ=a-d o A-B nie docenia wpływu Y 78 65 B T=0 T=1 A C? D? Wpływ? α = $35 Wpływ? Czas

Sytuacja 1: Przed i po Przykład Aktynej Polityki Rynku Pracy (APRP): Program szkolenia młodych Prawdopodobieństwo znalezienia zatrudnienia po 6 miesiącach szkolenia (1) Obserwowanie wyłącznie uczestników programu Y 80 B (2) Dwie obserwacje w czasie: 1997/8 1998/9 70 A 10% t = 1997 t = 1998 Czas OSZACOWANIE EFEKTU ODDZIAŁYWANIA: A B = -10%

Niepoprawne analizy kontrfaktyczne Przypadek 2: Porównanie osób przyjętych z osobami nieprzyjętymi do programu

Przypadek 2: Niektóre osoby zostają przyjęte, inne nie Osoby niekwalifikujące się (Nieaktywne) Osoby kwalifikujące się (Młodzi bezrobotni = docelowa populacja) Osoby nieprzyjęte Osoby przyjęte

Przypadek 2: Niektóre osoby zostają przyjęte, inne nie GRUPA EKSPERYMENTALNA GRUPA KONTROLNA

Przypadek 2: Niektóre osoby zostają przyjęte, inne nie Problem selekcji do próby Co, jeśli osoby, które decydują się nie brać udziału w programie, są inne?

Przypadek 2: Niektóre osoby zostają przyjęte, inne nie Problem obciążenia selekcyjnego Co, jeśli te różnice mają wpływ na wyniki? Czy czynniki wpływające na przyjęcie do programu są skorelowane z prawdopodobieństwem znalezienia zatrudnienia?

Przypadek 2: Niektóre osoby zostają przyjęte, inne nie Przykład Programu Robót Publicznych (PRP) na zasadzie kto pierwszy, ten lepszy Czy przyjęte do programu osoby poszukujące pracy były podobne do osób, które chciały się zarejestrować, lecz się spóźniły? Osoby poszukujące pracy, które zgłosiły się wcześnie i zostały przyjęte do programu Jakie problemy mogą pojawić się w trakcie porównywania tych grup? Osoby poszukujące pracy, które zgłosiły się później - kiedy nie było już miejsc w programie robót publicznych

Pamiętajmy... Problem porównania stanów przed i po: w miarę upływu czasu zmianie podlegają także inne istotne czynniki. Porównanie osób przyjętych z osobami nieprzyjętymi Problem: obciążenie selekcyjne - osoby przyjęte mogą być inne, a my nie widzimy tych różnic. Obydwie grupy porównawcze mogą prowadzić do obciążonych szacunków odnośnie oddziaływania programu.

Dobre stany kontrfaktyczne Badanie randomizowane (RCT)

Przykład: Efekt programu Gwarancje Pracy dla Młodzieży [Dania] Program CO? Program aktywizacji zawodowej młodych (<30), granty edukacyjne, granty na zatrudnienie. GDZIE? Lata 2009 do 2010, Dania DLACZEGO? W celu zwiększenia zatrudnienia wśród młodych, długotrwale bezrobotnych osób Metoda/kryteria kwalifikacji Naukowcy przeprowadzili badanie (RCT) w celu zbadania wpływu programu APRP na zatrudnienie wśród młodych i na ich rezultaty w nauce. Trwający 32 tygodnie program był skierowany do osób poniżej 32 roku życia poszukujących pracy, które w okresie pomiędzy listopadem 2009 roku a lutym 2010 roku stały się albo były już bezrobotne. Spośród 3 380 uczestników, naukowcy losowo dobrali 1 683 osoby do grupy eksperymentalnej i 1 697 osób do grupy porównawczej. Wyniki Program zmniejszył bezrobocie wśród młodych bez wykształcenia i nie miał wpływu na osoby z wykształceniem. Ponadto, przydzielone do grupy eksperymentalnej osoby poszukujące pracy przez dłuższy okres otrzymywały świadczenia chorobowe. Program nie został wdrożony zgodnie z planem. W praktyce, jedyna różnica pomiędzy grupą eksperymentalną a grupą porównawczą polegała na tym, że osoby poszukujące pracy w grupie eksperymentalnej częściej spotykały się z osobą wdrażającą program.

Podstawowa konstrukcja badania randomizowanego Działania wielokrotne/łączone Osoby Metody randomizacji indywidualne/klastry Populacja docelowa Dobór losowy Wyłączone z badania Próba poddana ewaluacji Badanie początkowe Przydział losowy Grupa eksperymentalna Grupa kontrolna Badanie końcowe Wiarygodność zewnętrzna Wiarygodność wewnętrzna Kontrola Pomiar wpływu

Losowy dobór próby i losowy przydział Losowy dobór próby spośród obszaru zainteresowania

Losowy dobór próby i losowy przydział Losowy dobór próby spośród obszaru zainteresowania Losowy przydział do grupy eksperymentalnej i grupy kontrolnej Losowy dobór próby z grupy eksperymentalnej i grupy kontrolnej

Możliwości randomizacji przy ograniczonych zasobach

Losowanie w przypadku nadsubskrybcji (większy popyt na program niż podaż miejsc) Osób kwalifikowalnych jest więcej, niż wolnych miejsc w ramach programu

Losowanie w przypadku nadsubskrybcji: Szeroko zakrojone szkolenie zawodowe w Turcji

Losowanie ukierunkowane Losowe wyłączenie niektórych osób

Losowanie ukierunkowane Losowanie z pozostałych osób, które są kwalifikowane

Losowa decyzja o czasie (momencie, edycji) udziału w programie Przed W trakcie Po Czas okres ewaluacji

Losowa decyzja odnośnie czasu udziału w programie: Urzędy pracy w Essex, Wielka Brytania

Losowy przydział wartości w programie

Próbka losowa to nie to samo co losowy przydział! Uczestnicy programu Nie uczestniczący w programie Losowani próbki z dwóch grup, nie czyni ich porównywalnymi!

Próbka losowa to nie to samo co losowy przydział! Uczestnicy programu Nie uczestniczący w programie Losowy przydział uczestników pozwala na porównywanie obu grup, to prawie to samo co klonowanie!

Podsumowanie: możliwości losowania Należy rozważyć 1. Zasady doboru grupy docelowej: Kto się kwalifikuje do programu? Czy uczestnictwo w programie jest ograniczone, czy może w pełni otwarte? 2. Zasoby: Czy zasoby w ramach programu są wystarczające, aby dotrzeć do wszystkich kwalifikowalnych uczestników? 3. Czas: W jaki sposób przyjmuje się potencjalnych uczestników programu - wszystkich jednocześnie czy etapami?

Jaki poziom randomizacji? Istotne czynniki 1. Jednostka wdrażająca Jednostka powinna być co najmniej na poziomie jednostki pośredniczącej w programie 2. Oddziaływanie na osoby zewnętrzne (efekt spillover) Osoby w grupie kontrolnej także korzystają z programu (np. jeśli uczestnicy/uczestniczki szkolenia rozmawiają z osobami nieuczestniczącymi) 3. Jednostka doboru próby i moc statystyczna Randomizacja na możliwie najniższym poziomie 4. Kwestie etyczne

Dlaczego tak ważna jest wielkość próby? Pytanie ogólne: Jak duża musi być próba, aby w wiarygodny sposób oddawała wymiar danego efektu? Co w tym przypadku oznacza wiarygodny? Oznacza to, że będziemy mieli uzasadnienie co do pewności, że różnica pomiędzy grupą korzystającą a grupą niekorzystającą z programu jest spowodowana programem Randomizacja wyklucza obciążenie, ale nie usuwa szumów: działa dzięki prawu wielkich liczb...jak wielkie musi być wielkie?

Kilka najczęstszych kwestii natury politycznej Nie jesteśmy zainteresowani pokazywaniem (potencjalnie) złych wiadomości Długotrwałe ewaluacje nie współgrają z tempem zmian oczekiwanym przez decydentów ale... Gorsze jest zrobienie czegoś niepoprawnie i ukrycie tego faktu Ewaluację wpływu można przedstawić jako narzędzie do identyfikacji obszarów godnych poprawy Ewaluację można skonstruować tak, aby zbadać różne opcje Dobrze skonstruowany plan może się obronić niezależnie od cyklów politycznych Wyciągnięte wnioski: Należy rozumieć obawy z zakresu polityki, aby odpowiednio skonstruować plan Praca etapowa Ewaluacja części programu (pod kątem geograficznym) Prezentacja wyników w niezbyt odległym czasie (nawet jeśli analiza nie będzie pełna), co podtrzyma zainteresowanie polityków i ich zaangażowanie w ewaluację wpływu 41

Kilka najczęstszych kwestii technicznych Już wiemy, co w praktyce działa... nie ma potrzeby ewaluacji Interwencja jest wystarczająco skomplikowana i nie chcemy jej komplikować jeszcze bardziej Istnieje już zgoda co do koncepcji programu Ewaluacje są zbyt kosztowne; nie stać nas na nie ale... Być może jest to skomplikowane, ale brak ewaluacji oznacza brak dowodów Korelacja a związek przyczynowy to nie to samo W większości przypadków gotowe uzgodnienia są po prostu podstawowymi założeniami koncepcji programu Wyciągnięte wnioski: Programy będące w fazie przygotowawczej nadają się lepiej od programów będących w fazie wdrożenia Bądźmy pragmatyczni 42

Przypadek duński W Danii wprowadzono program mający na celu uzyskanie dowodów empirycznych co do efektywności programów APRP Badania randomizowane - średnio 2 rocznie Baza wiedzy - baza danych z przeprowadzonych na całym świecie badań empirycznych odnośnie efektywności programów APRP Aktywna współpraca ze społecznością naukową, dostarczanie danych, udział w konferencjach, interaktywne bazy danych itp. Stan na dziś (2011 r.) Ukończono 8 badań randomizowanych 2 badania trwają 1-2 są w fazie przygotowawczej Zaplanowano 30 projektów pilotażowych na małą skalę 43

O czym należy pamiętać, rozważając interwencję Na jakim poziomie odbędzie się zarządzanie interwencją? (indywidualnym, wsi, grupy, okręgu itp.) Jeśli utworzono klastry, to do ilu klastrów można dotrzeć za pomocą istniejącego budżetu? Jeśli utworzono klastry, to ile klastrów istnieje poza klastrami programowymi? Jaki poziom podporządkowania się do programu zaobserwowano w pilotażach? Czy należy spodziewać się zjawiska oddziaływania na innych (spillover) na dużą skalę?

O czym należy pamiętać, rozważając interwencję Czy należy się spodziewać, że program będzie miał różne efekty na osoby/grupy o różnych cechach? Czy program można podzielić na etapy? Czy istnieje wiele programów (działań) podlegających ewaluacji? Czy istnieją uzupełniające programy (działania) podlegające ewaluacji?