Warsztaty szkoleniowe z zakresu oceny oddziaływania instrumentów aktywnej polityki rynku pracy Pomiar wpływu I: Jak mierzyć wpływ? Wstęp do projektowania ewaluacji Maciej Jakubowski, Gdańsk, 21 lutego 2017 r.
Spis Cel Idealne stany kontrfaktyczne Niepoprawne analizy kontrfaktyczne Przed i po Osoby przyjęte a osoby nieprzyjęte Badanie metodą eksperymentu z grupa kontrolną (RCT)
Ewaluacja wpływu Jaki jest nasz cel?
Nasz cel Oszacuj efekt (wpływ) na wynik (Y) programu (P). Wpływ= Y T - Y C P = program bądź działanie Y = wskaźnik, miara sukcesu Y T = wynik przy wdrożeniu programu Y C = wynik bez wdrażania programu (kontrola)
Pytanie badawcze Jaki wpływ ma......interwencja: szkolenia młodych... (P)...na prawdopodobieństwo zdobycia zatrudnienia? (Y)
Wyzwanie - brak stanu kontrfaktycznego Wpływ= Y T - Y C Nie sprawdzamy, co spotkałoby osoby poszukujące pracy, jeśli nie wzięłyby udziału w żadnym szkoleniu (stan kontrafaktyczny)?
Idealny stan kontrfaktyczny RZECZYWISTOŚĆ KLONÓW/RÓWNOLEGŁA
Idealny eksperyment W pierwszej kolejności należy określić docelową grupę uczestników...
Idealny eksperyment...a następnie powielić docelowych uczestników
Idealny eksperyment...później poddać docelowych uczestników szkoleniu
Idealny eksperyment - klony...i za jakiś czas porównać prawdopodobieństwo znalezienia zatrudnienia między grupami. Jako że osoby, które przeszły szkolenie, są dokładnie tymi samymi osobami, które nie brały udziału w szkoleniu, można rzeczywiście stwierdzić, że to program spowodował różnicę.
Niepoprawne analizy kontrfaktyczne Przypadek 1: Przed i po
Przypadek 1: Przed i po (1) Obserwacja tylko osób uczestniczących Y 78 A (2) Dwie obserwacje na przestrzeni czasu: Status zatrudnienia na 12 miesięcy przed programem Status zatrudnienia 12 miesięcy po programie 65 t=-12 miesięcy B t=+12 miesięcy 13 Czas OCENA WPŁYWU =A-B= +13 punktów procentowych
Przypadek 1: Przed i po Problem: nie wiemy, co by się stało, gdyby programu nie było Boom gospodarczy: o Rzeczywisty wpływ=a-c o A-B przecenia wpływ Recesja: o Rzeczywisty wpływ=a-d o A-B nie docenia wpływu Y 78 65 B T=0 T=1 A C? D? Wpływ? α = $35 Wpływ? Czas
Sytuacja 1: Przed i po Przykład Aktynej Polityki Rynku Pracy (APRP): Program szkolenia młodych Prawdopodobieństwo znalezienia zatrudnienia po 6 miesiącach szkolenia (1) Obserwowanie wyłącznie uczestników programu Y 80 B (2) Dwie obserwacje w czasie: 1997/8 1998/9 70 A 10% t = 1997 t = 1998 Czas OSZACOWANIE EFEKTU ODDZIAŁYWANIA: A B = -10%
Niepoprawne analizy kontrfaktyczne Przypadek 2: Porównanie osób przyjętych z osobami nieprzyjętymi do programu
Przypadek 2: Niektóre osoby zostają przyjęte, inne nie Osoby niekwalifikujące się (Nieaktywne) Osoby kwalifikujące się (Młodzi bezrobotni = docelowa populacja) Osoby nieprzyjęte Osoby przyjęte
Przypadek 2: Niektóre osoby zostają przyjęte, inne nie GRUPA EKSPERYMENTALNA GRUPA KONTROLNA
Przypadek 2: Niektóre osoby zostają przyjęte, inne nie Problem selekcji do próby Co, jeśli osoby, które decydują się nie brać udziału w programie, są inne?
Przypadek 2: Niektóre osoby zostają przyjęte, inne nie Problem obciążenia selekcyjnego Co, jeśli te różnice mają wpływ na wyniki? Czy czynniki wpływające na przyjęcie do programu są skorelowane z prawdopodobieństwem znalezienia zatrudnienia?
Przypadek 2: Niektóre osoby zostają przyjęte, inne nie Przykład Programu Robót Publicznych (PRP) na zasadzie kto pierwszy, ten lepszy Czy przyjęte do programu osoby poszukujące pracy były podobne do osób, które chciały się zarejestrować, lecz się spóźniły? Osoby poszukujące pracy, które zgłosiły się wcześnie i zostały przyjęte do programu Jakie problemy mogą pojawić się w trakcie porównywania tych grup? Osoby poszukujące pracy, które zgłosiły się później - kiedy nie było już miejsc w programie robót publicznych
Pamiętajmy... Problem porównania stanów przed i po: w miarę upływu czasu zmianie podlegają także inne istotne czynniki. Porównanie osób przyjętych z osobami nieprzyjętymi Problem: obciążenie selekcyjne - osoby przyjęte mogą być inne, a my nie widzimy tych różnic. Obydwie grupy porównawcze mogą prowadzić do obciążonych szacunków odnośnie oddziaływania programu.
Dobre stany kontrfaktyczne Badanie randomizowane (RCT)
Przykład: Efekt programu Gwarancje Pracy dla Młodzieży [Dania] Program CO? Program aktywizacji zawodowej młodych (<30), granty edukacyjne, granty na zatrudnienie. GDZIE? Lata 2009 do 2010, Dania DLACZEGO? W celu zwiększenia zatrudnienia wśród młodych, długotrwale bezrobotnych osób Metoda/kryteria kwalifikacji Naukowcy przeprowadzili badanie (RCT) w celu zbadania wpływu programu APRP na zatrudnienie wśród młodych i na ich rezultaty w nauce. Trwający 32 tygodnie program był skierowany do osób poniżej 32 roku życia poszukujących pracy, które w okresie pomiędzy listopadem 2009 roku a lutym 2010 roku stały się albo były już bezrobotne. Spośród 3 380 uczestników, naukowcy losowo dobrali 1 683 osoby do grupy eksperymentalnej i 1 697 osób do grupy porównawczej. Wyniki Program zmniejszył bezrobocie wśród młodych bez wykształcenia i nie miał wpływu na osoby z wykształceniem. Ponadto, przydzielone do grupy eksperymentalnej osoby poszukujące pracy przez dłuższy okres otrzymywały świadczenia chorobowe. Program nie został wdrożony zgodnie z planem. W praktyce, jedyna różnica pomiędzy grupą eksperymentalną a grupą porównawczą polegała na tym, że osoby poszukujące pracy w grupie eksperymentalnej częściej spotykały się z osobą wdrażającą program.
Podstawowa konstrukcja badania randomizowanego Działania wielokrotne/łączone Osoby Metody randomizacji indywidualne/klastry Populacja docelowa Dobór losowy Wyłączone z badania Próba poddana ewaluacji Badanie początkowe Przydział losowy Grupa eksperymentalna Grupa kontrolna Badanie końcowe Wiarygodność zewnętrzna Wiarygodność wewnętrzna Kontrola Pomiar wpływu
Losowy dobór próby i losowy przydział Losowy dobór próby spośród obszaru zainteresowania
Losowy dobór próby i losowy przydział Losowy dobór próby spośród obszaru zainteresowania Losowy przydział do grupy eksperymentalnej i grupy kontrolnej Losowy dobór próby z grupy eksperymentalnej i grupy kontrolnej
Możliwości randomizacji przy ograniczonych zasobach
Jaki poziom randomizacji? Istotne czynniki 1. Jednostka wdrażająca Jednostka powinna być co najmniej na poziomie jednostki pośredniczącej w programie 2. Oddziaływanie na osoby zewnętrzbe (efekt spillover) Osoby w grupie kontrolnej także korzystają z programu (np. jeśli uczestnicy/uczestniczki szkolenia rozmawiają z osobami nieuczestniczącymi) 3. Jednostka doboru próby i moc statystyczna Randomizacja na możliwie najniższym poziomie 4. Kwestie etyczne
Dlaczego tak ważna jest wielkość próby? Pytanie ogólne: Jak duża musi być próba, aby w wiarygodny sposób oddawała wymiar danego efektu? Co w tym przypadku oznacza wiarygodny? Oznacza to, że będziemy mieli uzasadnienie co do pewności, że różnica pomiędzy grupą korzystającą a grupą niekorzystającą z programu jest spowodowana programem Randomizacja wyklucza obciążenie, ale nie usuwa szumów: działa dzięki prawu wielkich liczb...jak wielkie musi być wielkie?
Kilka najczęstszych kwestii natury politycznej Nie jesteśmy zainteresowani pokazywaniem (potencjalnie) złych wiadomości Długotrwałe ewaluacje nie współgrają z tempem zmian oczekiwanym przez decydentów ale... Gorsze jest zrobienie czegoś niepoprawnie i ukrycie tego faktu Ewaluację wpływu można przedstawić jako narzędzie do identyfikacji obszarów godnych poprawy Ewaluację można skonstruować tak, aby zbadać różne opcje Dobrze skonstruowany plan może się obronić niezależnie od cyklów politycznych Wyciągnięte wnioski: Należy rozumieć obawy z zakresu polityki, aby odpowiednio skonstruować plan Praca etapowa Ewaluacja części programu (pod kątem geograficznym) Prezentacja wyników w niezbyt odległym czasie (nawet jeśli analiza nie będzie pełna), co podtrzyma zainteresowanie polityków i ich zaangażowanie w ewaluację wpływu 31
Kilka najczęstszych kwestii technicznych Już wiemy, co w praktyce działa... nie ma potrzeby ewaluacji Interwencja jest wystarczająco skomplikowana i nie chcemy jej komplikować jeszcze bardziej Istnieje już zgoda co do koncepcji programu Ewaluacje są zbyt kosztowne; nie stać nas na nie ale... Być może jest to skomplikowane, ale brak ewaluacji oznacza brak dowodów Korelacja a związek przyczynowy to nie to samo W większości przypadków gotowe uzgodnienia są po prostu podstawowymi założeniami koncepcji programu Wyciągnięte wnioski: Programy będące w fazie przygotowawczej nadają się lepiej od programów będących w fazie wdrożenia Bądźmy pragmatyczni 32
Przypadek duński W Danii wprowadzono program mający na celu uzyskanie dowodów empirycznych co do efektywności programów APRP Badania randomizowane - średnio 2 rocznie Baza wiedzy - baza danych z przeprowadzonych na całym świecie badań empirycznych odnośnie efektywności programów APRP Aktywna współpraca ze społecznością naukową, dostarczanie danych, udział w konferencjach, interaktywne bazy danych itp. Stan na dziś (2011 r.) Ukończono 8 badań randomizowanych 2 badania trwają 1-2 są w fazie przygotowawczej Zaplanowano 30 projektów pilotażowych na małą skalę 33
O czym należy pamiętać, rozważając interwencję Na jakim poziomie odbędzie się zarządzanie interwencją? (indywidualnym, wsi, grupy, okręgu itp.) Jeśli utworzono klastry, to do ilu klastrów można dotrzeć za pomocą istniejącego budżetu? Jeśli utworzono klastry, to ile klastrów istnieje poza klastrami programowymi? Jaki poziom podporządkowania się do programu zaobserwowano w pilotażach? Czy należy spodziewać się zjawiska oddziaływania na innych (spillover) na dużą skalę?
O czym należy pamiętać, rozważając interwencję Czy należy się spodziewać, że program będzie miał różne efekty na osoby/grupy o różnych cechach? Czy program można podzielić na etapy? Czy istnieje wiele programów (działań) podlegających ewaluacji? Czy istnieją uzupełniające programy (działania) podlegające ewaluacji?
Dziękujemy!