Warsztaty szkoleniowe z zakresu oceny oddziaływania instrumentów aktywnej polityki rynku pracy Pomiar wpływu II: Podstawowe koncepcje wyników quasi-eksperymentalnych Maciej Jakubowski, Gdańsk, 22 lutego 2017 r.
Metody ewaluacji wpływu Losowy przydział Narzędzia Metoda różnicy w różnicach Metoda regresji nieciągłej PSM Metody quasieksperymentalne (wymagające większej liczby założeń)
Podsumowując: konieczny jest właściwy stan kontrafaktyczny Przy dużej próbie, losowy przydział do programu zapewni, że obydwie grupy PRZECIĘTNIE będą miały bardzo podobne cechy Losowanie sprawia, że obydwie grupy są takie same
nie są takie same Co, jeśli randomizacja jest niemożliwa? GRUPA EKSPERYMENTALNA GRUPA KONTROLNA
MODEL REGRESJI NIECIĄGŁEJ (RDD)
Model regresji nieciągłej W wielu programach dobór osób uczestniczących odbywa się na podstawie jakiegoś wskaźnika czy oceny: Programy przeciwdziałające biedzie - gospodarstwa docelowe poniżej danego wskaźnika biedy/przychodu Emerytury Edukacja Praca - populacja docelowa powyżej danego wieku - stypendia dla osób uczących się osiągających wysokie wyniki na podstawie standaryzowanych testów - programy dla konkretnych grup wiekowych (osoby młode, osoby starsze) - programy skierowane na czas trwania bezrobocia
Model regresji nieciągłej Porównanie wyników Y u jednostek trochę powyżej i poniżej linii podziału Jednostki trochę powyżej linii podziału są bardzo podobne do jednostek trochę poniżej - dobre porównanie. Linia podziału 0 MŁODZI NIEMŁODZI 100 Wiek
Model regresji nieciągłej sytuacja wyjściowa (np. prawdopodobieństwo zdobycia zatrudnienia) Osoby kwalifikujące się Osoby niekwalifikujące się (np. wiek)
Model regresji nieciągłej Sytuacja po interwencji (np. prawdopodobieństwo zdobycia zatrudnienia) WPŁYW (np. wiek)
Do zastosowania modelu regresji nieciągłej potrzebne są... 1) Wskaźnik kwalifikowalności np. przychód np. wiek np. okres bezrobocia (miesiące) 2) Jasno określona linia podziału Uczestnicy/uczestniczki spełniający/e kryteria linii podziału kwalifikują się Uczestnicy/uczestniczki spełniający/e kryteria linii podziału nie kwalifikują się Albo odwrotnie
Przykład z 2 progami: Kambodża CCT Kwalifikowalność opiera się na wskaźniku prawdopodobieństwa przerwania edukacji szkolnej. 2 linie podziału w każdej ze szkół: Osoby aplikujące o najwyższym ryzyku przerwania edukacji otrzymały roczne stypendium w wysokości 60 USD Osoby aplikujące o średnim ryzyku przerwania edukacji otrzymały roczne stypendium w wysokości 45 USD Osoby aplikujące o niskim ryzyku przerwania edukacji nie otrzymały stypendium w ramach tego programu Brak stypendium Stypendium w wysokości 45 USD Stypendium w wysokości 60 USD Linia podziału 1 Linia podziału 2 Prawdopodobieństwo przerwania edukacji szkolnej
Probability Probability Przykład z 2 progami: Duży wpływ na stypendium w wysokości 45 USD Brak stypendium a 45 USD Stypendium w wysokości 60 1 USD 1 a 45 USD 0.8 0.6 Oszacowanie wpływu 0.8 0.6 Oszacowanie wpływ 0.4 0.4 0.2 0.2 0-25 -15-5 5 15 25 Relative ranking 0-25 -15-5 5 15 25 Relative ranking Recipients Non-recipients Recipients Non-recipients Źródło: Filmer, and Schady. 2011. Does More Cash in Conditional Cash Transfer Programs Always Lead to Larger Impacts on School Attendance?, Journal of Development Economics
Zalety RDD dla ewaluacji Umożliwia nieobciążony szacunek efektu działania na nieciągłość Umożliwia zastosowanie znanej reguły przy przydzielaniu korzyści o o Jest to powszechne przy planowaniu interwencji społecznych Nie trzeba wyłączać grupy kwalifikowalnych gospodarstw/osób z działania
Uwaga! Konieczna jest wystarczająco duża próba osób z okolic linii podziału, gdyż tylko one są porównywane ze sobą. Nie zawsze możliwa jest uogólnienie wyników: otrzymujemy informację o wpływie programu na osoby z okolic linii podziału. Program dla młodych: czy wpływ interwencji byłby taki sam na osoby bardzo młode (16-20 lat) i nie tak bardzo młode (20-24 lat)? Progresa: czy wpływ byłby taki sam dla bardzo biednych i mniej biednych gospodarstw?
Przykład: Efekt programu Gwarancji Pracy dla Młodych [Szwecja] Program CO? Program zatrudnienia dla młodych (<25) zakładający głęboką aktywizację dla osób poszukujących pracę, które pozostają zarejestrowane w UP przez ponad 90 dni GDZIE? Rozpoczęty w 2007 roku w Szwecji DLACZEGO? W celu zwiększenia zatrudnienia wśród młodych, długotrwale bezrobotnych osób Metoda/kryteria kwalifikacji o o Dane Zarejestrowane osoby poszukujące pracy, które są bezrobotne od ponad 90 dni i mają <25 lat, są kwalifikowalne Zarejestrowane osoby poszukujące pracy, które są bezrobotne od ponad 90 dni i mają >=25 lat, nie są kwalifikowalne Porównanie dwóch kohort: 2008 i 2009 Połączenie danych z UP i z rejestrów służby zdrowia
Przykład: Efekt programu Gwarancji Pracy dla Młodych [Szwecja] Wyniki Osoby uczestniczące w programie WPdM mają większe prawdopodobieństwo znalezienia zatrudnienia w okresie pierwszych 90 dni od swojego okresu bezrobocia - o około 2 punkty procentowe Biorąc pod uwagę, że około 28 procent 25-latków znajduje pracę w ciągu 90, odpowiadałoby to wzrostowi na poziomie około 7 procent WPŁYW = 2 punkty procentowe (=30%-28%)
Polska: Gdzie można zastosować RDD? Przykłady/dyskusja W jakich programach w Polsce można by zastosować Model regresji nieciągłej (RDD)? Jaka byłaby zasada kwalifikowalności (jak wybrać osoby uczestniczące i nieuczestniczące)? Czy zasada kwalifikowalności mogłaby powodować problemy?
Pamiętajmy Nieciągły model regresji Wymaga ciągłych kryteriów kwalifikowalności z jasną linią podziału. Daje nieobciążoną ocenę efektów działania: Obserwacje z pogranicza linii podziału stanowią dobre porównanie. Nie trzeba wyłączać grupy kwalifikowalnych gospodarstw/osób z interwencji. Czasami istnieje możliwość zastosowania RDD w trwających programach.
RÓŻNICA W RÓŻNICACH (DIFFERENCE IN DIFFERENCE)
Różnica w różnicach (difference in difference, DD) Y= prawdopodobieństwo zdobycia zatrudnienia? P= Program szkolenia młodych Osoby przyjęte (T) Po (1) 0,74 0,81 - - Przed (0) 0,60 0,78 Osoby nieprzyjęte (C) - = Różnica +0,14 +0,03 0,11 Różnica w różnicy: Wpływ=(Y T1 -Y T0 )-(Y C1 -Y C0 )
Prawdopodobieństwo zdobycia zatrudnienia Wpływ =(A-B)-(C-D)=(A-C)-(B-D) Osoby nieprzyjęte C=0,81 Osoby przyjęte Podobne trendy przed interwencją D=0,78 B=0,60 A=0,74 Wpływ=0,11 t=0 t=1 Czas
Przykład: Nowa Umowa dla Młodych [New Deal for Young People: Wielka Brytania] Program CO? Program dla osób w wieku od 18 do 24 lat, które pobierały zasiłek dla bezrobotnych przez okres 6 miesięcy lub dłuższy. Oferuje możliwości pracy, zdobycia nowych umiejętności lub doświadczenia w sektorach gospodarczych związanych z wolontariatem i ochroną środowiska. GDZIE? Wprowadzony w Wielkiej Brytanii w 1998 roku DLACZEGO? Pomoc młodym w znalezieniu zatrudnienia i zwiększenie ich zatrudnialności Metoda/kryteria kwalifikacji o o Dane Osoby pomiędzy 18 a 24 rokiem życia, zarejestrowane jako bezrobotne przez ponad 6 miesięcy stanowią grupę poddaną działaniu Osoby pomiędzy 30 a 39 rokiem życia, zarejestrowane jako bezrobotne przez ponad 6 miesięcy stanowią grupę kontrolną Joint Unemployment and Vacancies Operating System (JUVOS), dotyczą okresu do lutego 2001 roku - 32 miesiące po rozpoczęciu programu ogólnokrajowego
Problem I: Z założenia wymagane są takie same trendy Różnica w różnicy jest interpretowalna tylko wówczas, gdy obydwie grupy podlegały podobnym trendom przed programem. Zmiany w zaobserwowanych wynikach wśród osób nieprzyjętych byłyby takie same wśród osób przyjętych. Co, jeśli w każdym wypadku uczestnictwo wśród osób przyjętych wzrosłoby bardziej, niż u osób nieprzyjętych? NARUSZENIE ZASADY TAKICH SAMYCH TRENDÓW!
Prawdopodobieństwo zdobycia zatrudnienia Równe trendy C=0,81 D=0,78 A=0,74 B=0,60 Podobne trendy przed programem T=0 T=1 Czas
Prawdopodobieństwo zdobycia zatrudnienia Różne trendy C=0,81 D=0,78 A=0,74 Różne trendy przed interwencją B=0,60 Zmierzenie wpływu programu nie będzie możliwe za pomocą metody różnicy w różnicy T=0 T=1 Czas
Co w wypadku, gdy dane zdarzenie ma wpływ tylko na jedną grupę? Przypadek 1: Program szkoleniowy W programie udział wzięły tylko osoby szczególnie zmotywowane Urzędnicy przyjmują tylko takie osoby, co do których istnieją oczekiwania, że szkolenie zakończy się u nich sukcesem DD przecenia efekt programu Przypadek 2: Granty na rozwój działalności firm działających w sektorze publicznym Grupa poddana działaniu = małe firmy pracujące dla sektora publicznego Grupa kontrolna = małe firmy w sektorze prywatnym BREXIT będzie miał różny wpływ na te grupy DD nie docenia efektu interwencji
Prawdopodobieństwo zdobycia zatrudnienia Test trendu W celu przeprowadzenia testu niezbędne są co najmniej 3 obserwacje: o 2 obserwacje przed o 1 obserwacja po Przed Przed działaniem t=-1 działaniem t=0 Po działaniu t=1 Czas
. Problem 2: Zmiany w składach grup w miarę upływu czasu Metoda DD wymaga obserwacji takich samych rodzajów grup na przestrzeni czasu Na przykład, wszystkie osoby posiadające konkretne umiejętności opuszczają program, bo nie potrzebują już szkolenia, co sprawia, że po zakończeniu programu wyniki szkolenia u osób pozostających w programie są niższe. DD nie docenia efektu programu Na przykład, wszystkie osoby nieposiadające konkretnych umiejętności opuszczają program, bo nie mogą dotrzeć na miejsce szkolenia. DD przecenia efekt programu
Pamiętajmy! Metoda różnicy w różnicach Łączy metodę przyjęte i nieprzyjęte, z metodą przed i po Współczynnik kierunkowy: utworzenie stanu kontrfaktycznego dla zmiany w wyniku PODSTAWOWE ZAŁOŻENIE Trendy - współczynniki kierunkowe - są takie same w grupie eksperymentalnej i porównawczej W celu przeprowadzenie testu niezbędne są co najmniej 3 obserwacje na przestrzeni czasu: o 2 obserwacje przed o 1 obserwacja po
Polska: Kiedy można zastosować metodę różnica w różnicach? Przykłady/dyskusja Jakie są w Polsce programy, w których możliwe było zastosowanie metody różnicy w różnicach (DD)? W jakich programach w Polsce można by zastosować metodę różnicy w różnicach (DD)? Jak zdefiniować osoby biorące udział i osoby niebiorące udziału? Czy metoda różnicy w różnicach mogłaby powodować problemy?
PROPENSITY SCORE MATCHING (PSM)
Łączenie Przeciętnie, grupa uczestników interwencji różni się od grupy osób nieprzyjętych (z jakiejś przyczyny to właśnie te osoby są w programie) Niektóre osoby są jednak do siebie podobne Można zatem łączyć ze sobą podobne jednostki
Ćwiczenie grupowe Prosimy wszystkich o powstanie
Próba porównania wyników u podobnych osób BRAK EDUKACJI OSOBY NIEPRZYJĘTE OSOBY PRZYJĘTE WYKSZTAŁCENIE PODSTAWOWE WYKSZTAŁCENIE ŚREDNIE WYKSZTAŁCENIE WYŻSZE
W praktyce jest to bardziej złożone Łączenie na poziomie wszystkich widocznych cech (np. przychód, płeć, edukacja...) Grupa porównawcza: osoby nieuczestniczące o podobnych cechach Sformułowanie łącznej oceny podobieństwa (Propensity Score): obliczenie prawdopodobieństwa udziału dla wszystkich osób na podstawie obserwowalnych cech tych osób Połączenie jednostek o takim samym prawdopodobieństwie udziału, jak w grupie eksperymentalnej
Próba porównania wyników u podobnych osób BRAK EDUKACJI OSOBY NIEPRZYJĘTE OSOBY PRZYJĘTE WYKSZTAŁCENIE PODSTAWOWE WYKSZTAŁCENIE ŚREDNIE WYKSZTAŁCE NIE WYŻSZE
Problem nr 2: Łączenie jest możliwe tylko na podstawie obserwowalnych danych ŁĄCZENIE NIE ROZWIĄZUJE PROBLEMU SELEKCJI! Co, jeśli niemożliwe jest zebranie danych o cechach jednostek, które to cechy są istotne dla udziału w programie i dla wyników?
Pamiętajmy! PSM Wymaga dużych prób i danych cechujących się wysoką jakością U podstaw, łączenie może być bardzo przydatne: o należy poznać zasadę przydziału i dokonywać doboru na jej podstawie o połączenie z innymi metodami (np. różnica w różnicy) Łączenie po fakcie jest ryzykowne: o uwaga, jeśli brak jest teoretycznych założeń, gdyż o łączenie na podstawie zmiennych endogenicznych daje złe wyniki.
Przykład: Programy Aktywnej Polityki Rynku Pracy [Polska] Programy CO? Trzy programy APRP w celu zwalczania bezrobocia w Polsce: (i) szkolenie: dla bezrobotnych o niskim poziomie kapitału Ludzkiego (ii) prace interwencyjne : wynagrodzenie w wysokości zasiłku dla bezrobotnych (iii) roboty publiczne: miejsca pracy stworzone przez samorządy terytorialne/gminy i miasta GDZIE? Polska, ewaluacja w 1998 r. za lata 1992-1996 Metoda/kryteria kwalifikacji o o Dane Osoby oświadczające, że wzięły udział w jednym z programów, tworzą grupę eksperymentalną Osoby, które nie brały udziału, ale posiadały podobne cechy przed wdrożeniem programu, tworzą grupę kontrolną Dodatek szczególny do polskiego BAEL (LFS) z 1996 roku zawierający dane retrospektywne Wyniki (i) Szkolenie = dobre wyniki, (ii) prace interwencyjne = brak dla kobiet, negatywne w przypadku mężczyzn, (iii) roboty publiczne = negatywne w przypadku mężczyzn
Polska: Kiedy można zastosować PSM? Przykłady/dyskusja Jakie są w Polsce programy, w których możliwe było zastosowanie jakiegoś rodzaju Łączenia? W jakich programach w Polsce można by zastosować metodę Propensity Score Matching (PSM)? Jak zdefiniować osoby biorące udział i osoby niebiorące udziału? Czy metoda Propensity Score Matching (PSM) mogłaby powodować problemy?
Wybór metody ewaluacji 1. Jasne zrozumienie interwencji Pytanie badawcze: czego dotyczy ewaluacja 2. Dobrze zdefiniowane oddziaływanie Jaki jest cel/jakie są cele naszej polityki? 3. Wiarygodna strategia identyfikacji (definicja stanów kontrafaktycznych) Jakie metody należy wybrać? 4. Rzetelne dane
METODOLOGIA OPIS KTO JEST W GRUPIE PORÓWNAWCZEJ? METODOLOGIA JEST PRAWIDŁOWA JEDYNIE WTEDY, GDY... Przed i po Zmierzenie, w jaki sposób osobom uczestniczącym w interwencji udzieliła się poprawa (albo zmiana) w miarę upływu czasu. Osoby uczestniczące same w sobie - przed udziałem w programie. Program był jedynym czynnikiem wpływającym na wynik w miarę upływu czasu. Gdyby program nie zaistniał, wyniki byłyby takie same przed okresem badania i po. Osoby przyjęte i osoby nieprzyjęte Zmierzenie różnicy pomiędzy osobami uczestniczącymi a nieuczestniczącymi w programie po zakończeniu programu. Osoby nieuczestniczące w programie (bez względu na powód), dla których jednak zebrano dane po zakończeniu programu. Dla osób nieuczestniczących i osób uczestniczących istniało takie samo prawdopodobieństwo udziału w interwencji przed jej rozpoczęciem. Osoby nieuczestniczące i osoby uczestniczące są identyczne, z takim wyjątkiem, że nie brały udziału w programie. Badanie randomizowane (RCT) Losowy przydział (np. rzut monetą albo losowy generator liczb) decyduje o tym kto może wziąć udział w programie. W ten sposób osoby przydzielone do udziału w programie są średnio takie same, jak osoby które nie zostały przydzielone - zarówno na poziomie obserwowalnym, jak i nieobserwowalnym. Jako że osoby uczestniczące i nieuczestniczące są porównywalne, z wyjątkiem faktu, że jedna grupa wzięła udział w programie, wszelkie różnice w wyniku będą skutkiem efektów programu. Wybrane losowe osoby uczestniczące nie biorą udziału w programie. Takie osoby tworzą tak zwaną grupę kontrolną. Randomizacja się udała, a obydwie grupy są identyczne pod względem statystycznym (pod kątem czynników obserwowalnych i nieobserwowalnych). Efekty działania nie przechodzą na grupę kontrolną. Wszelkie zmiany w zachowaniu są spowodowane programem - nie samą ewaluacją ani faktem, że osoby uczestniczące i nieuczestniczące są poddawane badaniu. Jeśli brak jest danych w zakresie wyników, to danych dla tego samego typu osób brak zarówno z grupy kontrolnej, jak i z grupy eksperymentalnej.
METODOLOGIA OPIS KTO JEST W GRUPIE PORÓWNAWCZEJ? METODOLOGIA JEST PRAWIDŁOWA JEDYNIE WTEDY, GDY... Metoda regresji nieciągłej (RDD) Osoby są klasyfikowane albo otrzymują ocenę na podstawie konkretnych, mierzalnych kryteriów. Linia podziału decyduje o tym, czy dana osoba kwalifikuje się do udziału w programie. Osoby uczestniczące, które znajdują się tuż nad linią podziału, są porównywane do osób znajdujących się tuż pod nią. Osoby znajdujące się blisko linii podziału, lecz po złej stronie linii, w związku z czym nie dostają się do programu. Po przydzieleniu na podstawie kryteriów kwalifikowalności (i innych obserwowalnych cech), osoby bezpośrednio pod linią podziału i bezpośrednio nad nią są statystycznie identyczne. Wymagane jest ścisłe przestrzeganie kryteriów linii podziału. Nie wolno przesuwać linii podziału, tak aby pewne osoby mogły się zakwalifikować do programu. Metoda różnicy w różnicach (DD) Mierzenie zmiany przed-po w postaci wyników odnotowanych przez osoby uczestniczące w programie, następnie odjęcie zmian przed-po w postaci wyników odnotowanych przez osoby nieuczestniczące w programie w celu znalezienia względnej zmiany w postaci wyników odnotowanych przez osoby uczestniczące w programie. Osoby nieuczestniczące w programie (bez względu na powód), dla których jednak zebrano dane przed zakończeniem programu i po. Gdyby program się nie odbył, przebieg doświadczeń zarówno osób uczestniczących, jak i nieuczestniczących byłby identyczny w trakcie badania. Różnice w cechach pomiędzy grupą eksperymentalną a grupą kontrolną nie mają większego efektu na wyniki w miarę upływu czasu. Propensity Score Matching (PSM) Osoby korzystające z programu są porównywane z podobnymi osobami, które z niego nie korzystały. Propensity Score Matching: każdą osobę uczestniczącą łączy się z osobą nieuczestniczącą o takim samym prawdopodobieństwie udziału, co przewidziano na podstawie znanych cech, takich jak wiek, płeć i wykonywany zawód. Cechy nieujęte (bo nie są obserwowalne albo nie zostały zmierzone) albo nie mają wpływu na wyniki albo nie różnią się pomiędzy osobami uczestniczącymi i nieuczestniczącymi.
Środki finansowe Ukierunkowanie Czas Wdrażanie etapowe Natychmiastowe wdrożenie Wybór metod(y) ewaluacji wpływu Nadwyżka chętnych Specyficzna grupa + przydział randomizowany + RDD + przydział randomizowany + RDD Ogół + przydział randomizowany + przejście randomizowane + DD z łączeniem + przydział randomizowany + randomizowane przejście + DD z łączeniem Brak nadwyżki chętnych Specyficzna grupa + przydział randomizowany + RDD + RDD Ogół + przydział Randomizowany do etapów + randomizowane przejście do wczesnego wdrożenia + DD z łączeniem Jeśli mniej niż pełne wdrożenie: + randomizowane przejście + DD z łączeniem
Sprawdzian
P1: Proszę podać niedoskonałość (niedoskonałości) metody różnicy w różnicach A. W miarę upływu czasu, osoby przyjęte do programu mogą 38% podlegać innemu trendowi niż osoby nieprzyjęte 31% B. Brak jest stanu kontrfaktycznego 23% C. Próba może okazać się zbyt mała D. Osoby różniące się od grupy porównawczej mogą opuścić 8% program E. A i C łącznie 0% 0% F. A i B łącznie A. B. C. D. E. F.
P2: Ewaluacja dotyczy programu skierowanego do biednych szkół. Decydują się Państwo na zastosowanie metody Różnica w Różnicach (porównanie ze szkołami, które nie były objęte programem). W tym samym czasie rząd zatrudnił więcej nauczycieli w biednych rejonach kraju. Czy ten fakt sprawiłby, że efekt programu zostałby przeceniony czy niedoceniony? 54% A. Przeceniony B. Niedoceniony C. Żadne z powyższych 15% 31% A. B. C.
P3: Jaka jest największa niedoskonałość metody Propensity Score Matching? A. Dopasowanie obserwowalnych cech jest niemożliwe B. Dopasowanie nieobserwowalnych cech jest niemożliwe C. Różnica trendów pomiędzy grupą eksperymentalną a grupą porównawczą A. B. C. 38% 38% 23%
W jakich przypadkach można stosować Metodę Regresji Nieciągłej? A. Gdy istnieją ciągłe kryteria kwalifikowalności z jasną linią podziału. B. Jeśli istnieje grupa porównawcza osób, które nie są uczestnikami programu. C. Gdy rząd losowo przydziela niektóre osoby do programu, a innych - nie. Gdy istnieją ciągłe kryteria... 77% Jeśli istnieje grupa porówn... 8% 15% Gdy rząd losowo przydziela...
Dziękujemy!