Warsztaty szkoleniowe z zakresu oceny oddziaływania instrumentów aktywnej polityki rynku pracy Modele quasi-eksperymentalne: Różnica w różnicy oraz inne metody Celine Ferre, Gdańsk, 22 lutego 2017 r.
Metody ewaluacji Instrumentarium Przydział losowy Model regresji nieciągłej Metoda podwójnej różnicy PSM (Dopasowanie) Metody quasieksperymentalne (wymagają większej liczby założeń)
Metody ewaluacji Instrumentarium Przydział losowy Model regresji nieciągłej Metoda podwójnej różnicy PSM (Dopasowanie)
METODA PODWÓJNEJ RÓŻNICY (DIFFERENCE-IN-DIFFERENCE, DiD)
Metoda podwójnej różnicy (DiD) Y= Prawdopodobieństwo zatrudnienia P= Program szkolenia dla młodzieży Zapisani (T) Po (1) 0.74 0.81 - - Przed (0) 0.60 0.78 Nie zapisani (C) - = Różnica +0.14 +0.03 0.11 Diff-in-Diff: Wpływ=(Y T1 -Y T0 )-(Y C1 -Y C0 )
Prawdopodobieństwo zatrudnienia Wpływ=(A-B)-(C-D)=(A-C)-(B-D) Nie-uczestnicy Uczestnicy D=0.78 C=0.81 A=0.74 Wpływ=0.11 B=0.60 Podobne trendy przed realizacją programu t=0 t=1 Czas
Przykład programu Progresa Okr. badany (t=1) Wydatki gosp. (Y) Okr. bazowy (t=0) Wydatki gosp. (Y) Zapisani Nie zapisani Różnica 268.75 290-21.25 233.47 281.74-48.27 Różnica 35.28 8.26 27.02 Szacowany wpływ na konsumpcję (Y) Regresja liniowa 27.06** Regresja liniowa wielu zmiennych 25.53** Uwaga: Jeśli efekt jest znaczący statystycznie przy 1% poziomu znaczenia, szacowany wpływ oznaczony jest dwiema gwiazdkami (**).
Rekomendacje dla polityki Progresa? Wpływ programu Progresa na konsumpcję (Y) Przypadek 1: Przed i Po 34.28** Przypadek 2: Uczestnicy & Nie-uczestnicy -4.15 Przypadek 3: Przydział losowy 29.75** Przypadek 4: Nieciągły model regresji 30.58** Przypadek 5: Metoda podwójnej różnicy 25.53** Uwaga: Jeśli efekt jest znaczący statystycznie przy 1% poziomu znaczenia, szacowany wpływ oznaczony jest dwiema gwiazdkami (**).
Przykład: Nowa Umowa dla Młodych [New Deal for Young People: Wielka Brytania] Program CO? Program dla osób w wieku od 18 do 24 lat, które pobierały zasiłek dla bezrobotnych przez okres 6 miesięcy lub dłuższy. Oferuje możliwości pracy, zdobycia nowych umiejętności lub doświadczenia w sektorach gospodarczych związanych z wolontariatem i ochroną środowiska. GDZIE? Wprowadzony w Wielkiej Brytanii w 1998 roku DLACZEGO? Pomoc młodym w znalezieniu zatrudnienia i zwiększenie ich zatrudnialności Metoda/kryteria kwalifikacji o o Dane Osoby pomiędzy 18 a 24 rokiem życia, zarejestrowane jako bezrobotne przez ponad 6 miesięcy stanowią grupę poddaną działaniu Osoby pomiędzy 30 a 39 rokiem życia, zarejestrowane jako bezrobotne przez ponad 6 miesięcy stanowią grupę kontrolną Joint Unemployment and Vacancies Operating System (JUVOS), dotyczą okresu do lutego 2001 roku - 32 miesiące po rozpoczęciu programu ogólnokrajowego
Problem I: Z założenia wymagane są takie same trendy Różnica w różnicy jest interpretowalna tylko wówczas, gdy obydwie grupy podlegały podobnym trendom przed programem. Zmiany w zaobserwowanych wynikach wśród osób nieprzyjętych byłyby takie same wśród osób przyjętych. Co, jeśli w każdym wypadku uczestnictwo wśród osób przyjętych wzrosłoby bardziej, niż u osób nieprzyjętych? NARUSZENIE ZASADY TAKICH SAMYCH TRENDÓW!
Prawdopodobieństwo zdobycia zatrudnienia Równe trendy C=0,81 D=0,78 A=0,74 B=0,60 Podobne trendy przed programem T=0 T=1 Czas
Prawdopodobieństwo zdobycia zatrudnienia Różne trendy C=0,81 D=0,78 A=0,74 Różne trendy przed interwencją B=0,60 Zmierzenie wpływu programu nie będzie możliwe za pomocą metody różnicy w różnicy T=0 T=1 Czas
Co w wypadku, gdy dane zdarzenie ma wpływ tylko na jedną grupę? Przypadek 1: Program szkoleniowy W programie udział wzięły tylko osoby szczególnie zmotywowane Urzędnicy przyjmują tylko takie osoby, co do których istnieją oczekiwania, że szkolenie zakończy się u nich sukcesem DD przecenia efekt programu Przypadek 2: Granty na rozwój działalności firm działających w sektorze publicznym Grupa poddana działaniu = małe firmy pracujące dla sektora publicznego Grupa kontrolna = małe firmy w sektorze prywatnym Uwaga! Np. BREXIT będzie miał różny wpływ na te grupy! DD nie docenia efektu interwencji
Prawdopodobieństwo zdobycia zatrudnienia Test trendu W celu przeprowadzenia testu niezbędne są co najmniej 3 obserwacje: o 2 obserwacje przed o 1 obserwacja po Przed Przed działaniem t=-1 działaniem t=0 Po działaniu t=1 Czas
. Problem 2: Zmiany w składach grup w miarę upływu czasu Metoda DD wymaga obserwacji takich samych rodzajów grup na przestrzeni czasu Na przykład, wszystkie osoby posiadające konkretne umiejętności opuszczają program, bo nie potrzebują już szkolenia, co sprawia, że po zakończeniu programu wyniki szkolenia u osób pozostających w programie są niższe. DD nie docenia efektu programu Na przykład, wszystkie osoby nieposiadające konkretnych umiejętności opuszczają program, bo nie mogą dotrzeć na miejsce szkolenia. DD przecenia efekt programu
Pamiętajmy! Metoda różnicy w różnicach Łączy metodę uczestnicy i nie-uczestnicy, z metodą przed i po Współczynnik kierunkowy: utworzenie stanu kontrfaktycznego dla zmiany w wyniku PODSTAWOWE ZAŁOŻENIE Trendy - współczynniki kierunkowe - są takie same w grupie eksperymentalnej i porównawczej W celu przeprowadzenie testu niezbędne są co najmniej 3 obserwacje na przestrzeni czasu: o 2 obserwacje przed o 1 obserwacja po
Ćwiczenie: Zastosuj metodę DiD do oceny skutków programu szkoleń dla młodzieży niewykwalifikowanej Jaki jest wpływ programu na młodzież niewykwalifikowaną? Młodzież niewykwalifikowana (15-24) Młodzież wykwalifikowana (15-24) Dorośli niewykwalifikowani (25-44) 2007 65 83 72 2010 58 75 62 2013 60 77 63
Polska: Kiedy korzystać z metody podwójnej różnicy? Przykłady/dyskusja Do jakich programów w Polsce można zastosować metodę podwójnej różnicy (DiD)? Czy przychodzą Ci na myśl realizowane w Polsce programy, do których można zastosować metodę podwójnej różnicy (DiD)? Jak zdefiniował(a)byś osoby uczestniczące i nie uczestniczące w programie? Czy mogą się pojawić problemy związane z zastosowaniem metody podwójnej różnicy (DiD)?
Metody ewaluacji Instrumentarium Przydział losowy Model regresji nieciągłej Metoda podwójnej różnicy PSM (Dopasowanie)
Łączenie Przeciętnie, grupa uczestników inerwencji różni się od grupy osób nieprzyjętych (z jakiejś przyczyny to właśnie te osoby są w programie) Niektóre osoby są jednak do siebie podobne Można zatem łączyć ze sobą podobne jednostki
Ćwiczenie grupowe Prosimy wszystkich o powstanie
Próba porównania wyników u podobnych osób BRAK EDUKACJI OSOBY NIEPRZYJĘTE OSOBY PRZYJĘTE WYKSZTAŁCENIE PODSTAWOWE WYKSZTAŁCENIE ŚREDNIE WYKSZTAŁCENIE WYŻSZE
W praktyce jest to bardziej złożone Łączenie na poziomie wszystkich widocznych cech (np. przychód, płeć, edukacja...) Grupa porównawcza: osoby nieuczestniczące o podobnych cechach Sformułowanie łącznej oceny podobieństwa (Propensity Score): obliczenie prawdopodobieństwa udziału dla wszystkich osób na podstawie obserwowalnych cech tych osób Połączenie jednostek o takim samym prawdopodobieństwie udziału, jak w grupie eksperymentalnej
Próba porównania wyników u podobnych osób BRAK EDUKACJI OSOBY NIEPRZYJĘTE OSOBY PRZYJĘTE WYKSZTAŁCENIE PODSTAWOWE WYKSZTAŁCENIE ŚREDNIE WYKSZTAŁCE NIE WYŻSZE
Problem nr 2: Łączenie jest możliwe tylko na podstawie obserwowalnych danych ŁĄCZENIE NIE ROZWIĄZUJE PROBLEMU SELEKCJI! Co, jeśli niemożliwe jest zebranie danych o cechach jednostek, które to cechy są istotne dla udziału w programie i dla wyników?
Pamiętajmy! PSM Wymaga dużych prób i danych cechujących się wysoką jakością U podstaw, łączenie może być bardzo przydatne: o należy poznać zasadę przydziału i dokonywać doboru na jej podstawie o połączenie z innymi metodami (np. różnica w różnicy) Łączenie po fakcie jest ryzykowne: o uwaga, jeśli brak jest teoretycznych założeń, gdyż o łączenie na podstawie zmiennych endogenicznych daje złe wyniki.
Przykład: Programy Aktywnego Rynku Pracy [Polska] Programy CO? Trzy programy APRP w celu zwalczania bezrobocia w Polsce: (i) szkolenie: dla bezrobotnych o umiejętnościach nieposzukiwanych, bądź bez umiejętności umiejętności szeroko poszukiwane (ii) prace interwencyjne : wynagrodzenie w wysokości zasiłku dla bezrobotnych (iii) roboty publiczne: miejsca pracy stworzone przez samorządy terytorialne/gminy i miasta GDZIE? Polska, ewaluacja w 1998 r. za lata 1992-1996 Metoda/kryteria kwalifikacji o o Dane Osoby oświadczające, że wzięły udział w jednym z programów, tworzą grupę eksperymentalną Osoby, które nie brały udziału, ale posiadały podobne cechy przed wdrożeniem programu, tworzą grupę kontrolną Dodatek szczególny do polskiego BAEL (LFS) z 1996 roku zawierający dane retrospektywne Wyniki (i) Szkolenie = dobre wyniki, (ii) prace interwencyjne = brak dla kobiet, negatywne w przypadku mężczyzn, (iii) roboty publiczne = negatywne w przypadku mężczyzn
Polska: Kiedy można zastosować PSM? Przykłady/dyskusja Jakie są w Polsce programy, w których możliwe było zastosowanie jakiegoś rodzaju PSM? W jakich programach w Polsce można by zastosować metodę Propensity Score Matching (PSM)? Jak zdefiniować osoby biorące udział i osoby niebiorące udziału? Czy metoda Propensity Score Matching (PSM) mogłaby powodować problemy?
Test
Pyt.1: Które z następujących stwierdzeń jest głównym założeniem estymacji typu różnica w różnicach (DiD)? A. Przy braku programu, wskaźniki wyników będą kształtować się tak samo dla grupy badawczej i kontrolnej wraz z upływem czasu B. Przy braku programu, wskaźniki wyników będą kształtować się inaczej dla grupy badawczej i kontrolnej wraz z upływem czasu C. Grupy badawcze i kontrolne poddane są różnym wstrząsom, które wpłyną na wskaźniki wyników (opady deszczu, susza, itp.) 0% 0% 0% A. B. C.
Pyt. 2: Oceniasz program reformy zarządzania w szkołach przeznczony dla ubogich szkół. Postanawiasz zastosować metodę podwójnej różnicy, porównując szkoły objęte programem, ze szkołami, które w nim nie uczestniczyły. W tym samym okresie rząd zatrudnił większa liczbę nauczycieli w ubogich obszarach. Czy prowadzi to do zawyżenia czy zaniżenia wyników programu? A. Zawyżenie B. Zaniżenie C. Ani jedno, ani drugie 0% 0% 0% A. B. C.
Pyt.3: Jaka jest największa wada metody propensity score matching? A. Nie można prowadzić dopasowania w oparciu o charakterystyki obserwowalne B. Nie można prowadzić dopasowania w oparciu o charakterystyki nieobserwowalne C. Grupa eksperymentalna i porównawcza podlegają 0% 0% 0% różnym trendom. A. B. C.
Dziękujemy!