Propensity Score Matching

Zajęcia 4

Plan na dziś 1 Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych 2

Angrist i Pischke, 2009 Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych Mostly Harmless Econometrics. An Empiricist s Companion Joshua D. Angrist, Jörn-Steffen Pischke, Princeton Univirsity Press

Oddziaływanie Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych Rozważamy oddziaływanie, które może być opisane przez zmienną binarną T {0,1} Rezultat oddziaływania dla obiektu i jest oznaczony Y i Pytanie badawcze: Czy oddziaływanie T wpływa na rezultat Y i Dla każdego obiektu są dwa potencjalne rezultaty oddziaływania Y i = { Y 1i jeżeli T i = 1 Y 0i jeżeli T i = 0

Potencjalny a obserwowany wynik (1) Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych Zależność między obserwowanym rezultatem oddziaływania a rezultatami potencjalnymi można zapisać wykorzystując model przełącznikowy zaproponowany przez Quandta (1972) Y i = Y 1i T i + Y 0i (1 T i ) Średnia wartość Y i w grupie to średnia ważona wyniku poddania oddziaływaniu eksperymentalnemu i kontrolnemu Wagi są proporcjonalne do udziału obiektów w grupie

Potencjalny a obserwowany wynik (2) Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych Można związek między obserwowanym rezultatem oddziaływania a rezultatami potencjalnymi przedstawić w inny sposób Y i = Y 0i + (Y 1i Y 0i )T i Wówczas Y 1i Y 0i może być interpretowane jako przyczynowy efekt oddziaływania T

ATT Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych Obserwowaną różnicę między rezultatem oddziaływania eksperymentalnego i kontrolnego można odnieść do przyczynowego efektu oddziaływania E(Y i T i = 1) E(Y i T i = 0) = }{{} Obserwowana różnica E(Y 1i T i = 1) E(Y 0i T i = 1) + }{{} ATT E(Y 0i T i = 1) E(Y 0i T i = 0) }{{} obciążenie Obciążenie jest efektem różnic w cechach obiektów pomiędzy grupą eksperymentalną i grupą kontrolną

Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych Regresja dla danych eksperymentalnych (1) W modelu regresji liniowej E(Y X ) = X β Przyjmujemy założenie, że efekt oddziaływania jest identyczny dla każdego obiektu Wówczas, możemy równanie zapisać jako jest to równoważne Y 1i Y 0i = ρ Y i = Y 0i + (Y 1i Y 0i )T i Y i = EY 0i + (Y 1i Y 0i )T i + Y 0i EY 0i Y i = α + ρt i + ε

Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych Regresja dla danych eksperymentalnych (2) Obliczając warunkowe wartości oczekiwane dla różnych wartości zmiennej wskazującej oddziaływanie otrzymujemy E(Y i T i = 1) = α + ρ + E(ε i T i = 1) E(Y i T i = 0) = α + E(ε i T i = 1) odejmując stronami otrzymujemy = ρ E(Y i T i = 1) E(Y i T i = 0) = }{{} ATT + E(ε i T i = 1) E(ε i T i = 0) }{{} obciążenie Zatem obciążenie związane z selekcją wynika z korelacji między błędem losowym ε i i oddziaływaniem T i

Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych Regresja dla danych eksperymentalnych (3) Ponieważ E(ε i T i = 1) E(ε i T i = 0) = E(Y 0i T i = 1) E(Y 0i T i = 0) to korelacja między błędem losowym ε i i oddziaływaniem T i odzwierciedla różnicę między obiektami z grupy eksperymentalnej i kontrolnej. Jeżeli założenie o warunkowej niezależności jest spełnione to obciążenie nie występuje

Regresja a PSM Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych Załóżmy, że na podstawie tego samego zbioru danych szacowany jest model regresji liniowej z wykorzystaniem MNK oraz PSM Zazwyczaj występują różnice w oszacowaniach punktowych efektu między modelami ale nie są one statystycznie istotne Dzieje się tak, gdyż regresja też jest sposobem łączenia danych W przypadku PSM zmienna wynikowa ważona jest rozkładem cech jednostek z grupy eksperymetnalnej W przypadku regresji MNK zmienna wynikowa ważona jest rozkładem cech jednostek z obu grup Formalne dowody nr str. 74-75.

Evaluating the Econometric Evaluations of Training Programs with Experimental Data Robert LaLonde The American Economic Review, vol. 76/4, ss. 604-620.

Cel badania Celem artykułu jest porównanie wyników randomizowanego eksperymentu z możliwymi do uzyskania oszacowaniami wyniku uzyskanymi z wykorzystaniem metod ekonometrycznych przy założeniu braku dostępu do danych eksperymentalnych Celem dodatkowym jest ukazanie zdolności wybranych metod ekonometrycznych do odtworzenia takich wyników

Informacje ogólne National Supported Work Demonstration był programem czasowego zatrudnienia dla osób pozbawionych podstawowych kwalifikacji Program był zarządzany przez Manpower Demonstration Research Corporation Uczestnicy programu byli przydzielani do różnego typu działań w sposób losowy Pomoc otrzymała jedynie część aplikujących. W rezultacie schemat programu zapewnił istnienie grupy odniesienia

Program szkoleń NSW Program prowadzono w dziesięciu miejscach w Stanach Zjednoczonych Ameryki Północnej (Atlanta, Chicago, Hartford, Jersey City, Newark, Nowy Jork, Oakland, Filadelfia, San Francisco, Wisconsin) Do programu mogłybyć być przyjęte: kobiety korzystające z federalnego programu pomocy Aid to Families with Dependent Children osoby, które wyszły z uzależnienia od narkotyków osoby z przeszłością kryminalną osoby które przerwały naukę przed ukończeniem szkoły

Aid to Families with Dependent Children Z programu Aid to Families with Dependent Children (AFDC) do programu National Supported Work Demonstration przyjęto kobiety, które były w chwili aplikowania bezrobotne pracowały nie dłużej niż 3 miesiące przez 6 miesięcy przed złożeniem aplikacji nie wychowywały dziecka w wieku poniżej 6 lat otrzymywały pomoc z programu AFDC przez conajmniej 30 z 36 miesięcy poprzedzających złożenie aplikacji

Działania w ramach NSW (1) Uczestnikom programu gwarantowano pracę przez 9 do 18 miesięcy, w zależności od miejsca działania programu i grupy uczestników Uczestnicy byli podzieleni na wspólnie pracujące grupy, które spotykał się z doradcami NSW Uczestnicy byli finansowani przez NSW Wynagrodzenia uczestników były niższe od stawek rynkowych, ale mogli otrzymywać premię za uczestnictwo i wyniki Po zakończeniu programu uczestnicy musieli znaleźć niesubsydiowaną pracę

Działania w ramach NSW (2) Uczestnicy programu różnili się wcześniejszym doświadczeniem zawodowym Prace, które wykonywali zależały od umiejscowienia programu Kobiety zazwyczaj pracowały w usługach Mężczyźni przeważnie w sektorze budowlanym

Dane o programie Od wszystkich aplikujących zebrano informacje o charakterystykach demograficzych, doświadczeniu zawodowym i zarobkach Po przyjęciu do programu lub grupy kontrolnej wywiad był powtarzany do 4 razy co 9 miesięcy Oczywiście nie do wszystkich aplikantów udało się dotrzeć Dzięki losowemu wyborowi ankietowanych wycieranie próby nie powinno powodować obciążenia wyników

Charakterystyka danych

Zarobki w grupie eksperymentalnej i kontrolnej W tabeli 2 oraz 3 w kolumnie Treatments zaprezentowano przeciętne roczne zarobki dla grupy eksperymentalnej, w kolumnie Control dla grupy kontrolnej Program rozpoczął się w 1976 roku. Jak widać zarobki przed programem nie różnią się w obu grupach W trakcie programu uczestnicy posiadają przeciętnie wyższe zarobki Po zakończeniu programu różnice w zarobkach między uczestnikami a grupą kontrolną zanikają

Zarobki kobiet

Zarobki mężczyzn

Eksperymentalne oszacowania zarobków W tabelach oszacowań ukazano oszacowania surowej różnicy z zarobkach oraz różnicy uzyskanej z modelu regresji liniowej, w którym jako zmienne egzogeniczne obok wskaźnika uczestnictwa umieszczono wiek, wiek podniesiony do kwadratu, liczbę lat spędzonych w systemie edukacyjnym, czy opuścił szkołę przed ukończeniem (dropout), zmienne wskazujące na grupę etniczną Pierwsze dwa wiersze obu ukazują oszacowania na podstawie danych eksperymentalnych Wszystkie oszacowania w kolumnach 3-10/11 są nieobciążonymi estymatorami wpływu uczestnictwa w programie

Oszacowania dla kobiet

Oszacowania dla mężczyzn

Wprowadzenie Jeżeli dane eksperymentalne dotyczące grupy odniesienia (kontrolnej) są niedostępne losowana jest odpowiednia grupa z populacji Przy szacowaniu efektów programu uwzględniane są różnice w charakterystykach obiektów/jednostek między grupami Uwaga, oszacowania metodami nieeksperymentalnymi są uzależnione od specyfikacji równania dla zmiennej wynikowej (równania płacy)

Źródła danych Oryginalną grupę kontrolną zastąpiono grupami wybranymi z Panel Study of Income Dynamics (PSID) oraz Current Population Survey (CPS) Są to dwa duże badania przekrojowe prowadzone w Stanach Zjednoczonych Ameryki Północnej W Polsce odpowiednikiem PSID jest BBGD Odpowiednikiem CPS jest BAEL

Grupy odniesienia - kobiety PSID-1: Wszystkie gospodarstwa które uczestniczyły w badaniu w latach 1975-1979, głową była kobieta w wieku 20-55 i nie była na emeryturze w 1975 PSID-2: PSID-1 ograniczone do kobiet otrzymujących AFDC w 1975 PSID-3: PSID-2 ograniczone do kobiet nie pracujących w 1976 PSID-4: PSID-1 ograniczone do kobiet z dziećmi, żadne dziecko nie jest młodsze niż 5 lat CPS-SSA-1: Wszystkie kobiety z CPS CPS-SSA-2: Wszystkie kobiety z CPS otrzymujące AFDC w 1975 CPS-SSA-3: Wszystkie kobiety z CPS, które nie pracowały wiosną 1976 CPS-SSA-4: Wszystkie kobiety z CPS otrzymujące AFDC w 1975, które nie pracowały wiosną 1976

Zarobki kobiet

Grupy odniesienia - mężczyźni PSID-1: Wszystkie gospodarstwa które uczestniczyły w badaniu w latach 1975-1979, głową był mężczyzna w wieku 20-55 i nie był na emeryturze w 1975 PSID-2: PSID-1 ograniczone do mężczyzn nie pracujących w 1976 PSID-3: PSID-1 ograniczone do mężczyzn nie pracujących w 1975 i 1976 CPS-SSA-1: Wszyscy mężczyźni z CPS w wieku do 55 lat CPS-SSA-2: Wszyscy mężczyźni z CPS w wieku do 55 lat, nie pracujący wiosną 1975 CPS-SSA-3: CPS-SSA-1 ograniczone do bezrobotnych mężczyzn w 1976, których dochód w 1975 był poniżej linii ubóstwa

Zarobki mężczyzn

Modele jednoetapowe Szacowane jest równanie płacy postaci y it = δd i + βx it + b i + n t + ε it (1) gdzie: ε it = ρε it 1 + ν it (2) d is = y is + γz is + η is (3) D i = 1 if d is > 0 (4)

Modele jednoetapowe Kolumna 4: różnica w zarobkach po programie Kolumna 5: różnica w zarobkach po programie, dodatkowo uwzględniono wiek, liczbę lat w edukacji i grupę etniczną Kolumna 6: różnica w zmianie zarobków między grupą eksperymentalną i kontrolną (estymator efektów stałych) Kolumna 7: estymator efektów stałych, dodatkowo uwzględniono wiek Kolumna 8: estymator efektów stałych, dodatkowo uwzględniono zarobki przed programem Kolumna 9: estymator efektów stałych, dodatkowo uwzględniono zarobki przed programem oraz zmienne demograficzne: wiek, kwadrat wieku, liczba lat w systemie edukacyjnym, nieukończona szkoła (dropout) i pochodzenie etniczne Kolumna 10 i 11: kontrolowano wszystkie obserwowane zmienne

Oszacowania dla kobiet

Oszacowania dla mężczyzn

Modele dwuetapowe Modele dwuetapowe zawierają dwa równania równanie uczestnictwa do kompensowania różnic między grupami równanie zarobków y it = δd i + βx it + rh i + ε it ε it = ρε it 1 + ν it d is = y is + γz is + η is D i = 1 if d is > 0 [ φ(γz i ) rh i = ρσ ε D i 1 Φ(γZ i ) (1 D i) φ(γz ] i) Φ(γZ i )

Oszacowania dwu-etapowe

Dyskusja wyników Wartości oszacowań efektu programu są uzależnione od wybranej grupy odniesienia i wykorzystanej techniki szacowania parametrów modelu Wartości oszacowań dla kobiet są pozytywne i co do wartości wyższe niż oszacowania uzyskane metodami eksperymentalnymi, podczas gdy dla mężczyzn negatywne i niższe niż te uzyskane metodami eksperymentalnymi Uwzględnienie zarobków sprzed programu pozwala na uzyskanie wartości oszacowań zbliżonych do wyników eksperymentalnych Modele dwuetapowe kontrolujące selekcję dają wyniki bliższe wynikom eksperymentalnym w porównaniu z modelami jednoetapowymi