Propensity Score Matching

Podobne dokumenty
Propensity Score Matching

Propensity Score Matching

Propensity score matching (PSM)

Propensity Score Matching

Propensity Score Matching

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory


Weryfikacja hipotez statystycznych

Natalia Neherbecka. 11 czerwca 2010

STATYSTYKA MATEMATYCZNA

METODY STATYSTYCZNE W BIOLOGII

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Zastosowanie schematu analizy difference-in-differences w badaniach politycznych. Adam Gendźwiłł Tomasz Żółtak Uniwersytet Warszawski

Monte Carlo, bootstrap, jacknife

Estymacja parametrów w modelu normalnym

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Testowanie hipotez statystycznych.

Własności statystyczne regresji liniowej. Wykład 4

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Definicja danych panelowych Typy danych panelowych Modele dla danych panelowych. Dane panelowe. Część 1. Dane panelowe

Kolokwium ze statystyki matematycznej

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Aproksymacja funkcji a regresja symboliczna

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Pobieranie prób i rozkład z próby

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Metoda największej wiarogodności

Rozpoznawanie obrazów

Prawdopodobieństwo i rozkład normalny cd.

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

WYKŁAD 8 ANALIZA REGRESJI

Metody systemowe i decyzyjne w informatyce

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

PDF created with FinePrint pdffactory Pro trial version

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Stanisław Cichocki. Natalia Nehrebecka

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

Zmienne zależne i niezależne

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Zadania ze statystyki cz.8. Zadanie 1.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Statystyka matematyczna dla leśników

Modele quasi-eksperymentalne: Różnica w różnicy oraz inne metody

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Analiza składowych głównych. Wprowadzenie

Testowanie hipotez statystycznych.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Wykład 9 Testy rangowe w problemie dwóch prób

Komputerowa Analiza Danych Doświadczalnych

Oszacowanie i rozkład t

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Stosowana Analiza Regresji

Wnioskowanie statystyczne. Statystyka w 5

Uogólniona Metoda Momentów

166 Wstęp do statystyki matematycznej

Stanisław Cichocki. Natalia Nehrebecka

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Ważne rozkłady i twierdzenia c.d.

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Ekonometria egzamin 07/03/2018

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Rozdział 8. Regresja. Definiowanie modelu

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Wprowadzenie do analizy korelacji i regresji

Estymacja punktowa i przedziałowa

Zadania ze statystyki, cz.6

Wykład 9 Wnioskowanie o średnich

Dokładne i graniczne rozkłady statystyk z próby

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Czasowy wymiar danych

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Metoda Monte Carlo. Jerzy Mycielski. grudzien Jerzy Mycielski () Metoda Monte Carlo grudzien / 10

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

Transkrypt:

Zajęcia 6

Plan na dziś 1

Does matching overcome LaLonde s critique of nonexperimental estimators Jeffrey A. Smith, Petra E. Todd (2005) Journal of Econometrics, vol. 125, str. 305-353.

Brak zgody w literaturze W literaturze brak jest zgody wśród autorów czy można ilościowo oceniać programy społeczne bez przeprowadzania randomizowanych eksperymentów Randomizacja zapewnia, że jednostki w grupie poddanej oddziaływaniu eksperymentalnemu i w grupie kontrolnej mają identyczne rozkłady cech obserwowanych i nieobserwowanych Eksperymenty społeczne są kosztowne, mogą zaburzać inne programy, występuje problem odmowy udziału w eksperymencie oraz poszukiwania innego oddziaływania przez jednostki przydzielone do grupy kontrolnej Z kolei zgromadzenie danych nieeksperymentalnych jest tańsze i nie wpływa na zachowanie badanych jednostek

Brak zgody w literaturze LaLonde (1986) w artykule, który stanowi obecnie punkt odniesienia pokazał że wyniki oceny uzyskane na podstawie danych nieeksperymentalnych są uzależnione od techniki szacowania efektu oddziaływania Badacze szukają sposobu szacowania efektu oddziaływania eksperymentalnego, który w każdym przypadku rozwiąże problem selekcji Dehejia i Wahba (1999, 2002) zwrócili uwagę na klasę estymatorów propensity score matching pokazując, że można odtworzyć wyniki eksperymentalne. W tym celu wykorzystali te same dane co LaLonde (1986) Ich badanie spopularyzowało metodę propensity score matching

Brak zgody w literaturze Niewielkie obciążenie estymatora efektu oddziaływania uzyskanego metodą PSM pokazane przez Deheiję i Wahbę jest sprzeczne wynikami prac Heckman, Ichimura i Todd (1997) [HIT] oraz Heckman, Ichimura, Smith i Todd (1998) [HIST] Prace HIT oraz HIST pokazują, że analizowane dane powinny być homogeniczne, zbiór informacji bogaty i zmienna mierząca wynik powinna być w taki sam sposób mierzona w grupie poddanej oddziaływaniu i grupie kontrolnej Dane NSW analizowane przez LaLonde (1986) oraz Dehejia i Wahba (1999, 2002) żadnego z tych warunków nie spełniają

Cel artykułu Smith i Todd powtórnie analizują dane LaLonde wykorzystując technikę propensity score matching Pokazują, że niewielkie obciążenie oszacowań uzyskane przez Dehejia i Wahba (1999, 2002) występuje wyłącznie w specyficznej podpróbie danych analizowanej przez Dehejia i Wahba Wyniki są również w małym stopniu odporne na modyfikacje specyfikacji wektora propensity score Wykorzystanie metody różnic w różnicach (ang. difference-in-differrences (DID)) pozwala uzyskać lepsze rezultaty w stosunku do analizy danych przekrojowych

Wyniki w artykule Rezultaty uzyskane przez są zgodne z wynikami prac HIT (1997) oraz HIST (1998) w zakresie dotyczącym unikania geograficznego niedopasowania grupy eksperymentalnej i grupy kontrolnej oraz sposobu pomiaru zmiennej wynikowej w obu grupach More generally, our findings make it clear that propensity score matching does not represent magic bullet that solves the selection problem in every context.

Program szkoleń NSW Program prowadzono w dziesięciu miejscach w Stanach Zjednoczonych Ameryki Północnej (Atlanta, Chicago, Hartford, Jersey City, Newark, Nowy Jork, Oakland, Filadelfia, San Francisco, Wisconsin) Do programu mogłybyć być przyjęte: kobiety korzystające z federalnego programu pomocy Aid to Families with Dependent Children osoby, które wyszły z uzależnienia od narkotyków osoby z przeszłością kryminalną osoby które przerwały naukę przed ukończeniem szkoły

Wyniki LaLonde LaLonde (1986) wykorzystał kilka technik szacowania efektów programu Uzyskane wartości oszacowań efektu programu są uzależnione od wybranej grupy odniesienia i wykorzystanej techniki szacowania parametrów modelu LaLonde podsumował wyniki stwierdzając, że ponieważ nie ma mechanizmu wskazującego, które oszacowania są najlepsze, wykorzystanie danych nieeksperymentalnych nie jest efektywnym sposobem szacowania efektów programu W podobnym badaniu Fraker i Maynard (1987) skupili swą uwagę na procesie selekcji do programu i wysnuli podobne wnioski

Wyniki HIT i HIST (1) Autorzy zaproponowali wykorzystanie estymatorów wykorzystujących funkcje jądrowe (ang. kernel) oraz lokalną regresję liniową (ang. local linear matching) W odróżnieniu od łączenia 1 do 1 wykorzystują one większą liczbę obserwacji z grupy kontrolnej przy konstrukcji wyniku kontrfaktycznego Podstawową zaletą tych estymatorów jest znacznie mniejszy asymptotyczny błąd średniokwadratowy Dodatkowo, zaproponowali estymatory metody łączenia dla powtarzanych prób przekrojowych i danych panelowych. Eliminują one stałe w czasie różnice pomiędzy grupą eksperymentalną i kontrolną

Wyniki HIT i HIST (2) Wysoka jakość danych jest warunkiem niezbędnym dla uzyskania rzetelnych oszacowań nieznanych parametrów Rozpatrywane przez nich estymatory miały pożądane właściwości przy spełnionych warunkach: identyczne źródło danych dla grupy eksperymentalnej i kontrolnej jednostki obserwowane na tym samym obszarze (w identycznym otoczeniu) dane zawierają bogaty zbiór cech wpływających na selekcję do grupy oraz wynik (efekt) programu HIT oraz HIST przypuszczają, że niska jakość danych jest przyczną wyników LaLonde (1986)

Wyniki Dehejia i Wahba Dehejia i Wahba (1999, 2002) wykorzystali metodę propensity score matching do analizy danych LaLonde (1986) Udało im się odtworzyć wyniki eksperymentu z wykorzystaniem danych nieeksperymentalnych Wynik został uzyskany, pomimo tego, że żadne z kryteriów sformułowanych przez HIT (1997) i HIST (1998) nie było spełnione W rezultacie ich badania są często cytowane jako pokazujące, że wykorzystanie propensity score matching rozwiązuje problem nielosowej selekcji

Analiza Smith i Todd Wykorzystanie danych LaLonde (1986) Wykorzystanie łączenia 1 do 1 oraz innych technik wykorzystujących propensity score matching Podstawową różnicą między analizą LaLonde (1986) a Dehejia i Wahba (1999 i 2002) jest wykluczenie około 40% obserwacji w celu uwzględnienia jednej dodatkowej zmiennej w modelu Wykluczenie obserwacji spowodowało usunięcie z próby informacji o osobach, które przed programem zarabiały relatywnie więcej Powoduje to, że łatwiej jest rozwiązać problem selekcji Niemal każdy sposób estymacji zastosowany do danych Dehejia i Wahba daje lepsze rezultaty niż zastosowany do danych LaLonde (1986)

ATT Celem jest oszacowanie przeciętnego efektu oddziaływania wobec jednostek poddanych oddziaływaniu (ATT) Niech Y 1it oraz Y 0it oznaczają wynik oddziaływania, w grupie eksperymentalnej oraz kontrolnej i są dane jako Y 1it = φ 1 (X it ) + U 1it gdzie U 0it, U 1it IID(0, σ 2 ) Y 0it = φ 0 (X it ) + U 0it

Wynik oddziaływania W danych obserwowane jest Y it = D i Y 1it + (1 D i )Y 0it Wstawiając wyrażenia z poprzedniego slajdu otrzymujemy Y it = D i (φ 1 (X it ) + U 1it ) + (1 D i )(φ 0 (X it ) + U 0it ) Po mnożeniu i uporządkowaniu daje to Y it = D i φ 1 (X it ) D i φ 0 (X it ) + D i U 1it D i U 0it + φ 0 (X it ) + U 0it Wyciągając wspólny czynnik D i uzyskujemy Y it = D i [φ 1 (X it φ 0 (X it ) + U 1it U 0it ] +φ }{{} 0 (X it ) + U 0it α (X it )

Wynik oddziaływania Zatem wychodząc od równania (2) otrzymaliśmy równanie (3) ze strony 311 Y it = φ 0 (X it ) + D i α (X it ) + U 0it Jest to model o losowych współczynnikach Przy założeniu U 0it = U 1it, czyli część nieobserwowana jest taka sama dla grupy eksperymentalnej i kontrolnej Oraz φ 1 (X it ) φ 0 (X it ) jest stałe względem X it Uzyskiwany jest model przeciętnego efektu oddziaływania wobec jednostek poddanych oddziaływaniu

Estymator przed-po Wykorzystuje on charakterystyki obiektów sprzed programu do wyznaczenia kontrfaktycznego wyniku oddziaływania dla grupy eksprymentalnej Zakładając, że wpływ oddziaływania α jest stały niech t oraz t oznaczają dwa okresy czasu przed programem i po jego zakończeniu (w jego trakcie) Estymator przed-po (ang. before-after) jest rozwiązaniem MNK dla α problemu Y it Y it = φ(x it ) φ(x it ) + α + U it U it Estymator jest zgodny jeżeli E(U it U it ) = 0 oraz E((U it U it )(φ(x it ) φ(x it ))) = 0

Estymator przed-po Estymator nie jest zidentyfikowany jeżeli model zawiera stałe specyficzne dla okresów czasu Wartość liczbowa estymatora jest podatna na obserwowane w badaniach zjawisko, że wartość zmiennej wynikowej przed programem dla osób zakwalifikowanych do grupy eksperymentalnej maleje (tzw. Ashenfelter dip (Ashenfelter, 1978))

Estymator przekrojowy Wykorzystywane są dane przekrojowe z jednego momentu czasu Wykorzystuje on charakterystyki obiektów z grupy kontrolnej do wyznaczenia kontrfaktycznego wyniku oddziaływania dla grupy eksperymentalnej Estymator jest rozwiązaniem MNK dla α problemu Y it = φ(x it ) + α + U it Jeżeli E(U it D i ) 0 lub E(U it φ(x it )) 0 to estymator jest obciążony

Estymator różnic w różnicach (DID) Estymator różnic w różnicach (ang. difference-in-differences) szacuje wpływ programu jako różnice między zmianą wartości zmiennej wynikowej dla grupy eksperymentalnej i kontrolnej W tym celu wykorzystywane są informacje sprzed programu t oraz po programie t dla obu grup Estymator jest rozwiązaniem MNK dla α problemu Y it Y it = φ(x it ) φ(x it ) + D i α + U it U it Estymator jest zgodny jeżeli E(U it U it ) = 0, E((U it U it )D i ) = 0 oraz E((U it U it )(φ(x it ) φ(x it ))) = 0

Estymator różnic w różnicach (DID) Estymator wymaga spełnienie większej liczby założeń, ale w porównaniu do estymatora przed-po pozwala na umieszczenie w równaniach wyniku stałych specyficznych dla okresów czasu, które są wspólne dla grup

Szacowanie ATT Gdy celem jest szacowanie ATT, założenie CIA jest silne. Wystarczy, że E(Y 0 X, D = 1) = E(Y 0 X, D = 0) = E(Y 0 Z) Słabszą wersją warunku wspólnego przedziału określoności (ang. overlap) jest Wówczas Pr(D = 1 Z) < 1 ATT = E(Y 1 Y 0 D = 1) ATT = E(Y 1 D = 1) E X D=1 [E Y (Y 0 D = 1, X )] ATT = E(Y 1 D = 1) E X D=1 [E Y (Y 0 D = 0, X )] Pierwszy czynnik jest szacowany na podstawie grupy eksperymentalnej, drugi kontrolnej

Propensity Score Cytat ze strony 314, de-facto powtórzeniem za Rosenbaum i Rubin (1983)

Estymator metody łączenia Niech P = Pr(D = 1 X ) Typowy estymator metody łączenia dla efektów oddziaływania wobec jednostek poddanych oddziaływaniu przyjmuje postać ˆα M = 1 n 1 [ Y1i E(Y 0i D i = 1, P i ) ] i I 1 S p gdzie I 1 oznacza grupę eksperymentalną, I 0 zbiór obiektów nie poddanych oddziaływaniu, S P wspólny przedział określoności, n 1 oznacza liczbę jednostek w zbiorze I 1 S p E(Y 0i D i = 1, P i ) = j I 0 W (i, j)y 0j gdzie W (i, j) jest macierzą wag zależną od odległości obiektów z grupy eksperymentalnej do obiektów z grupy kontrolnej

Sąsiedztwo Niech C(P i ) oznacza sąsiedztwo dla każdego obiektu i z grupy eksperymentalnej Sąsiadami obiektu i z grupy eksperymentalnej są obiekty z grupy nie poddanej oddziaływaniu, dla których P j C(P i ) Obiekty dołączone do i tworzą zbiór A i = {j I 0 P j C(P i )} Techniki łączenia różnią się sposobem zdefiniowania sąsiedztwa i wag przypisywanych obserwacjom z grupy kontrolnej

Łączenie 1 do 1 Łączenie 1 do 1 nazywane jest również metodą najbliższego sąsiada C(P i ) = min j I 0 P i P j Dołączany jest ten obiekt z nie poddanych oddziaływaniu, który ma najbliższą wartość propensity score Zazwyczaj nie jest wymagane spełnienie założenia o wspólnym przedziale określoności (mniej ważne), a łączenie jest bez zwracania (ważne!)

Łączenie 1 do 1, Smith i Todd wykorzystują łączenie 1:1 oraz 1:10 W przypadku łączenia 1:10 każda obserwacja otrzymuje identyczną wagę Estymator łączenia 1:10 ma mniejszą wariancję (większa liczba obserwacji) kosztem obciążenia (są przeciętnie gorzej dopasowane) Dodatkowo wykorzystano łączenie bez zwracnia. Ono z kolei zmniejsza obciążenie (potencjalnie lepsze dopasowanie) kosztem zwiększonej wariancji (mniejsza liczba obserwacji) Dehejia i Wahba (1999) wykorzystali łączenie ze zwracaniem Dehejia i Wahba (2002) pokazali, że łącznie bez zwracania prowadzi do łączenia obiektów o znacznych różnicach w wartości propensity score

Łączenie 1 do 1, Ujmując problem w sposób bardziej ogólny: łączenie metodą najbliższego sąsiada bez zwracania ma dodatkową wadę, wynikającą z faktu, że wartość oszacowania uzależniona jest od kolejności łączenia obserwacji w zbiorze

Odcięcie Łączenie z odcięciem (ang. caliper matching) jest modyfikacją łączenia metodą najbliższego sąsiada Zaproponowane by unikać słabo dopasowanych łączeń Definiowana jest tolerancja na odległość P i od P j C(P i ) = {P j min j I 0 P i P j < ε} Obiekty z grupy eksperymentalnej dla którego nie ma bliskiego odpowiednika w grupie kontrolnej jest usuwany z analizy

Odcięcie Ustalenie poziomu odcięcia jest jednym ze sposobów na zapewnienie spełnienia założenia o wspólnym przedziale określoności Problemem jest fakt, trudno jest ustalić a-priori jaka wartość odcięcia jest rozsądna Dehejia i Wahba (2002) wykorzystali wariant odcięcia nazywany łączeniem wewnątrz promienia (ang. radius matching). W tym wariancie wielkość kontrfaktyczna jest średnią wartością dla jednostek nie poddanych oddziaływaniu wewnątrz promienia.

Warstwowanie Wspólny przedział określoności jest dzielony na warstwy W każdej warstwie obliczana jest wielkość efektu jako różnica w średniej wartości zmiennej wynikowej w grupie eksperymentalnej i kontrolnej Oszacowaniem efektu oddziaływania jest średnia ważona wyników w każdej warstwie, której wagami są liczebności w grupie eksperymentalnej Ten sposób szacowania został wykorzystany w Dehejia i Wahba (1999). Warstwy dobrano tak, by różnica w średnich wartościach propensity score dla grupy eksperymentalnej i kontrolnej nie była statystycznie istotna

Wykorzystanie jądra i lokalnej regresji liniowej Metoda opracowana przez HIT Wykorzystuje ważenie z wykorzystaniem jądrowego estymatora gęstości Estymator metody łączenia dla efektów oddziaływania wobec jednostek poddanych oddziaływaniu jest dany przez ˆα KM = 1 [ Y 1i Y ] 0iK( ) n 1 K( ) i I 1 gdzie K( ) jest funkcją jądrową Wzór na sąsiedztwo jest uzależniony od wyboru funkcji jądra Jeżeli K( ) ma średnią zero i całkuje się do 1 daje to zgodny estymator dla wyniku kontrfaktycznego

Lokalna regresja liniowa wykorzystują wariant estymatora wykorzystującego funkcję jądrową nazywany lokalną regresją liniową Można o tym estymatorze myśleć jako o ważonej regresji Y 0j na stałą, w której wagami W (i, j) są wyznaczane przez funkcję jądrową i zależą od odległości między obiektem i a obiektem j. Oszacowanie stałej jest oszacowaniem średniej wartości kontrfaktycznej Lokalna regresja liniowa zawiera stałą oraz czynnik liniowy względem P i Ma lepsze właściwości w przypadku dziur w rozkładzie propensity score oraz, gdy rozkłady propensity score są różne w grupie eksperymentalnej i kontrolnej

Przycinanie Wspólny przedział określoności wymaga by funkcja gęstość propensity score w grupie eksperymentalnej i kontrolnej miały wartość większą od zera Mechanizm przycinanie (ang. trimming) zapewnia spełnienie tego warunku Obserwacje z przedziałów dziedziny o mniejszej gęstości niż kwantyl q dystrybuanty rozkładu propensity score nie są uwzględniane

Estymator różnic w różnicach Ten estymator jest analogiczny do standardowego estymatora różnic w różnicach dla regresji liniowej W przypadku metody propensity score matching wymagane jest by E(Y 0t Y 0t P, D = 1) = E(Y 0t Y 0t P, D = 0) Dodatkowo warunek wspólnego przedziału określoności musi być spełniony w obu okresach t oraz t ˆα DDM = 1 n 1 i I 1 S p [ (Y1ti Y 0t i ) ] W (i, j)(y 0tj Y 0t j ) j I 1 S p gdzie wartości wagi W (i, j) zależą od wartości estymatora dla danych przekrojowych

Nadreprezentacja Przy badaniu wpływu programu dane z reguły nie są prostą próbą losową Uczestnicy eksperymentu są nadmiernie reprezentowani w próbie w porównaniu z osobami, które są potencjalnymi uczestnikami eksperymentu w populacji W takim przypadku ważne jest ważenie zbioru Heckmann i Todd (1995) pokazali, że nawet w przypadku braku wag można wykorzystać łączenie danych ponieważ ilorazy szans w takim przypadku są liniowymi wielokrotnościami prawdziwych wartości Zatem do łączenia można wykorzystać ilorazy szans, czyli PS(X ) 1 PS(X ) W przypadku łączenia 1:1 nie ma znaczenia czy obserwacje są łączone według propensity score czy ilorazów szans

Próby Próba LaLonde (1986) Próba Dehejia-Wahba (1999, 2002) Podpróba Deheija-Wahba, bez obserwacji po kwietniu 1976 Próba z CPS Próba z PSID

Charakterystyka prób

Próba Dehejia-Wahba (1999) Smith i Todd nie byli w stanie odtworzyć prob z badania Dehejia i Wahba pomimo iż uzyskali je od autorów Ustalili, że kryteria doboru były następujące Włączyć wszystkich zakwalifikowanych do programu między styczniem 1976 a kwietniem 1976 Z osób zakwalifikowanych po kwietniu 1976 wybrać tylko takie które miały zerowe zarobki w okresie 13 do 24 miesięcy przed programem Według ST drugi warunek nie jest prawidłowy, dodatkowo zauważają, że zarobki 13-24 miesiące przed programem nie są zarobkami z 1974 roku

Próba Dehejia-Wahba (1999)

Podpróba Dehejia-Wahba (1999) Jest to podzbiór zbioru Dehejia i Wahba, z którego usunięto osoby przyjęte do programu po kwietniu 1976 Dzięki temu obserwacje w grupie eksperymentalnej i kontrolnej pochodzą z tego samego okresu, w przeciwieństwie do próby Dehejia i Wahba Oszacowanie wyniku eksperymentu dla tej podpróby wynosi 2748$ i jest znacznie wyższe niż w dwóch pozostałych

Specyfikacje propensity score Wykorzystano dwie specyfikacje formy funkcyjnej dla wektora propensity score Pierwsza, wykorzystywana przez Dehejia i Wahba (1999) Druga, zmienne które wykorzystał LaLonde (1986) w równaniu uczestnictwa szacując model z selekcją W obu przypadkach autorzy wykorzystali funkcję logistyczną

Oszacowania propensity score Oszacowano trzy pary modeli oddzielnie dla prób CPS oraz PSID W każdym przypadku zmienną zależną była zmienna wskazując przynależność do grupy eksperymentalnej Analogicznie do Dehejia i Wahba autorzy wykorzystali nieznacznie różniące się specyfikacje dla prób CPS oraz PSID Wyniki dla próby Dehejia i Wahba z ich specyfikacją różnią się od oryginalnych z dwóch powodów Dehejia i Wahba nie wykorzystywali obserwacji z grupy kontrolnej eksperymentu Dehejia i Wahba nie uwzględnili stałej w modelu

Oszacowania propensity score

Oszacowania propensity score Zdecydowana większość oszacowań parametrów jest zgodna z oczekiwaniami Pod względem jakościowym i ilościowym oszacowania różnych wariantów modelu są bardzo podobne Propensity score dobrze sobie radzi jako narzędzie do odseparowania grupy eksperymentalnej od grupy kontrolnej. W pięciu na 6 przypadków poprawnie klasyfikowanych jest ponad 90% obserwacji

Oszacowania propensity score Rysunek 1, zbyt duży by umieścić w prezentacji, przedstawia rozkłady logarytmów ilorazów szans dla trzech grup eksperymentalnych połączonych z dwiema grupami kontrolnymi Rozkład propensity score w grupach eksperymentalnych znacznie różni się od rozkładu w grupach kontrolnych Rozkład w grupach kontrolnych jest skupiony na lewo od rozkładu w grupach eksperymentalnych

Oszacowania propensity score W przypadku formy funkcyjnej propensity score z badania LaLonde wyniki są podobne Wartości propensity score uzyskane z różnych prób eksperymentalnych są bardzo silnie skorelowane, powyżej 0,9

Oszacowania propensity score

Dobór zmiennych i testy zbilansowania Z twierdzenia 2 Rosenbauma i Rubina (1983) wynika, że uwzględnienie dodatkowej zmiennej nie powinno nieść informacji o stanie oddziaływania Wykorzystano podejście zaproponowane przez Rosenbauma i Rubina (1985) (test równości standaryzowanych różnic) oraz Dehejia i Wahba (1999) (test równości propensity score w warstwach) Dla danych z artykułu Dehejia i Wahba wykorzystano testy w warstwach Dla zbioru LaLonde dokonano doboru zmiennych na podstawie tego czy zmienna poprawiała prognozy stanu uczestnictwa w programie

Oszacowania PSM W celu wyznaczenia obciążenia ST łączą grupę pozostawioną poza programem z grupą kontrolną. Dla niej oszacowanie efektu programu powinno wynosić zero Drugą różnica w porównaniu z Dehejia i Wahba (1999, 2002) jest łączenie względem ilorazów szans Trzecią jest wykorzystanie przycinania do kontrolowania wspólnego przedziału określoności Tabela 5 prezentuje obciążenie estymatorów metody PSM Wykorzystując próbę Dehejia i Wahba i ich specyfikację odtworzono niskie obciążenie oszacowań Specyfikacja DW zastosowana do próby LaLonde czy podpróby DW nie daje tak dobry rezultatów. W przypadku podpróby obciążenie jest jednym z najwyższych w tabeli

Oszacowania PSM Wymuszenie wspólnego przedziału określoności dla propensity score ma niewielki wpływ na wartości oszacowań w próbie LaLonde i DW, ale duże znaczenie dla wyników uzyskanych na podstawie podpróby DW Wykorzystanie metody łączenia 1:10 zmniejsza obciążenie w relatywnie małej podpróbie Dehejia i Wahba, ale ma niewielki wpływ na wyniki w bardziej liczebnych próbach Model wykorzystujące zmienne LaLonde zastosowany do danych LaLonde daje słabe wyniki, o wysokim obciążeniu Podsumowując, wyniki uzyskane przez Dehejia i Wahba (1999) są bardzo czułe na zmiany prób i specyfikację propensity score

Oszacowania PSM-LLR Wyniki uzyskane metodą lokalnej regresji liniowej są bardzo podobne do uzyskanych metodą łączenia 1:1 (najbliższego sąsiada) Forma funkcyjna zaproponowana przez Dehejię i Wahba prowadzi do uzyskania prawidłowych oszacowań w ich zbiorze i obciążonych w dwóch pozostałych Ponownie, wyniki uzyskane przez Dehejia i Wahba (1999) są bardzo czułe na zmiany prób i specyfikację propensity score

Oszacowania PSM-DID Oszacowania PSM-DID prowadzą do uzyskania nieobciążonych wyników w przypadku forma funkcyjnej zaproponowana przez Dehejię i Wahba zastosowanej do zbioru Dehejia i Wahba Obciążenie estymatorów metody PSM-DID jest takiego samego rzędu wielkości jak efekt lub niższe dla wszystkich prób i specyfikacji propensty score Wymuszenie spełnienia założenia o wspólnym przedziale określoności (ang. common support) ma niewielki wpływ na wyniki Ponownie, wyniki uzyskane przez Dehejia i Wahba (1999) są bardzo czułe na zmiany prób i specyfikację propensity score, lecz zmiany są niższe niż w przypadku PSM

Oszacowania wykorzystujące regresję Autorzy oszacowali kilka standardowych modeli regresji dla każdego z trzech zbiorów eksperymentalnych w połączeniu z dwiema grupami odniesienia Chcieli sprawdzić jakie własności mają estymatory w tych próbach Po drugie, czy dobre wyniki w próbie Dehejia-Wahba wynikają z własności estymatora PSM czy doboru zmiennych do wektora propensity score Różnica między regresją a łączeniem danych jest taka, że ten ostatni model nie zakłada liniowego związku między zmiennymi

Oszacowania wykorzystujące regresję Wyniki prezentuje tabela 7 Porównanie obciążenia estymatorów w próbach pokazuje, że za każdym razem w przypadku regresji i PSM-DID najniższe obciążenie estymatory mają w próbie Dehejia-Wahba Prowadzi to do wniosku, że próba Dehejia-Wahba jest dobrana w taki sposób, że problem selekcji jest łatwiejszy do usunięcia

Oszacowania wykorzystujące regresję W przypadku drugiego pytania wyniki nie są jednoznaczne W przypadku grupy kontrolnej z CPS kluczem do uzyskania wyników o niskim obciążeniu jest wybór podpróby i zmiennych do wektora propensity score W przypadku grupy kontrolnej z PSID oszacowania PSM mają dużo niższe obciążenie niż oszacowania z regresji. Zatem to nieliniowość odgrywa rolę

Testy specyfikacji Ostatnim elementem sprawdzonym przez Smitha i Todd była strategia wyznaczania specyfikacji modelu przyjęta przez Dehejię i Wahbę Test polegał na zachowaniu specyfikacji propensity score i wykorzystaniu jako zmiennej wynikowej zarobków z 1975 roku, czyli sprzed programu Dla obu grup porównawczych wyniki wykazały, że procedura testowa wykorzystująca zarobki sprzed programu jest efektywna W prawidłowy sposób identyfikuje ona estymatory, których użycie prowadzą do obciążonych oszacowań efektu programu

Po pierwsze Estymatory metody PSM nie są bardziej efektywne od tradycyjnych metod ekonometrycznych Wyniki uzyskane przez Deheija i Wahba (1999) wynikają ze specyficznej konstrukcji próby i odpowiedniego doboru zmiennych do wektora propensity score i nie powinny być uogólniane Różne estymatory mają różne założenia i fakt czy są one spełnione w konkretnym zbiorze danych decyduje czy pozwolą na uzyskanie nieobciążonych oszacowań Optymalna strategia szacowania efektów oddziaływania na podstawie danych nieeksperymentalnych zależy od statystycznych własności zbioru danych i mechanizmu selekcji do programu

Po drugie Estymatory wykorzystujące PSM-DID mają lepsze właściwości niż standardowe estymatory PSM Pozwalają one na usunięcie wpływu zmiennych których wartości są stałe względem czasu Metody łączenia nie radzą sobie z tym problemem, ponieważ nie jest to ich cel

Po trzecie Wybór technik związanych z PSM ma niewielki wpływ na wyniki Zatem wybór między łączeniem 1 do 1 czy opartym o jądro, wybór rozmiaru odcięcia, czy wybór szerokości pasma nie mają wielkiego wpływu na uzyskiwane rezultaty i obciążenie estymatorów Wyjątkiem jest wymuszenie wspólnej części przedziału określoności dla propensity score, które poprawia część oszacowań