Propensity Score Matching

Zajęcia 5

Plan na dziś 1 Dehejia i Wahba (1999)

Dehejia i Wahba (1999) Causal Effects in Nonexperimental Studies: Reevaluating the Evaluation of Training Programs Rajeev H. Dehejia, Sadek Wahba, Journal of the American Statistical Association, vol. 94, nr. 448, str. 1053-1062.

wyników LaLonde (1986) W artykule pokazany jest sposób szacowania efektów oddziaływania na podstawie danych nieeksperymentalnych W artykule wykorzystano dane z artykułu LaLonde (1986) Celem badania LaLonde (1986) było pokazanie który sposób szacowania efektów oddziaływania na podstawie danych przekrojowych (nieeksperymentalnych) pozwala uzyskać nieobciążone oszacowanie zgodne z wynikiem eksperymentu Wnioskiem z badania LaLonde było, że metody nieeksperymentalne dają mniej dokładne wyniki w stosunku do metod eksperymentalnych lub te wyniki są zależne od wybranej specyfikacji modelu

Cel artykułu Dehejia i Wahba (1999) W artykule autorzy wykorzystują metody propensity score do danych z badania LaLonde (1986) W celu budowania grupy kontrolnej wykorzystują technikę propensity score matching Zauważają, że uwzględnienie różnic wszystkich charakterystyk sprzed interwencji jest trudne w przypadku, gdy jest duża liczba takich charakterystyk lub gdy grupa eksperymentalna różni się znacznie od potencjalnych jednostek kontrolnych Oszacowana wartość propensity score jest jedną liczbą podsumowującą wartości wszystkich charakterystyk dla danej obserwacji

Cel artykułu Dehejia i Wahba (1999) Oszacowane wartości propensity score mogą być wykorzystane do kontroli różnic pomiędzy grupą poddaną oddziaływaniu eksperymentalnemu i oddziaływaniu kontrolnemu Metoda PSM opiera się na założeniu, że przydzielenie oddziaływania jest powiązane wyłącznie z obserwowanymi charakterystykami przed interwencją (ignorable treatment, selection on observables) Badanie pokazało, że wykorzystanie techniki propensity score matching do danych LaLonde pozwala na uzyskane oszacowań bliższych oszacowaniom eksperymentalnym niż wyniki LaLonde (1986)

Informacje ogólne Dehejia i Wahba (1999) National Supported Work Demonstration był programem czasowego zatrudnienia dla osób pozbawionych podstawowych kwalifikacji Program był zarządzany przez Manpower Demonstration Research Corporation Uczestnicy programu byli przydzielani do różnego typu działań w sposób losowy Pomoc otrzymała jedynie część aplikujących. W rezultacie schemat programu zapewnił istnienie grupy odniesienia

Program szkoleń NSW Program prowadzono w dziesięciu miejscach w Stanach Zjednoczonych Ameryki Północnej (Atlanta, Chicago, Hartford, Jersey City, Newark, Nowy Jork, Oakland, Filadelfia, San Francisco, Wisconsin) Program trwał od 6 do 18 miesięcy Od wszystkich potencjalnych uczestników zebrano dane, a następnie ankietowano po zakończeniu programu W artykule ograniczono się do analizy danych dla mężczyzn Uzasadnieniem wyboru był brak odporności wyników uzyskanych przez LaLonde na zmiany specyfikacji formy funkcyjnej modelu, szczególnie dla tej grupy

Program szkoleń NSW Kandydaci byli włączani do programu w okresie od marca 1975 do lipca 1977 Jedną z konsekwencji jest fakt, iż osoby przyjęte w początkowym okresie do programu różniły się pod względem charakterystyk ekonomicznych i demograficznych od osób przyjętych w późniejszym okresie Dodatkowo różnią się one pod względem czasu ekspozycji na oddziaływanie eksperymentalne By temu przeciwdziałać LaLonde zdyskontował uzyskiwane zarobki

Ograniczenie próby Dehejia i Wahba (1999) LaLonde ograniczył próbę do osób przyjętych do programu po grudniu 1975, którzy zakończyli uczestnictwo w programie przed styczniem 1978 Dzięki temu mógł potraktować zarobki z roku 1975 jako wartość niezależną od oddziaływania (ang. preintervention variable) a zarobki z roku 1978 jako jego wynik Literatura pokazuje, że w przypadku oceny programu aktywizacji na rynku pracy uwzględnienie zarobków tylko z jednego roku może być niewystarczające W związku z tym, autorzy ograniczają próbę LaLonde do osób dla których dostępna jest informacja o wysokości zarobków w 1974 roku

Losowość próby Dehejia i Wahba (1999) Podpróba jest wybierana na podstawie miesiąca przystąpienia do programu i historii zatrudnienia, preintervention variables Przy spełnionym założeniu, że pierwotna randomizacja była niezależna od charakterystyk osób sprzed interwencji ograniczona próba zachowuje cechy danych eksperymentalnych W grupie eksperymentalnej i kontrolnej rozkłady charakterystyk sprzed interwencji są identyczne LaLonde (1986) wykorzystał próbę eksperymentalną liczącą 297 obserwacji i grupę kontrolną liczącą 425 obserwacji Dehejia i Wahba ograniczyli liczebność próby eksperymentalnej do 185 obserwacji, a grupy kontrolnej do 260 obserwacji

Charakterystyki próby Dehejia i Wahba (1999) Podpróba danych eksperymentalnych Dehejia i Wahba (1999) różni się od danych LaLonde (1986) Najważniejszą różnicą jest wysokość zarobków w 1975 roku Jest to suma efektu kohorty i faktu, że w próbie Dehejia i Wahba jest większa liczba osób, które przed programem były bezrobotne Różnice w rozkładzie charakterystyk sprzed programu nie są statystycznie istotne poza zmienną no degree

Tabela 1.Charakterystyka danych

Grupy odniesienia Dehejia i Wahba (1999) PSID-1: Wszystkie gospodarstwa które uczestniczyły w badaniu w latach 1975-1979, głową był mężczyzna w wieku 20-55 i nie był na emeryturze w 1975 PSID-2: PSID-1 ograniczone do mężczyzn nie pracujących w 1976 PSID-3: PSID-1 ograniczone do mężczyzn nie pracujących w 1975 i 1976 CPS-1: Wszyscy mężczyźni z CPS w wieku do 55 lat CPS-2: Wszyscy mężczyźni z CPS w wieku do 55 lat, nie pracujący wiosną 1975 CPS-3: CPS-1 ograniczone do bezrobotnych mężczyzn w 1976, których dochód w 1975 był poniżej linii ubóstwa

Grupy odniesienia Dehejia i Wahba (1999) Próby PSID-1 - PSID-3 oraz CPS-1 są identyczne jak w badaniu LaLonde, prób CPS-2 i CPS-3 autorom nie udało się dokładnie odtworzyć, użyto prób podobnych Dehejia i Wahba zauważają, że rozkłady cech w podpróbach różnią się od rozkładów tych cech w grupie eksperymentalnej

Tabela 1. Charakterystyka grup odniesienia

Charakterystyka grup odniesienia Rozkłady charakterystyk w grupach PSID-1 oraz CPS-1 różnią się w sposób istotny statystycznie od rozkładu w grupie eksperymentalnej W przypadku dodatkowych grup skonstruowanych przez LaLonde różnice w wartościach charakterystyk są mniejsze, ale pozostają statystycznie istotne na poziomie istotności 1 %

Oszacowania efektu uczestnictwa w programie W kolejnym kroku autorzy odtworzyli oryginalne wyniki artykułu LaLonde (1986) (tabela A) W modelu regresji jako zmiennych kontrolnych użyto: age, age squared, years of schooling, high school dropout status, black, hispanic oraz w przypadku tabeli C zarobków w 1974 roku (tabela C) Następnie zastosowali te same techniki analizy do wybranego podzbioru danych w dwóch wariantach bez dodatkowej zmiennej wysokość zarobków w 1974 roku (tabela B) z dodatkową zmienną wysokość zarobków w 1974 roku (tabela C)

Oszacowania efektu uczestnictwa w programie Dehejia i Wahba uzyskali wyższą wartość oszacowania dla efektu uczestnictwa w programie Wyższy jest efekt uczestnictwa w programie dla osób, które wcześniej przystąpiły do programu oraz osób bezrobotnych przed programem Oszacowania w kolumnie 5, gdzie użyto pełnego zestawu zmiennych kontrolnych, są najbliższe wynikom eksperymentalnym

Tabela 2. Dane LaLonde (1986)

Tabela 2. Podpróba Dehejia i Wahba (1999)

Oszacowania efektu szkolenia Uwzględnienie dodatkowej zmiennej poprawia oszacowania względem zaprezentowanych w części B tabeli 2. Część oszacowań nadal ma wartość ujemną ale bliższą wartości zero Wartości w kolumnie (4) i (5) są bliższe wynikom eksperymentalnym niż odpowiadające im rezultaty z tabeli 2B najbliższe eksperymentalnym uzyskano dla próby CPS-3.

Tab 2. Podpróba Dehejia i Wahba (1999) z zarobkami 1974

Metoda szacowania Dehejia i Wahba (1999) W pierwszym kroku szacowane jest propensity score dla każdej próby Autorzy wybrali model logistyczny Początkowo wprowadzono zmienne w pierwszej potędze Autorzy grupowali obserwacje ze względu na oszacowaną wartość propensity score i weryfikowali zbilansowanie rozkładów charakterystyk w każdej warstwie W artykule nie jest to wprost napisane, ale zapewne podzielili przedział [0, 1] na dwadzieścia warstw o szerokości 0,05 W każdej warstwie przeprowadzili test równości rozkładu oparty o dwa pierwsze momenty (średnia i wariancja)

Metoda szacowania Dehejia i Wahba (1999) W przypadku braku istotnych różnic autorzy akceptowali specyfikację formy funkcyjnej modelu W przypadku istotnych statystycznie różnic, autorzy dodawali czynniki wyższego rzędu (zmienne w kolejnych potęgach) oraz interakcje między zmiennymi. Czynność była powtarzana do uzyskania zbilansowania rozkładów W drugim kroku szacowano rozmiar efektu wykorzystując nieparametryczny model regresji z jedną zmienną objaśniającą. Nieparametryczną metodą była stratyfikacja albo matching

Stratyfikacja Dehejia i Wahba (1999) Obserwacje są sortowane względem oszacowanej wartości propensity score od najmniejszej do największej Obserwacje z wartością propensity score mniejszą niż minimum i większą niż maksimum dla grupy eksperymentalnej są usuwane Warstwy, definiowane na postawie wartości propensity score są ustalane tak, by rozkłady zmiennych były w każdej warstwie zbilansowane Ważona różnica między średnim wynikiem w grupie eksperymentalnej i kontrolnej jest oszacowaniem przeciętnego efektu oddziaływania wobec jednostek poddanych oddziaływaniu (ATT), wagami są liczby obserwacji w grupie eksperymentalnej

Matching Dehejia i Wahba (1999) Każda jednostka z grupy eksperymentalnej jest łączona ze zwracaniem z najbliższą jednostką z grupy kontrolnej pod względem wartości propensity score. Ta technika nosi nazwę łączenia najbliższych sąsiadów (ang. nearest neighbour matching) Jednostki nie poddane oddziaływaniu, które nie zostaną połączone nie są brane pod uwagę przy obliczaniu oszacowania efektu oddziaływania

Uzasadnienie podejścia dwuetapowego z wykorzystaniem regresji nieparametrycznej będzie narażone na problem wielowymiarowości Ten problem powoduje, że do szacowania propensity score jest wykorzystywany model parametryczny Dzięki temu oszacowania są mniej czułe na zmiany specyfikacji modelu dla propensity score Przyjęta metoda weryfikacji poprawności szacowania propensity score powoduje, że charakterystyki sprzed interwencji są zbilansowane Jest to warunkiem dostatecznym dla uzyskania nieobciążonych oszacowań dla ATT

Liczebność grup kontrolnych Większość obserwacji z PSID (1333 z 2490) oraz CPS (12611 z 15992) nie jest uwzględnianych podczas szacowania wartości efektu oddziaływania, ponieważ wartość propensity score jest niższa niż minimum w grupie eksperymentalej Pomimo tego pierwsza warstwa zawiera większość jednostek z grupy kontrolnej i tylko kilka z grupy eksperymentalnej W przypadku dużej liczby warstw liczebność grupy eksperymentalnej przewyższa liczebność grupy kontrolnej Wspólna część przedziału określoności dla wartości propensity score (overlap) jest niewielka

Histogram propensity score dla PSID

Histogram propensity score dla CPS

Szacowanie wartości oddziaływania Autorzy wykorzystali warstwowanie w celu pogrupownia jednostek z grupy eksperymentalnej Wartość efektu oddziaływania obliczono osobno dla każdej warstwy jako różnicę w średnich zarobkach w 1978 roku dla grupy eksperymentalnej i kontrolnej Następnie utworzono ważoną średnią, w której wagami były liczebności warstw w grupie eksperymentalnej (kolumna 4) Alternatywnym sposobem szacowania efektu oddziaływania była regresja wewnątrz warstw (kolumna 5) Wykorzystano również propensity score matching (kolumna 7, przed łączeniem i 8 po łączeniu)

Formy funkcyjne modelu a: regresja RE78 na wskaźnik oddziaływania oraz age, age squared, education, no degree, black, hispanic, RE74, RE75 b: regresja RE78 na wskaźnik oddziaływania oraz propensity score i propensity score2 d: ważona MNK, specyfikacja jak w (a). e: PSID1: logit dla Pr(T=1)=f(age, age2, education, education2, married, nodegree, black, hispanic, RE74, RE75, RE74 2, RE75 2, u74 black) f: PSID2 oraz PSID3: logit dla Pr(T=1)=f(age, age2, education, education2, married, nodegree, black, hispanic, RE74, RE75, RE74 2, RE75 2, u74, u75) g: CPS: logit dla Pr(T=1)=f(age, age2, education, educaion2, married, nodegree, black, hispanic, RE74, RE75, u74, u75, education RE74, age3)

Oszacowania wartości efektu Dla próby PSID Oszacowanie metodą warstwowania wynosi 1608$ Oszacowanie metodą propensity score wynosi 1691$ Obie wartości są bliskie wynikowi eksperymentalnemu Uwzględnienie dodatkowych zmiennych wpływa w niewielkim stopniu na wartość oszacowania efektu Dla próby CPS Oszacowanie metodą warstwowania wynosi 1713$ Oszacowanie metodą propensity score wynosi 1582$ Obie wartości są bliskie wynikowi eksperymentalnemu Uwzględnienie dodatkowych zmiennych wpływa w niewielkim stopniu na wartość oszacowania efektu są znacznie bliższe wynikom eksperymentalnym niż w artykule LaLonde (1986)

Tabela 3. Oszacowania wartości efektów programu

Oszacowania wartości efektu Dla mniej liczebnych podprób oszacowania są bliższe wartościom z eksperymentu Aczkolwiek nadal rozrzut (wariancja) uzyskanych oszacowań jest znaczna Wyjaśnienia dlaczego tak się dzieje dostarcza tabela 4 prezentująca statystyki opisowe dla mniej liczebnych grup odniesienia Próby PSID-1 oraz CPS-1 są zbliżone pod względem rozkładu charakterystyk do grupy eksperymentalnej, mniej liczebne podpróby mają inne rozkłady dla poszczególnych charakterystyk Szczególnie duże rozbieżności w rozkładach są widoczne dla danych PSID

Tabela 4. Statystyki opisowe grup odniesienia

Charakterystyki grup odniesienia Połączona część (ang. matched subset) prób CPS-1 oraz PSID-1 jest po względem rozkładu cech bardzo podobna do cech jednostek z grupy eksperymentalnej W przypadku mniej liczebnych podzbiorów już tak nie jest. Jest to szczególnie widoczne w podgrupach z badania PSID

Ważna cecha PSM Dehejia i Wahba (1999) Ważną cechą metod wykorzystujących propensity score jest fakt, że podpróby zbudowane metodą ad-hoc nie są ani potrzebne ani pożądane. Podpróby zbudowane na podstawie rozkładu jednej charakterystyki mogą być wystarczające do zbilansowania rozkładu pozostałych charakterystyk Wektor propensity score uwzględnia równocześnie wszystkie charakterystyki, większą wagę przykładając do najbardziej odpowiednich jednostek porównawczych pod względem wszystkich cech, nie tylko wybranej jednej

Komentarz do wyników Pomimo tego, że oszacowania wykorzystujące propensity score matching są bliższe wynikom eksperymentalnym niż oszacowania wykorzystujące modele regresji, odchylenia standardowe oszacowań są znacznie większe. Dla prób CPS i PSID wynoszą odpowiednio 1152 oraz 1581 podczas, gdy na podstawie modeli regresji 550 i 886 Różnica wynika z faktu, że oszacowania wykorzystujące propensity score matching wykorzystują mniejszą liczbę obserwacji Gdy przy łączeniu wykorzystywane są dodatkowe zmienne, błędy standardowe są zbliżone (Tabela 3, kolumna 8)

Wrażliwość wyników na specyfikację propensity score Okazuje się, że wyniki nie są wrażliwe na niewielkie modyfikacje specyfikacji wektora propensity score Usunięcie wyższych potęg oraz interakcji zmiennych objaśniających w niewielkim stopniu wpływ a na wartości uzyskanych oszacowań efektów programu Zmiany w wartości oszacowania efektu są niższe od jednego odchylenia standardowego Jednak warto zauważyć, że wartości oszacowań są dalsze od wyników eksperymentalnych w porównaniu z wynikami z Tabeli 3

Tabela 5. Wrażliwość oszacowań ATT na zmiany specyfikacji propensity score

Wrażliwość wyników na dobór zmiennych Ważnym założeniem metody PSM jest to, że w modelu powinny być uwzględnione wszystkie zmienne wpływające na przydział oddziaływania i wszystkie zmienne skorelowane ze zmienną wynikową Z tego powodu Dehejia i Wahba ograniczyli próbę LaLonde W celu sprawdzenia poprawności założenia oszacowali modele bez uwzględniania zmiennej zarobki w 1974 roku zależą od uwzględnienia tej zmiennej, ale w każdej próbie w inny sposób

Tabela 5. Wrażliwość oszacowań ATT na zmiany specyfikacji propensity score

(1) Dehejia i Wahba (1999) Dehejia i Wahba pokazali w jaki sposób można wykorzystać technikę propensity score matching do oszacowania efektów oddziaływania na podstawie danych nie pochodzących z eksperymentu Wartości oszacowań uzyskane na podstawie połączonych zbiorów danych nieeksperymentalnych i eksperymentalnych (zbiory LaLonde) są bliskie wynikom eksperymentalnym i są odporne na wybór grupy odniesienia oraz specyfikację formy funkcyjnej wektora propensity score

(2) Dehejia i Wahba (1999) Podstawą skuteczności metody jest ograniczenie analizy do podzbioru danych, który jest podobny pod względem charakterystyk do grupy eksperymentalnej Dodatkowo, analiza pokazała, że w dużym zbiorze jednostek nie poddanych działaniu eksperymentalnemu tylko kilka może być podobnych pod względem istotnych charakterystyk do jednostek z grupy eksperymentalnej Nawet nieliczna grupa odniesienia (grupa kontrolna) jest wystarczająca do oszacowania efektu programu Jednak, metoda wykorzystująca wektory propensity score nie jest uniwersalnym remedium na wszystkie problemy. Jeżeli ważna charakterystyka skorelowana z przydziałem do oddziaływania lub zmienną wynikową jest nieobserwowana to metoda nie daje dobrych rezultatów