Propensity Score Matching

Podobne dokumenty
Propensity Score Matching

Propensity Score Matching

Propensity Score Matching

Propensity score matching (PSM)

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Zastosowanie schematu analizy difference-in-differences w badaniach politycznych. Adam Gendźwiłł Tomasz Żółtak Uniwersytet Warszawski

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Testy nieparametryczne

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Monte Carlo, bootstrap, jacknife

Wykład 4: Statystyki opisowe (część 1)

STATYSTYKA MATEMATYCZNA

WNIOSKOWANIE STATYSTYCZNE

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Szkice rozwiązań z R:

Wykład 2: Tworzenie danych

Testowanie hipotez statystycznych

Zastosowanie techniki Propensity Score Matching w badaniach ewaluacyjnych

Modele quasi-eksperymentalne: Model regresji nieciągłej

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Stanisław Cichocki. Natalia Nehrebecka

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Modele quasi-eksperymentalne: Model regresji nieciągłej

Statystyka matematyczna dla leśników

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Kolokwium ze statystyki matematycznej

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

PDF created with FinePrint pdffactory Pro trial version

Jednoczynnikowa analiza wariancji

Analiza korespondencji

Zadania ze statystyki cz.8. Zadanie 1.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wydział Matematyki. Testy zgodności. Wykład 03

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Spis treści 3 SPIS TREŚCI

METODY STATYSTYCZNE W BIOLOGII

Wprowadzenie do analizy korelacji i regresji

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Wykład 9 Wnioskowanie o średnich

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Wprowadzenie do analizy dyskryminacyjnej

Egzamin z ekonometrii wersja IiE, MSEMAT


STATYSTYKA MATEMATYCZNA

Badania eksperymentalne

Modele quasi-eksperymentalne: Model regresji nieciągłej

166 Wstęp do statystyki matematycznej

Żródło:

Modele quasi-eksperymentalne: Różnica w różnicy oraz inne metody

WERYFIKACJA HIPOTEZ STATYSTYCZNYCH

Testowanie hipotez statystycznych

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Badania sondażowe. Schematy losowania. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

Testy t-studenta są testami różnic pomiędzy średnimi czyli służą do porównania ze sobą dwóch średnich

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Projektowanie eksperymentu część 2

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Zmienne zależne i niezależne

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Pobieranie prób i rozkład z próby

Wnioskowanie statystyczne. Statystyka w 5

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

Zadania ze statystyki, cz.6

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Warsztat: Randomizacja w programie Excel

Testowanie hipotez statystycznych. Wprowadzenie

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Analiza regresji - weryfikacja założeń

Estymacja punktowa i przedziałowa

Modele quasi-eksperymentalne: Różnica w różnicy oraz inne metody

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Transkrypt:

Zajęcia 5

Plan na dziś 1 Dehejia i Wahba (1999)

Dehejia i Wahba (1999) Causal Effects in Nonexperimental Studies: Reevaluating the Evaluation of Training Programs Rajeev H. Dehejia, Sadek Wahba, Journal of the American Statistical Association, vol. 94, nr. 448, str. 1053-1062.

wyników LaLonde (1986) W artykule pokazany jest sposób szacowania efektów oddziaływania na podstawie danych nieeksperymentalnych W artykule wykorzystano dane z artykułu LaLonde (1986) Celem badania LaLonde (1986) było pokazanie który sposób szacowania efektów oddziaływania na podstawie danych przekrojowych (nieeksperymentalnych) pozwala uzyskać nieobciążone oszacowanie zgodne z wynikiem eksperymentu Wnioskiem z badania LaLonde było, że metody nieeksperymentalne dają mniej dokładne wyniki w stosunku do metod eksperymentalnych lub te wyniki są zależne od wybranej specyfikacji modelu

Cel artykułu Dehejia i Wahba (1999) W artykule autorzy wykorzystują metody propensity score do danych z badania LaLonde (1986) W celu budowania grupy kontrolnej wykorzystują technikę propensity score matching Zauważają, że uwzględnienie różnic wszystkich charakterystyk sprzed interwencji jest trudne w przypadku, gdy jest duża liczba takich charakterystyk lub gdy grupa eksperymentalna różni się znacznie od potencjalnych jednostek kontrolnych Oszacowana wartość propensity score jest jedną liczbą podsumowującą wartości wszystkich charakterystyk dla danej obserwacji

Cel artykułu Dehejia i Wahba (1999) Oszacowane wartości propensity score mogą być wykorzystane do kontroli różnic pomiędzy grupą poddaną oddziaływaniu eksperymentalnemu i oddziaływaniu kontrolnemu Metoda PSM opiera się na założeniu, że przydzielenie oddziaływania jest powiązane wyłącznie z obserwowanymi charakterystykami przed interwencją (ignorable treatment, selection on observables) Badanie pokazało, że wykorzystanie techniki propensity score matching do danych LaLonde pozwala na uzyskane oszacowań bliższych oszacowaniom eksperymentalnym niż wyniki LaLonde (1986)

Informacje ogólne Dehejia i Wahba (1999) National Supported Work Demonstration był programem czasowego zatrudnienia dla osób pozbawionych podstawowych kwalifikacji Program był zarządzany przez Manpower Demonstration Research Corporation Uczestnicy programu byli przydzielani do różnego typu działań w sposób losowy Pomoc otrzymała jedynie część aplikujących. W rezultacie schemat programu zapewnił istnienie grupy odniesienia

Program szkoleń NSW Program prowadzono w dziesięciu miejscach w Stanach Zjednoczonych Ameryki Północnej (Atlanta, Chicago, Hartford, Jersey City, Newark, Nowy Jork, Oakland, Filadelfia, San Francisco, Wisconsin) Program trwał od 6 do 18 miesięcy Od wszystkich potencjalnych uczestników zebrano dane, a następnie ankietowano po zakończeniu programu W artykule ograniczono się do analizy danych dla mężczyzn Uzasadnieniem wyboru był brak odporności wyników uzyskanych przez LaLonde na zmiany specyfikacji formy funkcyjnej modelu, szczególnie dla tej grupy

Program szkoleń NSW Kandydaci byli włączani do programu w okresie od marca 1975 do lipca 1977 Jedną z konsekwencji jest fakt, iż osoby przyjęte w początkowym okresie do programu różniły się pod względem charakterystyk ekonomicznych i demograficznych od osób przyjętych w późniejszym okresie Dodatkowo różnią się one pod względem czasu ekspozycji na oddziaływanie eksperymentalne By temu przeciwdziałać LaLonde zdyskontował uzyskiwane zarobki

Ograniczenie próby Dehejia i Wahba (1999) LaLonde ograniczył próbę do osób przyjętych do programu po grudniu 1975, którzy zakończyli uczestnictwo w programie przed styczniem 1978 Dzięki temu mógł potraktować zarobki z roku 1975 jako wartość niezależną od oddziaływania (ang. preintervention variable) a zarobki z roku 1978 jako jego wynik Literatura pokazuje, że w przypadku oceny programu aktywizacji na rynku pracy uwzględnienie zarobków tylko z jednego roku może być niewystarczające W związku z tym, autorzy ograniczają próbę LaLonde do osób dla których dostępna jest informacja o wysokości zarobków w 1974 roku

Losowość próby Dehejia i Wahba (1999) Podpróba jest wybierana na podstawie miesiąca przystąpienia do programu i historii zatrudnienia, preintervention variables Przy spełnionym założeniu, że pierwotna randomizacja była niezależna od charakterystyk osób sprzed interwencji ograniczona próba zachowuje cechy danych eksperymentalnych W grupie eksperymentalnej i kontrolnej rozkłady charakterystyk sprzed interwencji są identyczne LaLonde (1986) wykorzystał próbę eksperymentalną liczącą 297 obserwacji i grupę kontrolną liczącą 425 obserwacji Dehejia i Wahba ograniczyli liczebność próby eksperymentalnej do 185 obserwacji, a grupy kontrolnej do 260 obserwacji

Charakterystyki próby Dehejia i Wahba (1999) Podpróba danych eksperymentalnych Dehejia i Wahba (1999) różni się od danych LaLonde (1986) Najważniejszą różnicą jest wysokość zarobków w 1975 roku Jest to suma efektu kohorty i faktu, że w próbie Dehejia i Wahba jest większa liczba osób, które przed programem były bezrobotne Różnice w rozkładzie charakterystyk sprzed programu nie są statystycznie istotne poza zmienną no degree

Tabela 1.Charakterystyka danych

Grupy odniesienia Dehejia i Wahba (1999) PSID-1: Wszystkie gospodarstwa które uczestniczyły w badaniu w latach 1975-1979, głową był mężczyzna w wieku 20-55 i nie był na emeryturze w 1975 PSID-2: PSID-1 ograniczone do mężczyzn nie pracujących w 1976 PSID-3: PSID-1 ograniczone do mężczyzn nie pracujących w 1975 i 1976 CPS-1: Wszyscy mężczyźni z CPS w wieku do 55 lat CPS-2: Wszyscy mężczyźni z CPS w wieku do 55 lat, nie pracujący wiosną 1975 CPS-3: CPS-1 ograniczone do bezrobotnych mężczyzn w 1976, których dochód w 1975 był poniżej linii ubóstwa

Grupy odniesienia Dehejia i Wahba (1999) Próby PSID-1 - PSID-3 oraz CPS-1 są identyczne jak w badaniu LaLonde, prób CPS-2 i CPS-3 autorom nie udało się dokładnie odtworzyć, użyto prób podobnych Dehejia i Wahba zauważają, że rozkłady cech w podpróbach różnią się od rozkładów tych cech w grupie eksperymentalnej

Tabela 1. Charakterystyka grup odniesienia

Charakterystyka grup odniesienia Rozkłady charakterystyk w grupach PSID-1 oraz CPS-1 różnią się w sposób istotny statystycznie od rozkładu w grupie eksperymentalnej W przypadku dodatkowych grup skonstruowanych przez LaLonde różnice w wartościach charakterystyk są mniejsze, ale pozostają statystycznie istotne na poziomie istotności 1 %

Oszacowania efektu uczestnictwa w programie W kolejnym kroku autorzy odtworzyli oryginalne wyniki artykułu LaLonde (1986) (tabela A) W modelu regresji jako zmiennych kontrolnych użyto: age, age squared, years of schooling, high school dropout status, black, hispanic oraz w przypadku tabeli C zarobków w 1974 roku (tabela C) Następnie zastosowali te same techniki analizy do wybranego podzbioru danych w dwóch wariantach bez dodatkowej zmiennej wysokość zarobków w 1974 roku (tabela B) z dodatkową zmienną wysokość zarobków w 1974 roku (tabela C)

Oszacowania efektu uczestnictwa w programie Dehejia i Wahba uzyskali wyższą wartość oszacowania dla efektu uczestnictwa w programie Wyższy jest efekt uczestnictwa w programie dla osób, które wcześniej przystąpiły do programu oraz osób bezrobotnych przed programem Oszacowania w kolumnie 5, gdzie użyto pełnego zestawu zmiennych kontrolnych, są najbliższe wynikom eksperymentalnym

Tabela 2. Dane LaLonde (1986)

Tabela 2. Podpróba Dehejia i Wahba (1999)

Oszacowania efektu szkolenia Uwzględnienie dodatkowej zmiennej poprawia oszacowania względem zaprezentowanych w części B tabeli 2. Część oszacowań nadal ma wartość ujemną ale bliższą wartości zero Wartości w kolumnie (4) i (5) są bliższe wynikom eksperymentalnym niż odpowiadające im rezultaty z tabeli 2B najbliższe eksperymentalnym uzyskano dla próby CPS-3.

Tab 2. Podpróba Dehejia i Wahba (1999) z zarobkami 1974

Metoda szacowania Dehejia i Wahba (1999) W pierwszym kroku szacowane jest propensity score dla każdej próby Autorzy wybrali model logistyczny Początkowo wprowadzono zmienne w pierwszej potędze Autorzy grupowali obserwacje ze względu na oszacowaną wartość propensity score i weryfikowali zbilansowanie rozkładów charakterystyk w każdej warstwie W artykule nie jest to wprost napisane, ale zapewne podzielili przedział [0, 1] na dwadzieścia warstw o szerokości 0,05 W każdej warstwie przeprowadzili test równości rozkładu oparty o dwa pierwsze momenty (średnia i wariancja)

Metoda szacowania Dehejia i Wahba (1999) W przypadku braku istotnych różnic autorzy akceptowali specyfikację formy funkcyjnej modelu W przypadku istotnych statystycznie różnic, autorzy dodawali czynniki wyższego rzędu (zmienne w kolejnych potęgach) oraz interakcje między zmiennymi. Czynność była powtarzana do uzyskania zbilansowania rozkładów W drugim kroku szacowano rozmiar efektu wykorzystując nieparametryczny model regresji z jedną zmienną objaśniającą. Nieparametryczną metodą była stratyfikacja albo matching

Stratyfikacja Dehejia i Wahba (1999) Obserwacje są sortowane względem oszacowanej wartości propensity score od najmniejszej do największej Obserwacje z wartością propensity score mniejszą niż minimum i większą niż maksimum dla grupy eksperymentalnej są usuwane Warstwy, definiowane na postawie wartości propensity score są ustalane tak, by rozkłady zmiennych były w każdej warstwie zbilansowane Ważona różnica między średnim wynikiem w grupie eksperymentalnej i kontrolnej jest oszacowaniem przeciętnego efektu oddziaływania wobec jednostek poddanych oddziaływaniu (ATT), wagami są liczby obserwacji w grupie eksperymentalnej

Matching Dehejia i Wahba (1999) Każda jednostka z grupy eksperymentalnej jest łączona ze zwracaniem z najbliższą jednostką z grupy kontrolnej pod względem wartości propensity score. Ta technika nosi nazwę łączenia najbliższych sąsiadów (ang. nearest neighbour matching) Jednostki nie poddane oddziaływaniu, które nie zostaną połączone nie są brane pod uwagę przy obliczaniu oszacowania efektu oddziaływania

Uzasadnienie podejścia dwuetapowego z wykorzystaniem regresji nieparametrycznej będzie narażone na problem wielowymiarowości Ten problem powoduje, że do szacowania propensity score jest wykorzystywany model parametryczny Dzięki temu oszacowania są mniej czułe na zmiany specyfikacji modelu dla propensity score Przyjęta metoda weryfikacji poprawności szacowania propensity score powoduje, że charakterystyki sprzed interwencji są zbilansowane Jest to warunkiem dostatecznym dla uzyskania nieobciążonych oszacowań dla ATT

Liczebność grup kontrolnych Większość obserwacji z PSID (1333 z 2490) oraz CPS (12611 z 15992) nie jest uwzględnianych podczas szacowania wartości efektu oddziaływania, ponieważ wartość propensity score jest niższa niż minimum w grupie eksperymentalej Pomimo tego pierwsza warstwa zawiera większość jednostek z grupy kontrolnej i tylko kilka z grupy eksperymentalnej W przypadku dużej liczby warstw liczebność grupy eksperymentalnej przewyższa liczebność grupy kontrolnej Wspólna część przedziału określoności dla wartości propensity score (overlap) jest niewielka

Histogram propensity score dla PSID

Histogram propensity score dla CPS

Szacowanie wartości oddziaływania Autorzy wykorzystali warstwowanie w celu pogrupownia jednostek z grupy eksperymentalnej Wartość efektu oddziaływania obliczono osobno dla każdej warstwy jako różnicę w średnich zarobkach w 1978 roku dla grupy eksperymentalnej i kontrolnej Następnie utworzono ważoną średnią, w której wagami były liczebności warstw w grupie eksperymentalnej (kolumna 4) Alternatywnym sposobem szacowania efektu oddziaływania była regresja wewnątrz warstw (kolumna 5) Wykorzystano również propensity score matching (kolumna 7, przed łączeniem i 8 po łączeniu)

Formy funkcyjne modelu a: regresja RE78 na wskaźnik oddziaływania oraz age, age squared, education, no degree, black, hispanic, RE74, RE75 b: regresja RE78 na wskaźnik oddziaływania oraz propensity score i propensity score2 d: ważona MNK, specyfikacja jak w (a). e: PSID1: logit dla Pr(T=1)=f(age, age2, education, education2, married, nodegree, black, hispanic, RE74, RE75, RE74 2, RE75 2, u74 black) f: PSID2 oraz PSID3: logit dla Pr(T=1)=f(age, age2, education, education2, married, nodegree, black, hispanic, RE74, RE75, RE74 2, RE75 2, u74, u75) g: CPS: logit dla Pr(T=1)=f(age, age2, education, educaion2, married, nodegree, black, hispanic, RE74, RE75, u74, u75, education RE74, age3)

Oszacowania wartości efektu Dla próby PSID Oszacowanie metodą warstwowania wynosi 1608$ Oszacowanie metodą propensity score wynosi 1691$ Obie wartości są bliskie wynikowi eksperymentalnemu Uwzględnienie dodatkowych zmiennych wpływa w niewielkim stopniu na wartość oszacowania efektu Dla próby CPS Oszacowanie metodą warstwowania wynosi 1713$ Oszacowanie metodą propensity score wynosi 1582$ Obie wartości są bliskie wynikowi eksperymentalnemu Uwzględnienie dodatkowych zmiennych wpływa w niewielkim stopniu na wartość oszacowania efektu są znacznie bliższe wynikom eksperymentalnym niż w artykule LaLonde (1986)

Tabela 3. Oszacowania wartości efektów programu

Oszacowania wartości efektu Dla mniej liczebnych podprób oszacowania są bliższe wartościom z eksperymentu Aczkolwiek nadal rozrzut (wariancja) uzyskanych oszacowań jest znaczna Wyjaśnienia dlaczego tak się dzieje dostarcza tabela 4 prezentująca statystyki opisowe dla mniej liczebnych grup odniesienia Próby PSID-1 oraz CPS-1 są zbliżone pod względem rozkładu charakterystyk do grupy eksperymentalnej, mniej liczebne podpróby mają inne rozkłady dla poszczególnych charakterystyk Szczególnie duże rozbieżności w rozkładach są widoczne dla danych PSID

Tabela 4. Statystyki opisowe grup odniesienia

Charakterystyki grup odniesienia Połączona część (ang. matched subset) prób CPS-1 oraz PSID-1 jest po względem rozkładu cech bardzo podobna do cech jednostek z grupy eksperymentalnej W przypadku mniej liczebnych podzbiorów już tak nie jest. Jest to szczególnie widoczne w podgrupach z badania PSID

Ważna cecha PSM Dehejia i Wahba (1999) Ważną cechą metod wykorzystujących propensity score jest fakt, że podpróby zbudowane metodą ad-hoc nie są ani potrzebne ani pożądane. Podpróby zbudowane na podstawie rozkładu jednej charakterystyki mogą być wystarczające do zbilansowania rozkładu pozostałych charakterystyk Wektor propensity score uwzględnia równocześnie wszystkie charakterystyki, większą wagę przykładając do najbardziej odpowiednich jednostek porównawczych pod względem wszystkich cech, nie tylko wybranej jednej

Komentarz do wyników Pomimo tego, że oszacowania wykorzystujące propensity score matching są bliższe wynikom eksperymentalnym niż oszacowania wykorzystujące modele regresji, odchylenia standardowe oszacowań są znacznie większe. Dla prób CPS i PSID wynoszą odpowiednio 1152 oraz 1581 podczas, gdy na podstawie modeli regresji 550 i 886 Różnica wynika z faktu, że oszacowania wykorzystujące propensity score matching wykorzystują mniejszą liczbę obserwacji Gdy przy łączeniu wykorzystywane są dodatkowe zmienne, błędy standardowe są zbliżone (Tabela 3, kolumna 8)

Wrażliwość wyników na specyfikację propensity score Okazuje się, że wyniki nie są wrażliwe na niewielkie modyfikacje specyfikacji wektora propensity score Usunięcie wyższych potęg oraz interakcji zmiennych objaśniających w niewielkim stopniu wpływ a na wartości uzyskanych oszacowań efektów programu Zmiany w wartości oszacowania efektu są niższe od jednego odchylenia standardowego Jednak warto zauważyć, że wartości oszacowań są dalsze od wyników eksperymentalnych w porównaniu z wynikami z Tabeli 3

Tabela 5. Wrażliwość oszacowań ATT na zmiany specyfikacji propensity score

Wrażliwość wyników na dobór zmiennych Ważnym założeniem metody PSM jest to, że w modelu powinny być uwzględnione wszystkie zmienne wpływające na przydział oddziaływania i wszystkie zmienne skorelowane ze zmienną wynikową Z tego powodu Dehejia i Wahba ograniczyli próbę LaLonde W celu sprawdzenia poprawności założenia oszacowali modele bez uwzględniania zmiennej zarobki w 1974 roku zależą od uwzględnienia tej zmiennej, ale w każdej próbie w inny sposób

Tabela 5. Wrażliwość oszacowań ATT na zmiany specyfikacji propensity score

(1) Dehejia i Wahba (1999) Dehejia i Wahba pokazali w jaki sposób można wykorzystać technikę propensity score matching do oszacowania efektów oddziaływania na podstawie danych nie pochodzących z eksperymentu Wartości oszacowań uzyskane na podstawie połączonych zbiorów danych nieeksperymentalnych i eksperymentalnych (zbiory LaLonde) są bliskie wynikom eksperymentalnym i są odporne na wybór grupy odniesienia oraz specyfikację formy funkcyjnej wektora propensity score

(2) Dehejia i Wahba (1999) Podstawą skuteczności metody jest ograniczenie analizy do podzbioru danych, który jest podobny pod względem charakterystyk do grupy eksperymentalnej Dodatkowo, analiza pokazała, że w dużym zbiorze jednostek nie poddanych działaniu eksperymentalnemu tylko kilka może być podobnych pod względem istotnych charakterystyk do jednostek z grupy eksperymentalnej Nawet nieliczna grupa odniesienia (grupa kontrolna) jest wystarczająca do oszacowania efektu programu Jednak, metoda wykorzystująca wektory propensity score nie jest uniwersalnym remedium na wszystkie problemy. Jeżeli ważna charakterystyka skorelowana z przydziałem do oddziaływania lub zmienną wynikową jest nieobserwowana to metoda nie daje dobrych rezultatów