Propensity Score Matching

Transkrypt

1 Zajęcia 6

2 Plan na dziś 1

3 Does matching overcome LaLonde s critique of nonexperimental estimators Jeffrey A. Smith, Petra E. Todd (2005) Journal of Econometrics, vol. 125, str

4 Brak zgody w literaturze W literaturze brak jest zgody wśród autorów czy można ilościowo oceniać programy społeczne bez przeprowadzania randomizowanych eksperymentów Randomizacja zapewnia, że jednostki w grupie poddanej oddziaływaniu eksperymentalnemu i w grupie kontrolnej mają identyczne rozkłady cech obserwowanych i nieobserwowanych Eksperymenty społeczne są kosztowne, mogą zaburzać inne programy, występuje problem odmowy udziału w eksperymencie oraz poszukiwania innego oddziaływania przez jednostki przydzielone do grupy kontrolnej Z kolei zgromadzenie danych nieeksperymentalnych jest tańsze i nie wpływa na zachowanie badanych jednostek

5 Brak zgody w literaturze LaLonde (1986) w artykule, który stanowi obecnie punkt odniesienia pokazał że wyniki oceny uzyskane na podstawie danych nieeksperymentalnych są uzależnione od techniki szacowania efektu oddziaływania Badacze szukają sposobu szacowania efektu oddziaływania eksperymentalnego, który w każdym przypadku rozwiąże problem selekcji Dehejia i Wahba (1999, 2002) zwrócili uwagę na klasę estymatorów propensity score matching pokazując, że można odtworzyć wyniki eksperymentalne. W tym celu wykorzystali te same dane co LaLonde (1986) Ich badanie spopularyzowało metodę propensity score matching

6 Brak zgody w literaturze Niewielkie obciążenie estymatora efektu oddziaływania uzyskanego metodą PSM pokazane przez Deheiję i Wahbę jest sprzeczne wynikami prac Heckman, Ichimura i Todd (1997) [HIT] oraz Heckman, Ichimura, Smith i Todd (1998) [HIST] Prace HIT oraz HIST pokazują, że analizowane dane powinny być homogeniczne, zbiór informacji bogaty i zmienna mierząca wynik powinna być w taki sam sposób mierzona w grupie poddanej oddziaływaniu i grupie kontrolnej Dane NSW analizowane przez LaLonde (1986) oraz Dehejia i Wahba (1999, 2002) żadnego z tych warunków nie spełniają

7 Cel artykułu Smith i Todd powtórnie analizują dane LaLonde wykorzystując technikę propensity score matching Pokazują, że niewielkie obciążenie oszacowań uzyskane przez Dehejia i Wahba (1999, 2002) występuje wyłącznie w specyficznej podpróbie danych analizowanej przez Dehejia i Wahba Wyniki są również w małym stopniu odporne na modyfikacje specyfikacji wektora propensity score Wykorzystanie metody różnic w różnicach (ang. difference-in-differrences (DID)) pozwala uzyskać lepsze rezultaty w stosunku do analizy danych przekrojowych

8 Wyniki w artykule Rezultaty uzyskane przez są zgodne z wynikami prac HIT (1997) oraz HIST (1998) w zakresie dotyczącym unikania geograficznego niedopasowania grupy eksperymentalnej i grupy kontrolnej oraz sposobu pomiaru zmiennej wynikowej w obu grupach More generally, our findings make it clear that propensity score matching does not represent magic bullet that solves the selection problem in every context.

9 Program szkoleń NSW Program prowadzono w dziesięciu miejscach w Stanach Zjednoczonych Ameryki Północnej (Atlanta, Chicago, Hartford, Jersey City, Newark, Nowy Jork, Oakland, Filadelfia, San Francisco, Wisconsin) Do programu mogłybyć być przyjęte: kobiety korzystające z federalnego programu pomocy Aid to Families with Dependent Children osoby, które wyszły z uzależnienia od narkotyków osoby z przeszłością kryminalną osoby które przerwały naukę przed ukończeniem szkoły

10 Wyniki LaLonde LaLonde (1986) wykorzystał kilka technik szacowania efektów programu Uzyskane wartości oszacowań efektu programu są uzależnione od wybranej grupy odniesienia i wykorzystanej techniki szacowania parametrów modelu LaLonde podsumował wyniki stwierdzając, że ponieważ nie ma mechanizmu wskazującego, które oszacowania są najlepsze, wykorzystanie danych nieeksperymentalnych nie jest efektywnym sposobem szacowania efektów programu W podobnym badaniu Fraker i Maynard (1987) skupili swą uwagę na procesie selekcji do programu i wysnuli podobne wnioski

11 Wyniki HIT i HIST (1) Autorzy zaproponowali wykorzystanie estymatorów wykorzystujących funkcje jądrowe (ang. kernel) oraz lokalną regresję liniową (ang. local linear matching) W odróżnieniu od łączenia 1 do 1 wykorzystują one większą liczbę obserwacji z grupy kontrolnej przy konstrukcji wyniku kontrfaktycznego Podstawową zaletą tych estymatorów jest znacznie mniejszy asymptotyczny błąd średniokwadratowy Dodatkowo, zaproponowali estymatory metody łączenia dla powtarzanych prób przekrojowych i danych panelowych. Eliminują one stałe w czasie różnice pomiędzy grupą eksperymentalną i kontrolną

12 Wyniki HIT i HIST (2) Wysoka jakość danych jest warunkiem niezbędnym dla uzyskania rzetelnych oszacowań nieznanych parametrów Rozpatrywane przez nich estymatory miały pożądane właściwości przy spełnionych warunkach: identyczne źródło danych dla grupy eksperymentalnej i kontrolnej jednostki obserwowane na tym samym obszarze (w identycznym otoczeniu) dane zawierają bogaty zbiór cech wpływających na selekcję do grupy oraz wynik (efekt) programu HIT oraz HIST przypuszczają, że niska jakość danych jest przyczną wyników LaLonde (1986)

13 Wyniki Dehejia i Wahba Dehejia i Wahba (1999, 2002) wykorzystali metodę propensity score matching do analizy danych LaLonde (1986) Udało im się odtworzyć wyniki eksperymentu z wykorzystaniem danych nieeksperymentalnych Wynik został uzyskany, pomimo tego, że żadne z kryteriów sformułowanych przez HIT (1997) i HIST (1998) nie było spełnione W rezultacie ich badania są często cytowane jako pokazujące, że wykorzystanie propensity score matching rozwiązuje problem nielosowej selekcji

14 Analiza Smith i Todd Wykorzystanie danych LaLonde (1986) Wykorzystanie łączenia 1 do 1 oraz innych technik wykorzystujących propensity score matching Podstawową różnicą między analizą LaLonde (1986) a Dehejia i Wahba (1999 i 2002) jest wykluczenie około 40% obserwacji w celu uwzględnienia jednej dodatkowej zmiennej w modelu Wykluczenie obserwacji spowodowało usunięcie z próby informacji o osobach, które przed programem zarabiały relatywnie więcej Powoduje to, że łatwiej jest rozwiązać problem selekcji Niemal każdy sposób estymacji zastosowany do danych Dehejia i Wahba daje lepsze rezultaty niż zastosowany do danych LaLonde (1986)

15 ATT Celem jest oszacowanie przeciętnego efektu oddziaływania wobec jednostek poddanych oddziaływaniu (ATT) Niech Y 1it oraz Y 0it oznaczają wynik oddziaływania, w grupie eksperymentalnej oraz kontrolnej i są dane jako Y 1it = φ 1 (X it ) + U 1it gdzie U 0it, U 1it IID(0, σ 2 ) Y 0it = φ 0 (X it ) + U 0it

16 Wynik oddziaływania W danych obserwowane jest Y it = D i Y 1it + (1 D i )Y 0it Wstawiając wyrażenia z poprzedniego slajdu otrzymujemy Y it = D i (φ 1 (X it ) + U 1it ) + (1 D i )(φ 0 (X it ) + U 0it ) Po mnożeniu i uporządkowaniu daje to Y it = D i φ 1 (X it ) D i φ 0 (X it ) + D i U 1it D i U 0it + φ 0 (X it ) + U 0it Wyciągając wspólny czynnik D i uzyskujemy Y it = D i [φ 1 (X it φ 0 (X it ) + U 1it U 0it ] +φ }{{} 0 (X it ) + U 0it α (X it )

17 Wynik oddziaływania Zatem wychodząc od równania (2) otrzymaliśmy równanie (3) ze strony 311 Y it = φ 0 (X it ) + D i α (X it ) + U 0it Jest to model o losowych współczynnikach Przy założeniu U 0it = U 1it, czyli część nieobserwowana jest taka sama dla grupy eksperymentalnej i kontrolnej Oraz φ 1 (X it ) φ 0 (X it ) jest stałe względem X it Uzyskiwany jest model przeciętnego efektu oddziaływania wobec jednostek poddanych oddziaływaniu

18 Estymator przed-po Wykorzystuje on charakterystyki obiektów sprzed programu do wyznaczenia kontrfaktycznego wyniku oddziaływania dla grupy eksprymentalnej Zakładając, że wpływ oddziaływania α jest stały niech t oraz t oznaczają dwa okresy czasu przed programem i po jego zakończeniu (w jego trakcie) Estymator przed-po (ang. before-after) jest rozwiązaniem MNK dla α problemu Y it Y it = φ(x it ) φ(x it ) + α + U it U it Estymator jest zgodny jeżeli E(U it U it ) = 0 oraz E((U it U it )(φ(x it ) φ(x it ))) = 0

19 Estymator przed-po Estymator nie jest zidentyfikowany jeżeli model zawiera stałe specyficzne dla okresów czasu Wartość liczbowa estymatora jest podatna na obserwowane w badaniach zjawisko, że wartość zmiennej wynikowej przed programem dla osób zakwalifikowanych do grupy eksperymentalnej maleje (tzw. Ashenfelter dip (Ashenfelter, 1978))

20 Estymator przekrojowy Wykorzystywane są dane przekrojowe z jednego momentu czasu Wykorzystuje on charakterystyki obiektów z grupy kontrolnej do wyznaczenia kontrfaktycznego wyniku oddziaływania dla grupy eksperymentalnej Estymator jest rozwiązaniem MNK dla α problemu Y it = φ(x it ) + α + U it Jeżeli E(U it D i ) 0 lub E(U it φ(x it )) 0 to estymator jest obciążony

21 Estymator różnic w różnicach (DID) Estymator różnic w różnicach (ang. difference-in-differences) szacuje wpływ programu jako różnice między zmianą wartości zmiennej wynikowej dla grupy eksperymentalnej i kontrolnej W tym celu wykorzystywane są informacje sprzed programu t oraz po programie t dla obu grup Estymator jest rozwiązaniem MNK dla α problemu Y it Y it = φ(x it ) φ(x it ) + D i α + U it U it Estymator jest zgodny jeżeli E(U it U it ) = 0, E((U it U it )D i ) = 0 oraz E((U it U it )(φ(x it ) φ(x it ))) = 0

22 Estymator różnic w różnicach (DID) Estymator wymaga spełnienie większej liczby założeń, ale w porównaniu do estymatora przed-po pozwala na umieszczenie w równaniach wyniku stałych specyficznych dla okresów czasu, które są wspólne dla grup

23 Szacowanie ATT Gdy celem jest szacowanie ATT, założenie CIA jest silne. Wystarczy, że E(Y 0 X, D = 1) = E(Y 0 X, D = 0) = E(Y 0 Z) Słabszą wersją warunku wspólnego przedziału określoności (ang. overlap) jest Wówczas Pr(D = 1 Z) < 1 ATT = E(Y 1 Y 0 D = 1) ATT = E(Y 1 D = 1) E X D=1 [E Y (Y 0 D = 1, X )] ATT = E(Y 1 D = 1) E X D=1 [E Y (Y 0 D = 0, X )] Pierwszy czynnik jest szacowany na podstawie grupy eksperymentalnej, drugi kontrolnej

24 Propensity Score Cytat ze strony 314, de-facto powtórzeniem za Rosenbaum i Rubin (1983)

25 Estymator metody łączenia Niech P = Pr(D = 1 X ) Typowy estymator metody łączenia dla efektów oddziaływania wobec jednostek poddanych oddziaływaniu przyjmuje postać ˆα M = 1 n 1 [ Y1i E(Y 0i D i = 1, P i ) ] i I 1 S p gdzie I 1 oznacza grupę eksperymentalną, I 0 zbiór obiektów nie poddanych oddziaływaniu, S P wspólny przedział określoności, n 1 oznacza liczbę jednostek w zbiorze I 1 S p E(Y 0i D i = 1, P i ) = j I 0 W (i, j)y 0j gdzie W (i, j) jest macierzą wag zależną od odległości obiektów z grupy eksperymentalnej do obiektów z grupy kontrolnej

26 Sąsiedztwo Niech C(P i ) oznacza sąsiedztwo dla każdego obiektu i z grupy eksperymentalnej Sąsiadami obiektu i z grupy eksperymentalnej są obiekty z grupy nie poddanej oddziaływaniu, dla których P j C(P i ) Obiekty dołączone do i tworzą zbiór A i = {j I 0 P j C(P i )} Techniki łączenia różnią się sposobem zdefiniowania sąsiedztwa i wag przypisywanych obserwacjom z grupy kontrolnej

27 Łączenie 1 do 1 Łączenie 1 do 1 nazywane jest również metodą najbliższego sąsiada C(P i ) = min j I 0 P i P j Dołączany jest ten obiekt z nie poddanych oddziaływaniu, który ma najbliższą wartość propensity score Zazwyczaj nie jest wymagane spełnienie założenia o wspólnym przedziale określoności (mniej ważne), a łączenie jest bez zwracania (ważne!)

28 Łączenie 1 do 1, Smith i Todd wykorzystują łączenie 1:1 oraz 1:10 W przypadku łączenia 1:10 każda obserwacja otrzymuje identyczną wagę Estymator łączenia 1:10 ma mniejszą wariancję (większa liczba obserwacji) kosztem obciążenia (są przeciętnie gorzej dopasowane) Dodatkowo wykorzystano łączenie bez zwracnia. Ono z kolei zmniejsza obciążenie (potencjalnie lepsze dopasowanie) kosztem zwiększonej wariancji (mniejsza liczba obserwacji) Dehejia i Wahba (1999) wykorzystali łączenie ze zwracaniem Dehejia i Wahba (2002) pokazali, że łącznie bez zwracania prowadzi do łączenia obiektów o znacznych różnicach w wartości propensity score

29 Łączenie 1 do 1, Ujmując problem w sposób bardziej ogólny: łączenie metodą najbliższego sąsiada bez zwracania ma dodatkową wadę, wynikającą z faktu, że wartość oszacowania uzależniona jest od kolejności łączenia obserwacji w zbiorze

30 Odcięcie Łączenie z odcięciem (ang. caliper matching) jest modyfikacją łączenia metodą najbliższego sąsiada Zaproponowane by unikać słabo dopasowanych łączeń Definiowana jest tolerancja na odległość P i od P j C(P i ) = {P j min j I 0 P i P j < ε} Obiekty z grupy eksperymentalnej dla którego nie ma bliskiego odpowiednika w grupie kontrolnej jest usuwany z analizy

31 Odcięcie Ustalenie poziomu odcięcia jest jednym ze sposobów na zapewnienie spełnienia założenia o wspólnym przedziale określoności Problemem jest fakt, trudno jest ustalić a-priori jaka wartość odcięcia jest rozsądna Dehejia i Wahba (2002) wykorzystali wariant odcięcia nazywany łączeniem wewnątrz promienia (ang. radius matching). W tym wariancie wielkość kontrfaktyczna jest średnią wartością dla jednostek nie poddanych oddziaływaniu wewnątrz promienia.

32 Warstwowanie Wspólny przedział określoności jest dzielony na warstwy W każdej warstwie obliczana jest wielkość efektu jako różnica w średniej wartości zmiennej wynikowej w grupie eksperymentalnej i kontrolnej Oszacowaniem efektu oddziaływania jest średnia ważona wyników w każdej warstwie, której wagami są liczebności w grupie eksperymentalnej Ten sposób szacowania został wykorzystany w Dehejia i Wahba (1999). Warstwy dobrano tak, by różnica w średnich wartościach propensity score dla grupy eksperymentalnej i kontrolnej nie była statystycznie istotna

33 Wykorzystanie jądra i lokalnej regresji liniowej Metoda opracowana przez HIT Wykorzystuje ważenie z wykorzystaniem jądrowego estymatora gęstości Estymator metody łączenia dla efektów oddziaływania wobec jednostek poddanych oddziaływaniu jest dany przez ˆα KM = 1 [ Y 1i Y ] 0iK( ) n 1 K( ) i I 1 gdzie K( ) jest funkcją jądrową Wzór na sąsiedztwo jest uzależniony od wyboru funkcji jądra Jeżeli K( ) ma średnią zero i całkuje się do 1 daje to zgodny estymator dla wyniku kontrfaktycznego

34 Lokalna regresja liniowa wykorzystują wariant estymatora wykorzystującego funkcję jądrową nazywany lokalną regresją liniową Można o tym estymatorze myśleć jako o ważonej regresji Y 0j na stałą, w której wagami W (i, j) są wyznaczane przez funkcję jądrową i zależą od odległości między obiektem i a obiektem j. Oszacowanie stałej jest oszacowaniem średniej wartości kontrfaktycznej Lokalna regresja liniowa zawiera stałą oraz czynnik liniowy względem P i Ma lepsze właściwości w przypadku dziur w rozkładzie propensity score oraz, gdy rozkłady propensity score są różne w grupie eksperymentalnej i kontrolnej

35 Przycinanie Wspólny przedział określoności wymaga by funkcja gęstość propensity score w grupie eksperymentalnej i kontrolnej miały wartość większą od zera Mechanizm przycinanie (ang. trimming) zapewnia spełnienie tego warunku Obserwacje z przedziałów dziedziny o mniejszej gęstości niż kwantyl q dystrybuanty rozkładu propensity score nie są uwzględniane

36 Estymator różnic w różnicach Ten estymator jest analogiczny do standardowego estymatora różnic w różnicach dla regresji liniowej W przypadku metody propensity score matching wymagane jest by E(Y 0t Y 0t P, D = 1) = E(Y 0t Y 0t P, D = 0) Dodatkowo warunek wspólnego przedziału określoności musi być spełniony w obu okresach t oraz t ˆα DDM = 1 n 1 i I 1 S p [ (Y1ti Y 0t i ) ] W (i, j)(y 0tj Y 0t j ) j I 1 S p gdzie wartości wagi W (i, j) zależą od wartości estymatora dla danych przekrojowych

37 Nadreprezentacja Przy badaniu wpływu programu dane z reguły nie są prostą próbą losową Uczestnicy eksperymentu są nadmiernie reprezentowani w próbie w porównaniu z osobami, które są potencjalnymi uczestnikami eksperymentu w populacji W takim przypadku ważne jest ważenie zbioru Heckmann i Todd (1995) pokazali, że nawet w przypadku braku wag można wykorzystać łączenie danych ponieważ ilorazy szans w takim przypadku są liniowymi wielokrotnościami prawdziwych wartości Zatem do łączenia można wykorzystać ilorazy szans, czyli PS(X ) 1 PS(X ) W przypadku łączenia 1:1 nie ma znaczenia czy obserwacje są łączone według propensity score czy ilorazów szans

38 Próby Próba LaLonde (1986) Próba Dehejia-Wahba (1999, 2002) Podpróba Deheija-Wahba, bez obserwacji po kwietniu 1976 Próba z CPS Próba z PSID

39 Charakterystyka prób

40 Próba Dehejia-Wahba (1999) Smith i Todd nie byli w stanie odtworzyć prob z badania Dehejia i Wahba pomimo iż uzyskali je od autorów Ustalili, że kryteria doboru były następujące Włączyć wszystkich zakwalifikowanych do programu między styczniem 1976 a kwietniem 1976 Z osób zakwalifikowanych po kwietniu 1976 wybrać tylko takie które miały zerowe zarobki w okresie 13 do 24 miesięcy przed programem Według ST drugi warunek nie jest prawidłowy, dodatkowo zauważają, że zarobki miesiące przed programem nie są zarobkami z 1974 roku

41 Próba Dehejia-Wahba (1999)

42 Podpróba Dehejia-Wahba (1999) Jest to podzbiór zbioru Dehejia i Wahba, z którego usunięto osoby przyjęte do programu po kwietniu 1976 Dzięki temu obserwacje w grupie eksperymentalnej i kontrolnej pochodzą z tego samego okresu, w przeciwieństwie do próby Dehejia i Wahba Oszacowanie wyniku eksperymentu dla tej podpróby wynosi 2748$ i jest znacznie wyższe niż w dwóch pozostałych

43 Specyfikacje propensity score Wykorzystano dwie specyfikacje formy funkcyjnej dla wektora propensity score Pierwsza, wykorzystywana przez Dehejia i Wahba (1999) Druga, zmienne które wykorzystał LaLonde (1986) w równaniu uczestnictwa szacując model z selekcją W obu przypadkach autorzy wykorzystali funkcję logistyczną

44 Oszacowania propensity score Oszacowano trzy pary modeli oddzielnie dla prób CPS oraz PSID W każdym przypadku zmienną zależną była zmienna wskazując przynależność do grupy eksperymentalnej Analogicznie do Dehejia i Wahba autorzy wykorzystali nieznacznie różniące się specyfikacje dla prób CPS oraz PSID Wyniki dla próby Dehejia i Wahba z ich specyfikacją różnią się od oryginalnych z dwóch powodów Dehejia i Wahba nie wykorzystywali obserwacji z grupy kontrolnej eksperymentu Dehejia i Wahba nie uwzględnili stałej w modelu

45 Oszacowania propensity score

46 Oszacowania propensity score Zdecydowana większość oszacowań parametrów jest zgodna z oczekiwaniami Pod względem jakościowym i ilościowym oszacowania różnych wariantów modelu są bardzo podobne Propensity score dobrze sobie radzi jako narzędzie do odseparowania grupy eksperymentalnej od grupy kontrolnej. W pięciu na 6 przypadków poprawnie klasyfikowanych jest ponad 90% obserwacji

47 Oszacowania propensity score Rysunek 1, zbyt duży by umieścić w prezentacji, przedstawia rozkłady logarytmów ilorazów szans dla trzech grup eksperymentalnych połączonych z dwiema grupami kontrolnymi Rozkład propensity score w grupach eksperymentalnych znacznie różni się od rozkładu w grupach kontrolnych Rozkład w grupach kontrolnych jest skupiony na lewo od rozkładu w grupach eksperymentalnych

48 Oszacowania propensity score W przypadku formy funkcyjnej propensity score z badania LaLonde wyniki są podobne Wartości propensity score uzyskane z różnych prób eksperymentalnych są bardzo silnie skorelowane, powyżej 0,9

49 Oszacowania propensity score

50 Dobór zmiennych i testy zbilansowania Z twierdzenia 2 Rosenbauma i Rubina (1983) wynika, że uwzględnienie dodatkowej zmiennej nie powinno nieść informacji o stanie oddziaływania Wykorzystano podejście zaproponowane przez Rosenbauma i Rubina (1985) (test równości standaryzowanych różnic) oraz Dehejia i Wahba (1999) (test równości propensity score w warstwach) Dla danych z artykułu Dehejia i Wahba wykorzystano testy w warstwach Dla zbioru LaLonde dokonano doboru zmiennych na podstawie tego czy zmienna poprawiała prognozy stanu uczestnictwa w programie

51 Oszacowania PSM W celu wyznaczenia obciążenia ST łączą grupę pozostawioną poza programem z grupą kontrolną. Dla niej oszacowanie efektu programu powinno wynosić zero Drugą różnica w porównaniu z Dehejia i Wahba (1999, 2002) jest łączenie względem ilorazów szans Trzecią jest wykorzystanie przycinania do kontrolowania wspólnego przedziału określoności Tabela 5 prezentuje obciążenie estymatorów metody PSM Wykorzystując próbę Dehejia i Wahba i ich specyfikację odtworzono niskie obciążenie oszacowań Specyfikacja DW zastosowana do próby LaLonde czy podpróby DW nie daje tak dobry rezultatów. W przypadku podpróby obciążenie jest jednym z najwyższych w tabeli

52 Oszacowania PSM Wymuszenie wspólnego przedziału określoności dla propensity score ma niewielki wpływ na wartości oszacowań w próbie LaLonde i DW, ale duże znaczenie dla wyników uzyskanych na podstawie podpróby DW Wykorzystanie metody łączenia 1:10 zmniejsza obciążenie w relatywnie małej podpróbie Dehejia i Wahba, ale ma niewielki wpływ na wyniki w bardziej liczebnych próbach Model wykorzystujące zmienne LaLonde zastosowany do danych LaLonde daje słabe wyniki, o wysokim obciążeniu Podsumowując, wyniki uzyskane przez Dehejia i Wahba (1999) są bardzo czułe na zmiany prób i specyfikację propensity score

53 Oszacowania PSM-LLR Wyniki uzyskane metodą lokalnej regresji liniowej są bardzo podobne do uzyskanych metodą łączenia 1:1 (najbliższego sąsiada) Forma funkcyjna zaproponowana przez Dehejię i Wahba prowadzi do uzyskania prawidłowych oszacowań w ich zbiorze i obciążonych w dwóch pozostałych Ponownie, wyniki uzyskane przez Dehejia i Wahba (1999) są bardzo czułe na zmiany prób i specyfikację propensity score

54 Oszacowania PSM-DID Oszacowania PSM-DID prowadzą do uzyskania nieobciążonych wyników w przypadku forma funkcyjnej zaproponowana przez Dehejię i Wahba zastosowanej do zbioru Dehejia i Wahba Obciążenie estymatorów metody PSM-DID jest takiego samego rzędu wielkości jak efekt lub niższe dla wszystkich prób i specyfikacji propensty score Wymuszenie spełnienia założenia o wspólnym przedziale określoności (ang. common support) ma niewielki wpływ na wyniki Ponownie, wyniki uzyskane przez Dehejia i Wahba (1999) są bardzo czułe na zmiany prób i specyfikację propensity score, lecz zmiany są niższe niż w przypadku PSM

55 Oszacowania wykorzystujące regresję Autorzy oszacowali kilka standardowych modeli regresji dla każdego z trzech zbiorów eksperymentalnych w połączeniu z dwiema grupami odniesienia Chcieli sprawdzić jakie własności mają estymatory w tych próbach Po drugie, czy dobre wyniki w próbie Dehejia-Wahba wynikają z własności estymatora PSM czy doboru zmiennych do wektora propensity score Różnica między regresją a łączeniem danych jest taka, że ten ostatni model nie zakłada liniowego związku między zmiennymi

56 Oszacowania wykorzystujące regresję Wyniki prezentuje tabela 7 Porównanie obciążenia estymatorów w próbach pokazuje, że za każdym razem w przypadku regresji i PSM-DID najniższe obciążenie estymatory mają w próbie Dehejia-Wahba Prowadzi to do wniosku, że próba Dehejia-Wahba jest dobrana w taki sposób, że problem selekcji jest łatwiejszy do usunięcia

57 Oszacowania wykorzystujące regresję W przypadku drugiego pytania wyniki nie są jednoznaczne W przypadku grupy kontrolnej z CPS kluczem do uzyskania wyników o niskim obciążeniu jest wybór podpróby i zmiennych do wektora propensity score W przypadku grupy kontrolnej z PSID oszacowania PSM mają dużo niższe obciążenie niż oszacowania z regresji. Zatem to nieliniowość odgrywa rolę

58 Testy specyfikacji Ostatnim elementem sprawdzonym przez Smitha i Todd była strategia wyznaczania specyfikacji modelu przyjęta przez Dehejię i Wahbę Test polegał na zachowaniu specyfikacji propensity score i wykorzystaniu jako zmiennej wynikowej zarobków z 1975 roku, czyli sprzed programu Dla obu grup porównawczych wyniki wykazały, że procedura testowa wykorzystująca zarobki sprzed programu jest efektywna W prawidłowy sposób identyfikuje ona estymatory, których użycie prowadzą do obciążonych oszacowań efektu programu

59 Po pierwsze Estymatory metody PSM nie są bardziej efektywne od tradycyjnych metod ekonometrycznych Wyniki uzyskane przez Deheija i Wahba (1999) wynikają ze specyficznej konstrukcji próby i odpowiedniego doboru zmiennych do wektora propensity score i nie powinny być uogólniane Różne estymatory mają różne założenia i fakt czy są one spełnione w konkretnym zbiorze danych decyduje czy pozwolą na uzyskanie nieobciążonych oszacowań Optymalna strategia szacowania efektów oddziaływania na podstawie danych nieeksperymentalnych zależy od statystycznych własności zbioru danych i mechanizmu selekcji do programu

60 Po drugie Estymatory wykorzystujące PSM-DID mają lepsze właściwości niż standardowe estymatory PSM Pozwalają one na usunięcie wpływu zmiennych których wartości są stałe względem czasu Metody łączenia nie radzą sobie z tym problemem, ponieważ nie jest to ich cel

61 Po trzecie Wybór technik związanych z PSM ma niewielki wpływ na wyniki Zatem wybór między łączeniem 1 do 1 czy opartym o jądro, wybór rozmiaru odcięcia, czy wybór szerokości pasma nie mają wielkiego wpływu na uzyskiwane rezultaty i obciążenie estymatorów Wyjątkiem jest wymuszenie wspólnej części przedziału określoności dla propensity score, które poprawia część oszacowań