Propensity Score Matching

Transkrypt

1 Zajęcia 7

2 Plan na dziś Deheija (2005) 1 Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników 2 PSM dla danych NSW Testy bilansowania

3 Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Practical : a reply to Smith and Todd Rajeev H. Deheija (2005) Journal of Econometrics, vol. 125, str

4 Cel artykułu Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Metoda PSM wymaga oddzielnej specyfikacji formy funkcyjnej propensity score dla każdej kombinacji grupy eksperymentalnej i kontrolnej wykorzystali specyfikację Dehejia i Wahba do dwóch prób, wobec których nie musi być ona prawidłowa Ocena wrażliwości wyników na zmiany w specyfikacji formy funkcyjnej propensity score Metoda PSM działa dobrze dla zbioru NSW. Dla zbioru Dehejia i Wahba pozwala uzyskać rzetelne i odporne oszacowania Jednak PSM nie jest dobrą metodą do analizy zbioru LaLonde oraz Smith i Todd ponieważ wyniki są wrażliwe na niewielkie zmiany w specyfikacji formy funkcyjnej propensity score

5 Wnioski Dehejia i Wahba Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników The method we suggest are not relevant in all situations. There may be important unobservable covariates... However, rather than giving up, or relying on assumptions about the unobserved variables, there is substantial reward in exploring first the information contained in the variables that are observed. In this regard, propensity score methods can offer both a diagnostic on the quality of the comparison group and a means to estimate the treatment impact Dehejia i Wahba (1999), str. 1062

6 Wnioski Dehejia i Wahba Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników The methods that we discuss in the paper should be viewed as a complement to the standard techniques in the researcher s arsenal. By starting with a propensity score analysis, the researcher will have better sense of the extent to which the treatment and comparison groups overlap and consequently of how sensitive estimates will be to the choince of functional form Dehejia i Wahba (2002), str. 106

7 Wnioski Dehejia i Wahba Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Autorzy nie twierdzą, że PSM zawsze pozwala uzyskać rzetelne wyniki dla wartości efektów oddziaływania szacowanych na podstawie danych nieeksperymentalnych Pokazują, że PSM pozwala na uzyskanie rzetelnych oszacowań efektów oddziaływania, oraz starają się określić warunki w których te metody mogą być skuteczne

8 Wnioski Dehejia i Wahba Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Fakt, że propensity score matching nie pozwala na uzyskanie odpornych oszacowań dla zbioru LaLonde daje się wywnioskować z artykułów Dehejia i Wahb (1999, 2002) Zbiór danych Dehejia i Wahba został zaprojektowany tak, aby była dostępna informacja o wysokości zarobków z dwóch lat przed rozpoczęciem programu Dehejia i Wahba pokazali, że dla zbioru danych zawierającego tylko informacje o wysokości zarobków na rok przed programem oszacowania nie są odporne na niewielkie zmiany w specyfikacji propensity score

9 Próby Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników LaLonde (1986) - PSID LaLonde (1986) - CPS - PSID - CPS

10 Forma funkcyjna Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Dehejia i Wahba (2005) podkreślają wagę różnej specyfikacji propensity score dla różnych zbiorów (a) stała, age, age squared, years of schooling, years of schooling squared, high school dropout status, black, hispanic, married, (Re74=0), (Re75=0), educationxre74, age cubic (b) stała, age, age squared, years of schooling, years of schooling squared, high school dropout status, black, hispanic, married, Re74, Re74 squared, Re75, Re75 squared, (Re74=0)Xblack

11 Zbilansowanie prób Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników

12 Komentarz do tabeli 1 Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Nie ma powodu by przypuszczać, że specyfikacja wektora propensity score dobrana do próby Dehejia i Wahba będzie bilansować rozkłady w innych próbach Wyniki pokazują iż rzeczywiście tak jest Wyniki uzyskane przez Smith i Todd (2002) dla innych prób nie są zaskakujące ponieważ wektor propensity score nie bilansuje rozkładów charakterystyk Profesor Dehejia zauważa, że zazwyczaj osobna specyfikacja propensity score jest konieczna do zbilansowania różnych kombinacji grupy eksperymentalnej i kontrolnej

13 Wnioski Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Tabela 2 prezentuje wykorzystane w artykule formy funkcyjne wektora propensity score Zostały one wybrane na podstawie zbilansowania rozkładów cech sprzed programu

14 Specyfikacje wektora propensity score Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników

15 Wyniki Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Wyniki oszacowań dla ATT uzyskano wykorzytując łączenie najbliższego sąsiada (ang. nearest neighbour matching) Błędy standardowe szacunku uzyskano wykorzystując technikę bootstrap We wszystkich sześciu przypadkach wyniki nieeksperymentalne są bliskie rezultatom eksperymentu

16 Oszacowania efektów programu Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Zatem, wykorzystując PSM można odworzyć wyniki eksperymentalne Jednak, istotne jest sprawdzenie odporności rezultatów na niewielkie zmiany specyfikacji propensity score

17 Metoda analizy (1/2) Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Zastosowanie specyfikacji wektora propensity score do pozostałych pięciu kombinacji grupy eksperymentalnej i kontrolnej Oczekiwane jest, że taka specyfikacja wektora propensity score nie będzie w stanie skutecznie zbilansować rozkładów dla innych grup Rozszerzenie specyfikacji wektora propensity score o interakcje i kolejne potęgi (do czwartej) zmienych

18 Oszacowania efektów programu Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników

19 Metoda analizy (2/2) Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników W przypadku rozszerzenia specyfikacji oszacowano wszystkie możliwe modele Na podstawie wartości kryterium informacyjnego Schwarza wybrano z nich 10 najlepszych, które bilansowały rozkłady charakterystyk w sześciu równomiernie rozmieszczonych warstwach Rezultaty wskazują, że specyfikacja propensity score jest poprawna wyłącznie dla zbioru Dehejia i Wahba

20 Wrażliwość rezultatów, PSID Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników

21 Wrażliwość rezultatów, CPS Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników

22 Podsumowanie Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Oddzielna i odpowiednia specyfikacja wektora propensity score musi być dobrana dla każdej pary grupy eksperymentalnej i grupy kontrolnej Po oszacowaniu rozmiaru efektu należy przeprowadzić analizę wrażliwości Propensity score matching does not provide a silver-bullet, black box technique that can estimate the treatment effect under all circumstances; neither the developers of the technique nor Dehejia and Wahba have claimed otherwise. However, with input and judgment from the researcher, it can be a useful and powerful tool

23 PSM dla danych NSW Testy bilansowania Rejoinder Jeffrey A. Smith, Petra E. Todd (2005) Journal of Econometrics, vol. 125, str

24 Motywacja Deheija (2005) PSM dla danych NSW Testy bilansowania Artykuły Dehejia i Wahba (1999, 2002) w dużym stopniu przyczyniły się do popularności techniki Propensity Score Matching nawet w przypadku słabych danych. Smith i Todd wierzą, że w tym przypadku PSM jest nieefektywny. Analiza dotyczy wyników artykułów Dehejia i Wahba (1999,2002) ponieważ mają one duży wpływ na literaturę Autorzy pokazują, że PSM nie rozwiązuje problemu oceny programu nawet w próbie Dehejia i Wahba

25 Czy PSM jest rozwiązaniem? PSM dla danych NSW Testy bilansowania Dehejia (2005) twierdzi, że PSM pozwala uzyskać rzetelne i odporne oszacowania efektów programu dla podpróby Dehejia i Wahba Jednak Dehejia (2005) nie uzasadnia wyboru wykorzystanej podpróby, który był kwestionowany przez Brakuje wyjaśnienia dlaczego do próby włączono osoby przystępujące do programu po kwietniu 1976 z zerowymi zarobkami w okresie miesiące przed początkiem programu, a nie włączono osób przystępujących do programu po kwietniu 1976 z niezerowymi zarobkami w okresie miesiące przed początkiem programu

26 Czy PSM jest rozwiązaniem? PSM dla danych NSW Testy bilansowania Smith i Todd zgadzają się, że różne zbiory danych wymagają rożnych specyfikacji wektora propensity score, ale niewielkie modyfikacje zbioru danych nie powinny powodować konieczności dużych zmian w specyfikacji propensity score

27 PSM dla danych NSW Testy bilansowania Analiza wrażliwości Autorzy szacują 18 modeli dla próby PSID i 18 modeli dla grupy CPS Wykorzystują łączenie metodą najbliższego sąsiada ze zwracaniem (ang. nearest neighbour matching with replcement) Wykorzystano specyfikacja wektora propensity score zaproponowaną przez artykuł Dehejia (2005) Dla każdej z grup odniesienia oszacowane wartości obiciążenia estymatora różniły się w zależności od tego czy model dla propensity score był szacowany z wykorzystaniem grupy eksperymentalnej, grupy kontrolnej, czy obu naraz; czy obciążenie szacowano na podstawie jednostek z grupy eksperymentalnej, grupy kontrolnej, czy obu naraz; i wyboru ziarna dla generatora liczb losowych!

28 Tabela 1 Deheija (2005) PSM dla danych NSW Testy bilansowania Dla każdej grupy odniesienia pierwsza kolumna pokazuje obciążenie oszacowania ATT wykorzystującego oryginalną grupę eksperymentalną i nieeksperymentalną grupę odniesienia Dla każdej grupy odniesienia druga kolumna pokazuje obciążenie oszacowania ATT wykorzystującego oryginalną grupę kontrolną i nieeksperymentalną grupę odniesienia W każdym przypadku obciążenie powinno wynosić 0

29 PSM dla danych NSW Testy bilansowania Technika szacowania efektów oddziaływania Smith i Todd wykorzystali łączenie według wartości propensity score Nie narzucali warunku wspólnego przedziału określoności Ćwiczenie powtórzono dla różnych wartości ziarna by sprawdzić w jakim stopniu kolejność łączenia obserwacji wpływa na wyniki. Kolejność może być istotna w przypadku prób o małej liczebności

30 Obciążenie oszacowań Deheija (2005) PSM dla danych NSW Testy bilansowania

31 Wnioski Deheija (2005) PSM dla danych NSW Testy bilansowania Wartości obciążenia różnią się znacznie między grupami Te zróżnicowanie autorzy przypisują efektowi prób o małej liczebności Wykorzystanie grupy eksperymentalnej do oszacowania wartości propensity score i obciążenia prowadzi do uzyskania oszacowań o niewielkim obciążeniu Obciążenie oszacowań uzyskane na podstawie porównania eksperymentalnej i nieeksperymentalnych grup kontrolnych są znaczne W przypadku próby CPS wyniki zależą od ustawienia generatora liczb losowych

32 PSM dla danych NSW Testy bilansowania Dlaczego rezultaty zależą od liczb losowych W przypadku próby CPS występuje duża liczba obserwacji o identycznych wartościach cech a w konsekwencji identycznych wartościach propensity score Ale takie obserwacje znacznie różnią się pod względem wartości zmiennej wynikowej - zarobki w 1978 roku Występowanie grup obserwacji o jednakowej wartości propensity score zwiększa wariancję oszacowań W takim przypadku dobrze jest powtórzyć kilkukrotnie łączenie

33 PSM dla danych NSW Testy bilansowania Wyniki łączenia z wykorzystaniem jądra Aby pokazać, że niestabilność wyników w Tabeli 1 nie jest powodowana wyłącznie przez łączenie metodą najbliższego sąsiada powtórzono obliczenia wykorzystując łączenie oparte na jądrze (ang. kernel matching) Estymator jądrowy w porównaniu z estymatorem metody najbliższego sąsiada ma wyższe obciążenie, ale jest bardziej efektywny, gdyż wykorzystuje więcej informacji Wybrano jądro Epanechnikova i pięć wartości dla pasma (ang. bandwidth. Wyniki oszacowań nie zależą od liczb losowych, ale od wartości pasma

34 PSM dla danych NSW Testy bilansowania Wyniki łączenia z wykorzystaniem jądra

35 PSM dla danych NSW Testy bilansowania Wyniki łączenia z wykorzystaniem jądra Wzrost efektywności oszacowań można łatwo zauważyć porównując odchylenia standardowe ocen parametrów. W tabeli 2 są niższe niż w tabeli 1 Wyniki w tabeli 2 są wrażliwe na to czy szacowane jest obciążenie grupy eksperymentalnej czy kontrolnej oraz na podstawie jakiej próby szacowana propensity score Oszacowania wykorzystujące estymator jądrowy mają wyższe obciążenie niż łączenie metodą najbliższego sąsiada (1 do 1)

36 Test standaryzowanych różnic PSM dla danych NSW Testy bilansowania Test standaryzowanych różnic zaproponowany przez Rosenbauma i Rubina (1985) 1 n SDIFF (Z k ) = i I 1 (Z ki j I 0 w(i, j)z kj ) vari I1 (Z ki )+var j I0 (Z kj ) Standaryzowana różnica dla zmiennej Z k jest różnicą w średnich wartościach zmiennej pomiędzy grupą eksperymentalną i dołączoną (ważoną) grupą kontrolną dzieloną przez pierwiastek kwadratowy przeciętnej wariancji Z k w nieważonej grupie eksperymentalnej i kontrolnej Statystyka nie ma krytycznej wartości. Rosenbaum i Rubin sugerują, że wartość 20 jest duża. Niedogodnością jest fakt, iż można obniżyć standaryzowane obciążenie dodając obserwacje do grupy odniesienia 2

37 Test Hotellinga Deheija (2005) PSM dla danych NSW Testy bilansowania Test Hotellinga T 2 weryfikuje hipotezę że średnie wartości cech w dwóch grupach są indentyczne Test traktuje wagi jako stałe, podczas gdy w rzeczywistości są losowe Moc testu zależy od korelacji między wariancją próby a wariancją wag, która nie jest obserwowana

38 Test wykorzystujący regresję PSM dla danych NSW Testy bilansowania Dla każdej zmiennej należącej do wektora propesity score szacowana jest regresja pomocnicza Z k = β 0 + β 1 P(Z) + β 2 P(Z) 2 + β 3 P(Z) 3 + β 4 P(Z) 4 + β 5 D + β 6 DP(Z) + β 7 DP(Z) 2 + β 8 DP(Z) 3 + β 9 P(Z) 4 + η i weryfikowana jest hipoteza β 5 = β 6 = β 7 = β 8 = β 9 = 0 Sprawdzane jest czy wskaźnik przydzielenia do grupy niesie informacje o wartości propensity score. Jeżeli próby są zbilansowane nie powinien.

39 Zbilansowanie Deheija (2005) PSM dla danych NSW Testy bilansowania Pierwszy wiersz pokazuje 5 największą wartość oraz największą wartość standaryzowanego obciążenia Drugi wiersz pokazuje wartość p dla testu Hotellinga Trzeci wiersz liczbę wartości p mniejszych od 0,01; 0,05 oraz 0,1

40 Zbilansowanie Deheija (2005) PSM dla danych NSW Testy bilansowania

41 Zbilansowanie Deheija (2005) PSM dla danych NSW Testy bilansowania Wyniki testów zbilansowania są słabe Test Hotellinga i test wykorzystujący regresję wskazują na brak zbilansowania w każdym przypadku W niektórych przypadkach różne testy wskazują na różny wynik dotyczący zbilansowania rozkładów charakterystyk Niskie obciążenie w próbie Dehejia i Whba jest efektem tego, że w próbie o małej liczebności wektor propensity score o słabych właściwościach statystycznych może generować niskie obciążenie

42 Podsumowanie Deheija (2005) PSM dla danych NSW Testy bilansowania PSM nie rozwiązuje problemu selekcji w zbiorze danych NSW Małe liczebności prób wykorzystane do szacowania efektów programu powodują dużą wrażliwość wyników na niewielkie zaburzenia Błędy standardowe oszacowań są relatywnie wysokie zarówno w artykule Dehejia i Wahba jak i Smith i Todd Przyczyną wysokich błędów standardowych jest fakt, że w PSID oraz CPS jest niewielka liczba obserwacji podobnych do eksperymentalnych