Propensity Score Matching

Podobne dokumenty
Propensity Score Matching

Propensity Score Matching

Propensity score matching (PSM)

Propensity Score Matching

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

STATYSTYKA MATEMATYCZNA

Monte Carlo, bootstrap, jacknife


Propensity Score Matching

Testowanie hipotez statystycznych

Zastosowanie techniki Propensity Score Matching w badaniach ewaluacyjnych

Zmienne zależne i niezależne

Pobieranie prób i rozkład z próby

Oszacowanie i rozkład t

Natalia Neherbecka. 11 czerwca 2010

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

METODY STATYSTYCZNE W BIOLOGII

Kolokwium ze statystyki matematycznej

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Wykład 9 Wnioskowanie o średnich

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

METODY STATYSTYCZNE W BIOLOGII

Metoda Monte Carlo. Jerzy Mycielski. grudzien Jerzy Mycielski () Metoda Monte Carlo grudzien / 10

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Analiza niepewności pomiarów

METODY STATYSTYCZNE W BIOLOGII

Testowanie hipotez statystycznych. Wprowadzenie

Metody Statystyczne. Metody Statystyczne.

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Ekonometria egzamin 07/03/2018

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Sterowanie wielkością zamówienia w Excelu - cz. 3

S t a t y s t y k a, część 3. Michał Żmihorski

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Regresja logistyczna (LOGISTIC)

PDF created with FinePrint pdffactory Pro trial version

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Stanisław Cichocki. Natalia Nehrebecka

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Zróżnicowanie poziomu ubóstwa w Polsce z uwzględnieniem płci

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Testowanie hipotez statystycznych

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Spis treści 3 SPIS TREŚCI

Szkice rozwiązań z R:

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Zmienna bazowa. 100(1 α)% przedział ufności dla µ: 100(α)% test hipotezy dla µ = µ 0; odrzucić, jeżeli Ȳ nie jest w przedziale

Zastosowanie schematu analizy difference-in-differences w badaniach politycznych. Adam Gendźwiłł Tomasz Żółtak Uniwersytet Warszawski

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Zadania ze statystyki cz.8. Zadanie 1.

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

ANALIZA ZDOLNOŚCI PROCESU O ZALEŻNYCH CHARAKTERYSTYKACH

SMOP - wykład. Rozkład normalny zasady przenoszenia błędów. Ewa Pawelec

Rozdział 8. Regresja. Definiowanie modelu

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

WYKŁAD 2: PSYCHOLOGIA POZNAWCZA JAKO NAUKA EKSPERYMENTALNA

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Inteligentna analiza danych

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Elementy statystyki STA - Wykład 5

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Redukcja wariancji w metodach Monte-Carlo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Wykład 4: Statystyki opisowe (część 1)

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

STATYSTYKA MATEMATYCZNA

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Wprowadzenie do programu RapidMiner, część 4 Michał Bereta

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Stosowana Analiza Regresji

Jednoczynnikowa analiza wariancji

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Transkrypt:

Zajęcia 7

Plan na dziś Deheija (2005) 1 Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników 2 PSM dla danych NSW Testy bilansowania

Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Practical : a reply to Smith and Todd Rajeev H. Deheija (2005) Journal of Econometrics, vol. 125, str. 355-364.

Cel artykułu Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Metoda PSM wymaga oddzielnej specyfikacji formy funkcyjnej propensity score dla każdej kombinacji grupy eksperymentalnej i kontrolnej wykorzystali specyfikację Dehejia i Wahba do dwóch prób, wobec których nie musi być ona prawidłowa Ocena wrażliwości wyników na zmiany w specyfikacji formy funkcyjnej propensity score Metoda PSM działa dobrze dla zbioru NSW. Dla zbioru Dehejia i Wahba pozwala uzyskać rzetelne i odporne oszacowania Jednak PSM nie jest dobrą metodą do analizy zbioru LaLonde oraz Smith i Todd ponieważ wyniki są wrażliwe na niewielkie zmiany w specyfikacji formy funkcyjnej propensity score

Wnioski Dehejia i Wahba Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników The method we suggest are not relevant in all situations. There may be important unobservable covariates... However, rather than giving up, or relying on assumptions about the unobserved variables, there is substantial reward in exploring first the information contained in the variables that are observed. In this regard, propensity score methods can offer both a diagnostic on the quality of the comparison group and a means to estimate the treatment impact Dehejia i Wahba (1999), str. 1062

Wnioski Dehejia i Wahba Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników The methods that we discuss in the paper should be viewed as a complement to the standard techniques in the researcher s arsenal. By starting with a propensity score analysis, the researcher will have better sense of the extent to which the treatment and comparison groups overlap and consequently of how sensitive estimates will be to the choince of functional form Dehejia i Wahba (2002), str. 106

Wnioski Dehejia i Wahba Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Autorzy nie twierdzą, że PSM zawsze pozwala uzyskać rzetelne wyniki dla wartości efektów oddziaływania szacowanych na podstawie danych nieeksperymentalnych Pokazują, że PSM pozwala na uzyskanie rzetelnych oszacowań efektów oddziaływania, oraz starają się określić warunki w których te metody mogą być skuteczne

Wnioski Dehejia i Wahba Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Fakt, że propensity score matching nie pozwala na uzyskanie odpornych oszacowań dla zbioru LaLonde daje się wywnioskować z artykułów Dehejia i Wahb (1999, 2002) Zbiór danych Dehejia i Wahba został zaprojektowany tak, aby była dostępna informacja o wysokości zarobków z dwóch lat przed rozpoczęciem programu Dehejia i Wahba pokazali, że dla zbioru danych zawierającego tylko informacje o wysokości zarobków na rok przed programem oszacowania nie są odporne na niewielkie zmiany w specyfikacji propensity score

Próby Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników LaLonde (1986) - PSID LaLonde (1986) - CPS - PSID - CPS

Forma funkcyjna Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Dehejia i Wahba (2005) podkreślają wagę różnej specyfikacji propensity score dla różnych zbiorów (a) stała, age, age squared, years of schooling, years of schooling squared, high school dropout status, black, hispanic, married, (Re74=0), (Re75=0), educationxre74, age cubic (b) stała, age, age squared, years of schooling, years of schooling squared, high school dropout status, black, hispanic, married, Re74, Re74 squared, Re75, Re75 squared, (Re74=0)Xblack

Zbilansowanie prób Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników

Komentarz do tabeli 1 Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Nie ma powodu by przypuszczać, że specyfikacja wektora propensity score dobrana do próby Dehejia i Wahba będzie bilansować rozkłady w innych próbach Wyniki pokazują iż rzeczywiście tak jest Wyniki uzyskane przez Smith i Todd (2002) dla innych prób nie są zaskakujące ponieważ wektor propensity score nie bilansuje rozkładów charakterystyk Profesor Dehejia zauważa, że zazwyczaj osobna specyfikacja propensity score jest konieczna do zbilansowania różnych kombinacji grupy eksperymentalnej i kontrolnej

Wnioski Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Tabela 2 prezentuje wykorzystane w artykule formy funkcyjne wektora propensity score Zostały one wybrane na podstawie zbilansowania rozkładów cech sprzed programu

Specyfikacje wektora propensity score Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników

Wyniki Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Wyniki oszacowań dla ATT uzyskano wykorzytując łączenie najbliższego sąsiada (ang. nearest neighbour matching) Błędy standardowe szacunku uzyskano wykorzystując technikę bootstrap We wszystkich sześciu przypadkach wyniki nieeksperymentalne są bliskie rezultatom eksperymentu

Oszacowania efektów programu Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Zatem, wykorzystując PSM można odworzyć wyniki eksperymentalne Jednak, istotne jest sprawdzenie odporności rezultatów na niewielkie zmiany specyfikacji propensity score

Metoda analizy (1/2) Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Zastosowanie specyfikacji wektora propensity score do pozostałych pięciu kombinacji grupy eksperymentalnej i kontrolnej Oczekiwane jest, że taka specyfikacja wektora propensity score nie będzie w stanie skutecznie zbilansować rozkładów dla innych grup Rozszerzenie specyfikacji wektora propensity score o interakcje i kolejne potęgi (do czwartej) zmienych

Oszacowania efektów programu Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników

Metoda analizy (2/2) Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników W przypadku rozszerzenia specyfikacji oszacowano wszystkie możliwe modele Na podstawie wartości kryterium informacyjnego Schwarza wybrano z nich 10 najlepszych, które bilansowały rozkłady charakterystyk w sześciu równomiernie rozmieszczonych warstwach Rezultaty wskazują, że specyfikacja propensity score jest poprawna wyłącznie dla zbioru Dehejia i Wahba

Wrażliwość rezultatów, PSID Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników

Wrażliwość rezultatów, CPS Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników

Podsumowanie Deheija (2005) Powtórzenie wyników Dehejia i Wahba Oszacowania propensity score Analiza wrażliwości wyników Oddzielna i odpowiednia specyfikacja wektora propensity score musi być dobrana dla każdej pary grupy eksperymentalnej i grupy kontrolnej Po oszacowaniu rozmiaru efektu należy przeprowadzić analizę wrażliwości Propensity score matching does not provide a silver-bullet, black box technique that can estimate the treatment effect under all circumstances; neither the developers of the technique nor Dehejia and Wahba have claimed otherwise. However, with input and judgment from the researcher, it can be a useful and powerful tool

PSM dla danych NSW Testy bilansowania Rejoinder Jeffrey A. Smith, Petra E. Todd (2005) Journal of Econometrics, vol. 125, str. 365-375.

Motywacja Deheija (2005) PSM dla danych NSW Testy bilansowania Artykuły Dehejia i Wahba (1999, 2002) w dużym stopniu przyczyniły się do popularności techniki Propensity Score Matching nawet w przypadku słabych danych. Smith i Todd wierzą, że w tym przypadku PSM jest nieefektywny. Analiza dotyczy wyników artykułów Dehejia i Wahba (1999,2002) ponieważ mają one duży wpływ na literaturę Autorzy pokazują, że PSM nie rozwiązuje problemu oceny programu nawet w próbie Dehejia i Wahba

Czy PSM jest rozwiązaniem? PSM dla danych NSW Testy bilansowania Dehejia (2005) twierdzi, że PSM pozwala uzyskać rzetelne i odporne oszacowania efektów programu dla podpróby Dehejia i Wahba Jednak Dehejia (2005) nie uzasadnia wyboru wykorzystanej podpróby, który był kwestionowany przez Brakuje wyjaśnienia dlaczego do próby włączono osoby przystępujące do programu po kwietniu 1976 z zerowymi zarobkami w okresie 13-24 miesiące przed początkiem programu, a nie włączono osób przystępujących do programu po kwietniu 1976 z niezerowymi zarobkami w okresie 13-24 miesiące przed początkiem programu

Czy PSM jest rozwiązaniem? PSM dla danych NSW Testy bilansowania Smith i Todd zgadzają się, że różne zbiory danych wymagają rożnych specyfikacji wektora propensity score, ale niewielkie modyfikacje zbioru danych nie powinny powodować konieczności dużych zmian w specyfikacji propensity score

PSM dla danych NSW Testy bilansowania Analiza wrażliwości Autorzy szacują 18 modeli dla próby PSID i 18 modeli dla grupy CPS Wykorzystują łączenie metodą najbliższego sąsiada ze zwracaniem (ang. nearest neighbour matching with replcement) Wykorzystano specyfikacja wektora propensity score zaproponowaną przez artykuł Dehejia (2005) Dla każdej z grup odniesienia oszacowane wartości obiciążenia estymatora różniły się w zależności od tego czy model dla propensity score był szacowany z wykorzystaniem grupy eksperymentalnej, grupy kontrolnej, czy obu naraz; czy obciążenie szacowano na podstawie jednostek z grupy eksperymentalnej, grupy kontrolnej, czy obu naraz; i wyboru ziarna dla generatora liczb losowych!

Tabela 1 Deheija (2005) PSM dla danych NSW Testy bilansowania Dla każdej grupy odniesienia pierwsza kolumna pokazuje obciążenie oszacowania ATT wykorzystującego oryginalną grupę eksperymentalną i nieeksperymentalną grupę odniesienia Dla każdej grupy odniesienia druga kolumna pokazuje obciążenie oszacowania ATT wykorzystującego oryginalną grupę kontrolną i nieeksperymentalną grupę odniesienia W każdym przypadku obciążenie powinno wynosić 0

PSM dla danych NSW Testy bilansowania Technika szacowania efektów oddziaływania Smith i Todd wykorzystali łączenie według wartości propensity score Nie narzucali warunku wspólnego przedziału określoności Ćwiczenie powtórzono dla różnych wartości ziarna by sprawdzić w jakim stopniu kolejność łączenia obserwacji wpływa na wyniki. Kolejność może być istotna w przypadku prób o małej liczebności

Obciążenie oszacowań Deheija (2005) PSM dla danych NSW Testy bilansowania

Wnioski Deheija (2005) PSM dla danych NSW Testy bilansowania Wartości obciążenia różnią się znacznie między grupami Te zróżnicowanie autorzy przypisują efektowi prób o małej liczebności Wykorzystanie grupy eksperymentalnej do oszacowania wartości propensity score i obciążenia prowadzi do uzyskania oszacowań o niewielkim obciążeniu Obciążenie oszacowań uzyskane na podstawie porównania eksperymentalnej i nieeksperymentalnych grup kontrolnych są znaczne W przypadku próby CPS wyniki zależą od ustawienia generatora liczb losowych

PSM dla danych NSW Testy bilansowania Dlaczego rezultaty zależą od liczb losowych W przypadku próby CPS występuje duża liczba obserwacji o identycznych wartościach cech a w konsekwencji identycznych wartościach propensity score Ale takie obserwacje znacznie różnią się pod względem wartości zmiennej wynikowej - zarobki w 1978 roku Występowanie grup obserwacji o jednakowej wartości propensity score zwiększa wariancję oszacowań W takim przypadku dobrze jest powtórzyć kilkukrotnie łączenie

PSM dla danych NSW Testy bilansowania Wyniki łączenia z wykorzystaniem jądra Aby pokazać, że niestabilność wyników w Tabeli 1 nie jest powodowana wyłącznie przez łączenie metodą najbliższego sąsiada powtórzono obliczenia wykorzystując łączenie oparte na jądrze (ang. kernel matching) Estymator jądrowy w porównaniu z estymatorem metody najbliższego sąsiada ma wyższe obciążenie, ale jest bardziej efektywny, gdyż wykorzystuje więcej informacji Wybrano jądro Epanechnikova i pięć wartości dla pasma (ang. bandwidth. Wyniki oszacowań nie zależą od liczb losowych, ale od wartości pasma

PSM dla danych NSW Testy bilansowania Wyniki łączenia z wykorzystaniem jądra

PSM dla danych NSW Testy bilansowania Wyniki łączenia z wykorzystaniem jądra Wzrost efektywności oszacowań można łatwo zauważyć porównując odchylenia standardowe ocen parametrów. W tabeli 2 są niższe niż w tabeli 1 Wyniki w tabeli 2 są wrażliwe na to czy szacowane jest obciążenie grupy eksperymentalnej czy kontrolnej oraz na podstawie jakiej próby szacowana propensity score Oszacowania wykorzystujące estymator jądrowy mają wyższe obciążenie niż łączenie metodą najbliższego sąsiada (1 do 1)

Test standaryzowanych różnic PSM dla danych NSW Testy bilansowania Test standaryzowanych różnic zaproponowany przez Rosenbauma i Rubina (1985) 1 n SDIFF (Z k ) = 100 1 i I 1 (Z ki j I 0 w(i, j)z kj ) vari I1 (Z ki )+var j I0 (Z kj ) Standaryzowana różnica dla zmiennej Z k jest różnicą w średnich wartościach zmiennej pomiędzy grupą eksperymentalną i dołączoną (ważoną) grupą kontrolną dzieloną przez pierwiastek kwadratowy przeciętnej wariancji Z k w nieważonej grupie eksperymentalnej i kontrolnej Statystyka nie ma krytycznej wartości. Rosenbaum i Rubin sugerują, że wartość 20 jest duża. Niedogodnością jest fakt, iż można obniżyć standaryzowane obciążenie dodając obserwacje do grupy odniesienia 2

Test Hotellinga Deheija (2005) PSM dla danych NSW Testy bilansowania Test Hotellinga T 2 weryfikuje hipotezę że średnie wartości cech w dwóch grupach są indentyczne Test traktuje wagi jako stałe, podczas gdy w rzeczywistości są losowe Moc testu zależy od korelacji między wariancją próby a wariancją wag, która nie jest obserwowana

Test wykorzystujący regresję PSM dla danych NSW Testy bilansowania Dla każdej zmiennej należącej do wektora propesity score szacowana jest regresja pomocnicza Z k = β 0 + β 1 P(Z) + β 2 P(Z) 2 + β 3 P(Z) 3 + β 4 P(Z) 4 + β 5 D + β 6 DP(Z) + β 7 DP(Z) 2 + β 8 DP(Z) 3 + β 9 P(Z) 4 + η i weryfikowana jest hipoteza β 5 = β 6 = β 7 = β 8 = β 9 = 0 Sprawdzane jest czy wskaźnik przydzielenia do grupy niesie informacje o wartości propensity score. Jeżeli próby są zbilansowane nie powinien.

Zbilansowanie Deheija (2005) PSM dla danych NSW Testy bilansowania Pierwszy wiersz pokazuje 5 największą wartość oraz największą wartość standaryzowanego obciążenia Drugi wiersz pokazuje wartość p dla testu Hotellinga Trzeci wiersz liczbę wartości p mniejszych od 0,01; 0,05 oraz 0,1

Zbilansowanie Deheija (2005) PSM dla danych NSW Testy bilansowania

Zbilansowanie Deheija (2005) PSM dla danych NSW Testy bilansowania Wyniki testów zbilansowania są słabe Test Hotellinga i test wykorzystujący regresję wskazują na brak zbilansowania w każdym przypadku W niektórych przypadkach różne testy wskazują na różny wynik dotyczący zbilansowania rozkładów charakterystyk Niskie obciążenie w próbie Dehejia i Whba jest efektem tego, że w próbie o małej liczebności wektor propensity score o słabych właściwościach statystycznych może generować niskie obciążenie

Podsumowanie Deheija (2005) PSM dla danych NSW Testy bilansowania PSM nie rozwiązuje problemu selekcji w zbiorze danych NSW Małe liczebności prób wykorzystane do szacowania efektów programu powodują dużą wrażliwość wyników na niewielkie zaburzenia Błędy standardowe oszacowań są relatywnie wysokie zarówno w artykule Dehejia i Wahba jak i Smith i Todd Przyczyną wysokich błędów standardowych jest fakt, że w PSID oraz CPS jest niewielka liczba obserwacji podobnych do eksperymentalnych