Propensity Score Matching

Podobne dokumenty
Propensity Score Matching

Propensity Score Matching

Metoda najmniejszych kwadratów

Stanisław Cichocki. Natalia Nehrebecka

Definicja danych panelowych Typy danych panelowych Modele dla danych panelowych. Dane panelowe. Część 1. Dane panelowe

Zastosowanie schematu analizy difference-in-differences w badaniach politycznych. Adam Gendźwiłł Tomasz Żółtak Uniwersytet Warszawski

Projektowanie eksperymentu Część 1

Natalia Neherbecka. 11 czerwca 2010

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Propensity score matching (PSM)

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Ekonometria egzamin 31/01/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Wprowadzenie Modele o opóźnieniach rozłożonych Modele autoregresyjne o opóźnieniach rozłożonych. Modele dynamiczne.

STATYSTYKA MATEMATYCZNA

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Czasowy wymiar danych

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Schemat eksperymentalny Część 1: Ścieżka techniczna

Projektowanie eksperymentu część 2

Propensity Score Matching

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Ekonometria egzamin 07/03/2018

WYKŁAD 8 ANALIZA REGRESJI

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Modele quasi-eksperymentalne: Model regresji nieciągłej

Losowe zmienne objaśniające. Rozszerzenia KMRL. Rozszerzenia KMRL

Metoda najmniejszych kwadratów

Szkice rozwiązań z R:

Rozdział 8. Regresja. Definiowanie modelu

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Modele quasi-eksperymentalne: Różnica w różnicy oraz inne metody

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Prawdopodobieństwo i statystyka

Elementy statystyki STA - Wykład 5

Przyczynowość Kointegracja. Kointegracja. Kointegracja

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Metody Ekonometryczne

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Propensity Score Matching

METODY STATYSTYCZNE W BIOLOGII

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Pomiar wpływu I: Jak mierzyć wpływ? Wstęp do projektowania ewaluacji

Uogolnione modele liniowe

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Modele quasi-eksperymentalne: Model regresji nieciągłej

PDF created with FinePrint pdffactory Pro trial version

Modele quasi-eksperymentalne: Różnica w różnicy oraz inne metody

Testowanie hipotez statystycznych

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną

Pomiar wpływu I: Jak mierzyć wpływ? Wstęp do projektowania ewaluacji

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

STATYKA Z UWZGLĘDNIENIEM DUŻYCH SIŁ OSIOWYCH

Modele quasi-eksperymentalne: Model regresji nieciągłej

Prawdopodobieństwo i statystyka r.

Analiza niepewności pomiarów

Testowanie hipotez statystycznych

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Metoda największej wiarogodności

Stanisław Cichocki Natalia Neherbecka

Analiza współzależności zjawisk

1.1 Klasyczny Model Regresji Liniowej

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Zawansowane modele wyborów dyskretnych

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Prawdopodobieństwo i statystyka r.

Ekonometria. Własności składnika losowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Metody statystyczne.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Ćwiczenie 5 PROGNOZOWANIE

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Egzamin z ekonometrii - wersja ogólna

Testowanie hipotez statystycznych

Stacjonarność Integracja. Integracja. Integracja

Ćwiczenia IV

Badanie efektów wsparcia zrealizowanego na rzecz osób młodych w ramach Programu Operacyjnego Wiedza Edukacja Rozwój I BADANIE WSKAŹNIKOWE

Etapy modelowania ekonometrycznego

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Regresja i Korelacja

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Mikroekonometria 2. Mikołaj Czajkowski Wiktor Budziński

KORELACJE I REGRESJA LINIOWA

Przedmiot ekonometrii

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Transkrypt:

Zajęcia 4

Plan na dziś 1 Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych 2

Angrist i Pischke, 2009 Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych Mostly Harmless Econometrics. An Empiricist s Companion Joshua D. Angrist, Jörn-Steffen Pischke, Princeton Univirsity Press

Oddziaływanie Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych Rozważamy oddziaływanie, które może być opisane przez zmienną binarną T {0,1} Rezultat oddziaływania dla obiektu i jest oznaczony Y i Pytanie badawcze: Czy oddziaływanie T wpływa na rezultat Y i Dla każdego obiektu są dwa potencjalne rezultaty oddziaływania Y i = { Y 1i jeżeli T i = 1 Y 0i jeżeli T i = 0

Potencjalny a obserwowany wynik (1) Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych Zależność między obserwowanym rezultatem oddziaływania a rezultatami potencjalnymi można zapisać wykorzystując model przełącznikowy zaproponowany przez Quandta (1972) Y i = Y 1i T i + Y 0i (1 T i ) Średnia wartość Y i w grupie to średnia ważona wyniku poddania oddziaływaniu eksperymentalnemu i kontrolnemu Wagi są proporcjonalne do udziału obiektów w grupie

Potencjalny a obserwowany wynik (2) Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych Można związek między obserwowanym rezultatem oddziaływania a rezultatami potencjalnymi przedstawić w inny sposób Y i = Y 0i + (Y 1i Y 0i )T i Wówczas Y 1i Y 0i może być interpretowane jako przyczynowy efekt oddziaływania T

ATT Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych Obserwowaną różnicę między rezultatem oddziaływania eksperymentalnego i kontrolnego można odnieść do przyczynowego efektu oddziaływania E(Y i T i = 1) E(Y i T i = 0) = }{{} Obserwowana różnica E(Y 1i T i = 1) E(Y 0i T i = 1) + }{{} ATT E(Y 0i T i = 1) E(Y 0i T i = 0) }{{} obciążenie Obciążenie jest efektem różnic w cechach obiektów pomiędzy grupą eksperymentalną i grupą kontrolną

Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych Regresja dla danych eksperymentalnych (1) W modelu regresji liniowej E(Y X ) = X β Przyjmujemy założenie, że efekt oddziaływania jest identyczny dla każdego obiektu Wówczas, możemy równanie zapisać jako jest to równoważne Y 1i Y 0i = ρ Y i = Y 0i + (Y 1i Y 0i )T i Y i = EY 0i + (Y 1i Y 0i )T i + Y 0i EY 0i Y i = α + ρt i + ε

Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych Regresja dla danych eksperymentalnych (2) Obliczając warunkowe wartości oczekiwane dla różnych wartości zmiennej wskazującej oddziaływanie otrzymujemy E(Y i T i = 1) = α + ρ + E(ε i T i = 1) E(Y i T i = 0) = α + E(ε i T i = 1) odejmując stronami otrzymujemy = ρ E(Y i T i = 1) E(Y i T i = 0) = }{{} ATT + E(ε i T i = 1) E(ε i T i = 0) }{{} obciążenie Zatem obciążenie związane z selekcją wynika z korelacji między błędem losowym ε i i oddziaływaniem T i

Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych Regresja dla danych eksperymentalnych (3) Ponieważ E(ε i T i = 1) E(ε i T i = 0) = E(Y 0i T i = 1) E(Y 0i T i = 0) to korelacja między błędem losowym ε i i oddziaływaniem T i odzwierciedla różnicę między obiektami z grupy eksperymentalnej i kontrolnej. Jeżeli założenie o warunkowej niezależności jest spełnione to obciążenie nie występuje

Regresja a PSM Potencjalne i obserwowane wyniki Regresja dla danych eksperymentalnych Załóżmy, że na podstawie tego samego zbioru danych szacowany jest model regresji liniowej z wykorzystaniem MNK oraz PSM Zazwyczaj występują różnice w oszacowaniach punktowych efektu między modelami ale nie są one statystycznie istotne Dzieje się tak, gdyż regresja też jest sposobem łączenia danych W przypadku PSM zmienna wynikowa ważona jest rozkładem cech jednostek z grupy eksperymetnalnej W przypadku regresji MNK zmienna wynikowa ważona jest rozkładem cech jednostek z obu grup Formalne dowody nr str. 74-75.

Evaluating the Econometric Evaluations of Training Programs with Experimental Data Robert LaLonde The American Economic Review, vol. 76/4, ss. 604-620.

Cel badania Celem artykułu jest porównanie wyników randomizowanego eksperymentu z możliwymi do uzyskania oszacowaniami wyniku uzyskanymi z wykorzystaniem metod ekonometrycznych przy założeniu braku dostępu do danych eksperymentalnych Celem dodatkowym jest ukazanie zdolności wybranych metod ekonometrycznych do odtworzenia takich wyników

Informacje ogólne National Supported Work Demonstration był programem czasowego zatrudnienia dla osób pozbawionych podstawowych kwalifikacji Program był zarządzany przez Manpower Demonstration Research Corporation Uczestnicy programu byli przydzielani do różnego typu działań w sposób losowy Pomoc otrzymała jedynie część aplikujących. W rezultacie schemat programu zapewnił istnienie grupy odniesienia

Program szkoleń NSW Program prowadzono w dziesięciu miejscach w Stanach Zjednoczonych Ameryki Północnej (Atlanta, Chicago, Hartford, Jersey City, Newark, Nowy Jork, Oakland, Filadelfia, San Francisco, Wisconsin) Do programu mogłybyć być przyjęte: kobiety korzystające z federalnego programu pomocy Aid to Families with Dependent Children osoby, które wyszły z uzależnienia od narkotyków osoby z przeszłością kryminalną osoby które przerwały naukę przed ukończeniem szkoły

Aid to Families with Dependent Children Z programu Aid to Families with Dependent Children (AFDC) do programu National Supported Work Demonstration przyjęto kobiety, które były w chwili aplikowania bezrobotne pracowały nie dłużej niż 3 miesiące przez 6 miesięcy przed złożeniem aplikacji nie wychowywały dziecka w wieku poniżej 6 lat otrzymywały pomoc z programu AFDC przez conajmniej 30 z 36 miesięcy poprzedzających złożenie aplikacji

Działania w ramach NSW (1) Uczestnikom programu gwarantowano pracę przez 9 do 18 miesięcy, w zależności od miejsca działania programu i grupy uczestników Uczestnicy byli podzieleni na wspólnie pracujące grupy, które spotykał się z doradcami NSW Uczestnicy byli finansowani przez NSW Wynagrodzenia uczestników były niższe od stawek rynkowych, ale mogli otrzymywać premię za uczestnictwo i wyniki Po zakończeniu programu uczestnicy musieli znaleźć niesubsydiowaną pracę

Działania w ramach NSW (2) Uczestnicy programu różnili się wcześniejszym doświadczeniem zawodowym Prace, które wykonywali zależały od umiejscowienia programu Kobiety zazwyczaj pracowały w usługach Mężczyźni przeważnie w sektorze budowlanym

Dane o programie Od wszystkich aplikujących zebrano informacje o charakterystykach demograficzych, doświadczeniu zawodowym i zarobkach Po przyjęciu do programu lub grupy kontrolnej wywiad był powtarzany do 4 razy co 9 miesięcy Oczywiście nie do wszystkich aplikantów udało się dotrzeć Dzięki losowemu wyborowi ankietowanych wycieranie próby nie powinno powodować obciążenia wyników

Charakterystyka danych

Zarobki w grupie eksperymentalnej i kontrolnej W tabeli 2 oraz 3 w kolumnie Treatments zaprezentowano przeciętne roczne zarobki dla grupy eksperymentalnej, w kolumnie Control dla grupy kontrolnej Program rozpoczął się w 1976 roku. Jak widać zarobki przed programem nie różnią się w obu grupach W trakcie programu uczestnicy posiadają przeciętnie wyższe zarobki Po zakończeniu programu różnice w zarobkach między uczestnikami a grupą kontrolną zanikają

Zarobki kobiet

Zarobki mężczyzn

Eksperymentalne oszacowania zarobków W tabelach oszacowań ukazano oszacowania surowej różnicy z zarobkach oraz różnicy uzyskanej z modelu regresji liniowej, w którym jako zmienne egzogeniczne obok wskaźnika uczestnictwa umieszczono wiek, wiek podniesiony do kwadratu, liczbę lat spędzonych w systemie edukacyjnym, czy opuścił szkołę przed ukończeniem (dropout), zmienne wskazujące na grupę etniczną Pierwsze dwa wiersze obu ukazują oszacowania na podstawie danych eksperymentalnych Wszystkie oszacowania w kolumnach 3-10/11 są nieobciążonymi estymatorami wpływu uczestnictwa w programie

Oszacowania dla kobiet

Oszacowania dla mężczyzn

Wprowadzenie Jeżeli dane eksperymentalne dotyczące grupy odniesienia (kontrolnej) są niedostępne losowana jest odpowiednia grupa z populacji Przy szacowaniu efektów programu uwzględniane są różnice w charakterystykach obiektów/jednostek między grupami Uwaga, oszacowania metodami nieeksperymentalnymi są uzależnione od specyfikacji równania dla zmiennej wynikowej (równania płacy)

Źródła danych Oryginalną grupę kontrolną zastąpiono grupami wybranymi z Panel Study of Income Dynamics (PSID) oraz Current Population Survey (CPS) Są to dwa duże badania przekrojowe prowadzone w Stanach Zjednoczonych Ameryki Północnej W Polsce odpowiednikiem PSID jest BBGD Odpowiednikiem CPS jest BAEL

Grupy odniesienia - kobiety PSID-1: Wszystkie gospodarstwa które uczestniczyły w badaniu w latach 1975-1979, głową była kobieta w wieku 20-55 i nie była na emeryturze w 1975 PSID-2: PSID-1 ograniczone do kobiet otrzymujących AFDC w 1975 PSID-3: PSID-2 ograniczone do kobiet nie pracujących w 1976 PSID-4: PSID-1 ograniczone do kobiet z dziećmi, żadne dziecko nie jest młodsze niż 5 lat CPS-SSA-1: Wszystkie kobiety z CPS CPS-SSA-2: Wszystkie kobiety z CPS otrzymujące AFDC w 1975 CPS-SSA-3: Wszystkie kobiety z CPS, które nie pracowały wiosną 1976 CPS-SSA-4: Wszystkie kobiety z CPS otrzymujące AFDC w 1975, które nie pracowały wiosną 1976

Zarobki kobiet

Grupy odniesienia - mężczyźni PSID-1: Wszystkie gospodarstwa które uczestniczyły w badaniu w latach 1975-1979, głową był mężczyzna w wieku 20-55 i nie był na emeryturze w 1975 PSID-2: PSID-1 ograniczone do mężczyzn nie pracujących w 1976 PSID-3: PSID-1 ograniczone do mężczyzn nie pracujących w 1975 i 1976 CPS-SSA-1: Wszyscy mężczyźni z CPS w wieku do 55 lat CPS-SSA-2: Wszyscy mężczyźni z CPS w wieku do 55 lat, nie pracujący wiosną 1975 CPS-SSA-3: CPS-SSA-1 ograniczone do bezrobotnych mężczyzn w 1976, których dochód w 1975 był poniżej linii ubóstwa

Zarobki mężczyzn

Modele jednoetapowe Szacowane jest równanie płacy postaci y it = δd i + βx it + b i + n t + ε it (1) gdzie: ε it = ρε it 1 + ν it (2) d is = y is + γz is + η is (3) D i = 1 if d is > 0 (4)

Modele jednoetapowe Kolumna 4: różnica w zarobkach po programie Kolumna 5: różnica w zarobkach po programie, dodatkowo uwzględniono wiek, liczbę lat w edukacji i grupę etniczną Kolumna 6: różnica w zmianie zarobków między grupą eksperymentalną i kontrolną (estymator efektów stałych) Kolumna 7: estymator efektów stałych, dodatkowo uwzględniono wiek Kolumna 8: estymator efektów stałych, dodatkowo uwzględniono zarobki przed programem Kolumna 9: estymator efektów stałych, dodatkowo uwzględniono zarobki przed programem oraz zmienne demograficzne: wiek, kwadrat wieku, liczba lat w systemie edukacyjnym, nieukończona szkoła (dropout) i pochodzenie etniczne Kolumna 10 i 11: kontrolowano wszystkie obserwowane zmienne

Oszacowania dla kobiet

Oszacowania dla mężczyzn

Modele dwuetapowe Modele dwuetapowe zawierają dwa równania równanie uczestnictwa do kompensowania różnic między grupami równanie zarobków y it = δd i + βx it + rh i + ε it ε it = ρε it 1 + ν it d is = y is + γz is + η is D i = 1 if d is > 0 [ φ(γz i ) rh i = ρσ ε D i 1 Φ(γZ i ) (1 D i) φ(γz ] i) Φ(γZ i )

Oszacowania dwu-etapowe

Dyskusja wyników Wartości oszacowań efektu programu są uzależnione od wybranej grupy odniesienia i wykorzystanej techniki szacowania parametrów modelu Wartości oszacowań dla kobiet są pozytywne i co do wartości wyższe niż oszacowania uzyskane metodami eksperymentalnymi, podczas gdy dla mężczyzn negatywne i niższe niż te uzyskane metodami eksperymentalnymi Uwzględnienie zarobków sprzed programu pozwala na uzyskanie wartości oszacowań zbliżonych do wyników eksperymentalnych Modele dwuetapowe kontrolujące selekcję dają wyniki bliższe wynikom eksperymentalnym w porównaniu z modelami jednoetapowymi