Modele selekcji próby

Podobne dokumenty
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

gdzie. Dla funkcja ma własności:

Własności statystyczne regresji liniowej. Wykład 4

METODY STATYSTYCZNE W BIOLOGII

Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

STATYSTYKA MATEMATYCZNA

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

STATYSTYKA MATEMATYCZNA

Statystyka, Ekonometria

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wskaźnik kondycji finansowej kredytobiorcy. Aspekty metodologiczne.

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

STATYSTYKA MATEMATYCZNA

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Niestacjonarne zmienne czasowe własności i testowanie

STATYSTYKA

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Metoda Automatycznej Detekcji Interakcji CHAID

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Współliniowość zmiennych objaśniających: test Walda i test Studenta w badaniu istotności zmiennych objaśniających - przykłady.

Metoda największej wiarygodności

Estymacja punktowa i przedziałowa

4. Średnia i autoregresja zmiennej prognozowanej

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

e) Oszacuj parametry modelu za pomocą MNK. Zapisz postać modelu po oszacowaniu wraz z błędami szacunku.

Metoda najmniejszych kwadratów

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Wprowadzenie do analizy korelacji i regresji

Z poprzedniego wykładu

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

PDF created with FinePrint pdffactory Pro trial version

Komputerowa analiza danych doświadczalnych

Regresja i Korelacja

Komputerowa analiza danych doświadczalnych

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Wiadomości ogólne o ekonometrii

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Estymacja przedziałowa. Przedział ufności

STATYSTYKA MATEMATYCZNA

Prawdopodobieństwo i statystyka r.

Wnioskowanie statystyczne. Statystyka w 5

Mikroekonometria 2. Mikołaj Czajkowski Wiktor Budziński

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Rozkłady zmiennych losowych

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Badania eksperymentalne

Testowanie hipotez statystycznych.

OPIS MODUŁ KSZTAŁCENIA (SYLABUS)

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Metody probabilistyczne

Analiza współzależności dwóch cech I

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

KARTA KURSU. Kod Punktacja ECTS* 1

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Wojciech Skwirz

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Metodologia badań psychologicznych. Wykład 12. Korelacje

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Mikroekonometria 2. Mikołaj Czajkowski Wiktor Budziński

Metoda największej wiarygodności

Metoda największej wiarogodności

S YLABUS MODUŁU (PRZEDMIOTU) I nformacje ogólne. Nie dotyczy

STATYSTYKA MATEMATYCZNA

Natalia Nehrebecka Stanisław Cichocki. Wykład 13

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Stanisław Cichocki. Natalia Nehrebecka

Transkrypt:

Plan zajęć 1 Problem selekcji próby- heurystyka 2 Problem selekcji próby- teoria 3 Przykład empiryczny

Selekcja próby 1 regresja tobitowa- cenzurowanie(transformacja) zmiennej objaśnianej 2 regresja ucięta- próba nie zawiera obserwacji, dla których zmienna objaśniana jest mniejsza(większa) niż ustalony próg (y C).Efekt:próbaobciążona 3 model selekcji(heckman): również próba obciążona, ale poprzezbardziejskomplikowanywarunekniży C.

Model Heckmana y 2 =γ T z+u 2 (1) y 1 =β T x+u 1 (2) 1 Zmienney 1 ixsąobserwowanetylkodlatychobserwacji,dlaktórychy 2 C. C=0zreguły. 2 Dodatkowo,zamiasty 2 obserwujemy1(y 2 C). 3 Równanie(1)- model dwumianowy 4 Równanie(2)- model liniowy(czasami również dwumianowy) 5 Interesują nas parametry β z drugiego równania. Pierwsze mówi tylko, na czym polega obciążenie próby w pierwszym kroku. 6 Wektoryzmiennychobjaśniającychxizmogą,aleniemusząmiećczęść wspólną. 7 Gdyu 1 iu 2 sąnieskorelowane-niemaproblemuselekcji,możnadrugierównanie estymować MNK. Im większa korelacja, tym silniejszy wpływ selekcji próby.

Przykład- credit scoring 1 Pewna populacja ubiega się o kredyt. 2 Tylkonielicznymudzielasiękredytu(selekcja:y 2 =1jeżeliudzielono,y 2 =0 jeżeli nie udzielono). 3 Dla tych, którym udzielono kredytu obserwujemy zmienną określającą fakt spłacenialubnie(y 1 =1jeżelispłacił,y 1 =0jeżeliniespłacił). 4 Problem estymacji modelu dwumianowego objaśniającego prawdopodobieństwo spłaty kredytu. 5 Próba nie jest reprezentatywna(filtrowana selekcją opartą np. o działający model scoringowy). 6 Przypuśćmy, że chcemy zaktualizować/zbudować nowy model scoringowy na podstawie dostępnych danych. 7 Przypuśmy, że w oryginalnej populacji studenci(dla ustalenia uwagi- można w to miejsce wstawić dowolną inną grupę) są złymi kredytobiorcami(często nie spłacają).

Przykład- credit scoring 1 Model scoringowy zbudowany na oryginalnych danych uchwyci tę regułę. 2 Skutek: większość studentów nie będzie otrzymywać kredytu. Kredyt dostaną tylko nieliczni studenci, którzy mieli pozytywne wartości na pozostałych zmiennych objaśniających i dla nich prawdopodobieństwo niespłacenia jest niskie. 3 Skutek: w grupie osób, które otrzymały kredyt będą studenci, ale tacy, którzy często spłacają kredyt. 4 Przy aktualizacji/budowie nowego modelu na danych filtrowanych starym modelem scoringowym, nowy model uchwyci regułę student to dobry kredytobiorca. 5 Skutek: model uchwyci relację odwrotną do rzeczywistej!

Model selekcji próby Heckmana y 2 =γ T z+u 2 (3) y 1 =β T x+σu 1 dla y 1 >0 (4) u 1,u 2 N(0,1),Corr(u 1,u 2 )=ρ

Estymacja E[u 1 u 2 ]=ρu 2 φ(c) E[u 1 u 2 >C]=E[ρu 2 u 2 >C]=ρE[u 2 u 2 >C]=ρ 1 Φ(C) W modelu regresji: E[y 1 y 2 >0]=β T x+σe[u 1 y 2 >0]=β T x+σe[u 1 u 2 > γ T z]= β T x+σe[ρu 2 u 2 > γ T z]=β T x+σρλ(γ T z)

Estymacja, cd. Dwustopniowa procedura: 1 OszacujmodelprobitowyP(y 2 >0)=Φ(γ T z).użyjˆγdo obliczeniaodwrotnegoilorazumillsaˆλ. 2 OszacujzapomocąMNKmodelregresjiy 1 odxiˆλ wykorzystując dostępne obserwacje. alternatywa: metoda największej wiarygodności

Przykład- zarobki 1 Równanie(1): zmienna objaśniana: fakt, czy dana osoba pracowała 2 Równanie(2): zmienne objaśniające: wiek, wiek do kwadratu, dochód rodziny, wykształcenie, dzieci 3 Równanie(2): zmienna objaśniana: płaca(ww) 4 Równanie(2): zmienne objaśniające: doświadczenie, doświadczenie do kwadratu, wykształcenie, fakt, czy osoba mieszka w dużym mieście 5 http://www.stern.nyu.edu/~wgreene/text/edition6/tablef4-1.txt 6 Informacje o zarobkach są dostępne tylko dla tych, którzy pracowali

Komendy staty 1 Tobit:tobitYX1X2,ll.Opcjalloznacza,żeobserwacjesą cenzurowane z dołu. Program domyślnie wybierze jako punkt cenzurowania najmniejszą wartość zmiennej objaśnianej w próbie. 2 Regresja ucięta: truncreg Y X1 X2, ll(0). Wyrażenie ll(0) oznacza, że obcięcie jest w zerze. 3 Model Heckmana metodą największej wiarygodności: heckmanyx1x2select(y2=x3x4)ametodą dwukrokową heckman Y X1 X2 twostep select(y2 = X3 X4) rhoforce. 4 Test na niezależność równań: LRtestofindep.eqns.(rho=0):chi2(1)=234.62Prob> chi2 = 0.0000