(LMP-Liniowy model prawdopodobieństwa)

Podobne dokumenty
Analiza wariancji. Źródło: Aczel A. D. Statystyka w zarządzaniu. Barbara Gładysz

Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y

Analiza wariancji. Źródło: Aczel A. D. Statystyka w zarządzaniu. Barbara Gładysz

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

PAKIETY STATYSTYCZNE

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

Stanisław Cichocki. Natalia Nehrebecka

Metoda najmniejszych kwadratów

Uogolnione modele liniowe

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

BADANIE ZALEśNOŚCI CECHY Y OD CECHY X - ANALIZA REGRESJI PROSTEJ

Ćwiczenia IV

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Egzamin z ekonometrii - wersja ogólna

Ekonometria dla IiE i MSEMat Z7

Stanisław Cichocki. Natalia Nehrebecka

EKONOMETRYCZNA PROGNOZA ODPŁYWÓW Z BEZROBOCIA

1 Modele ADL - interpretacja współczynników

Czasowy wymiar danych

Regresja logistyczna. Regresja logistyczna. Przykłady DV. Wymagania

STUDIA I STOPNIA EGZAMIN Z EKONOMETRII

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Własności statystyczne regresji liniowej. Wykład 4

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Budowa modelu i testowanie hipotez

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Zawansowane modele wyborów dyskretnych

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Regresja logistyczna. Regresja logistyczna. Wymagania. Przykłady DV

Przyczynowość Kointegracja. Kointegracja. Kointegracja

Regresja liniowa wprowadzenie

Ekonometria Ćwiczenia 19/01/05

Ekonometria egzamin 07/03/2018

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Ekonometria egzamin 31/01/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Egzamin z ekonometrii wersja IiE, MSEMAT

Diagnostyka w Pakiecie Stata

Rozdział 8. Regresja. Definiowanie modelu

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

4. Średnia i autoregresja zmiennej prognozowanej

Wojciech Skwirz

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Stosowana Analiza Regresji

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Stanisław Cichocki. Natalia Nehrebecka

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Ekonometria dla IiE i MSEMat Z12

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Szacowanie modeli wielowartościowych w pakiecie STATA

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

1. Stacjonarnośd i niestacjonarnośd szeregów czasowych 2. Test ADF i test KPSS 3. Budowa modeli ARMA dla zmiennych niestacjonarnych 4.

Algorytm k-średnich. Źródło: LaroseD.T., Okrywanie wiedzy w danych.wprowadzenie do eksploracji danych, PWN, Warszawa 2005.

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Statystyka I. Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy)

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

1.9 Czasowy wymiar danych

Egzamin z ekonometrii wersja IiE, MSEMAT

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

Problem równoczesności w MNK

Metody Ekonometryczne

Wykład 8 Dane kategoryczne

5. Model sezonowości i autoregresji zmiennej prognozowanej

STATYSTYKA MATEMATYCZNA

gdzie. Dla funkcja ma własności:

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Model 1: Estymacja KMNK z wykorzystaniem 32 obserwacji Zmienna zależna: st_g

Ekonometria Wykład 4 Prognozowanie, sezonowość. Dr Michał Gradzewicz Katedra Ekonomii I KAE

e) Oszacuj parametry modelu za pomocą MNK. Zapisz postać modelu po oszacowaniu wraz z błędami szacunku.

Matematyka i statystyka matematyczna dla rolników w SGGW

Modele warunkowej heteroscedastyczności

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Wprowadzenie Modele o opóźnieniach rozłożonych Modele autoregresyjne o opóźnieniach rozłożonych. Modele dynamiczne.

Zadanie 1 1. Czy wykresy zmiennych sugerują, że zmienne są stacjonarne. Czy występuje sezonowość?

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Statystyka medyczna II. 7. Wstęp do regresji logistycznej. Regresja logistyczna prosta, porównanie z miarami ryzyka.

Wprowadzenie Testy własności składnika losowego. Diagnostyka modelu. Część 1. Diagnostyka modelu

S t a t y s t y k a, część 3. Michał Żmihorski

140, , ,000 80, ROK

1.1 Klasyczny Model Regresji Liniowej

Rozwiązanie: MSFA MSAB

Statystyka i Analiza Danych

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Transkrypt:

OGÓLNY MODEL REGRESJI BINARNEJ (LMP-Liniowy model prawdopodobieństwa) Dla k3 y α α α α + x + x + x 2 2 3 3 + α x x α x x + α x x + α x x + ε + x 4 2 5 3 6 2 3 7 2 3

Zał.: Wszystkie zmienne interakcyjne są binarne V

ESTYMACJA MNK wówczas: X T X V T DV oraz: X T y V T d

Macierz V jest macierzą kwadratową stopnia s Macierz D jest macierzą diagonalną rr Elementy wektora d, to n r n r n r d n. r liczba obserwacji, dla których y oraz wartości zmiennych objaśniajacych równają się r-temu wierszowi macierzy V y.. n. r nr + n r y lub y. n n, liczba obserwacji z y, y.

Estymatory współczynników a n n.. a a udział obserwacji z wartością y, wśród obserwacji, dla których wszyskie x

a n n.2.2 n n.. a 2 n n.3.3 n n.. n n n..2.3 a 4 + n. n.2 n.3 n n.5.5

Twierdzenie (Amundsen 974) Jeżeli w ogólnym binarnym LMP występuje k- zmiennych binarnych, wszystkie (2 k -k-) zmiennych interakcyjnych, w próbie obserwowana jest każda kombinacja tych zmiennych, Wtedy wartości teoretyczne Y otrzymane MNK: yˆ i P i ( y ) [, ]

Wady. Wymagana duża liczba obserwacji (muszą występować wszystkie kombinacje). 2. Nie zawszy układy interaktywne mają sens.

Zredukowany model regresji binarnej Usunięcie zmiennej, Usunięcie interakcji, Zmienne ortogonalne.

Zredukowany model regresji binarnej ze zmiennymi ortogonalnymi V

Twierdzenie Jeżeli w LMP wszystkie zmienne objaśniające są ortogonalne, to: yˆ i P i ( y ) [, ]

Model regresji binarnej z jedną zmienną y α + α + x ε Interpretacja parametrów: a a a + a» ocena prawdopodobieństwa dla x,» ocena przyrostu prawdopodobieństwa, gdy x: ->,» ocena prawdopodobieństwa dla x,

UOGÓLNIONY MODEL REGRESJI LINIOWEJ

Przykład l.p X-płeć X2-dochód X3-żyranci X4-majątek Y -decyzja k 8 t ś t 2 m 82 t ś t 3 m 95 t ś t 4 k 7 n ś n 5 k 9 n ś n 6 k 65 n m n 7 m 7 n m n 8 k 73 n m n 9 m 85 n m n m 2 n m t m 75 t d t 2 m 88 t d t 3 k t d t 4 m 78 n d t Źródło: Aczel A., Statystyka w zarządzaniu, PWN, Warszawa 2.

Przykład - dane do regresji l.p X-płeć X3-żyranci Y -decyzja 2 3 4 5 6 7 8 9 2 3 4

95,% confidence intervals for coefficient estimates (Y) -------------------------------------------------------------------------------------------- Standard Parameter Estimate Error Lower Limit Upper Limit V.I.F. -------------------------------------------------------------------------------------------- CONSTANT,6,94534,493,79987 Plec -,5,94534 -,34987,4987,2857 Zyranci -,35,94534 -,54987 -,593,2857 -------------------------------------------------------------------------------------------- The StatAdvisor --------------- This table shows 95,% confidence intervals for the coefficients in the model. Confidence intervals show how precisely the coefficients can be estimated given the amount of available data and the noise which is present. Also included are variance inflation factors, which can be used to measure the extent to which the predictor variables are correlated amongst themselves. VIF's above, of which there are, are usually considered to indicate serious multicollinearity. Serious multicollinearity greatly increases the estimation error of the model coefficients as compared with an orthogonal sample.

General Linear Models --------------------- Number of dependent variables: Number of categorical factors: 2 Number of quantitative factors: Analysis of Variance for Y ----------------------------------------------------------------------------- Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------- Model 2,22857 2,429,2,3 Residual,2,99 ----------------------------------------------------------------------------- Total (Corr.) 3,42857 3 Type III Sums of Squares ------------------------------------------------------------------------------------ Source Sum of Squares Df Mean Square F-Ratio P-Value ------------------------------------------------------------------------------------ Plec,3,3 2,75,255 Zyranci,63333,63333 4,97,26 Residual,2,99 ------------------------------------------------------------------------------------ Total (corrected) 3,42857 3 All F-ratios are based on the residual mean square error. R-Squared 65, percent R-Squared (adjusted for d.f.) 58,6364 percent Standard Error of Est.,33289 Mean absolute error,22857 Durbin-Watson statistic,75 Residual Analysis --------------------------------- Estimation Validation n 4 MSE,99 MAE,22857 MAPE ME -,5863E-7 MPE

l.p X-płeć X3-żyranci Y -decyzja Prognoza Y^ k t t,6,5 +,35,8 2 m t t,6 +,5 +,35, 3 m t t, 4 k n n,6,5,35, 5 k n n, 6 k n n, 7 m n n,6 +,5,35,4 8 k n n, 9 m n n,4 m n t,4 m t t, 2 m t t, 3 k t t,8 4 m n t,4 Nie ma wszystkich kombinacji!

Table of Least Squares Means for Y with 95, Percent Confidence Intervals ------------------------------------------------------------------------- Stnd. Lower Upper Level Count Mean Error Limit Limit ------------------------------------------------------------------------- GRAND MEAN 4,6,94534,493,799 Plec 6,45,387,4589,754 8,75,6775,49298,7 Zyranci 8,25,6775 -,7228,57 6,95,387,64589,254 ------------------------------------------------------------------------- The StatAdvisor --------------- This table shows the mean Y for each level of the factors. It also shows the standard error of each mean, which is a measure of its sampling variability. The rightmost two columns show 95,% confidence intervals for each of the means. You can display these means and intervals by selecting Means Plot from the list of Graphical Options.

Modele logitowe i probitowe Y zmienna losowa Y gdy dany wariant wystąpi, gdy dany wariant nie wystąpi Rozkład prawdopodobieństwa zmiennej losowej Y p( Y ) p p( Y ) p

Logitowy model prawdopodobieństwa p ( ) F( β + β x +... + β x + ξ ) P Y k k exp + exp ( β + βx +... + βk xk + ξ ) ( β + β x +... + β x + ξ ) k k W modelach logitowych zakłada się, że funkcja F jest dystrybuantą rozkładu logistycznego.,9,8,7,6,5,4,3,2, - -5 5

logity Logitami nazywamy wartości funkcji odwrotnej do F L ln p p L > < gdy gdy gdy p p > p <,5 p,5,5

W modelu logitowym wartość logitu szacuje się według zależności: L... x k k β + β x + + β + ξ

Uogólniona metoda najmniejszych kwadratów gdzie:» wariancja składników losowych ( ) L V X X V X b T T v k v v V... 2 ( ) i i i i p p n v

Wartości liczbowe dla zmiennych jakościowych Y (spłata kredytu) tak ; nie - Płeć m -, k Żyranci tak -; nie Majątek m ; ś 2; d - 3

Model logitowy Zbieżność osiągnięta po 24 iteracjach Model : Estymacja Logit z wykorzystaniem 4 obserwacji -4 Zmienna zależna: y_splata Zmienna Współczynnik Błąd stand. Statystyka t Nachylenie (do średniej) const -95,826 4689 -, plec 34,55 6923,,253324 dochod,35 387,77, 9,74838E-7 zyranci 58,9625 4689,,4386 majatek 27,5838 7744,,,2586 Srednia dla zmiennej y_splata,57 Liczba przypadków 'poprawnej predykcji' 4 (,%) f(beta'x) do średnich niezależnych zmiennych, McFaddena pseudo-r-kwadrat Logarytm wiarygodności -5,399e- Test ilorazu wiarygodności: Chi-kwadrat(4) 9,24 (wartość p,744) Kryterium informacyjne Akaika (AIC) Kryterium bayesowskie Schwarza (BIC) 3,953 Kryterium infor.hannana-quinna (HQC) 9,7422 Prognoza Empiryczne 6 8

l.p X-płeć X2-dochód X3-żyranci X4-majątek Y -decyzja Prognoza Y^ k 8 t ś t 2 m 82 t ś t 3 m 95 t ś t 4 k 7 n ś n 5 k 9 n ś n 6 k 65 n m n 7 m 7 n m n 8 k 73 n m n 9 m 85 n m n m 2 n m t m 75 t d t 2 m 88 t d t 3 k t d t 4 m 78 n d t

Probitowy model prawdopodobieństwa p ( ) F( β + β x +... + β x + ξ ) Φ( β + β x +... + β x + ξ ) P Y k k k k,2,8 W modelach probitowych zakłada się, że funkcja F jest dystrybuantą rozkładu normalnego.,6,4,2-8 -6-4 -2 2 4 6 8

Probity Probitami nazywamy wartości funkcji odwrotnej do F Pr Φ p ( ) + 5

W modelu probitowym wartość probitu szacuje się według zależności: Pr x k k β + β x +... + β + ξ

Uogólniona metoda najmniejszych kwadratów gdzie:» wariancja składników losowych» funkcja gęstości rozkładu normalnego standaryzowanego ( ) Pr V X X V X b T T v k v v V... 2 ( ) ( ) i i i i i p n p p v 2 ϕ ϕ

Wartości liczbowe dla zmiennych jakościowych Y (spłata kredytu) tak ; nie - Płeć m -, k Żyranci tak -; nie Majątek m ; ś 2; d - 3

Model logitowy Zbieżność osiągnięta po 24 iteracjach Model : Estymacja Logit z wykorzystaniem 4 obserwacji -4 Zmienna zależna: y_splata Zmienna Współczynnik Błąd stand. Statystyka t Nachylenie (do średniej) const -95,826 4689 -, plec 34,55 6923,,253324 dochod,35 387,77, 9,74838E-7 zyranci 58,9625 4689,,4386 majatek 27,5838 7744,,,2586 Srednia dla zmiennej y_splata,57 Liczba przypadków 'poprawnej predykcji' 4 (,%) f(beta'x) do średnich niezależnych zmiennych, McFaddena pseudo-r-kwadrat Logarytm wiarygodności -5,399e- Test ilorazu wiarygodności: Chi-kwadrat(4) 9,24 (wartość p,744) Kryterium informacyjne Akaika (AIC) Kryterium bayesowskie Schwarza (BIC) 3,953 Kryterium infor.hannana-quinna (HQC) 9,7422 Prognoza Empiryczne 6 8

Model probitowy Zbieżność osiągnięta po 24 iteracjach Model 2: Estymacja Probit z wykorzystaniem 4 obserwacji -4 Zmienna zależna: y_splata Zmienna Współczynnik Błąd stand. Statystyka t Nachylenie (do średniej) const -54,9835 9475,7 -, plec 9,57875 22644,,,594 dochod,3677 79,597, 6,772E-5 zyranci 6,5847 352,3,,275473 majatek 7,7477 632,7,,28592 Srednia dla zmiennej y_splata,57 Liczba przypadków 'poprawnej predykcji' 4 (,%) f(beta'x) do średnich niezależnych zmiennych,2 McFaddena pseudo-r-kwadrat Logarytm wiarygodności -2,7956e- Test ilorazu wiarygodności: Chi-kwadrat(4) 9,24 (wartość p,744) Kryterium informacyjne Akaika (AIC) Kryterium bayesowskie Schwarza (BIC) 3,953 Kryterium infor.hannana-quinna (HQC) 9,7422 Prognoza Empiryczne 6 8

l.p X-płeć X2-dochód X3-żyranci X4-majątek Y -decyzja Prognoza Y^ k 8 t ś t 2 m 82 t ś t 3 m 95 t ś t 4 k 7 n ś n 5 k 9 n ś n 6 k 65 n m n 7 m 7 n m n 8 k 73 n m n 9 m 85 n m n m 2 n m t m 75 t d t 2 m 88 t d t 3 k t d t 4 m 78 n d t