Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

Podobne dokumenty
Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka

Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Zawansowane modele wyborów dyskretnych

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

gdzie. Dla funkcja ma własności:

Zmienne zależne i niezależne

Statystyka i Analiza Danych

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Dwuczynnikowa ANOVA dla prób niezależnych w schemacie 2x2

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Natalia Nehrebecka Stanisław Cichocki. Wykład 6

Stanisław Cichocki. Natalia Nehrebecka

MODELE LINIOWE. Dr Wioleta Drobik

Natalia Neherbecka. 11 czerwca 2010

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

Biostatystyka, # 3 /Weterynaria I/

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Natalia Nehrebecka Stanisław Cichocki. Wykład 13

Wybrane rozkłady zmiennych losowych. Statystyka

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Regresja liniowa wprowadzenie

Wybrane rozkłady zmiennych losowych. Statystyka

METODY BADAŃ NA ZWIERZĘTACH ze STATYSTYKĄ wykład 3-4. Parametry i wybrane rozkłady zmiennych losowych

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

ANALIZA REGRESJI SPSS

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Wybór formy funkcyjnej modelu (cz. II)

1.6 Zmienne jakościowe i dyskretne w modelu regresji

KORELACJE I REGRESJA LINIOWA

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Metodologia badań psychologicznych. Wykład 12. Korelacje

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Stanisław Cichocki. Natalia Nehrebecka

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

STUDIA I STOPNIA EGZAMIN Z EKONOMETRII

Statystyka matematyczna

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Stanisław Cichocki. Natalia Nehrebecka

Uogolnione modele liniowe

Ekonometria Ćwiczenia 19/01/05

Egzamin z ekonometrii wersja IiE, MSEMAT

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Regresja logistyczna (LOGISTIC)

3. Modele tendencji czasowej w prognozowaniu

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Analiza składowych głównych. Wprowadzenie

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

Etapy modelowania ekonometrycznego

Wprowadzenie do analizy korelacji i regresji

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Stanisław Cihcocki. Natalia Nehrebecka

Metoda najmniejszych kwadratów

Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.

Ćwiczenia 3 ROZKŁAD ZMIENNEJ LOSOWEJ JEDNOWYMIAROWEJ

STATYSTYKA MATEMATYCZNA

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada

Mikroekonometria 9. Mikołaj Czajkowski Wiktor Budziński

Statystyka I. Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy)

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Regresja i Korelacja

Analiza składowych głównych

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Statystyka matematyczna i ekonometria

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Rozkłady zmiennych losowych

Transkrypt:

Stanisław Cichocki Natalia Neherebecka Zajęcia 15-17 1

1. Binarne zmienne zależne 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników 3. Probit a) Interpretacja współczynników b) Miary dopasowania 4. Logit a) Interpretacja współczynników b) Miary dopasowania 2

- zmienne zero-jedynkowe nazywane są także zmiennymi binarnymi - dla wielu interesujących modeli ekonomicznych zmienna zależna jest zmienną zero-jedynkową - zmienna zero-jedynkowa opisuje stan w jakim znajdują się badane obiekty 4

- Przykład: W badaniach na danych przekrojowych dotyczących aktywności zawodowej ludności może nas interesować jakie są przyczyny bezrobocia. Zmienną objaśnianą w tym przypadku będzie status zawodowy respondenta opisany zmienną zero-jedynkową (0 nie pracuje, 1 pracuje). 5

- przy kodowaniu zmiennej przyjmuje się konwencję: 0 - porażka 1 - sukces - czym jest sukces a czym porażka zależy od badania 6

- Przykład: 0 - brak pracy, porażka 1 - wykonywanie pracy, sukces 7

- w modelach dla zmiennych binarnych wyjaśniamy, za pomocą zmiennych niezależnych, prawdopodobieństwa stanów - by sformułować model musimy opisać prawdopodobieństwa zdarzeń dla poszczególnych obserwacji - na największym poziomie ogólności: gdzie px ( i ) opisuje zależność prawdopodobieństwa sukcesu od wielkości zmiennych niezależnych x i 8

- modele dla zmiennych binarnych nie są modelami liniowymi 9

- rozpatrujemy różne formy funkcyjne dla zależności między prawdopodobieństwem sukcesu a wielkością zmiennych objaśniających - najprostszy model liniowy model prawdopodobieństwa (LPM) - p( x ) F( x ) x i i i gdzie: px ( i ) F() - prawdopodobieństwo sukcesu - dystrybuanta 11

- liniowy w tym sensie, że warunkowa wartość oczekiwana jest dana funkcją liniową: E y x x i i i 12

- zalety LPM: a) łatwy do wyestymowania b) współczynniki = efekty cząstkowe - wady LPM: a) wartości dopasowane spoza [0;1] nieinterpretowalne (prawdopodobieństwo sukcesu) b) heteroscedastyczność 13

- problemu z punktu a) nie da się w prosty sposób rozwiązać - w przypadku heteroscedastyczności stosujemy SUMNK lub odporne macierze wariancji i kowariancji 14

- w liniowym modelu prawdopodobieństwa interpretuje się współczynniki - interpretacja: a) dla zmiennych objaśniających ciągłych: wpływ jednostkowej zmiany zmiennej niezależnej na wielkość prawdopodobieństwa sukcesu b) dla zmiennych objaśniających zero-jedynkowych: różnica między prawdopodobieństwem sukcesu dla zmiennej zero-jedynkowej równej 0 i równej 1, przy pozostałych zmiennych ustalonych na poziomie średnich 16

- Przykład: Modelowano odpowiedź na pytanie: czy ubiegał się o zasiłek? Zmienna zależna y: 0 nie ubiegał się, 1 ubiegał się. Zmienne niezależne: wiek, płeć (0-kobieta, 1 mężczyzna), stan cywilny (0 - pozostałe stany, 1 zamężna/zamężny), głowa (0 nie jest głową rodziny, 1 jest głową rodziny). 17

18

- interpretacja współczynników: a) wiek: wzrost wieku o rok powoduje wzrost prawdopodobieństwa ubiegania się o zasiłek o 0,4 punktu procentowego b) plec: mężczyźni mają o 0,8 punktu procentowego mniejsze prawdopodobieństwo ubiegania się o zasiłek niż kobiety c) stancyw: osoby zamężne mają o 5,6 punktów procentowych większe prawdopodobieństwo ubiegania się o zasiłek niż pozostałe osoby d) glowa: osoba będąca głową rodziny ma o 3,6 punktów procentowych mniejsze prawdopodobieństwo ubiegania się o zasiłek niż osoby nie będące głowami rodzin

Heteroscedastyczność 20

- w modelu probitowym zakładamy, że F() jest dystrybuantą rozkładu normalnego 22

- nie interpretuje się współczynników w modelu probitowym - interpretuje się efekty cząstkowe (krańcowe): a) dla zmiennych objaśniających ciągłych: wpływ jednostkowej zmiany zmiennej niezależnej na wielkość prawdopodobieństwa sukcesu b) dla zmiennych objaśniających zero-jedynkowych: różnica między prawdopodobieństwem sukcesu dla zmiennej zero-jedynkowej równej 0 i równej 1, przy pozostałych zmiennych ustalonych na poziomie średnich

- efekty cząstkowe dla zmiennych objaśniających ciągłych liczymy zwykle dla średnich wartości tych zmiennych (efekty cząstkowe zależą od wielkości zmiennych objaśniających) - znak efektu cząstkowego dla danej zmiennej jest taki sam jak znak współczynnika przy tej zmiennej - możemy zatem interpretować znaki przy współczynnikach: dodatni znak zmienna wpływa dodatnio na prawdopodobieństwo sukcesu ujemny znak zmienna wpływa ujemnie na prawdopodbieństwo sukcesu 25

- Przykład: Modelowano odpowiedź na pytanie: czy ubiegał się o zasiłek? Zmienna zależna y: 0 nie ubiegał się, 1 ubiegał się. Zmienne niezależne: wiek, płeć (0-kobieta, 1 mężczyzna), stan cywilny (0 - pozostałe stany, 1 zamężna/zamężny), głowa (0 nie jest głową rodziny, 1 jest głową rodziny), rasa (0 osoba rasy białej, 1 osoba innej rasy). 26

27

- interpretacja znaków: a) wiek: wpływa dodatnio na prawdopodobieństwo ubiegania się o zasiłek, im większy wiek tym większe prawdopodobieństwo ubiegania się o zasiłek b) plec: wpływa ujemnie na prawdopodobieństwo ubiegania się o zasiłek, mężczyźni mają mniejsze prawdopodobieństwo ubiegania się o zasiłek niż kobiety c) stancyw: wpływa dodatnio na prawdopodobieństwo ubiegania się o zasiłek, osoby zamężne mają większe prawdopodobieństwo ubiegania się o zasiłek niż pozostałe osoby

d) glowa: wpływa ujemnie na prawdopodobieństwo ubiegania się o zasiłek, osoba będąca głową rodziny ma mniejsze prawdopodobieństwo ubiegania się o zasiłek niż osoby nie będące głowami rodzin e) rasa: wpływa dodatnio na prawdopodobieństwo ubiegania się o zasiłek, osoby innych ras mają większe prawdopodobieństwo ubiegania się o zasiłek niż osoby rasy białej

30

- Interpretacja efektów cząstkowych (krańcowych) a) wiek: wzrost wieku o rok powoduje wzrost prawdopodobieństwa ubiegania się o zasiłek o 0,5 punktu procentowego b) plec: mężczyźni mają o 0,8 punktu procentowego mniejsze prawdopodobieństwo ubiegania się o zasiłek niż kobiety c) stancyw: osoby zamężne mają o 5,8 punktów procentowych większe prawdopodobieństwo ubiegania się o zasiłek niż pozostałe osoby d) glowa: osoba będąca głową rodziny ma o 3,6 punktów procentowych mniejsze prawdopodobieństwo ubiegania się o zasiłek niż osoby nie będące głowami rodzin

e) rasa: osoba rasy innej niż biała ma o 1,9 punktów procentowych większe prawdopodobieństwo ubiegania się o zasiłek niż osoby rasy białej

Łączna istotność zmiennych 33

- tablica klasyfikacyjna: y i * - analiza częstości wartości zaobserwowanych i przewidzianych - zakładamy, ze model przewiduje sukces, jeśli dopasowane z modelu prawdopodobieństwo sukcesu y i jest większe o progowego * prawdopodobieństwa p 35

- tablica klasyfikacyjna: Przewidywane (Predicted) 0 1 Empiryczne (Actual) 0 N 00 N 01 1 N 10 N 11 Prognozujemy porażkę i obserwujemy sukces Prognozujemy porażkę i obserwujemy porażkę 36

- na podstawie tablicy klasyfikacyjnej można ustalić na ile model trafnie przewiduje sukcesy i porażki - liczebnościowe R²: proporcja zdarzeń (sukcesów bądź porażek) prawidłowo przewidywanych przez model N00 N11 R 2 liczebnosciowe N00 N01 N10 N11 37

- wielkość liczebnościowego R² może być myląca w przypadku zmiennej binarnej można zawsze uzyskać co najmniej 50% trafności przewidywań prognozując dla wszystkich obserwacji wartość y i, która jest najczęściej obserwowana w próbie - skorygowane liczebnościowe R²: 2 N00 N11 N max R liczebnosciowe N00 N01 N10 N11 N max Gdzie: Nmax - suma zdarzeń najczęściej obserwowanych w próbie 38

- skorygowane liczebnościowe R² zawsze <=1 ale >0 tylko wtedy, gdy udział prawidłowo przewidzianych zdarzeń przekracza udział zdarzenia, które było najczęściej obserwowane w próbie - skorygowane liczebnościowe R²: jest to procent prawidłowych przewidywań uzyskany poprzez zastosowanie w modelu zmiennych objaśniających 39

40

- liczebnościowe R²: 2 222 3178 R liczebnosciowe 222 1320 157 3178 - skorygowane liczebnościowe R²: 0,697 2 222 3178 (3178 157) R liczebnosciowe 222 1320 157 3178 (3178 157) 0,042 41

- tablica klasyfikacyjna może być użyta do zdefiniowania jeszcze 2 miar: a) wrażliwość prawdopodobieństwo przewidzenia sukcesu dla obserwacji, dla której zaobserwowano sukces wrazliwosc N11 N10 N11 42

- b) specyficzność prawdopodobieństwo przewidzenia porażki dla obserwacji, dla której zaobserwowano porażkę specyficznosc N00 N00 N01 43

- Przykład: 44

- dodatkowo: c) 1- wrażliwość prawdopodobieństwo przewidzenia porażki dla obserwacji, dla której zaobserwowano sukces 1 wrazliwosc N10 N10 N11 45

d) 1- specyficzność prawdopodobieństwo przewidzenia sukcesu dla obserwacji, dla której zaobserwowano porażkę 1 specyficznosc N01 N00 N01 46

47

wrazliwosc 3178 157 3178 0,95 specyficznosc 222 222 1320 0,14 157 1 wrazliwosc 0,04 157 3178 1320 1 specyficznosc 0,85 222 1320 48

- w modelu logitowym zakładamy, że F() jest dystrybuantą rozkładu logistycznego - xi e p( x ) F( x ) 1 e i i x i 50

- nie interpretuje się współczynników w modelu logitowym - interpretuje się efekty cząstkowe (krańcowe): a) dla zmiennych objaśniających ciągłych: wpływ jednostkowej zmiany zmiennej niezależnej na wielkość prawdopodobieństwa sukcesu b) dla zmiennych objaśniających zero-jedynkowych: różnica między prawdopodobieństwem sukcesu dla zmiennej zero-jedynkowej równej 0 i równej 1, przy pozostałych zmiennych ustalonych na poziomie średnich

- efekty cząstkowe dla zmiennych objaśniających ciągłych liczymy zwykle dla średnich wartości tych zmiennych (efekty cząstkowe zależą od wielkości zmiennych objaśniających) - znak efektu cząstkowego dla danej zmiennej jest taki sam jak znak współczynnika przy tej zmiennej - możemy zatem interpretować znaki przy współczynnikach: dodatni znak zmienna wpływa dodatnio na prawdopodobieństwo sukcesu ujemny znak zmienna wpływa ujemnie na prawdopodbieństwo sukcesu 53

- Przykład: Modelowano odpowiedź na pytanie: czy ubiegał się o zasiłek? Zmienna zależna y: 0 nie ubiegał się, 1 ubiegał się. Zmienne niezależne: wiek, płeć (0-kobieta, 1 mężczyzna), stan cywilny (0 - pozostałe stany, 1 zamężna/zamężny), głowa (0 nie jest głową rodziny, 1 jest głową rodziny), rasa (0 osoba rasy białej, 1 osoba innej rasy) o miasto (0 mieszka poza miastem, 1 mieszka w mieście) 54

55

- interpretacja znaków: a) wiek: wpływa dodatnio na prawdopodobieństwo ubiegania się o zasiłek, im większy wiek tym większe prawdopodobieństwo ubiegania się o zasiłek b) plec: wpływa ujemnie na prawdopodobieństwo ubiegania się o zasiłek, mężczyźni mają mniejsze prawdopodobieństwo ubiegania się o zasiłek niż kobiety c) stancyw: wpływa dodatnio na prawdopodobieństwo ubiegania się o zasiłek, osoby zamężne mają większe prawdopodobieństwo ubiegania się o zasiłek niż pozostałe osoby

d) glowa: wpływa ujemnie na prawdopodobieństwo ubiegania się o zasiłek, osoba będąca głową rodziny ma mniejsze prawdopodobieństwo ubiegania się o zasiłek niż osoby nie będące głowami rodzin e) rasa: wpływa dodatnio na prawdopodobieństwo ubiegania się o zasiłek, osoby innych ras mają większe prawdopodobieństwo ubiegania się o zasiłek niż osoby rasy białej f) miasto: wpływa ujemnie na prawdopodobieństwo ubiegania się o zasiłek, osoby mieszkające w miastach mają mniejsze prawdopodobieństwo ubiegania się o zasiłek niż mieszkające poza miastem

58

- Interpretacja efektów cząstkowych (krańcowych) a) wiek: wzrost wieku o rok powoduje wzrost prawdopodobieństwa ubiegania się o zasiłek o 0,5 punktu procentowego b) plec: mężczyźni mają o 0,6 punktu procentowego mniejsze prawdopodobieństwo ubiegania się o zasiłek niż kobiety c) stancyw: osoby zamężne mają o 5,6 punktów procentowych większe prawdopodobieństwo ubiegania się o zasiłek niż pozostałe osoby d) glowa: osoba będąca głową rodziny ma o 3,8 punktów procentowych mniejsze prawdopodobieństwo ubiegania się o zasiłek niż osoby nie będące głowami rodzin

e) rasa: osoba rasy innej niż biała ma o 1,9 punktów procentowych większe prawdopodobieństwo ubiegania się o zasiłek niż osoby rasa białej e) miasto: osoba mieszkająca w mieście ma o 2,7 punktów procentowych mniejsze prawdopodobieństwo ubiegania się o zasiłek niż osoba mieszkająca poza miastem

Łączna istotność zmiennych 61

- takie same jak w modelu probitowym 63

1. Co jest modelowane w przypadku jeśli zmienna zależna jest zmienna binarną (zero-jedynkową)? 2. Jakie są wady liniowego modelu prawdopodobieństwa? 3. Wyjaśnić czym jest wrażliwość i specyficzność. 64

Dziękuję za uwagę 65