Uogolnione modele liniowe

Podobne dokumenty
Zawansowane modele wyborów dyskretnych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Metoda największej wiarogodności

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

STATYSTYKA

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Modele zapisane w przestrzeni stanów

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Stanisław Cichocki. Natalia Nehrebecka

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2

Metoda najmniejszych kwadratów

Metoda Monte Carlo. Jerzy Mycielski. grudzien Jerzy Mycielski () Metoda Monte Carlo grudzien / 10

Natalia Neherbecka. 11 czerwca 2010

Estymacja parametrów rozkładu cechy

(LMP-Liniowy model prawdopodobieństwa)

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Wstęp. Regresja logistyczna. Spis treści. Hipoteza. powrót

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Value at Risk (VaR) Jerzy Mycielski WNE. Jerzy Mycielski (Institute) Value at Risk (VaR) / 16

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Statystyka. Wykład 2. Krzysztof Topolski. Wrocław, 11 października 2012

Prawdopodobieństwo i statystyka r.

Statystyka aktuarialna i teoria ryzyka, model indywidualny i zespołowy, rozkłady złożone

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Uogólniony model liniowy

Spis treści 3 SPIS TREŚCI

O ŚREDNIEJ STATYSTYCZNEJ

Statystyka w przykładach

Prawdopodobieństwo i statystyka

Uogólniona Metoda Momentów

Metody probabilistyczne

Testowanie hipotez statystycznych. Wprowadzenie

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Mikroekonometria 2. Mikołaj Czajkowski Wiktor Budziński

STATYSTYKA MATEMATYCZNA

dla t ściślejsze ograniczenie na prawdopodobieństwo otrzymujemy przyjmując k = 1, zaś dla t > t ściślejsze ograniczenie otrzymujemy przyjmując k = 2.

1 Wykład 4. Proste Prawa wielkich liczb, CTG i metody Monte Carlo

Testowanie hipotez statystycznych.

Weryfikacja hipotez statystycznych

Binarne zmienne zależne

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz.

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Statystyka I. Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy)

1.1 Wstęp Literatura... 1

Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Estymacja punktowa i przedziałowa

Estymatory nieobciążone

Matematyka ubezpieczeń majątkowych r.

WYKŁAD 8 ANALIZA REGRESJI

Statystyka matematyczna dla leśników

Statystyka matematyczna - Seria 1

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Komputerowa Analiza Danych Doświadczalnych

Własności statystyczne regresji liniowej. Wykład 4

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

Wnioskowanie statystyczne. Statystyka w 5

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

Stanisław Cichocki. Natalia Nehrebecka

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Prawa wielkich liczb, centralne twierdzenia graniczne

Statystyka i eksploracja danych

Ważne rozkłady i twierdzenia

Metody Ekonometryczne

Statystyka Matematyczna Anna Janicka

Transkrypt:

Uogolnione modele liniowe Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 1 / 17

(generalized linear model - glm) Zakładamy, że g [E (y i x i )] = x i β Inaczej mówiąc: E (y i x i ) = g 1 (x i β) Funkcję g ( ) nazywamy funkcją związku (link function) O zmiennej y i zakładamy, że należy do rodziny dystrybuant wykładniczych (exponential family) Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 2 / 17

Rodzina dystrybuant wykładniczych Dystrybuanta należy do rodziny dystrybuant wykładniczych jeśli jej funkcję gęstości (prawdopodobieństwa) można przedstawić w następujący sposób: f θ (y) = h (y) exp (η (θ) T (y) A (θ)) Jeśli dystrybuanta jest sparametryzowana w ten sposób, że η (θ) = θ to mówimy, że dystrybuanta ma formę kanoniczną a parametr η nazywamy naturalnym (kanonicznym) parametrem rokładu T (y) jest statystyką dostateczną, A (θ) jest parametrem logpodziału (log partition parameter) Funkcja zwązku jest kanoniczna jeśli η (µ) = g (µ) a więc jest tożsama z funkcją, która przekształca parametr związany z wartością oczekiwaną na parametr kanoniczny rozkładu Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 3 / 17

Rodzina dystrybuant wykładniczych Statystyka dostateczna Statystyka dostateczna jest to funkcja próby y = [y 1,..., y n ], że jeśli T (y A ) = T (y B ) f θ (y A ) = 1 dla każdego θ Θ f θ (y B ) Łatwo zauważyć, że dla dystrybuant z rodziny rozkładów wykładniczych T (y) = n i=1 T (y i ) Statystyka dostateczna zawiera w sobie całą istotną informację zawartą w próbie na temat nieznanego parametru θ w związku z tym estymator efektywny jest zawsze funkcją statystyki dostatecznej Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 4 / 17

Rodzina dystrybuant wykładniczych Dystrybuanty Elementami są między innymi dystrybunaty: dwumianowy Poissona ujemny dwumianowy normalny odwrotny gausowski gamma. Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 5 / 17

Rodzina dystrybuant wykładniczych Przykład rozkład Bernoulliego: T (y) = y, h (y) = 1, η (p) = ln A (η) = ln (1 + exp η) p 1 p, Rzeczywiście: Pr (y) = p y (1 p) 1 y = exp [ηy ln (1 + exp η)] exp [ηy + ln (1 + exp η)] = exp (ηy) exp [ ln (1 + exp η)] ( ) ( ) p y ( ) 1 1 = 1 p 1 + p = exp (ηy) 1 p 1 + exp η ( ) p y = (1 p) = p y (1 p) 1 y 1 p Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 6 / 17

Dystrybuanta wykładniczych z nadmierną dyspersją Uogólnieniem rodziny dystrybuant wykładniczych jest rodzina dystrybuant wykładniczych z nadmierną dyspersją (overdispersed exponential family) ( ) η (θ) T (y) A (θ) f θ,τ (y) = h (y) exp d (τ) Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 7 / 17

Funkcje związku Funkcje związku determinują relację między wartością oczekiwaną zmiennej zależnej y i a wielkościami zmiennych niezależnych W zależności od typu funkcji związku różnić się będzie interpretacja parametrów Popularne postaci funkcji związku identity: g (µ) = µ log: g (µ) = ln (µ) logit: g (µ) = ln ( µ 1 µ probit: g (µ) = Φ 1 (µ) cloglog: g (µ) = ln [ ln (1 µ)] opower: g (µ) = power: g (µ) = µ n ) [( µ 1 µ nbinominal: g (µ) = ln ) n 1 ]/ n ( ) µ µ+k loglog: g (µ) = ln ( ln µ) logc: g (µ) = ln (1 µ) Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 8 / 17

Przykłady Modele z zerojedynkową zmienną zależną rozkład zmiennej zależnej y: Bernoulliego y i = { 1 z p-stwem p 0 z p-stwem 1 p Wartość oczekiwana w z rozkładzie dwumianowym E (y i ) = p Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 9 / 17

Przykłady c.d. Model logitowy funkcja związku: logit E (y i x i ) = µ i = exp (x i β) 1 + exp (x i β) ( ) µi g [E (y i x i )] = ln = x i β 1 µ i zauważmy, że w tym przypadku funkcja związku jest kanoniczna Model probitowy funkcja związku: probit E ( y i x i ) = µ i = Φ (x i β) g [E ( y i x i )] = Φ 1 (µ i ) = x i β Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 10 / 17

Dystrybuanty i funkcje związku gauss. igauss. binominal Poisson nbinomina gamma id x x x x x x log x x x x x x logit x probit x clog x pow x opower x nbinominal x loglog x logc x Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 11 / 17

Estymacja Najbardziej popularna jest MNW Inną możliwością jest zastosowanie ważonej nieliniowej metody najmniejszych kwadratów (WNMNK) Estymujemy nieliniwe równanie regresji y i = g 1 (x i β) + ε i W przypadku zmiennych losowych o dystrybuancie z rodziny rozkładów wykładniczych, wariancja jest z reguły funkcją wartości oczekiwanej Var (y i x i ) = w i = w (µ i ) np. w przypadku rozkładu Bernoulliego w (µ i ) = Var ( y i x i ) = Var ( ε i x i ) = µ i (1 µ i ) Estymatorem efektywnym w takim przypadku jest WNMNK Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 12 / 17

WNMNK Funkcja kryterium: min β n i=1 w 1 i [ yi g 1 (x i β) ] 2 gdzie w i jest proporcjonalne do wielkości wariancji. Ponieważ wariancja w i = w (µ i ) = w ( g 1 (x i β) ) jest funkcją nieznanych parametrów więc stosujemy wersję iterowaną WNMNK. 1 Uzyskujemy wstępne oszacowania β (0) dla wag w i = 1 )) 2 Znajdujemy oszacowania wariancji ŵ i,(k) = w (g (x 1 i β(k 1) 3 Szacujemy model przy użyciu wag ŵ i,(k), uzyskujemy oszacowania β (k) 4 Jeśli kryterium zbieżności nie jest spełnione przechodzimy do kroku 2. Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 13 / 17

Estymacja na próbach panelowych Zakładamy, że E (y it x it, c i ) = g 1 (x it β+ c i ) oraz, że x i i c i są niezależne W przypadku estymowania modelu GLM z efektami losowymi na próbie panelowej można zastosować MNW w tym przypadku do obliczania funkcji wiarygodności musimy zastosować kwadratury, ponieważ funkcja wiarygodności ma postać f ( y i x i ) = T t=1 f ( x it β+ c i c i ) f (c i ) dc i N l (β) = ln f ( y i x i ) i =1 metoda ta może okazać się w praktyce bardzo czasochłonna Alternatywą jest zastosowanie Ogólnych Równań Estymacyjnych (GEE) Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 14 / 17

GEE (general estimating equations) Specyfikujemy model dla warunkowej średniej oczekiwanej uśrednionej po wielkościach efektów indywidualnych E (y it x it ) = Ec i [E (y it x it, c i )] = g 1 (x it β) = µ it Model taki określamy jako model uśredniony po populacji (PPA - population averaged model) Minimalizowana funkcja kryterium min β,α N i=1 [y i µ i (β)] [W (α, β)] 1 [y i µ i (β)] Nawet w przypadku błędnego wyspecyfikowania modelu dla wariancji W (α) estymator ten jest estymatorem zgodnym ) Estymator macierzy wariancji oszacowań Var ( β można zbudować tak, by byłzgodny w przypadku błędnej specyfikacji W (α) (wersja estymatora odpornego Hubera/White a) Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 15 / 17

Różnice między MNW i GEE Poza szczególnym przypadkiem identycznościowej funkcji związku fukcja związku stosowane w GEE nie jest tożsama z funkcją związku w MNW (tw. Jensena): g 1 (x it β) = Ec i [ g 1 (x it β+ c i ) ] = g 1 [x it β+ Ec i (c i )] = g 1 (x it β) W szczególności za pomocą modelu wyestymowany GEE można uzyskać jedynie efekt cząstkowy uśredniony po cechach populacji (Averaged Partial Effect - APE) [ ] E (y x, c) APE = Ec = x g 1 (xβ) x szacując APE zastępujemy β oszacowaniem β GEE Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 16 / 17

Różnice między MNW i GEE c.d. W przypadku modelu estymowane MNW możliwe jest oszacowanie efektu cząstkowego dla danej jednostki i E (y x, c) = g 1 (xβ+c i ) x x Szacując efekt cząstkowy dla jednostki i, zastępujemy parametr β oszacowaniem β ML a c i oszacowaniem ĉ i. Oszacowanie c i bazuje na rozkładzie a posteriori c i : f (c i x i, y i ) = f (y i x i, c i ) f (c i ) f (y i x i ) Wartość oczekiwana c i z rozkładu a posteriori 1 E (c i x, y i ) = c i f (y f (y i x i ) i x i, c) f (c i ) dc i Oszacowanie c i znajdujemy zastępując nieznane parametry rozkładów ich oszacowaniami i apoksymując całki kwadraturami. Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 17 / 17