Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych, a mianowicie metoda największej wiarygodności oraz nieliniowa metoda najmniejszych kwadratów. Przedstawimy założenia i własności obu metod. Metoda największej wiarygodności Metoda największej wiarygodności (MNW, ang. maximum likelihood to metoda estymacji parametrów w modelu ekonometrycznym. W pewnym uproszczeniu polega ona na wyznaczeniu wartości parametrów, które maksymalizowałyby prawdopodobieństwo wygenerowania przez model takich wartości zmiennej objaśnianej (lub zmiennych objaśnianych, które zaobserwowaliśmy w rzeczywistości. W celu zastosowania tej metody estymacji buduje się tak zwaną funkcję wiarygodności L, która jest funkcją gęstości f(y; θ łącznego rozkładu n obserwacji zmiennej objaśnianej y przy zadanych wartościach wektora parametrów θ. W przypadku, gdy y ma rozkład dyskretny, f(y; θ oznacza rozkład prawdopodobieństwa. Ponieważ przy estymacji parametrów wartości y są znane, a poszukiwane są właśnie wartości parametrów θ, to funkcję wiarygodności zapisuje się jako: L(θ; y = f(y; θ (.1 Proces estymacji, czyli poszukiwania wartości parametrów θ polega na wyznaczeniu takich ich wartości, które maksymalizują funkcję wiarygodności L(θ; y. Ze względów obliczeniowych często poszukuje się maksimum logarytmu naturalnego funkcji wiarygodności, czyli l(θ = ln L(θ; y, zamiast L(θ; y. Oszacowanie θ MNW (otrzymane MNW wektora parametrów θ, które maksymalizuje l(θ, maksymalizuje jednocześnie także L(θ; y. Niech s(θ; y = l oznacza wektor pochodnych cząstkowych logarytmu funkcji wiarygodności, czyli θ gradient funkcji l(θ (ang. score. W optimum funkcji gradient jest wektorem zerowym, czyli: s(θ MNW ; y = l θ θ=θ MNW = 0 (. W praktyce największa trudność w zastosowaniu tej metody estymacji polega właśnie na skonstruowaniu odpowiedniej funkcji wiarygodności. Dlatego w kolejnych przykładach przedstawiono sposób wyznaczania funkcji wiarygodności dla kilku popularnych modeli ekonometrycznych. Funkcja wiarygodności opisuje łączny rozkład wektora obserwacji y. W praktyce wygodniej jest analizować pojedyncze (czasami brzegowe rozkłady poszczególnych elementów (obserwacji tego 1
wektora. Dlatego wykorzystuje się definicję warunkowej funkcji gęstości by rozbić łączną funkcję gęstości f(y; θ na iloczyn n funkcji pojedynczych obserwacji: L(θ; y = f(y; θ = f(y 1, y,, y n θ = = f(y 1 θ f(y y 1, θ f(y n y 1, y,, y n 1, θ (.3 W szczególności, jeśli obserwacje y 1, y,, y n są wzajemnie niezależne, to można uprościć zapis: L(θ; y = f(y; θ = f(y 1, y,, y n θ = f(y 1 θ f(y θ f(y n θ (.4 Zazwyczaj obliczeń dokonuje się wykorzystując logarytm funkcji wiarygodności: l(θ = ln f(y; θ = = ln f(y 1 θ + ln f(y y 1, θ + + ln f(y n y 1, y,, y n 1, θ (.5 Funkcja wiarygodności dla modelu regresji liniowej Przykład 1 Pewna zmienna losowa ε ma rozkład normalny z wartością oczekiwaną 0 i wariancją równą 0,4. W takim razie zmienna losowa y ε + m, gdzie m = 7, też ma rozkład normalny z wartością oczekiwaną 7 i wariancją 0,4 (por. Rysunek 1. Zapiszmy wzór na funkcję gęstości zmiennej ε oraz funkcję gęstości zmiennej y przy założeniu m = 7: f(ε = πσ exp ( ε σ g(y m = 7 = πσ exp ( (y 7 σ = πσ exp ( ε σ = f(ε [Rysunek 1: wykresy dwóch rozkładów normalnych obok siebie tutaj gdzieś] Fakt, że rozkłady y i ε są identyczne jest często wykorzystywany przy zapisywaniu funkcji wiarygodności w modelach, gdzie składnik losowy jest addytywny. Zwykle nie znamy rozkładu zmiennej objaśnianej y, ale możemy założyć, że rozkład składnika losowego ma jakąś znaną postać (np. rozkład normalny. Dodatkowo na ogół nie można założyć, że obserwacje y są wzajemnie niezależne (np. w modelach autoregresyjnych kolejne obserwacje y są zależne, ale można założyć, że obserwacje składnika losowego są niezależne. Dlatego zamiast zapisywania funkcji wiarygodności jako funkcji y wygodniej jest ją zapisać jako funkcję obserwacji składnika losowego. Przykład
Pewna zmienna losowa ε ma rozkład normalny z wartością oczekiwaną 0 i wariancją równą σ. Rozpatrzmy funkcję gęstości zmiennej y, będącej funkcją liniową wektora losowych zmiennych objaśniających x i niezależnego składnika losowego ε, y = xβ + ε. Warunkowa wartość oczekiwana i wariancja y równe są odpowiednio: E(y x = E(xβ + ε x = xβ Var(y x = Var(xβ + ε x = Var(ε x = σ Funkcja gęstości zmiennej y warunkowa na xβ równa jest: g(y xβ = πσ exp ( (y xβ σ = πσ exp ( ε σ = f(ε Dla funkcji regresji liniowej możemy zatem zapisać logarytm funkcji wiarygodności w następujący sposób: l(θ = ln g(y X, θ = = ln g(y 1 θ + ln g(y y 1, X, θ + + ln g(y n y 1, y,, y n 1, X, θ = = ln g(x 1 β + ε 1 X, θ + ln g(x β + ε y 1, X, θ + (.6 + ln g(x n β + ε n y 1, y,, y n 1, X, θ = = ln f(ε 1 X, θ + ln f(ε y 1, X, θ + + ln f(ε n y 1, y,, y n 1, X, θ gdzie X oznacza macierz obserwacji zmiennych objaśniających x i, i = 1,, n. Jeżeli składniki losowe ε i są niezależne od X i od y 1, y,, y i 1, to można powyższy wzór jeszcze uprościć: l(θ = ln g(y X, θ = ln f(ε 1 X, θ + ln f(ε X, θ + + ln f(ε n X, θ (.7 Metoda największej wiarygodności do szacowania parametrów modelu regresji liniowej Procedura szacowania parametrów przy użyciu MNW w modelu regresji liniowej jest następująca. 1. Dla ustalonych startowych wartości parametrów θ = [β σ ] oblicz reszty regresji ε i = yi x i β, gdzie i = 1,, n.. Wyznacz wartości logarytmu funkcji gęstości dla reszt: ln f (ε i = ln πσ gdzie i = 1,, n. (ε i, σ 3
3. Policz logarytm funkcji wiarygodności: l(θ = ln g(y X, θ = ln f (ε 1 + ln f (ε + + ln f (ε n. 4. Manipuluj wartościami szacowanych parametrów tak by wyznaczyć maksimum logarytmu funkcji wiarygodności. Manipulowanie wartościami szacowanych parametrów polega z reguły na stosowaniu numerycznych metod znajdowania optimum funkcji celu (w tym przypadku logarytmu funkcji wiarygodności. Przykłady takich metod przedstawiono w rozdziale XXXX. Dla każdego nowego wektora parametrów θ (i należy powtórzyć kroki 1 3. 5. Wartości parametrów θ max, dla których funkcja wiarygodności osiąga maksimum globalne, stanowią oszacowanie parametrów modelu uzyskane metodą MNW. Warto zauważyć, że dla modelu regresji liniowej maksimum logarytmu funkcji wiarygodności można wyznaczyć analitycznie. Jednak przedstawione powyżej kroki procedury wyznaczania optimum funkcji wiarygodności są przydatne także dla bardziej skomplikowanych modeli ekonometrycznych, w tym nieliniowych modeli regresji. Metoda największej wiarygodności do szacowania parametrów innych modeli ekonometrycznych Przykład : Model autoregresji W modelu autoregresji postaci y t = α 0 + α 1 y t 1 + + α p y t p + ε t, gdzie ε t ~N(0, σ, szacowane są wartości parametrów α 0, α 1,, α p i σ. Procedura wyznaczania oszacowań jest analogiczna, jak w przypadku modeli regresji liniowej. W pierwszym kroku wyznaczane są reszty ε i = yi (α 0 + α 1 yt 1 + + α p yt p dla t = p + 1,, n. Następnie wyliczane są wartości ln f (ε t = ln πσ (ε t σ dla t = p + 1,, n oraz logarytm funkcji wiarygodności l(θ = ln f (ε p+1 + ln f (ε p+ + + ln f (ε n. Znalezienie wartości oszacowań parametrów polega tutaj na wyznaczeniu takich ich wartości, które maksymalizują wartość (logarytmu funkcji wiarygodności. Przykład 3: Model ARMA W modelu autoregresyjnym ze średnią ruchomą (ang. autoregressive moving average, postaci y t = α 0 + α 1 y t 1 + + α p y t p + ε t + δ 1 ε t 1 + + δ q ε t q, gdzie ε t ~N(0, σ, szacowane są wartości parametrów α 0, α 1,, α p, δ 1,, δ q i σ. Procedura wyznaczania oszacowań jest analogiczna, jak w przypadku modeli regresji liniowej. W pierwszym kroku wyznaczane są rekurencyjnie reszty ε t = y i (α 0 + α 1 yt 1 + + α p yt p + +δ 1 ε t 1 + + δ q ε t q dla t = max(p + 1, q + 1, 4
, n, gdzie przyjmuje się często ε t = 0 dla t = 1,, q. Następnie wyliczane są wartości ln f (ε t = ln πσ (ε t σ dla t = max(p + 1, q + 1,, n oraz logarytm funkcji wiarygodności l(θ = ln f (ε i + ln f (ε i+1 + + ln f (ε n, gdzie i = max(p + 1, q + 1. Znalezienie wartości oszacowań parametrów polega również tutaj na wyznaczeniu takich ich wartości, które maksymalizują wartość (logarytmu funkcji wiarygodności. Przykład 4: Model regresji liniowej z efektem GARCH(1,1 W modelu regresji z efektem GARCH (ang. generalized autoregressive conditional heteroskedasticity wariancja warunkowa składnika losowego zależy od swoich historycznych wartości od historycznych wartości kwadratu składnika losowego. Model ma następującą postać: y t = x t β + ε t, ε t ~N(0, σ t, σ t = α 0 + α 1 ε t 1 + α σ t 1, α 0 > 0, α 1 > 0, α > 0, α 1 + α < 1. W modelu tym szacowane są wartości parametrów szacowane są wartości parametrów β, α 0, α 1, α. W pierwszym kroku wyznaczane są reszty ε t = yt x t β oraz oszacowania wariancji warunkowej σ t = α 0 + α 1 (ε t + α σ t 1 kolejno dla t =,, n. Zwykle przyjmuje się σ 1 = (ε 1 = 0. Następnie wyliczane są wartości lnf (ε t = ln πσ t (ε t dla t =,, n oraz logarytm σ t funkcji wiarygodności l(θ = ln f (ε + ln f (ε 3 + + ln f (ε n. Znalezienie wartości oszacowań parametrów polega tutaj również na wyznaczeniu takich ich wartości, które maksymalizują wartość (logarytmu funkcji wiarygodności. Przykład 5: Model logitowy W modelu logitowym zmienna objaśniana Y może przyjmować wartości ze zbioru {0, 1}. Prawdopodobieństwo, że i-ta obserwacja Y (czyli y i równa jest 1 dane jest wzorem Pr(y i = 1 = exp(x i β (1 + exp(x i β, natomiast Pr(y i = 0 = 1 (1 + exp(x i β. Przy założeniu, że obserwacje y i są wzajemnie niezależne, można zapisać logarytm funkcji wiarygodności: l(θ = ln f(y; θ = ln f(y 1 x 1 β + ln f(y x β + + ln f(y n x n β gdzie ln f(y i x i β = I(y i = 1 Pr(y i = 1 + I(y i = 0 Pr(y i = 0 dla i = 1,, n. 5
Metoda najmniejszych kwadratów przy warunkach pobocznych W rozdziale pierwszym omówiono testowanie restrykcji liniowych postaci Rβ = r, nałożonych na parametry modelu regresji liniowej. Jeżeli wyniki odpowiedniego testu statystycznego wskazują, że nie ma podstaw do odrzucenia tych restrykcji, to sensowne będzie oszacowanie parametrów modelu regresji przy jednoczesnym nałożeniu warunku Rβ = r na szacowane parametry. Taki szacunek będzie dokładniejszy niż szacunek otrzymany metodą MNK. Jedna z metod służących do estymacji parametrów przy jednoczesnym nałożeniu warunków ograniczających na te parametry to MNK przy warunkach pobocznych. Wzór estymatora można wyprowadzić w podobny sposób jak w klasycznej metodzie najmniejszych kwadratów, to znaczy minimalizując sumę kwadratów błędów regresji przy jednoczesnym zachowaniu warunku Rβ = r: Rozwiązaniem jest estymator postaci: gdzie β oznacza estymator MNK. J(β = (y Xβ (y Xβ λ (Rβ r min β = β + (X X 1 R (R (X X 1 R 1 (r Rβ (.1 Reszty modelu regresji otrzymujemy odejmując od prawdziwych wartości y i wartości teoretyczne, e = y Xβ. Sumę kwadratów reszt regresji z ograniczeniami możemy wtedy zapisać jako: e e = e e + (β β X X(β β (. ponieważ e = y Xβ = y Xβ X(β β = e X(β β. Reszty z modelu regresji bez restrykcji zapisano jako e = y Xβ. Po podstawieniu ze wzoru (.1 różnicy między estymatorami β i β do wzoru (. otrzymujemy po uproszczeniu następujące wyrażenie: e e = e e + (r Rβ (R (X X 1 R 1 (r Rβ (.3 W rozdziale pierwszym wyprowadzono wzór na statystykę F postaci: F = (Rβ r (σ R(X X 1 R (Rβ r m ~F(m, n k Wykorzystując wzór (.3 można tę samą statystykę zapisać wzorem: F = (e e e e/m ~F(m, n e k (.4 e/(n k 6