Wybrane zagadnienia modelowania zmienności na rynkach finansowych z wykorzystaniem kopuli i procesów GARCH Piotr Jaworski Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki 13 lipca 2012 1
Spis treści 1 Wiadomości wstępne 5 1.1 Zjawisko zmienności na rynkach finansowych................. 5 1.2 Fakty stylizowane (fakty empiryczne)..................... 6 1.3 Proces generujący dane............................. 7 1.3.1 Zmienne losowe Z t są iid........................ 7 1.3.2 Stacjonarność.............................. 8 1.3.3 Ergodyczność.............................. 8 1.3.4 Martyngały i przyrosty martyngałowe................. 9 1.4 Regularna zmienność dystrybuant zmiennych losowych............ 10 1.5 Wybór rodziny modeli............................. 11 1.6 Kalibrowanie modelu.............................. 11 1.6.1 Metody parametryczne......................... 11 1.6.2 Metody nieparametryczne....................... 12 1.7 Weryfikacja modelu............................... 12 1.8 Testy GOF................................... 13 2 Modele jednowymiarowe 15 2.1 Modele GARCH i SV.............................. 15 2.2 Podstawowy model GARCH(1,1)....................... 15 2.3 Podstawowy model GARCH(p,q)....................... 16 2.4 Podstawowy model SV............................. 16 2.5 Ogólne własności modeli GARCH i SV.................... 16 2.6 Stacjonarność GARCH(1,1).......................... 16 2.7 Stacjonarne procesy GARCH(1,1)....................... 17 2.8 Stacjonarność SV................................ 17 2.9 Stacjonarne rozwiązania GARCH(p,q) i SV - podsumowanie........ 18 2.10 Kalibrowanie modeli GARCH(p,q)...................... 18 2.11 Wybór modelu GARCH(p,q) w oparciu o kryterium informacyjne..... 18 2.12 Weryfikacja modeli GARCH i SV....................... 19 2.13 Rozszerzenia GARCH i SV........................... 19 2.14 Modele przełącznikowe............................. 20 3 Modelowanie wielowymiarowe z wykorzystaniem kopuli 21 3.1 Definicja kopuli................................. 21 3.1.1 Definicja probabilistyczna kopuli.................. 21 3.1.2 Definicja aksjomatyczna kopuli................... 22 3.2 Twierdzenie Sklara............................... 22 3.3 Własności kopuli................................ 24 3.3.1 Niezmienniczość............................. 24 3.3.2 Monotoniczność............................. 24 3.3.3 Lipschitzowskość i ciągłość....................... 24 3.3.4 Ograniczenia Frécheta-Hoeffdinga................... 25 3.4 Trzy podstawowe kopule............................ 25 3.5 Kopule Farlie-Gumbela-Morgensterna (FGM)................ 26 2
3.6 Kopule Marshalla-Olkina............................ 26 3.7 Kopule Frécheta................................. 26 3.8 Kopule gaussowskie............................... 26 3.9 Kopule archimedesowe............................. 27 3.9.1 Przykłady kopuli archimedesowych, n = 2.............. 27 3.10 Porządek konkordantny............................. 27 3.10.1 Funkcja zgodności Q.......................... 28 3.10.2 Miary zależności: τ Kendalla i ρ Spearmana............. 28 3.11 Value at Risk dla długich pozycji....................... 28 3.11.1 Asymptotyka VaR........................... 29 3.12 Ogonowa funkcja zależności.......................... 29 3.13 Przykład założenia modelowe........................ 30 3.14 Market Contagion................................ 31 3.14.1 Kopule warunkowe........................... 31 3.14.2 Modelowanie efektu contagion..................... 31 3.15 Symulacja kopuli typowego rozkładu..................... 32 3.15.1 Symulacja kopuli metoda warunkowa d = 2............. 32 3.15.2 Symulacja kopuli metoda warunkowa d > 2............. 32 3.15.3 Symulacje kopuli archimedesowych - metoda Marshalla-Olkina... 33 3.15.4 Przykłady transformat Laplace a τ.................. 33 3.16 Wielomiany i kopule Bernsteina........................ 33 3.16.1 Wielomiany bazowe Bernsteina.................... 33 3.16.2 Subkopule................................ 34 3.16.3 Kopule Bernsteina........................... 34 3.16.4 Gęstość kopuli Bernsteina....................... 35 3.16.5 Wielomian Bernsteina funkcji ciągłej................. 35 3.16.6 Wielomian Bernsteina kopuli...................... 35 3.17 Dwustopniowa estymacja wielowymiarowych rozkładów........... 35 3.17.1 Metoda największej wiarogodności.................. 36 3.17.2 Dystrybuanta empiryczna....................... 37 3.17.3 Kopula empiryczna........................... 37 3.17.4 Empiryczna kopula Bernsteina..................... 38 3.17.5 Losowe kopule empiryczne....................... 38 3.18 Weryfikacja, testy dobroci dopasowania (GOF)................ 38 3.18.1 Przekształcenie Rosenblatta...................... 38 3.18.2 Testy GOF dla kopuli......................... 39 3.19 Modele oparte na kopulach zmiennych w czasie............... 40 3.19.1 Estymacja modelu skokowego..................... 40 3.19.2 Modele ciągłe z losowym parametrem - konstrukcja modelu..... 40 3.19.3 Modele ciągłe z autoregresyjnym parametrem - konstrukcja modelu 41 3.20 Regresja kwantylowa.............................. 41 3.20.1 Regresja kwantylowa estymacja nieparametryczna......... 41 3
4 Wielowymiarowe modele GARCH i SV 42 4.1 Modele MGARCH i MSV........................... 42 4.2 Przekształcenia liniowe macierzy w zapisie macierzowym.......... 42 4.3 Podstawowy model Vec-GARCH(1,1)..................... 43 4.4 Model Vec-GARCH(p,q)............................ 43 4.5 Własności procesów Vec-Garch(p,q) klasy L 2................. 44 4.6 Asymptotyczne własności procesów Vec-Garch(1,1) klasy L 2........ 44 4.7 Model BEKK(p,q,K).............................. 45 4.7.1 Stacjonarność.............................. 45 4.7.2 Estymacja................................ 45 4.8 Model DCC(1,1)................................ 45 4.9 Model EDCC(1,1)................................ 46 4.10 Statyczny model Copula-GARCH(1,1).................... 46 4.11 Dynamiczny model Copula-GARCH(1,1)................... 47 4.12 Przełącznikowy model Copula-GARCH(1,1)................. 47 4.13 VIRF dla modeli GARCH........................... 47 5 Zagadnienie przenoszenia zmienności - efekt zarazy (ang. contagion) 48 5.1 Wprowadzenie.................................. 48 5.1.1 Definicja szeroka............................ 48 5.1.2 Definicja wąska............................. 48 5.1.3 Definicja bardzo wąska......................... 49 5.1.4 Definicja probabilistyczna....................... 49 5.2 Spillover, transmission, comovement...................... 49 5.3 Przyczynowość w sensie Grangera....................... 49 5.3.1 Granger causality in the mean..................... 49 5.3.2 Granger second order causality.................... 50 5.3.3 Granger causality in variance..................... 50 5.4 Granger causality w procesach MGARCH.................. 50 5.5 Modele przestrzenne efektu contagion..................... 51 5.5.1 Contagion w terminach regresji pierwszego rodzaju......... 51 5.5.2 Contagion w terminach kopuli..................... 52 5.6 Modele czasowe efektu contagion....................... 53 5.6.1 Contagion w terminach współczynnika korelacji........... 53 5.6.2 Contagion w terminach kopuli..................... 53 5.7 Pomiar siły współzależności i przenoszenia.................. 53 5.7.1 Pomiar siły współzależności - metoda przestrzenna......... 53 5.7.2 Pomiar siły współzależności - metoda czasowa............ 54 5.7.3 Pomiar siły współzależności - metoda przestrzenna złożona..... 54 5.7.4 Pomiar siły przenoszenia Xt,1 2 na Xt,2 2 metody liniowe....... 54 5.7.5 Pomiar siły przenoszenia Xt,1 2 na Xt,2 2 metody nieliniowe..... 54 5.7.6 Testowanie siły przenoszenia i współzależności............ 55 4
1 Wiadomości wstępne W rozdziale tym omówione zostaną następujące zagadnienia: 1. Zjawisko zmienności na rynkach finansowych, zmienność, jako miara niepewności i ryzyka, stylizowane fakty dot. finansowych szeregów czasowych. 2. Podstawy modelowania stochastycznego. (a) Proces generujący dane. Podstawowe pojęcia: niezależność, stacjonarność, ergodyczność. Ciąg przyrostów martyngałowych. Zjawisko tłustych ogonów - regularna zmienność dystrybuant zmiennych losowych. (b) Przeznaczenie modelu. Ogólny (edukacyjny) opis zjawiska ( toy model ). Prognozowanie. Badanie zdarzeń ekstremalnych (ocena ryzyka i stress testing ). (c) Wybór i kalibrowanie modelu. (d) Weryfikacja i miary dopasowania ( Goodness of fit testing ). Więcej informacji na powyższe tematy czytelnik może znaleźć w publikacjach [9, 17]. 1.1 Zjawisko zmienności na rynkach finansowych Oznaczenia: S t cena instrumentu finansowego w chwili t. X t logarytmiczna stopa zwrotu X t = ln S t ln S t 1 = ln S t S t 1 = S t S t 1 S t 1 + O ( St S t 1 S t 1 Powyższe oszacowanie zależności między logarytmiczną stopą zwrotu a prostą stopą zwrotu wynika z rozwinięcia funkcji ln w szereg Taylora: ) 2 ln(1 + R) = R 1 2 R2 + 1 3 R3 +... + ( 1) n+1 1 n Rn +..., R < 1. Zauważmy, że o ile w analizie portfelowej wygodniejsze są proste stopy zwrotu, to w badaniach dotyczących finansowych szeregów czasowych powszechnie używa się logarytmicznych stóp zwrotu. Uzasadnieniem tego wyboru są m.in. następujące korzyści natury praktycznej: Przyjmowanie przez logarytmiczne stopy zwrotu wartości z całej prostej (, + ) pozwala stosować w modelowaniu rozkłady prawdopodobieństwa z nieograniczonym nośnikiem; Łatwość wyliczania zwrotów za okres dłuższy X t [k] = ln S t ln S t k = X t + X t 1 +... + X t k ; Symetria w przypadku modelowania kursów walutowych X t [USD : EUR] = X t [EUR : USD]; 5.
Zgodność z modelami z czasem ciągłym, w których występują logarytmy ceny instrumentu finansowego. Ciągi S t i X t modelujemy, jako zmienne losowe na pewnej przestrzeni probabilistycznej (Ω, M, P ), która opisuje wszystkie możliwe decyzje ekonomiczne i finansowe oraz wydarzenia mające wpływ na ekonomię i finanse. Zdarzeniami elementarnymi (elementami Ω) są ciągi decyzji podejmowanych w kolejnych momentach czasu i wydarzeń mających miejsce w kolejnych momentach czasu. M jest rodziną zbiorów decyzji i wydarzeń. Jeżeli A należy do M, to P (A) jest prawdopodobieństwem, że zostanie podjęta któraś z decyzji ze zbioru A lub nastąpi wydarzenie należące do A. Na przykład możemy postawić pytanie, jakie jest prawdopodobieństwo, że Grecja ogłosi niewypłacalność w przyszłym miesiącu, albo jakie jest prawdopodobieństwo, że w Japonii w przyszłym roku będzie trzęsienie ziemi. Dynamikę modelujemy za pomocą rodziny σ-ciał H T zawartych w M, które określają zasób informacji dostępny w chwili T. H T to rodzina zbiorów decyzji i wydarzeń znanych w chwili T. Zauważmy, że jeżeli wartość pewnej zmiennej losowej X będzie znana w chwili T, to jest ona H T -mierzalna. W szczególności X t i S t są H T -mierzalne dla t T. H 0 H 1... H t... H T... M. Kurs w chwili T na podstawie danych znanych w chwili t prognozujemy za pomocą warunkowej wartości oczekiwanej E(S T H t ). Parametry rozkładu X t nazywa się następująco: E(X t ) = µ t dryf; D 2 (X t ) = σt 2, σ t zmienność (volatility); k t = E(Xt µt)4 3 kurtoza; σt 4 γ(t 0, t 1 ) = Cov(X t0, X t1 ) funkcja autokowariancji; ρ(t 0, t 1 ) = γ(t 0,t 1 ) σ(x t0 )σ(x t1 funkcja autokorelacji. ) Definicja 1 Mówimy, że proces stochastyczny ma krótką pamięć gdy istnieją C > 0 i r (0, 1), takie że ρ(t 0, t 1 ) Cr t 1 t 0. 1.2 Fakty stylizowane (fakty empiryczne) Mimo swojej różnorodności szeregi czasowe zwrotów finansowych mają pewne cechy wspólne. Nazywa się je faktami stylizowanymi (ang. stylized facts). Są to: 1. Brak autokorelacji procesu X t. Za wyjątkiem danych wysokiej częstotliwości (np. tików ), przyjmuje się, że dla s t zmienne losowe X s i X t są nieskorelowane. Co oczywiście nie oznacza, że są niezależne. 6
2. Leptokurtoza i grube ogony. Przyjmuje się, że rozkład X t jest leptokurtyczny, tzn. kurtoza X t jest dużo większa niż kurtoza rozkładu normalnego. Ponadto nie wszystkie momenty X t są skończone. Tak jedno jak i drugie wyklucza rozkład normalny oraz implikuje stosunkowo duże prawdopodobieństwo występowania obserwacji ekstremalnych. 3. Dążenie do normalności przy agregacji. Przy zmniejszeniu częstotliwości obserwacji (czyli agregacji X t ) rozkład zwrotów upodabnia się do normalnego. 4. Asymetria spadków i wzrostów (???). W szeregach notowań akcji i indeksów giełdowych znaczne spadki są większe niż znaczne wzrosty. 5. Zgrupowania zmienności. Obserwuje się okresy podwyższonej zmienności, rozdzielone okresami obniżonej zmienności. 6. Powracanie zmienności do średniej. Uważa się, że w długim okresie czasu zmienność powinna powracać do określonego średniego poziomu. Aczkolwiek nie jest jasne jaki jest ten normalny poziom. 7. Dodatnia autokorelacja procesu X 2 t. W odróżnieniu od pozbawionego autokorelacji procesu X t, proces kwadratów X 2 t cechuje się dodatnią autokorelacją. Co wyklucza niezależność kolejnych X t od poprzednich obserwacji. 8. Długa pamięć procesu X t (???). Proces modułów X t również cechuje się dodatnią autokorelacją. Przy czym zanika ona bardzo powoli. Co do faktów 4 i 8 (oznaczonych (???)) nie wszyscy badacze są zgodni. 1.3 Proces generujący dane Niech Z = (Z t ) t=0 będzie K-wymiarowym procesem stochastycznym (ciągiem zmiennych losowych) określonym na przestrzeni probabilistycznej (Ω, M, P ). Obserwujemy pierwszych n realizacji tego procesu. W rozważaniach teoretycznych przyjmuje się, że n może być dowolnie duże. 1.3.1 Zmienne losowe Z t są iid W przypadku, gdy zmienne losowe Z t są niezależne i o tym samym rozkładzie (ang. iid independent and identically distributed), możemy stosować Centralne Twierdzenie Graniczne i klasyczne metody statystyki. 7
Przykład 1 Losowanie ze zwracaniem. Chcemy zbadać rozkład cechy X. W tym celu, z populacji generalnej będziemy losować ze zwracaniem. Otrzymujemy proces X k, k = 1,..., gdzie X k to wartość cechy X w k tym losowaniu. Przykład 2 Model stochastyczny kursu walutowego Niech Y t oznacza kurs 1 USD w EUR w dniu t. Przyjmujemy Y t = Y t 1 e εt, E(ε t ) = 0. Po zlogarytmowaniu otrzymujemy model błądzenia przypadkowego ln Y t = ln Y t 1 + ε t. W pierwszym przybliżeniu przyjmujemy, że ε t są iid o rozkładzie normalnym N(0, σ 2 ). 1.3.2 Stacjonarność Definicja 2 Proces stochastyczny Z jest (silnie) stacjonarny gdy dla dowolnych p, q, r N łączne rozkłady {Z p, Z p+1,..., Z p+q } i {Z r,..., Z r+q } są identyczne. Wniosek 1 Jeśli proces stochastyczny Z jest stacjonarny i Z t należą do L 2, to dla wszystkich p, q, r N E(Z p ) = E(Z r ), Cov(Z p, Z p+q ) = Cov(Z r, Z r+q ). 1.3.3 Ergodyczność Definicja 3 Stacjonarny proces stochastyczny Z ma własność mieszania gdy dla dowolnych ograniczonych funkcji borelowskich f i g oraz indeksów p, l, m N lim E(f(Z p,..., Z p+m )g(z n,..., Z n+l )) = n = E(f(Z p,..., Z p+m ))E(g(Z p,..., Z p+l )). Definicja 4 Stacjonarny proces stochastyczny Z jest ergodyczny gdy A B(R K ) P ( t Z t A) {0, 1}. Twierdzenie 1 Twierdzenie ergodyczne. Jeśli proces stochastyczny Z jest stacjonarny i Z t należą do L 1, to zachodzą implikacje gdzie a. Z ma własność mieszania, b. Z jest ergodyczny, c. średnie zbiegają do wartości oczekiwanej Z n = 1 n a = b = c, n 1 Z t t=0 8 as E(Z 0 ).
Uwaga 1 Jeśli proces stochastyczny Z jest stacjonarny i ma własność mieszania, a f jest funkcją borelowską to proces Z = (f(z t,..., Z t+q )) t=0 też jest stacjonarny i ma własność mieszania. Zatem jeśli Z t należą do L 2 to n 1 1 n n 1 1 n t=0 Zt 2 t=0 Z t Z t+p as E(Z 2 0), as E(Z 0 Z p ). Wniosek 2 Dla procesów stacjonarnych i ergodycznych średnie próbkowe są zgodnymi estymatorami. 1.3.4 Martyngały i przyrosty martyngałowe Definicja 5 K-wymiarowy proces stochastyczny Z = (Z t ) t=0 nazywamy martyngałem gdy 1. Z t L 1 dla t = 0, 1,..., 2. E(Z t Z t 1,..., Z 0 ) = Z t 1 dla t = 1, 2,.... Definicja 6 K-wymiarowy proces stochastyczny g = (g t ) t=0 nazywamy ciągiem przyrostów martyngałowych gdy 1. E(g t ) = 0, dla t = 0, 1,..., 2. E(g t g t 1,..., g 0 ) = 0 dla t = 1, 2,.... Uwaga 2 Jeśli proces Z = (Z t ) t=0 jest martyngałem, to proces g = (g t ) t=0, gdzie g 0 = Z 0 E(Z 0 ), g t = Z t Z t 1, t > 0, jest ciągiem przyrostów martyngałowych. Uwaga 3 Jeśli proces g = (g t ) t=0 jest ciągiem przyrostów martyngałowych, a µ dowolną stałą, to proces Z = (Z t ) t=0, gdzie jest martyngałem. Z 0 = µ + g 0, Z t = Z t 1 + g t, t > 0, Lemat 1 Jeśli proces g = (g t ) t=0 jest ciągiem przyrostów martyngałowych i g t należą do L 2 to są one nieskorelowane Cov(g t, g s ) = 0, dla t s. Twierdzenie 2 Centralne Twierdzenie Graniczne (Bilingsley 1968). Jeśli stacjonarny i ergodyczny proces g = (g t ) t=0 jest ciągiem przyrostów martyngałowych i g t należą do L 2, to gdzie Σ = E(g 0 g T 0 ). ngn = n n n 1 g t t=0 d N(0, Σ), Uwaga 4 Powyższe twierdzenie jest uogólnieniem CTG Linderberga-Levy ego, w którym pominięta została niezależność składników. 9
1.4 Regularna zmienność dystrybuant zmiennych losowych. Do modelowania tłustych ogonów wykorzystuje się rozkłady o dystrybuantach regularnie zmieniających się w ±. Definicja 7 Zmienną losową X nazywamy regularnie zmienną w + z wykładnikiem ρ jeżeli 1 F X (xt) lim t 1 F X (t) = lim P(X > xt) t P(X > t) = x ρ dla każdego x > 0. Definicja 8 Zmienną losową X nazywamy regularnie zmienną w z wykładnikiem ρ jeżeli F X (xt) lim t F X (t) = lim P(X xt) t P(X t) = x ρ dla każdego x > 0. Przykład 3 Zmienna losowa o rozkładzie Pareto z indeksem ogonowym ρ > 0 i parametrem skali x 0 > 0 { 0 for x x 0, F X (x) = 1 ( ) ρ x 0 x for x > x 0, jest regularnie zmienna w + z wykładnikiem ρ. Przykład 4 Zmienna losowa o rozkładzie t-studenta z ν stopniami swobody jest regularnie zmienna zarówno w, jaki i w + z tym samym wykładnikiem ν. Przykład 5 Zmienna losowa o rozkładzie loggamma ma gęstość { 0 for x < 1, f X (x) = c(ln x) β 1 x 1 ρ for x > 1, gdzie ρ, β > 0. Jest ona regularnie zmienna w + z wykładnikiem ρ. Przykład 6 Zmienna losowa o rozkładzie lognormalnym jest regularnie zmienna w + z wykładnikiem +. Poniżej sformułujemy dwa fakty, które uzasadniają zastosowanie pojęcia regularnej zmienności w modelowaniu ogonów zmiennych losowych. Po pierwsze, wykładnik regularnej zmienności określa, które momenty zmiennej losowej są skończone. Twierdzenie 3 Niech X będzie nieujemną zmienną losową regularnie zmienną w nieskończoności z wykładnikiem ρ > 0, Wówczas wartość oczekiwana E(X k ) jest skończona dla k < ρ i nieskończona dla k > ρ. Po drugie, ogony zmiennych losowych regularnie zmiennych w nieskończoności ze skończonym wykładnikiem można przybliżać uogólnionym rozkładem Pareto ([22]). Twierdzenie 4 Niech X będzie zmienną losową regularnie zmienną w + z wykładnikiem ρ > 0, Wówczas istnieje funkcja σ(u) taka, że ( lim sup u + P (X > u + x X > u) 1 + ρx ) ρ x 0 σ(u) = 0. 10
1.5 Wybór rodziny modeli Wybór rodziny modeli zależy w dużym stopniu od przeznaczenia modelu, którym może być n.p.: 1. Ogólny (np. edukacyjny) opis zjawiska. a. Toy model. 2. Prognozowanie. 3. Badanie zdarzeń ekstremalnych. a. Ocena ryzyka. b. Stress testing. Oprócz przeznaczenia przy wyborze modelu należy uwzględnić następujące czynniki: 1. Czy wnioski z modelu są zgodne ze stylizowanymi faktami? 2. W jakim stopniu spełnione są założenia modelu? 3. Jak dużą liczbą danych dysponujemy? 4. Jak pracochłonny jest model? 1.6 Kalibrowanie modelu Kalibrowaniem modelu nazywamy wyznaczanie jego parametrów strukturalnych na podstawie posiadanych danych empirycznych. 1.6.1 Metody parametryczne Na podstawie wcześniejszej analizy wybieramy parametryczną rodzinę modeli {Z(θ) : θ Θ R M }. Następnie estymujemy θ, tak aby Z(ˆθ) jak najlepiej pasował do danych empirycznych. Najczęściej stosuje się jedną z poniższych metod: 1. Metoda momentów. Wybieramy pewien skończony zbiór charakterystyk liczbowych rozkładów z rodziny Z(θ) γ 1,... γ M (przykładowo mogą to być momenty centralne albo korelacje). Estymujemy je na podstawie obserwacji empirycznych, a następnie szukamy rozwiązania układu równań ˆγ i = γ i (Z(θ)), i = 1,..., M. γ i dobieramy w taki sposób aby powyższy układ równań miał zawsze dokładnie jedno rozwiązanie ˆθ. 2. Metoda najmniejszych kwadratów. Żądamy minimalizacji funkcji M SE(θ), która mierzy odchylenie zadanej zależności funkcyjnej od punktów doświadczalnych z t, t = 1,..., n MSE(θ) = 1 n f(θ, z t ) 2. n t=1 11
3. Metoda największej wiarogodności. Żądamy maksymalizacji funkcji wiarogodności L(θ), gdzie f(x, θ) gęstość rozkładu Z(θ). n L(θ) = f(z t, θ), t=1 Wybór metody estymacji zależy od postaci analitycznej wybranej rodziny modeli i liczby obserwacji. Przy stosunkowo małej próbce zaleca się metodę momentów. Przy odpowiednio dużej, metoda największej wiarogodności daje lepsze dopasowanie. Czasami łączy się obie metody. Estymator metody momentów traktuje się jako punkt startowy do przybliżonego wyznaczania estymatora największej wiarogodności. 1.6.2 Metody nieparametryczne Niech z t, t = 1,..., n, realizacja procesu Z t. Definicja 9 Rozkładem empirycznym zmiennych losowych Z t nazywamy rozkład dyskretnej zmiennej losowej Ẑ P(Ẑ = z t) = 1 n. Twierdzenie 5 Gdy proces Z t jest stacjonarny i ergodyczny to przy n rozkład Ẑ zbiega do rozkładu Z 1. Definicja 10 Wygładzonym rozkładem empirycznym m-wymiarowych zmiennych losowych Z t nazywamy rozkład zmiennej losowej Ẑh o gęstości ĝ(z) ĝ(z) = 1 nh n ( z zt K t=1 h ), z R m gdzie h > 0 zadana liczba (parametr wygładzający), a K nieujemna funkcja na R m (zwana jądrem wygładzającym), taka, że R m K(z) = 1. 1.7 Weryfikacja modelu Po wyznaczeniu parametrów strukturalnych modelu (tzn. po wykalibrowaniu) należy przeprowadzić weryfikację modelu. Rozróżniamy weryfikację merytoryczną i statystyczną. 1. Weryfikacja merytoryczna to ocena ekspercka tego czy model prawidłowo opisuje badane zjawisko i czy wnioski z modelu są zgodne ze stylizowanymi faktami. 2. Weryfikacja statystyczna to zestaw testów statystycznych, takich jak: testy istotności parametrów strukturalnych, i testy dobroci dopasowania (ang. GOF goodness of fit). 12
1.8 Testy GOF Spośród licznej rodziny testów dobroci dopasowania omówimy testy oparte na pomiarze błędu dopasowania wyestymowanej dystrybuanty do dystrybuanty empirycznej. Ponieważ dla odpowiednio dużych próbek dystrybuanta empiryczna mało różni się od prawdziwej dystrybuanty, otrzymujemy w ten sposób dodatkowo informację o dokładności naszego modelu. Na podstawie realizacji procesu Z t z t, t = 1,..., n, testujemy na poziomie istotności α H 0 : Z należy do rodziny modeli {Z(θ) : θ Θ} względem H 1 : Z nie należy do rodziny modeli {Z(θ) : θ Θ}. Typowa reguła decyzyjna: 1. Estymujemy Z(ˆθ). 2. Wyznaczamy odległość (czasem półodległość) między rozkładem Z(ˆθ), a rozkładem empirycznym Ẑ T = d(z(ˆθ), Ẑ). 3. Wyznaczamy wartość krytyczną T kryt. 4. Jeżeli T T kryt to odrzucamy H 0 na rzecz H 1, jeżeli T < T kryt to nie ma podstaw do odrzucenia H 0. Jako odległość d można wziąć na przykład: ( n sup FZ(ˆθ) (z) FẐ(z) ) statystyka Kołmogorowa, n (F Z(ˆθ) (z) FẐ(z)) 2 df Z(ˆθ) (z) statystyka Cramera-von Misesa, (F Z(ˆθ) (z) FẐ(z)) 2 n F Z(ˆθ) (z)(1 F Z(ˆθ) (z)) df Z(ˆθ) (z) statystyka Andersona-Darlinga, gdzie F oznacza dystrybuantę. Statystykę Kołmogorowa stosujemy gdy istotne jest dopasowanie rozkładów dla typowych wartości zmiennych losowych (0 << F << 1) a statystykę Andersona-Darlinga gdy chcemy kontrolować ogony rozkładu F 0 i F 1. Statystyka Cramera-von Misesa pełni rolę pośrednią. Istotnym problemem jest wyznaczanie wartości krytycznej T kryt (α). Stosuje się dwie metody: A. Dzielimy próbkę na część uczącą (t J 1 ) i testującą (t J 2 ). Na podstawie J 1 estymujemy θ i wyznaczamy T kryt. Natomiast dystrybuantę empiryczną wyznaczamy z J 2. 13
B. Na podstawie całej próbki estymujemy θ. Próbkujemy z rozkładu Z(ˆθ) i powtarzamy punkty 1 i 2 reguły decyzyjnej dla próbki z symulacji. Iterujemy próbkowanie i wyznaczamy rozkład próbkowy statystyki T. Dla rozkładów ciągłych, dla dużych n i odpowiednio dużej liczby iteracji α-kwantyl tego rozkładu jest dobrym przybliżeniem T kryt (α). Metoda A ma prostą interpretację statystyczną i jest prostsza numerycznie (tzn. obliczenia wymagają mniejszego nakładu pracy) ale za to estymacja jest mniej dokładna. Można ją stosować w tzw. backtestingu : kalibrujemy model na podstawie kilku ostatnich miesięcy (albo tygodni) i przez kolejny miesiąc (odpowiednio tydzień) analizujemy poprawność wniosków. 14
2 Modele jednowymiarowe W rozdziale tym omówione zostaną następujące zagadnienia: 1. GARCH i Stochastic Volatility (SV), jako przykłady podstawowych modeli jednowymiarowych. 2. Rozszerzenia GARCH i SV, różnice względem podstawowych modeli i przyczyny ich wprowadzenia. 3. Modele przełącznikowe typu Markowa. Więcej informacji na powyższe tematy czytelnik może znaleźć w publikacjach [9, 27, 17, 13]. 2.1 Modele GARCH i SV Dla t Z X t = h t ε t, h t > 0, gdzie standaryzowane innowacje ε t są iid, E(ε t ) = 0 i D 2 (ε t ) = 1. W modelach GARCH (czyli uogólnionych modelach autoregresyjnej heteroskedastyczności warunkowej) nieobserwowalny proces h t jest wyznaczony przez wcześniejsze wartości X s i h s h t σ(x s, h s, s < t). W modelach SV (zmienności stochastycznej) powyższy warunek nie zachodzi h t σ(x s, h s, s < t). Oprócz procesu dwustronnych (od do + ) rozważane są również procesy z warunkiem początkowym. Wówczas ograniczmy się do t > t 0. 2.2 Podstawowy model GARCH(1,1) Najprostszy model z rodziny GARCH, GARCH(1,1), jest opisany następująco: Rozważamy dwa ciągi zmiennych losowych X t i h t. Wartość X t poznajemy w momencie t, a h t jest zmienną pomocniczą. Są one związane wzorami X t = h t ε t, h 2 t = a + bh 2 t 1 + cx 2 t 1, t Z, gdzie a, b, c, a > 0, b, c 0, są parametrami modelu, a ε t są niezależnymi od historii zmiennymi losowymi o tym samym rozkładzie o wartości oczekiwanej 0 i wariancji 1. W modelu podstawowym przyjmuje się, że mają one rozkład normalny N(0, 1). h t można interpretować, jako zmienne odchylenie standardowe zmiennych losowych X t. 15
2.3 Podstawowy model GARCH(p,q) X t = h t ε t, t Z, h 2 t = a + b 1 h 2 t 1 +... + b p h 2 t p + c 1 X 2 t 1 +... + c q X 2 t q, gdzie a, b i, c i, a > 0, b i, c i 0, są parametrami modelu, a ε t są niezależnymi od historii zmiennymi losowymi o tym samym rozkładzie o wartości oczekiwanej 0 i wariancji 1. W modelu podstawowym przyjmuje się, że mają one rozkład normalny N(0, 1). 2.4 Podstawowy model SV W podstawowym modelu SV logarytm procesu h t jest opisany jako proces liniowy AR(1). X t = h t ε t, t Z, ln h t = a + b ln h t 1 + cη t, gdzie a, b, c, b < 1, c > 0, są parametrami modelu, a ε t i η s, t, s Z są niezależnymi od siebie i od historii zmiennymi losowymi o tym samym rozkładzie o wartości oczekiwanej 0 i wariancji 1. W modelu podstawowym przyjmuje się, że mają one rozkład normalny N(0, 1). 2.5 Ogólne własności modeli GARCH i SV Załóżmy, że X t należą do L 2. Wówczas E(X t ) = E(h t )E(ε t ) = 0. Cov(X t, X t+k ) = E(X t X t+k ) = E(h t h t+k ε t+k )E(ε t+k ) = 0, dla k > 0. E(X t X t 1 ) = E(h t X t 1 )E(ε t ) = 0. Podsumowując, procesy typu GARCH i SV są nie tylko nie skorelowane ale są również przyrostami martyngałowymi. 2.6 Stacjonarność GARCH(1,1) Nie dla wszystkich modeli GARCH istnieją rozwiązania stacjonarne. Potrzebne są dodatkowe warunki na parametry. Przykładowo dla modelu GARCH(1,1) zachodzi: Twierdzenie 6 Następujące warunki są równoważne: 1. Model GARCH(1,1) z parametrami a, b, c ma dokładnie jedno rozwiązanie stacjonarne (X t, h t ). 2. Parametry a, b, c są nieujemne i spełnione jest oszacowanie E(ln(bε 2 t + c)) < 0. 16
2.7 Stacjonarne procesy GARCH(1,1) Momenty rozwiązania stacjonarnego można stosunkowo łatwo wyznaczyć. Twierdzenie 7 Niech (X t, h t ) będzie stacjonarnym procesem GARCH(1,1) z parametrami a, b, c. Przy założeniu E(ε t ) = 0, E(ε 2 t ) = 1, E(ε 3 t ) = 0, E(ε 4 t ) = 3, otrzymujemy: A. Gdy b + c < 1 to 1. E(h 2 a t ) = 1 b c ; 2. E(X t ) = 0; 3. D 2 (X t ) = E(Xt 2 a ) = 1 b c ; 4. cov(x t, X t+k ) = 0 k = 1, 2,.... B. Gdy ponadto (b + c) 2 + 2c 2 < 1 to 5. E(h 4 a 2 (1 + b + c) t ) = (1 b c)(1 (b + c) 2 2c 2 ) ; 6. D 2 (h 2 2a 2 c 2 t ) = (1 b c) 2 (1 (b + c) 2 2c 2 ) ; 7. cov(h 2 t, h 2 t+k) = (b + c) k D 2 (h 2 t ) k = 1, 2,... ; 8. E(Xt 4 ) = 3E(h 4 t ); 9. D 2 (Xt 2 2a 2 (1 b 2 bc) ) = (1 b c) 2 (1 (b + c) 2 2c 2 ) ; 10. cov(xt 2, Xt+1) 2 = c(1 b2 bc) 1 b 2 2bc D2 (Xt 2 ); 11. cov(xt 2, Xt+k) 2 = (b + c) k 1 cov(xt 2, Xt+1) 2 k = 2, 3,.... Zauważmy, że momenty badanego procesu można stosunkowo łatwo wyestymować na podstawie danych empirycznych. Otrzymujemy w ten sposób proste narzędzie do estymacji parametrów strukturalnych (metoda momentów podrozdział 1.6.1) i do wstępnej oceny na ile stacjonarny proces GARCH(1,1) poprawnie opisuje badane zjawisko. 2.8 Stacjonarność SV Dla wszystkich podstawowych modeli SV istnieją rozwiązania stacjonarne (X t, h t ). Gdy η t są N(0, 1) to ln h t jest gaussowskim rozwiązaniem modelu AR(1). E(ln h t ) = a 1 b, D2 (ln h t ) = c2 1 b 2. Cov(ln h t, ln h t+k ) = b k D 2 (ln h t ), dla k > 0. 17
Gdy ln h t są stacjonarne to również X t = h t ε t są stacjonarne. E(X t ) = 0, D 2 (X t ) = E(X 2 t ) = E(h 2 t ) = exp ( 2c 2 1 b + 2a ). 2 1 b ( 4c D 2 (Xt 2 2 ) = exp 1 b + 4a ) ( ( ) ) exp 3 4c2 1 2 1 b 1 b 2 ( 4c Cov(Xt 2, Xt+k) 2 2 = exp 1 b + 4a ) ( ( 4b k c 2 ) ) exp 1, dla k > 0. 2 1 b 1 b 2 2.9 Stacjonarne rozwiązania GARCH(p,q) i SV - podsumowanie W przypadku gaussowskich innowacji stacjonarne procesy GARCH(p,q) i SV mają następujące własności: 1. Kwadraty stacjonarnych rozwiązań GARCH(p,q) i SV to procesy z krótką pamięcią. 2. Stacjonarne rozwiązania SV, w odróżnieniu od stacjonarnych rozwiązań GARCH(p,q), mają wszystkie momenty. 2.10 Kalibrowanie modeli GARCH(p,q) Przy kalibrowaniu modeli GARCH(p,q) najczęściej korzystamy z metody największej wiarogodności. 1. Estymujemy proces h t dla nieznanych wartości parametrów a, b i, c i, ĥ 2 t = a + b 1 ĥ 2 t 1 +... + b p ĥ 2 t p + c 1 x 2 t 1 +... + c q x 2 t q, 2. Wyznaczamy logarytm warunkowej funkcji wiarogodności warunkowanej przez h t = ĥt, n l(a, b, c) = ln f(x t, ĥt), t=1 gdzie f(, ĥt) gęstość rozkładu N(0, ĥt). 3. Szukamy wartości a, b i i c i dla których funkcja l przyjmuje maksimum. 2.11 Wybór modelu GARCH(p,q) w oparciu o kryterium informacyjne Przy ustalonej wielkości próbki n, zwiększając liczbę parametrów modelu zawsze poprawiamy dopasowanie modelu do danych empirycznych. Gdy ilość parametrów strukturalnych zbliży się do wielkości próbki dopasowanie będzie wręcz idealne. Niestety skonstruowany w ten sposób model ma niewielką wartość prognostyczną. Nastąpiło przeuczenie modelu overfitting. Aby ograniczyć liczbę parametrów stosuje się kryteria informacyjne. 18
Zauważmy, że liczba parametrów strukturalnych modelu GARCH(p,q) z gaussowskimi innowacjami wynosi 1 + p + q. 1. Dla parametrów p i q (z ustalonego zbioru parametrów) wyznaczamy maksimum funkcji wiarogodności L p,q. 2. Stosujemy kryterium informacyjne Akaike. lub kryterium Schwarza AIC = 2 n (ln(max(l p,q)) (1 + p + q)) min. BIC = 2 n (ln(max(l p,q)) (1 + p + q) ln n ) min. 2 Różnica między kryteriami AIC i BIC polega na innym ważeniu jakości dopasowania i prostoty modelu. W literaturze sugeruje się, że dla małej próbki kryterium AIC ma tendencję do wybierania modelu o zbyt dużej liczbie parametrów. 2.12 Weryfikacja modeli GARCH i SV Przy weryfikacji modeli GARCH i SV należy zwrócić uwagę na trzy podstawowe elementy: 1. Czy spełnione są założenia modelu: Testujemy czy innowacje są iid o rozkładzie N(0, 1). 2. Czy model jest dobrze dopasowany do badanego zjawiska: Testujemy czy empiryczne i modelowe drugie momenty procesu i autokowariancja procesu kwadratów są zgodne. 3. Czy wnioski z modelu są poprawne: Testujemy jakość prognoz. Na przykład stosując test Kupieca ([19]) sprawdzamy dokładność estymacji Value at Risk czyli poprawność prognozy kwantyla rozkładu X t. Jeśli wszystkie testy wypadną pomyślnie, to możemy powiedzieć, że badany model jest statystycznie poprawny. 2.13 Rozszerzenia GARCH i SV 1. Zmieniamy rozkład innowacji z N(0, 1) na inny rozkład zestandaryzowany np. zestandaryzowany rozkład t-studenta. W ten sposób pogrubiamy ogony. 2. Zmieniamy formułę opisującą ewolucję h t. Np. h 2 t = a + bh 2 t 1 + cx 2 t 1 + di Xt 1 <0X 2 t 1 GJG GARCH(1, 1), h 2 t = a + bh 2 t 1 + c( X t 1 dx t 1 ) δ, δ > 0, d ( 1, 1), AP GARCH(1, 1). W ten sposób uwzględniamy asymetryczny wpływ spadków na zmienność. 19
2.14 Modele przełącznikowe X t Y t N(µ(Y t ), h(y t )), gdzie Y t jest łańcuchem Markowa o skończonej liczbie stanów np. o dwóch stanach bessa i hossa. Ewolucja takiego procesu jest opisana przez macierz przejścia o wyrazach p i,j = P(Y t = s j Y t 1 = s i ). Naturalne rozszerzenie modelu przełącznikowego polega na przyjęciu, że prawdopodobieństwa p i,j są zmienne w czasie i zależą od czynników zewnętrznych (np. makroekonomicznych). 20