Weryfikacja założeń modelu Gaussa-Markowa Przypomieie: W modelu Gaussa-Markowa Y = X jedyym losowym elemetem jest wektor. Zakładamy, że jest wektorem iezależych zmieych losowych o jedakowym rozkładzie N 0,, gdzie jest iezae. Weryfikacja założeń modelu Gaussa-Markowa sprowadza się do weryfikacji założeń o wektorze. Poieważ wektor jest iezay, iezaa jest też realizacja wektora. Wobec tego weryfikacja założeń modelu Gaussa- Markowa opiera się a wektorze reszt e=y X, który traktujemy jako swoisty estymator wektora błędów. 1. Badaie losowości błędów Sprawdzamy, czy błędy są losowo rozrzucoe wokół zer ie obserwujemy wśród ich żadego tredu. H: rozkład błędów jest losowy K: rozkład błędów ie ma charakteru losowego Wykresy reszt uporządkowaych w kolejości rosącej jedej ze zmieych objaśiających dobrze źle Test serii Serią azwiemy astępujące pod rząd wartości reszt jedego zaku. Porządkujemy reszty w kolejości rosącej jedej ze zmieych objaśiających lub pozostawiamy w orygialej kolejości, jeśli dae są ideksowae czasem. Zliczamy liczbę serii. Zliczamy liczbę reszt dodatich i liczbę reszt ujemych. (Gdybyśmy uzyskali resztę rówą 0, igorujemy ją w obliczeiach). Statystyką testową jest liczbę serii. Hipotezę zerową o losowości składika losowego odrzucamy, gdy liczba serii jest za mała lub za duża. Przy testowaiu a ustaloym poziomistotości, jeśli liczba obserwacji jest iewielka, wartości krytycze dla daej liczby reszt dodatich i ujemych odczytujemy z tablicy. Jeśli zmieą losową ozaczającą liczbę serii ozaczymy jako S a liczby reszt poszczególych zaków jako 1 i, to przy hipotezie zerowej mamy ES = 1 1 i Var S= 1 1, 1 gdzie = 1. Jeśli liczba obserwacji jest duża, to przy wyzaczaiu obszaru krytyczego korzystamy z przybliżeia rozkładu liczby serii rozkładem ormalym. Wówczas za statystykę testową przyjmujemy S= S ES, której rozkład wraz z dąży do rozkładu N 0,1, i a poziomistotości Var S odrzucamy hipotezę o losowości składika losowego a rzecz hipotezy o tym, że składik losowy ie ma charakteru losowego, gdy S, 1 1 1 1,.
Przykład. Po uporządkowaiu daych względem jedej ze zmieych iezależych trzymaliśmy ciąg reszt: -1, -, -4, -1,, 3, 5, -1, -3, -3, -, 1, 5, 3 Podkreśloo serie złożoe z reszt ujemych i adkreśloo serie złożoe z reszt dodatich. Zaobserwowao cztery serie, 8 reszt ujemych i 6 reszt dodatich. Z tablic wartości krytyczych testu serii odczytujemy liczby 4 i 11. Liczba serii ależy do zbioru krytyczego {s : s4 s11}, a zatem a poziomistotości 0,05 (a takim poziomistotości sporządzoa jest tablica) odrzucamy hipotezę o losowości składika losowego a rzecz hipotezy o tym, że składik losowy ie ma charakteru losowego. Uwaga: Należy zwrócić baczą uwagę, czy w tablicy wartości krytyczych testu serii, z jakiej korzystamy, podao wartości krytycze z ostrymi czy słabymi ierówościami tz. czy zbiór krytyczy jest postaci {s : ss L ss U } czy też {s : ss L ss U }. Wykazay brak losowości błędów świadczy o tym, że badaa zależość ie ma charakteru liiowego (przyajmiej względem jedej zmieej, przy porządkowaiu względem której odkryto brak losowości błędów) bądź też że brak jest w modelu istotych zmieych iezależych, lub też że występuje autokorelacja składika losowego (patrz: dalsza część wykładu). Testowaie losowości błędów może być więc traktowae jako testowaie słuszości struktury przyjętego modelu.. Badaie ormalości błędów Wykres kwatylowo-kwatylowy Wykres kwatylowo-kwatylowy w ogólości Przypomijmy: Dystrybuatą zmieej losowej X azywamy fukcję F X :R [0,1] zadaą wzorem F X t =P X t. Niech X 1, X,, X będą iezależymi zmieymi losowymi o jedakowym rozkładzie takim jak zmiea losowa X. Def. Dystrybuatą empiryczą wyzaczoą a postawie próby X 1, X,, X azywamy fukcję F : R[0,1] zadaą wzorem F t= 1 {i : X it}. Tw. (Gliweko-Catelli) P lim s u p t R F t F X t=0 =1 (tz. dystrybuata empirycza jest z prawdopodobieństwem 1 zbieża jedostajie do dystrybuaty). Def. Fukcją kwatylową rozkładu zmieej losowej X azywamy fukcję F X 1 :0,1R daą wzorem F X 1 u=if {t R: F x tu}. Jeśli dystrybuata zmieej losowej X jest fukcją ciągłą i ściśle rosącą, to wówczas fukcja kwatylowa zmieej losowej X jest fukcją odwrotą w zwykłym sesie do dystrybuaty zmieej losowej X. Def. Empiryczą fukcją kwatylową wyzaczoą a postawie próby X 1, X,, X azywamy fukcję F 1 :0,1 R zadaą wzorem F X 1 u=if {t R : F t u }. Tw. Niech fukcja F X będzie ciągł ściśle rosąca w zbiorze {t R :0 F X t1}. Wówczas 0ab1 P lim s u p u [a,b] F 1 u F 1 X u =0=1 (tz. empirycza fukcja kwatylowa jest z prawdopodobieństwem 1 zbieżemal jedostajie do fukcji kwatylowej).
Dystrybuata empirycza jest fukcją schodkową, prawostroie ciągłą. Jej koleje skoki wypadają w puktach X 1, X,, X, gdzie X 1, X,, X ozaczają statystyki pozycyje (porządkowe) z próby, a zbiór wartości zawiera się w zbiorze X 1, X,, X { 0, 1, 1,,, 1 }. Ściślej mówiąc, k {1,,, 1} t [ X k, X k1 F t = k. Empirycza fukcja kwatylowa jest fukcją schodkową, lewostroie ciągłą. Jej koleje skoki wypadają w puktach ze zbioru { 1, 1,, }, a zbiór wartości zawiera się w zbiorze { X 1, X,, X }. Ściślej mówiąc, k {1,,, 1} u k 1, k ] F 1 u = X k. Ze względu a zbieżość empiryczej fukcji kwatylowej do fukcji kwatylowej w każdym pukcie (własość słabsza od zbieżości iemal jedostajej), pukty postaci F 1 u, F X 1 u, u 0,1 powiy leżeć miej więcej a prostej o rówaiu y=x. 1 Niech m, będzie fukcją kwatylową rozkładu N m, zaś 1 fukcją kwatylową rozkładu N 0,1. Zachodzi tożsamość: 1 u 0,1 m, u=m 1 u. Wobec tego jeśli próba X 1, X,, X pochodzi z rozkładu ormalego, to pukty postaci F 1 u, 1 u,u 0,1 leżą a prostej. Niech uk = k 1,k=1,,,. Wówczas F 1 u k =X k. Def. Zbiór puktów postaci X k, 1 u k, k=1,,,, azywamy wykresem kwatylowo-kwatylowym zgodości z rozkładem ormalym, sporządzoym a podstawie próby X 1, X,, X. Jeśli pukty a wykresie kwatylowo-kwatylowym ie układają się w prostą, świadczy to o tym, że obserwacje X 1, X,, X ie pochodzą z rozkładu ormalego. Wykres kwatylowo-kwatylowy w badaiu ormalości błędów k 1 W układzie współrzędych zazaczamy pukty postaci e k, 1 u k, gdzie uk =,k=1,,,. Jeśli pukty ie układają się w prostą, świadczy to o tym, że błędy ie mają rozkładu ormalego. Test Shapiro Wilka Test Shapiro Wilka w ogólości X 1, X,, X iezależe zmiee losowe o jedakowym rozkładzie H: rozkład ów jest rozkładem ormalym K: rozkład ów ie jest rozkładem ormalym Statystyka testowa: T = [ ] ai X i1 X i i =1 X i X
gdzie X 1, X,, X ozaczają statystyki pozycyje (porządkowe) z próby X 1, X,, X. Hipotezę zerową odrzucamy dla małych wartości statystyki testowej. Liczby a 1, a, oraz pukt krytyczy dla testowaia a ustaloym poziomistotości odczytujemy z tablic. Kostrukcja testu Shapiro Wilka Niech =Var X 1. Wówczas przy hipotezie zerowej zmiee losowe X X 1, X X,, X X są miej więcej iezależymi zmieymi losowymi o rozkładzie N 0,1. Niech X = X 1 X X X X ' X. Przy hipotezie zerowej jest to miej więcej wektor statystyk pozycyjych z próby z rozkładu N 0,1. Niech Y 1, Y,, Y będą iezależymi zmieymi losowymi o rozkładzie N 0,1. Niech m i = EY i,i=1,,,. Niech m=m 1 m m ' (czyli m jest wektorem wartości oczekiwaych statystyk pozycyjych z rozkładu N 0,1 ). Niech V będzie macierzą kowariacji wektora Y 1 Y Y. Niech a= 1 V 1 m V 1 m. Możemy powiedzieć, że a jest wektorem wartości oczekiwaych statystyk pozycyjych z rozkładu N 0,1 poddaym pewemu przekształceiu związaemu z macierzą kowariacji wektora statystyk pozycyjych z rozkładu N 0,1 i uormowaiu (tz. a =1 ). Zauważmy, że a i1 =, i=1,,,. 1 = 1 cos a X a, X =[ ] a X a X = a X a X = X i X X i X = X i X X i X = i =1 X = i =1 i =1 X i X X i X X i X X i X = = [ ] ai X i1 X i X i X i =1 Możemy powiedzieć, że statystyka testowa mierzy kąt pomiędzy wektorem wartości oczekiwaych statystyk pozycyjych z rozkładu N 0,1 a wektorem, który przy hipotezie zerowej zachowuje się jak wektor statystyk pozycyjych z rozkładu N 0,1. O iespełieiu hipotezy zerowej świadczy duża miara tego kąta czyli duża miara kąta a, X a więc mała wartość kwadratu cosiusa tego kąta. Test Shapiro Wilka w testowaiu ormalości błędów Statystyka testowa: H: błędy są iezależymi zmieymi losowymi o tym samym rozkładzie ormalym K: błędy ie są iezależymi zmieymi losowymi o tym samym rozkładzie ormalym [ ] ai e i 1 e i T =. Hipotezę zerową odrzucamy dla małych wartości statystyki testowej. Liczby a 1, a, oraz pukt krytyczy dla testowaia a ustaloym poziomistotości odczytujemy z tablic. 3. Badaiezależości błędów Mówieie o potecjalej zależości błędów jest ajbardziej zasade, gdy obserwacjdeksowae są czasem. Wówczas może się zdarzyć, że błąd w chwili i jest zależy od przeszłości tz. od błędów w chwilach i 1,i,. Najczęściej zakładamy, że błędy tworzą proces autoregresji rzędu p ( AR p )tz. i = 1 i 1 i p i p u i,i= p1, p,,, gdzie u p1, u p,, u są iezależymi zmieymi losowymi o jedakowym rozkładzie N 0,. Jeśli
1 = == p =0, to i =u i, a poieważ założyliśmy, że u p1, u p,,u są iezależymi zmieymi losowymi o jedakowym rozkładzie N 0,, to p1, p,, są iezależymi zmieymi losowymi o jedakowym rozkładzie N 0,. Test Durbia Watsoa Zakładamy, że błędy mają rozkład ormaly o stałej wariacji i tworzą proces AR 1 tz. i = 1 i 1 u i,i=,3,,. Dowodzi się, że w takim modelu 1 =Corr i, i 1,i=, 3,, czyli 1 jest współczyikiem korelacji pomiędzy błędami oddaloymi w czasie o 1. Moża powiedzieć, że jest to współczyik korelacji ciągu reszt samego ze sobą, tyle że po przesuięciu w czasie o 1. Z tego powodu o 1 mówi się: autokorelacja rzędu 1. Możliwe są dwa problemy testowaia hipotez: brak autokorelacji rzędu 1 przeciwko dodatiej autokorelacji rzędu 1 tz. H: 1 =0 K: 1 0, brak autokorelacji rzędu 1 przeciwko ujemej autokorelacji rzędu 1 tz. H: 1 =0 K: 1 0. W obu przypadkach statystyka testowa jest postaci: e i= i 1 i= T = = e i= i 1 T =. e i 1 1 = i = e i= i e i 1 i= 1 e i= i e i 1 e i= i e 1 e 1 1= = 1 =1 1 e i =1 (Estymator 1 występuje w teorii szeregów czasowych). Poieważ 1 [ 1,1], więc z dużym prawdopodobieństwem T [0,4] (a ogół ie z prawdopodobieństwem 1, bo stosowaliśmy przybliżeie). O wyraźej dodatiej autokorelacji rzędu 1 świadczy 1 bliskie 1 czyli wartości statystyki testowej bliskie 0. O wyraźej ujemej autokorelacji rzędu 1 świadczy 1 bliskie 1 czyli wartości statystyki testowej bliskie 4. Przeprowadzając test a ustaloym poziomistotości, odczytujemy z tablic liczby d U i d L. Następie sytuujemy statystykę testową w jedym z trzech obszarów. Przypadek 1. H: 1 =0 K: 1 0 0 odrzucamy H a rzecz K d L obszar iekokluzywości d U brak podstaw do odrzuceia H a rzecz K 4 Przypadek. H: 1 =0 K: 1 0 0 brak podstaw do odrzuceia H a rzecz K 4 d U obszar iekokluzywości 4 d L odrzucamy H a rzecz K 4 Test posiada obszar iekokluzywości (ierozstrzygalości) czyli obszar, w którym ie moża rozstrzygąć o braku podstaw do odrzuceia hipotezy H a rzecz hipotezy K lub też o odrzuceiu hipotezy H a rzecz hipotezy K. Dzieje się tak dlatego, że jest możliwe wyzaczeie dokładego rozkładu statystyki testowej przy hipotezie zerowej a zatem ie moża wyzaczyć dokładie obszaru krytyczego. Moża jedyie oszacować z dołu i z góry pukt krytyczy. Pukt krytyczy ależy do obszaru iekokluzywości. Uwaga: W wypadku testu Durbia Watsoa tablice statystycze odoszą się zazwyczaj tylko do modeli z wyrazem wolym, w związku z czym liczba zmieych w modelu odotowaa w tablicy ozacza zazwyczaj liczbę zmieych ie licząc wyrazu wolego. Uwaga: Test Durbia Watsoa charakteryzuje się bardzo małą odporością espełieie założeia
o ormalości rozkładu błędów, dlatego przy wątpliwościach co do spełiaia tego założeia przy testowaiu iezależości błędów ależy skorzystać z iego testu, który wykazuje większą odporość espełieie założeia o ormalości. Ze względu a koieczy wymóg ormalości rozkładu błędów oraz możliwość testowaia autoregresji tylko rzędu 1 test Durbia Watsoa ma dziś iewielkie praktycze zastosowaie. Podajemy go jedak ze względów historyczych. Test Breuscha Godfreya Zakładamy, że błędy mają rozkład ormaly o stałej wariacji i tworzą proces AR p tz. i = 1 i 1 i p i p u i, gdzie p jest ustalo zakładamy o im, że jest zae. H: 1 = == p =0 K: 1 0 0 p 0 Dokoujemy estymacji parametrów wyjściowego modelu metodą ajmiejszych kwadratów i wyzaczamy wektor e reszt. Dokoujemy estymacji parametrów modelu: = 0 1 1 p p i, i= p1, p,. Obliczamy współczyik determiacji R tego modelu. Statystyka testowa ma postać T =R. O prawdziwości hipotezy K świadczy dobre dopasowaie reszt do rozważaego modelu liiowego czyli duża wartość współczyika determiacji R a zatem duża wartość statystyki testowej. Przy hipotezie H statystyka testowa pod względem rozkładu dąży wraz z do rozkładu p. Odrzucamy hipotezę H a rzecz K a poziomistotości, gdy T p 1 1. Uwaga: Poieważ przy wyzaczaiu obszaru krytyczego bierzemy pod uwagę rozkład graiczy statystyki testowej przy hipotezie H, więc możliwa jest modyfikacja statystyki testowej o czyik zbieży do 1, tak by graiczy rozkład się ie zmieił. Stąd też w literaturze moża zaleźć statystykę testową postaci k R. Uwaga: Test Breuscha Godfreya jako test, w których statystyka testowa jest oparta a współczyiku determiacji, ma zastosowaie główie w modelach tylko ze zmieymi ilościowymi, gdyż w modelach ze zmieymi jakościowymi współczyik determiacji z samej swej atury ie przyjmuje dużych wartości. Nie powio to staowić jedak szczególego ograiczeia stosowalości tego testu, gdyż w modelach ideksowaych czasem występują główie zmielościowe. 4. Badaie homoskedastyczości (rówości wariacji) błędów Test Goldfelda Quadta H: błędy mają taką samą wariację (tz. Var 1 =Var ==Var ) K: wariacje błędów różią się Typowa sytuacja, w której zastosowaie ma test Goldfelda-Quadta, to taka, w której po uporządkowaiu reszt względem którejś zmieej objaśiającej widzimy, żch rozrzut jest iy dla małych i dużych wartości tej zmieej, względem której odbywa się uporządkowaie. brak podejrzeia o heteroskedastyczość podejrzeie o heteroskedastyczość
Porządkujemy reszty w kolejości rosącej takiej zmieej objaśiającej, przy porządkowaiu względem wartości której a wykresie reszt obserwujemy efekt taki jak a rysuku po prawej. Wybieray 1 początkowych obserwacji i końcowych obserwacji (zbiory rozłącze) zgodie z tym uporządkowaiem ( 1, często w literaturze spotyka się sugestie, by 1 3 i 1 ). Na podstawie każdego z dwóch podzbiorów obserwacji dokoujemy iezależie estymacji modelu liiowego, a astępie dokoujemy estymacji wariacji składika losowego w tych modelach. Wyzaczoe estymatory wariacji składika losowego ozaczmy przez 1 i. Jeśli 1, to statystyka testowa ma postać 1 / i przy hipotezie zerowej ma rozkład F 1 k, k. Jeśli 1, to statystyka testowa ma postać / 1 i przy hipotezie zerowej ma rozkład F k, 1 k. Odrzucamy hipotezę zerową dla dużych wartości statystyki testowej tz. testując a poziomistotości, odrzucamy hipotezę zerową a rzecz alteratywy, gdy statystyka testowa jest większa od kwatyla rzędu 1 odpowiediego rozkładu. Rezygacja z części obserwacji ( 1 ) ma a celu wyraźiejsze oddzieleie zbiorów, dla których wariacje błędów są róże. Jeśli jedak usuiemy zbyt dużo obserwacji, obie grupy będą mało licze i wioskowaie będzie przez to iepewe. Test White'a W teście White'a zakładamy, że wariacja błędów ma postać wielomiau stopia zmieych iezależych. Dokoujemy estymacji parametrów wyjściowego modelu metodą ajmiejszych kwadratów i wyzaczamy wektor e reszt. Dopasowujemy do kwadratów reszt wielomia stopia zmieych iezależych. Obliczamy współczyik determiacji R tego modelu. Statystyka testowa ma postać T =R. O prawdziwości hipotezy K świadczy dobre dopasowaie reszt do rozważaego modelu liiowego czyli duża wartość współczyika determiacji R a zatem duża wartość statystyki testowej. Przy hipotezie H statystyka testowa pod względem rozkładu dąży wraz z do rozkładu p 1, gdzie p jest liczbą kolum w macierzy plau modelu, w którym dopasowujemy wielomia. Odrzucamy hipotezę H a rzecz K a poziomistotości, gdy T p 1 1 1. Uwaga: Niejedokrotie przy dopasowywaiu wielomiau moża pomiąć wyrażeia liiow w macierzy plau pozostawić jedyie kolumy odpowiedziale za wyraz woly, kwadraty i iloczyy zmieych iezależych. Uwaga: Jeśli mamy podejrzeie co do tego, które zmieezależe mogą być odpowiedziale za heteroskedastyczość, do kwadratów reszt możemy dopasować wielomia tylko tych zmieych. Uwaga: Test White'a jako test, w których statystyka testowa jest oparta a współczyiku determiacji, ma zastosowaie główie w modelach tylko ze zmieymi ilościowymi, gdyż w modelach ze zmieymi jakościowymi współczyik determiacji z samej swej atury ie przyjmuje dużych wartości. Iy test homoskedastyczości powszechie spotykay w literaturze: test Breuscha-Pagaa. Wykazaa heteroskedastyczość błędów może świadczyć rówież o tym, że badaa zależość ie ma charakteru liiowego bądź też że brak jest w modelu istotych zmieych iezależych. Testowaie homoskedastyczości błędów może być więc traktowae jako testowaie słuszości struktury przyjętego modelu.