Brunon R. Górecki. Podstawowy kurs nowoczesnej ekonometrii

Transkrypt

1 Brunon R. Górecki Podstawowy kurs nowoczesnej ekonometrii

2 SPIS TREŚCI Wstęp CZĘŚĆ I. KLASYCZNY MODEL REGRESJI LINIOWEJ.Wprowadzenie.. Czym jest ekonometria?.. Pojęcie modelu ekonometrycznego.3. Dane statystyczne.4. Metodologia ekonometrii. Klasyczny model regresji liniowej (KMRL).. Zapis macierzowy modelu.. Od populacji do próby i od próby do populacji.3. Założenia KMRL 3. Metoda najmniejszych kwadratów (MNK) 3.. Estymatory MNK 3.. Własności algebraiczne rozwiązania MNK 3.4 Dobroć dopasowania równania regresji 4. Wnioskowanie o estymatorach MNK 4.. Jeszcze o założeniu normalności zaburzeń losowych 4.. Najlepszy liniowy nieobciążony estymator i twierdzenie Gaussa-Markowa 4.3. Estymator wariancji zaburzenia losowego i błędy standardowe estymatorów 4.4. Rozkład t- Studenta, weryfikacja prostych hipotez i przedziały ufności 4.5. Istotność równania regresji 4.6. Asymptotyczne własności estymatorów MNK 5. Interpretacja równania regresji i testowanie hipotez 5.. Interpretacja współczynników regresji i założenie liniowości w modelu regresji 5.. Jakościowe zmienne objaśniające zmienne Restrykcje i modele zagnieżdżone. Łączna istotność zmiennych zerojedynkowych 5.4.Jakościowa zmienna objaśniana

3 5.5. Wybór regresorów. Skutki pominięcia w równaniu regresji istotnych zmiennych objaśniających; skutki dodania w równaniu regresji zmiennych nieistotnych 5.6. Testowanie łącznej istotności podzbioru regresorów 5.7.Testowanie hipotez złożonych 6. Problemy danych statystycznych 6.. Współliniowość i jej konsekwencje. Wykrywanie współliniowości i środki zaradcze 6.. Obserwacje opuszczone 6.3. Wykrywanie nietypowych wartości zmiennej objaśnianej i nietypowych wartości zmiennych objaśniających 7. Prognozowanie na podstawie KMRL 7. Prognoza i błąd standardowy prognozy 7. Wykorzystanie modelu dla celów symulacji CZĘŚĆ II ZŁAGODZENIE ZAŁOŻEŃ MODELU KLASYCZNEGO 8. Uogólniona metoda najmniejszych kwadratów (UMNK) 8.. Heteroscedastyczność i autokorelacja zaburzenia losowego w KMRL 8.. Estymatory uogólnionej metody najmniejszych kwadratów (UMNK) 8.3. Testowanie heteroscedastyczności: testy Goldfelda-Quandta, Breuscha-Pagana oraz Whiteà 8.4. Estymacja macierzy wariancji-kowariancji zaburzeń losowych w przypadku heteroskedastyczności. Stosowalna uogólniona metoda najmniejszych kwadratów 8.5. Odporny na heteroscedastyczność estymator Whiteà macierzy wariancjikowariancji dla b wyznaczonego za pomocą MNK 8.6. Testowanie autokorelacji: testy Durbina-Watsona i Breuscha-Godfreya 8.7. Estymacja macierzy wariancji-kowariancji zaburzeń losowych w przypadkach autokorelacji pierwszego rzędu 8.8. Odporny na heteroscedastyczność i odporny na autokorelację estymator Neweyà- Westa macierzy wariancji-kowariancji dla b oszacowanego za pomocą MNK 9. Diagnostyka w klasycznym modelu regresji liniowej 3

4 9. Test White`a 9. Test RESET błędu specyfikacji postaci funkcyjnej równania regresji Ramsey`a 9.3 Test niezagnieżdżonych alternatyw 9.4 Test stabilność parametrów Chowa 9.5 Test Jarque-Bera`y nienormalności zaburzeń 9.6 Ocena wyników analizy regresji CZĘŚĆ III. SZCZEGÓLNIE WAŻNE MODELE EKONOMETRYCZNE 0. Ograniczona zmienna objaśniana 0.. Liniowa funkcja prawdopodobieństwa 0.. Metody logitowa i probitowa 0.3. Wielomianowa metoda logitowa, metoda tobitowa, modele samoselekcji próby. Modele pojedynczego szeregu czasowego.. Analiza klasyczna.. Szereg czasowy jako realizacja procesu stochastycznego.3. Procesy autoregresyjne rzędu p -AR(p) (Autoregressive), procesy średniej ruchomej rzędu q MA(q) (Moving Average), Zintegrowane rzędu d procesy autoregresyjne rzędu p ze średnią ruchomą rzędu q - ARIMA(p,d,q) (Autoregressive Integrated Moving Average)..4. Procedura Boxa Jenkinsa.5 Procesy ARIMA dla danych sezonowych. Modele dynamiczne.. Modele o opóźnieniach rozłożonych (Distributed Lag Models).. Estymacja modeli DL i wybór rzędu opóźnienia.3. Modele autoregresyjne i modele autoregresyjne z opóźnieniami rozłożonymi (AutoRegressive Distributed Lag Models Modele ADL lub ARDL).4. Niestacjonarność i integracja szeregu ; konsekwencje.5. Test pierwiastka jednostkowego Dickeya-Fullera (Test DF).6. Rozszerzony test pierwiastka jednostkowego zwany w języku angielskim Augmented Dickey-Fuller Test (Test ADF).7. Kointegracja szeregów czasowych.8. Przyczynowość w ekonometrii 4

5 3. Modele wektorowej autoregresji (Vector AutoRegressive Models - VAR) i modele. korekty błędów 3.. Modele wektorowej autoregresji (Vector AutoRegressive Models (VAR) 3.. Model korekty błędów (Error Correction Model ECM) 3. Opracowywanie projektów badawczych CZĘŚĆ IV ANEKSY Aneks A. Elementy algebry macierzy Aneks B. Wybrane fragmenty rozkładów prawdopodobieństwa Aneks C. Bazy danych 5

6 Wstęp Celem tej książki jest przedstawienie w możliwie najbardziej przystępny sposób podstawowych zagadnień współczesnej ekonometrii. Ma ona służyć studentom ekonomicznych studiów licencjackich i magisterskich, pragnących uzyskać niezbędną wiedzę dla samodzielnego prowadzenia badań ekonometrycznych. Stanowi ona jednocześnie dobre przygotowanie dla rozszerzenia arsenału wiadomości ekonometrycznych przydatnych ekonomiście. Wszystkie prezentowane przykłady liczone są w nieodpłatnie udostępnionym w internecie pakiecie, publikowanym przez Free Softwere Foundation pod nazwą Gretl. Jego adres internetowy: oraz jego polskojęzyczna wersja opracowana przez T. Kufla i udostępniona na stronie internetowej Dla stosowania tego pakietu pomocne jest opracowanie Tadeusza Kufla, Ekonometria. Rozwiązywanie problemów z wykorzystaniem programu GRETL, PWN, 004. Tak rozumiany podręcznik łączy wiedzę teoretyczną z ekonometrią zastosowawczą. W związku z tym wszystkie wątki teorii prezentowane w książce są ilustrowane konkretnymi aplikacjami praktycznymi. Istotnym dopełnieniem podręcznika są trzy aneksy. Pierwszy zawiera niezbędną wiedzę z zakresu algebry macierzy, ograniczoną jedynie do wątków bezpośrednio stosowanych w trakcie wykładu. Drugi aneks poświęcony jest celowo wybranym fragmentom statystyki matematycznej, niezbędnym dla swobodnego korzystania z tekstu. Wreszcie trzeci aneks jest zbiorem dostępnych w internecie baz danych ekonomicznych, stanowiących nie tylko materiał dla sensownego formułowania zadań ćwiczeniowych, ale również do wykorzystywania w interesujących ekonomistę analizach. Pragnę podziękować mgr Dariuszowi Szymańskiemu za przygotowanie niektórych przykładów przedstawionych w niniejszym tekście oraz mgr Tomaszowi Rybnikowi za opracowania informacji o dostępnych w internecie ekonomicznych bazach danych, mogących znaleźć zastosowanie przy samodzielnym formułowaniu i rozwiązywaniu zagadnień ekonometrycznych. 6

7 CZĘŚĆ I. KLASYCZNY MODEL REGRESJI LINIOWEJ 3. WPROWADZENIE 3.. Czym jest ekonometria? Ekonometria jest nauką zajmującą się ilościowym (liczbowym) opisem, w oparciu o dane statystyczne, prawidłowości ekonomicznych, postulowanych przez teorię ekonomii lub sugerowanych przez sensowne hipotezy ekonomiczne. Hipoteza to przypuszczenie wymagające sprawdzenia. Np. Czy wykształcenie przysparza tyle samo złotówek miesięcznej płacy kobietom, co mężczyznom? Czy w każdym wieku awansuje się jednakowo szybko? Czy kobiety w młodym wieku awansują szybciej od mężczyzn? Czy krańcowa skłonność do konsumpcji w Polsce jest taka sama jak w Stanach Zjednoczonych i tp. W arsenale metod ilościowych obok matematyki, statystyki i badań operacyjnych ekonometria jest ważnym i użytecznym narzędziem wspomagającym prowadzenie analiz ekonomicznych. Badania ekonometryczne przeprowadzone są w oparciu się o sformułowania teorii ekonomii lub o wyraźnie określone hipotezy, dotyczące procesów lub zjawisk ekonomicznych, które mają być przedmiotem badania. Dla rozważanego fragmentu teorii, dla którego szukamy empirycznego potwierdzenia, lub dla hipotezy lub dla zbioru hipotez, które pragniemy zweryfikować, specyfikowany jest model ekonometryczny. Jednorównaniowym modelem ekonometrycznym nazywamy równanie, w którym występuje: a) zmienna objaśniana, b) zmienne objaśniające (kształtujące procesy ujęte w teorii lub w postawionych hipotezach) oraz c) zaburzenie losowe, oddające wpływ drugorzędnych, explicite nie wyróżnionych czynników. Zbiór metod, którymi posługuje się ekonometria, nazywa się ekonometrią teoretyczną lub teorią ekonometrii w odróżnieniu od zastosowań tych metod, zwanych ekonometrią zastosowawczą. Rozważania nasze będą poświęcone zarówno teorii ekonometrii, jak i jej zastosowaniom, w związku z tym wszystkie wątki teorii będą ilustrowane konkretnymi aplikacjami 7

8 praktycznymi. W takim ujęciu poniżej prezentowany materiał staje się rodzajem przewodnika po metodach i jednocześnie po zastosowaniach tych metod i nie będzie on miał charakteru wykładu matematycznego, obarczonego dowodami twierdzeń o wysokim stopniu trudności matematycznych. Znacznie silniej, niż ma to miejsce w innych polskojęzycznych podręcznikach, będą akcentowane problemy testowania poprawności doboru modelu, weryfikacji stawianych hipotez, dyskusji nad konsekwencjami wykrywania różnego rodzaju błędów specyfikacji, poszerzonej dyskusji nad kryteriami wyboru modelu. Przyjuję, że studenci korzystający z tego opracowania, mają możliwości używania pakietów ekonometrycznych, takich jak LIMPED, TSP, EVIEWS, SAS, SPSS, STATA, PcGive i szeregu innych - (w tym pakietów nieodpłatnie udostępnianych w internecie), których listę można znaleźć pod adresem: Za ich pomocą mogą być wykonywane prawie wszystkie obliczenia dla dyskutowanych w niniejszym opracowaniu technik i testów. W obliczeniach zawartych w tekście wykorzystywany jest darmowy, nieodpłatnie udostępniony pakiet, publikowany przez Free Softwere Foundation pod nazwą Gretl. Jego adres internetowy: oraz Dla wykorzystania tego pakietu pomocne będzie opracowanie Tadeusza Kufla, Ekonometria. Rozwiązywanie problemów z wykorzystaniem programu GRETL, PWN, Pojęcie modelu ekonometrycznego Model ekonometryczny, jak każdy model, jest uproszczoną wizją rzeczywistości. Szczególną cechą modelu ekonometrycznego jest przedstawienie zależności zachodzącej między zjawiskiem objaśnianym i najważniejszymi zjawiskami objaśniającymi za pomocą równania zwanego równaniem regresji. Równanie to ma konkretną postać matematyczną, w której pojedyncza zmienna, zwana zmienną objaśnianą przedstawiana jest jako funkcja deterministyczna (najczęściej liniowa) najważniejszych (w świetle teorii ekonomicznej) zmiennych, zwanych zmiennymi objaśniającymi. Do takiego równania dodane jest tak zwane zaburzenie losowe zwane również zaburzeniem Nazwa regresja użyta została po raz pierwszy przez Francisa Galtona w końcu XIX wieku w badaniu nad wzrostem potomstwa w zależności od wzrostu rodziców, w którym to badaniu Galton sformułował tezę, że wzrost potomstwa w całej populacji zmierza do średniego wzrostu w populacji. Owo zmierzanie do średniej Galton określił właśnie słowem regresja. 8

9 stochastycznym lub składnikiem losowym lub błędem losowym, którego głównym celem jest przedstawienie sumarycznego oddziaływania na zmienną objaśnianą wszystkich innych czynników, pominiętych w równaniu, ze względu na ich drugorzędne znaczenie dla opisu badanego związku. Błąd ten może również wynikać z nieadekwatności teorii ekonomii, lub niepoprawności postawionych hipotez, które ma weryfikować model, a także z niewłaściwej postaci równania matematycznego, przyjętego w modelu. Zaburzenie losowe zawiera także błędy pomiaru zmiennych, wynikające z niedokładności mierzenia wartości, jakie przyjmują zmienne, jak również z uchybień zawinionych zarówno przez ankieterów i osoby gromadzące dane jak i udzielające odpowiedzi na pytania ankieterów. Wreszcie w zaburzeniu losowym zawarte są wpływy indywidualnych cech jednostek, które obok wyróżnionych zmiennych objaśniających mogą oddziaływać na zmienną objaśnianą. Zmienna objaśniana zwana jest również: zmienną zależną, zmienną endogeniczną, regresantem, zmienną kontrolowaną. Zmienne objaśniające nazywane są także: zmiennymi niezależnymi, zmiennymi egzogenicznymi, regresorami, zmiennymi kontrolującymi. Zaburzenie losowe zwane jest również: błędem losowym, składnikiem stochastycznym lub składnikiem losowym, zakłóceniem, lub niekiedy innowacją. W związku z tym określenia te będziemy używać zamiennie. Dodanie do równania regresji składnika losowego powoduje, że równanie regresji nie ma charakteru deterministycznego a stochastyczny (co znaczy tyle samo co losowy), gdyż zmienna objaśniana będąc funkcją składnika losowego staje się sama zmienną losową. Związek regresyjny (jaki zachodzi między zmienną objaśnianą a zbiorem Stochastyczny to znaczy losowy lub przypadkowy (od greckiego słowa stochasis domysł). 9

10 zmiennych objaśniających) jest związkiem statystycznym, który jednak nie implikuje charakteru przyczynowego tej zależności. Treść ekonomiczna zmiennej objaśnianej i zmiennych objaśniających może wskazywać, że relacja wyznaczona przez równanie regresji jest relacją przyczynową. Analiza regresyjna jest koncepcyjnie odmienna od analizy korelacyjnej, często stosowanej w statystyce dla opisu związku miedzy dwiema zmiennymi. Na podstawie analizy regresyjnej szacujemy wartość oczekiwaną zmiennej objaśnianej za pomocą konkretnych wartości zmiennych objaśniających. W tym sensie analiza regresyjna pozwala prognozować zmienną objaśnianą na podstawie znanych, konkretnych wartości zmiennych objaśniających. Nie jest to więc relacja symetryczna, jaką jest współczynnik korelacji Dane statystyczne Dane statystyczne pełnią podstawową rolę w modelowaniu ekonometrycznym. Potwierdzają one poprawność specyfikacji funkcji regresji, poprawność postawionych hipotez, lub ogólniej rzecz ujmując, poprawność modelowania ekonometrycznego i wyprowadzanych na podstawie tego modelowania wniosków. Możemy wyróżnić trzy rodzaje danych statystycznych, wykorzystywanych w modelowaniu ekonometrycznym.: Dane szeregów czasowych. Są to najbardziej popularne zbiory danych, gdzie kolejne obserwacje rejestrują badane zjawisko ekonomiczne w następujących po sobie momentach lub przedziałach czasu. Takimi danymi są PKB, zatrudnienie, stopa inflacji, liczba ludności itp., zestawiane jako dane roczne, kwartalne, miesięczne a nawet dzienne (jak np. wartość jednostek uczestnictwa funduszy inwestycyjnych), czy dane godzinowe (kursy walutowe, stopy zwrotu papierów wartościowych). Dane roczne, kwartalne lub miesięczne, z którymi najczęściej spotykamy się w modelowaniu ekonometrycznym są z reguły danymi zagregowanymi, wyrażającymi przeciętną wartość badanego zjawiska rejestrowanego w określonym przedziale czasu lub na określony moment ( np. stan ludności na 3 grudnia). Dane szeregów czasowych, choć powszechnie wykorzystywane w ekonometrii rodzą poważne problemy modelowania, związane z tak zwaną niestacjonarnością szeregów czasowych. Sygnalizując jedynie problem powiemy, że jeżeli szeregi, wraz z upływem czasu, wykazują trendy lub wzrastającą wariancję obserwowanego zjawiska, co wskazuje 0

11 na ich niestacjonarność, to fakt ten rodzi szczególne komplikacje budowy i weryfikacji modeli. Do problemu tego wrócimy w rozdziale. Dane przekrojowe powstają jako obserwacje dokonywane w tym samym czasie na wielu jednostkach. Typowymi danymi przekrojowymi są obserwacje budżetów gospodarstw domowych. Główny Urząd Statystyczny bada każdego miesiąca około trzech tysięcy gospodarstw z terenu całego kraju, dostarczając informacji o dochodach i wydatkach badanych rodzin, o ich składzie demograficznym, o ich mieszkaniu i jego wyposażeniu w dobra trwałego użytku i td. Są to dane bardzo szczegółowe, uzewnętrzniające różnorodność badanych gospodarstw domowych. Różnorodność ta wywołuje problemy zwane heteroskedastycznością, co niekiedy komplikuje modelowanie ekonometryczne. Dane panelowe (połączone, longitudinalne) łączą cechy danych szeregów czasowych i danych przekrojowych. Na przykład dane PKB dla poszczególnego kraju są pojedynczym szeregiem czasowym, ale zestawienie PKB dla np. krajów OECD tworzy dane połączone. Typowymi danymi panelowymi są panele gospodarstw domowych. Na przykład dla Polski zostały zestawione panele z lat i , zawierające około trzech tysięcy tych samych gospodarstw badanych przez okresy czteroletnie. W Luksemburgu znajduje się baza danych panelowych gospodarstw domowych dla wszystkich krajów Unii i Stanów Zjednoczonych. Dane te są dostępne również na Wydziale Nauk Ekonomicznych Uniwersytetu Warszawskiego. Zalety danych panelowych ilustruje następujący przykład. Na podstawie danych szeregów czasowych możemy ustalić jak zmienia się z czasem procent pracujących kobiet. Na podstawie danych przekrojowych możemy sprawdzić, jak procent ten zależy od np. wieku kobiet, ich poziomu wykształcenia, czy fazy cyklu rozwojowego rodziny. Ale dopiero dane panelowe umożliwiają ustalenie, czy w kolejnych latach kobietami pracującymi są te same kobiety, a więc umożliwiają zbadanie, jak zmienia się struktura pracujących kobiet: kiedy kobiety rozpoczynają, przerywają i wznawiają pracę. Niedoskonałość danych statystycznych, mająca swoje różnorodne źródła, może mieć niekiedy decydujące znaczenie dla oszacowanego modelu. Możemy się dopatrywać złych wyników modelu w jego niepoprawnej specyfikacji i starać się go udoskonalać, gdy w rzeczywistości błąd tkwi w niedomogach danych statystycznych. Powody niedoskonałości danych mogą być bardzo różnorodne. Ze względu na nie eksperymentalny charakter danych ekonomicznych mogą być one obciążone znacznymi błędami obserwacji lub pomiaru. W danych ankietowych braki odpowiedzi mogą prowadzić do tak zwanego

12 obciążenia doboru próby, gdy odmawiający uczestnictwa zachowują się zdecydowanie odmiennie od poddających się badaniu. Niekiedy wśród obserwacji pojawiają się tzw. obserwacje znacząco wpływające (influential observations), których wpływ na oszacowany model jest niezwykle silny, znacznie odbiegający od przeciętnego. Wyłączenie takich kilku lub nawet jednej obserwacji z próby może niekiedy istotnie zmienić szacowane parametry. Dlatego umiejętność ich zidentyfikowania staje się ważnym zabiegiem w przygotowaniu danych. Problemom związanym z obserwacjami wpływowymi (zwanymi w przypadku zmiennej objaśnianej obserwacjami nietypowymi, zaś w przypadku zmiennych objaśniających obserwacjami dźwigniowymi) na oszacowania parametrów modelu i ogólniej na jego jakość, ze względu na szczególną wagę tego zagadnienia poświęcimy specjalny fragment rozważań w rozdziale Metodologia ekonometrii Przez metodologię ekonometrii rozumiemy sposób postępowania w trakcie budowy modelu ekonometrycznego. W tradycyjnym i do dzisiaj powszechnie zalecanym sposobie można wyróżnić następujące elementy:. Ustalenie teorii ekonomicznej lub zbioru hipotez, które model ekonometryczny ma potwierdzić lub odrzucić. W praktyce modelowania zwykle na tle teorii stawiamy hipotezy o tym, czy w konkretnych warunkach ekonomicznych teoria funkcjonuje w swojej niezmienionej postaci, czy może dotąd rozpoznane czynniki, w świetle postawionych hipotez, zaczynają wywierać silniejszy lub słabszy wpływ niż poprzednio, a może ujawniają swoje działanie nowe, nieznane dotąd w teorii mechanizmy, które modyfikują istniejącą dotąd wizję rzeczywistości. Może modelowane procesy przebiegają szybciej lub wolniej niż w dotychczas rozpoznanych przypadkach. Tak więc teoria ekonomii i w jej świetle postawione hipotezy badawcze stanowią pierwszy krok w procedurze modelowania ekonometrycznego.. Określenie postaci matematycznej modelu ekonometrycznego polega na specyfikacji funkcji matematycznej, wiążącej zmienną objaśnianą ze zdefiniowanymi zmiennymi objaśniającymi. Metodologia ekonometrii zaleca, (co znajduje swoje uzasadnienie ekonometryczne, patrz rozdz. 5), aby w początkowym modelu znalazł się możliwie najszerszy zbiór zmiennych ekonomicznych, które

13 mają wyjaśnić zachowanie się zmiennej objaśnianej. W kolejnych krokach poprawy modelu zbiór ten może być redukowany. Jest to postępowanie zwane w ekonometrii Od ogólnego do szczegółowego, o czym będzie mowa w rozdziale 5). 3. Dołączenie zaburzenia losowego, dzięki czemu wyspecyfikowane równanie staje się modelem ekonometrycznym. 4. Ustalenie zbioru danych statystycznych, użytych dla oszacowania modelu. Jest to szalenie istotny etap modelowania. Zaleca się wstępne sporządzenie wykresów zmiennych, a w dalszej procedurze wykrywanie obserwacji wpływowych (rozdział 5). Częste są bowiem przypadki, gdy mało satysfakcjonujący model ekonometryczny ma swoją przyczynę nie w wadliwej procedurze modelowania, a w istotnych niedomaganiach danych statystycznych, użytych do jego budowy. 5. Estymacja parametrów modelu ekonometrycznego. W niniejszym tekście zajmiemy się jedynie dwiema metodami estymacji o powszechnym zastosowaniu, a mianowicie metodą najmniejszych kwadratów i uogólnioną metodą najmniejszych kwadratów. Zasygnalizujemy również zalety metody największej wiarogodności, stosowanej w przypadkach dużych prób. 6. Po estymacji modelu następuje jego diagnostyka, która pomaga ustalić, czy model nie zawiera istotnych wad, wymagających poprawek. W tym celu oszacowany model jest poddawany szczegółowej weryfikacji za pomocą całego szeregu testów diagnostycznych, których przeprowadzenie pozwala na uzyskanie odpowiedzi, czy równanie modelu jest poprawnie wyspecyfikowane, czy zawiera on wszystkie ekonomicznie ważne zmienne, opisujące badane zjawisko, czy poprawne są założenia dotyczące specyfikacji zaburzenia losowego, czy uzyskane estymatory mają pożądane własności, wreszcie czy można znaleźć model lepszy od wyestymowanego. 7. Satysfakcjonujący model może służyć do sprawdzenia teorii ekonomii, inicjującej jego powstanie lub do testowania postawionych na wstępie hipotez. Należy zauważyć, że ważność teorii lub testowanych hipotez ma charakter warunkowy, to znaczy, że zależy od konkretnego zbioru danych statystycznych, wykorzystanych w procedurze estymacyjnej. Można by oczekiwać, że dla innego zbioru danych, obejmującego na przykład inny przedział czasu, wyniki estymacji mogłyby być odmienne. 3

14 8. Oszacowany model może być następnie wykorzystany dla celów prognostycznych. Zakładając, że prawidłowość z okresu próby obowiązuje również w okresie prognozowanym, możemy wyznaczyć prognozę ekonometryczną i błąd ex ante dla tej prognozy. Po zrealizowaniu się prognozy możemy wyznaczyć jej błąd ex post. 9. Oszacowany model może być również wykorzystany dla obliczeń oczekiwanych efektów polityki ekonomicznej, fiskalnej, społecznej, itp. Znając na przykład wymodelowane zachowanie się płatników podatku od dochodów osobistych ludności przy obowiązujących przepisach podatkowych, możemy wykorzystać model dla wyznaczenia spodziewanych efektów nowej formy polityki podatkowej. Powyższe elementy metodologii przedyskutujemy na klasycznym przykładzie ekonomii, jakim jest Keynesowska teoria konsumpcji. Zgodnie z teorią Keynesa podstawowe prawo psychologiczne głosi, że ludzie są skłonni do zwiększania konsumpcji wraz ze wzrostem dochodów, ale w mniejszym stopniu niż wzrasta dochód. Oznacza to, że krańcowa skłonność do konsumpcji, oznaczana w podręcznikach angielskim skrótem MPC (Marginal Propensity to Consume) jest stopą zmiany konsumpcji. Oczekujemy, że jest ona większa od zera, ale mniejsza od jedności. Matematyczny model dla tej teorii może przyjąć postać: (.) y = β + β x 0 < β < gdzie y - wydatki konsumpcyjne, x - dochód, β i β - parametry równania. β zwane jest stałą równania, zaś β jest parametrem nachylenia lub współczynnikiem kierunkowym. Z zapisu (.) widzimy, że parametr kierunkowy β mierzy krańcową skłonność do konsumpcji (MPC). Możemy to przedstawić graficznie, jak na rys... 4

15 y Wydatki kons. β =Krańcowa skłonność do konsumpcji (MPC) β 0 x Dochody Rys... Funkcja konsumpcji Keynesa Możemy oczekiwać, że krańcowa skłonność do konsumpcji nie we wszystkich rodzinach jest dokładnie taka sama. Wpływają na nią inne zmienne oprócz dochodu, takie jak wiek rodziny, liczba osób w rodzinie, miejsce zamieszkania, nawyki konsumpcyjne i td. Dlatego też modyfikujemy funkcję konsumpcji dodając zaburzenie losowe, dzięki któremu funkcja deterministyczna konsumpcji staje się funkcją stochastyczną (losową). Taka postać funkcji jest modelem ekonometrycznym. Zapiszmy ją: (.) y = β + β x + ε Oznacza to że w rzeczywistości krańcowa skłonność do konsumpcji różnych rodzin nie leży dokładnie na prostej z rys.., a losowo się od niej odchyla na skutek działania efektu losowego ε. Możemy ją przedstawić jak na rys... 5

16 y Wydatki kons. ε Dochody Rys... Ekonometryczny model konsumpcji Keynesa x Dla estymacji modelu potrzebne są nam dane statystyczne, które umożliwią oszacowanie nieznanych parametrów β oraz β. Przykład. Wykorzystamy dane o produkcie krajowym brutto (PKB) i spożyciu gospodarstw domowych, zarejestrowanym jako wydatki konsumpcyjne. Dane te są agregatami rocznymi wyrażonymi w mld. złotych, liczonych w cenach stałych roku 00, a więc w wielkościach realnych, a nie nominalnych. Zawiera je Tablica.. TABLICA. PKB (X) I SPOŻYCIE INDYWIDUALNE (Y) W SEKTORZE GOSPODARSTW DOMOWYCH W LATACH W CENACH ROKU 00 (W MLD. ZŁ) Rok PKB SPO , 308, ,68 35, ,74 33, ,56 346, ,8 357, ,63 388, ,0 45, ,89 435, ,95 457, ,53 470, ,80 479, ,8 490, ,78 503, ,84 53,7 Źródło: Roczniki Statystyczne GUS z kolejnych lat. 6

17 Stosując metodę najmniejszych kwadratów (którą omówimy w rozdz. 3) oszacowaliśmy funkcję regresji: (.3) y i =, 9 + 0, 64 x i Daszek nad y i oznacza, że jest to wielkość oszacowana dla i-tej obserwacji (zwana również wielkością wyliczoną lub teoretyczną), a nie rzeczywiście zaobserwowana wartość y i. Z równania (.3) dowiadujemy się, że w latach , licząc w wielkościach realnych, średnio każda złotówka wzrostu PKB pociąga wzrost wydatków konsumpcyjnych gospodarstw domowych o 64 grosze. A więc MPC = 0,64. Stała równania wynosząca,9 nie ma sensownej interpretacji ekonomicznej. Oznaczała by bowiem ona ile wynosiłyby wydatki konsumpcyjne, gdyby PKB był równy zero. Sytuacja taka nigdy nie występuje w realnej gospodarce. Można przyjąć jako regułę, że nie interpretujemy stałej równania regresji, a jedynie współczynniki kierunkowe, a więc wielkości przy zmiennych objaśniających. Obliczenia zostały wykonane przy użyciu programu Gretl. Wydruk komputerowy wygląda następująco: Model.: Estymacja KMNK z wykorzystaniem 4 obserwacji Zmienna zależna: SPO Zmienna Współczynnik Błąd stand. Statystyka t wartość p const -,9007 6,7904-0,4300 0, PKB 0, ,00 6,5678 < 0,0000 *** Srednia arytmetyczna zmiennej zależnej = 45,897 Odchylenie standardowe zmiennej zależnej = 74,55 Suma kwadratów reszt = 8,46 Błąd standardowy reszt = 4,6674 Wsp. determinacji R = 0, Skorygowany R = 0, Stopnie swobody = Statystyka testu Durbina-Watsona =,688 Autokorelacja reszt rzędu pierwszego = 0, Logarytm wiarygodności = -39,098 Kryterium informacyjne Akaika = 8,96 Kryterium bayesowskie Schwarza = 83,474 7

18 W podrozdziale 3.3 poznamy specjalną miarę dobroci dopasowania funkcji regresji do danych empirycznych, zwaną współczynnikiem determinacji, oraz na dalszych stronach zapoznamy się z pozostałymi statystykami występującymi na tym wydruku. Wyżej oszacowany model wymaga dalszej weryfikacji. Powinniśmy sprawdzić, czy krańcowa skłonność do konsumpcji oszacowana jako 0,64 jest statystycznie mniejsza od, co zakłada teoria Keynesa. Problem ten przedyskutujemy w rozdziale 4. po zapoznaniu się z koncepcją błędów standardowych oszacowanych współczynników regresji. Model może być następnie wykorzystany dla celów predykcji (prognozowania). Przypuśćmy, że chcemy wyznaczyć oczekiwaną średnią wielkość wydatków konsumpcyjnych gospodarstw domowych w roku 005. Jeśli założymy (lub przyjmiemy za prognozą makroekonomiczną, że PKB wzrośnie w 005 roku o 4,5% w stosunku do roku poprzedniego, to wielkość jego wyniesie (+0,045) razy 83,84 = 870,3 mld. złotych. Stąd na podstawie równania (.3) y i =, 9 + 0, 64 x i po podstawieniu danych otrzymamy: 8

19 y 005 = -,9 + 0, ,3 = 559,9. Po zapoznaniu się z ekonometrycznymi problemami prognozowania (rozdział 7) będziemy mogli wyznaczyć błąd dla tak wyliczonej prognozy. Podsumowanie. Ekonometria jest nauką zajmującą się ilościowym opisem, w oparciu o dane statystyczne, prawidłowości ekonomicznych, postulowanych przez teorię ekonomii lub sugerowanych przez hipotezy ekonomiczne.. Hipoteza naukowa to przypuszczenie wymagające sprawdzenia. Na przykład: Czy wykształcenie przysparza tyle samo złotówek miesięcznej płacy kobietom, co mężczyznom? Czy w każdym wieku awansuje się jednakowo szybko? Czy kobiety w młodym wieku awansują szybciej od mężczyzn? Czy krańcowa skłonność do konsumpcji w Polsce jest taka sama jak w Stanach Zjednoczonych? 3. Jednorównaniowym modelem ekonometrycznym nazywamy równanie wyjaśniające związek między zjawiskiem objaśnianym i najważniejszymi zjawiskami objaśniającymi. 4. W modelu występują: zmienna objaśniana, zmienne objaśniające, zaburzenie losowe, oddające sumaryczny wpływ drugorzędnych, explicite nie wyróżnionych czynników. 5. Rodzaje danych statystycznych: Dane szeregów czasowych. Są to najbardziej popularne zbiory danych, gdzie kolejne obserwacje rejestrują badane zjawisko ekonomiczne w następujących po sobie momentach lub przedziałach czasu. Dane przekrojowe powstają jako zbiory obserwacji wielu jednostek w tym samym czasie Dane panelowe (połączone, longitudinalne) łączą cechy danych szeregów czasowych i danych przekrojowych 6. Metodologia ekonometrii to sposób postępowania w trakcie budowy modelu ekonometrycznego. 9

20 Kroki: Ustalenie teorii ekonomicznej lub zbioru hipotez, które model ekonometryczny ma potwierdzić lub odrzucić. Określenie postaci matematycznej modelu ekonometrycznego polega na specyfikacji funkcji matematycznej, wiążącej zmienną objaśnianą ze zmiennymi objaśniającymi. Dołączenie zaburzenia losowego, dzięki czemu wyspecyfikowane równanie staje się modelem ekonometrycznym. Ustalenie zbioru danych statystycznych, użytych dla oszacowania modelu. Estymacja parametrów modelu dokonywana jest poprzez zastosowanie właściwych metod szacowania. Diagnostyka pomagająca ustalić, czy model nie zawiera istotnych wad, wymagających poprawek. Diagnostykę przeprowadza się za pomocą różnorodnych testów statystycznych. Satysfakcjonujący model służy do sprawdzenia teorii ekonomii, inicjującej jego powstanie lub do testowania postawionych na wstępie hipotez. Wykorzystanie oszacowanego modelu dla celów prognostycznych i symulacyjnych. 0

21 . KLASYCZNY MODEL REGRESJII LINIOWEJ (KMRL).. Zapis macierzowy modelu Przyjmijmy, że w n -elementowej populacji dla każdej obserwacji i zachodzi liniowa zależność między zmienną objaśnianą y oraz K zmiennymi objaśniającymi x, x, x 3,, x K. (.) yi = β + β xi + β 3x3i + + β K xki + ε i i =,, 3 n ; Dla dodania stałej w równaniu (.), pierwszej zmiennej objaśniającej x nadaje się stale wartość, a więc x =. Symbolem β k (k małe) będziemy oznaczać parametr o numerze k, a więc stojący przy k tej zmiennej objaśniającej ( k =,..., K). Po prawej stronie równania dodane jest zaburzenie losowe ε i, którego rolę wyjaśniliśmy w podrozdziale.. Równanie (.) jest równaniem regresji w populacji. Wiąże ono zmienną objaśnianą ze zmiennymi objaśniającymi dla i tej obserwacji. Jeśli zapiszemy równania dla szej, giej i dalszych obserwacji to utworzą one układ równań (.) (.) y = β + β x + β x + + β x + ε 3 3 K K y = β + β x + β x + + β x + ε 3 3 K K... y = β + β x + β x + + β x + ε n n 3 3n K Kn n Jeśli zdefiniujemy wektor parametrów β = dla i tej obserwacji postaci: L N M β β β K O Q P to możemy wprowadzić zapis równania (.3) y i = x i β + ε i, i =,,, n ;

22 gdzie x = i x i x jest wektorem wierszowym đ zmiennych objaśniających Ki dla i tej obserwacji. Dla zapisu macierzowego przyjmujemy oznaczenia: (.3) y = L N M y y y n O Q P ; X = L N M x x x K K n x x x Kn O Q P L N M ε ε ; ε = ε n O Q P ; powyższy układ równań możemy zapisać jako: (.4) L N M y y y n O L Q P = N M x x x 3 K x x x 3 K x x x O L Q P N M β β β n 3n Kn K n O L Q P + N M ε ε ε O Q P lub krócej: (.5) y = Xβ + ε. Często korzystamy z modelu regresji, w którym występuje tylko jedna zmienna objaśniająca. Model taki możemy zapisać: (.7) y = β + β x + ε i =,, 3 n i i i i będziemy go nazywać modelem regresji prostej, lub krócej regresją prostą w odróżnieniu od modelu z wieloma zmiennymi objaśniającymi, który nazywamy regresją wieloraką... Od populacji do próby i od próby do populacji Rozumowanie, które prowadzi nas od populacji do próby przebiega następująco. Równanie (.5) przedstawia związek między zmienną objaśnianą a zmiennymi objaśniającymi w populacji. To, co jest przedmiotem naszego zainteresowania, to

23 oczekiwane zachowanie się zmiennej y pod warunkiem, że zmienne objaśniające przyjmą zaobserwowane wartości, opisane macierzą X. To, co wyżej powiedzieliśmy możemy zapisać formalnie: (.8) E( y X) = Xβ i co czytamy: warunkowa wartość oczekiwana zmiennej objaśnianej y przy danej macierzy obserwacji na zmiennych objaśniających X jest równa iloczynowi Xβ. Dla i tej obserwacji mamy podobnie (.9) E( yi xi ) = β + β xi + + β K xki i =,,, n. Jeśli funkcję regresji w populacji uzupełnimy o zaburzenie losowe to otrzymamy: (.0) y = Xβ + ε. Dla i tej obserwacji mamy analogicznie: (.) yi = β + β x i + β K xki + ε i i =,,, n. Zauważmy, że w równaniach (.0) lub (.) nie są znane ani wektor parametrów β ani wektor zaburzeń losowych ε. Ze względu na dużą liczebność populacji wyjątkowo rzadko możemy przebadać wszystkie jej elementy i ustalić wektor parametrów β. Możemy jedynie pobrać z tej populacji w sposób losowy n - elementową próbę i sprawdzić, czy w pobranej próbie zachodzi związek opisany przez (.8). Zamiast więc informacji o zależności (.8) E( y X) = Xβ praktycznie możemy poznać jedynie związek zachodzący w próbie postaci: (.) ŷ = Xb, 3

24 gdzie ŷ jest wektorem kolumnowym, którego wartości będziemy nazywać wartościami wyliczonymi, lub wartościami teoretycznymi zmiennej objaśnianej i traktować jako estymator E( y x), zaś b jest wektorem kolumnowym: b = wyznaczonym na podstawie próby, który nazywać będziemy estymatorem β. Równanie (.), wyznaczone na podstawie próby, jest odpowiednikiem równia (.8) w populacji. (.) nazywamy równaniem regresji w próbie. L N M b b b K O Q P Dla i tej obserwacji mamy podobnie: (.3) ŷi = b + bx i + + bkxki = xi b i =,,, n. Jeśli równanie regresji w populacji dopełnimy zaburzeniem losowym ε, jak w (.0) (.0) y = Xβ + ε, to jego odpowiednikiem w próbie jest równanie (.4) y = Xb + e, gdzie e = L N M e e e n O Q P jest tak zwanym wektorem reszt, który traktujemy jako wektor estymatorów nieznanych zaburzeń losowych ε. Przekształcając (.4) otrzymamy e = y Xb i stąd nazwa wektor reszt. Dla i tej obserwacji mamy podobnie: (.5) y = y + e i =,,, n. i i i Z powyższych rozważań wynika, że od nieznanych wielkości w populacji: β, E( y X) oraz ε można przejść do ich odpowiedników w próbie b, ŷ oraz e które nazywamy 4

25 estymatorami. A więc b jest estymatorem β, ŷ jest estymatorem E( y X) oraz e jest estymatorem ε. Jeśli w próbie na podstawie obserwacji na zmiennej objaśnianej y oraz na zmiennych objaśniających X wyliczymy konkretne wartości tych estymatorów, to będziemy je nazywać ocenami. Tak więc od rozważań w populacji przeszliśmy do analogicznych rozważań w próbie. Na podstawie estymatorów z próby i wyznaczonych ocenach staramy się powiedzieć coś sensownego o ich odpowiednikach w populacji. Rys... przedstawia równania regresji w populacji i w próbie dla przypadku jednej zmiennej objaśniającej. Zauważmy, że zaburzenie losowe dla i tej obserwacji oznaczone jest przez ε i, zaś reszta przez e i. y (y i, x i ) ε i y i e i b + b x ( regresja w próbie) β + β x ( regresja w populacji) ŷ = b + b x i i 0 x i x Rys... Funkcje regresji w populacji i w próbie β + β x = E( y x ) i i i,3, Założenia klasycznego modelu regresji liniowej (KMRL) Ekonometria jest nauką sformalizowaną. Matematyczno-statystyczna ścisłość rozumowania jest jej nieodłącznym atrybutem. Dzięki temu wszystkie wywody empiryczne mają swoje głębokie uzasadnienie w teorii, co jest gwarancją ich logicznej poprawności. Klasyczny model regresji liniowej opiera się na sześciu, dość rygorystycznie sformułowanych założeniach, których spełnienie w praktycznym budowaniu modelu jest gwarancją uzyskania teoretycznie poprawnego wyniku. 5

26 Przedstawimy te założenia kolejno. Pierwsza grupa założeń dotyczy równania regresji i zmiennych objaśniających występujących w tym równaniu. Założenie : O generowaniu obserwacji na zmiennej objaśnianej. Założenie to jest opisane równaniem (.6) y = β + β x + β 3x3 + + β x + ε i =,, 3 n, lub w zapisie macierzowym (.7) y = Xβ + ε. i i i K Ki i Ustala ono, że i ta obserwacja na zmiennej objaśnianej y i powstaje jako suma iloczynów nieznanych parametrów β k ( k =,..., K), przemnożonych przez i te obserwacje na zmiennych objaśniających x ki, a następnie uzupełnionych nieznanym zaburzeniem losowym ε i. Efekt, jaki i ta obserwacja na k tej zmiennej objaśniającej przydaje zmiennej objaśnianej, wynosi więc β k x ki. Ponieważ zakładamy (o czym w następnym założeniu), że obserwacje na zmiennych objaśniających są stałe (to znaczy nielosowe w powtarzalnych próbach), lub jeśli są losowe, to są niezależne od zaburzenia ε, to suma iloczynów parametrów przez obserwacje na zmiennych objaśniających określa część y wyjaśnioną przez zmienne objaśniające, zaś ε - część niewyjaśnioną Zauważmy, że zmienna objaśniana y jest losowa, gdyż jest funkcją ε. Innym ważnym wnioskiem wynikającym z założenia jest liniowość względem: po pierwsze - zmiennych objaśniających, które są w pierwszej potędze, a po drugie - względem parametrów β k, które są również w pierwszej potędze. W podrozdziale 4.4. pokażemy, że dla klasycznego modelu regresji liniowej istotna jest liniowość nie względem zmiennych objaśniających, a liniowość względem parametrów. Ponadto w założeniu przyjmujemy, że model (.5) jest dobrze wyspecyfikowany, to znaczy, że w równaniu regresji znajdują się wszystkie zmienne ważne dla wyjaśnienia zmiennej objaśnianej, oraz że równanie to ma poprawną postać matematyczną. Pełniejsze omówienie tych zagadnień odkładamy do rozdziału 9. Założenie : Elementy macierzy X są nielosowe, są one ustalone w powtarzalnych próbach, lub jeśli są losowe, to są niezależne od zaburzenia ε. Nielosowość elementów macierzy X oznacza to Jeśli wzięlibyśmy inną próbę lub kolejne dalsze inne próby, to zmienne objaśniające we wszystkich próbach są zgodnie z założeniem takie same. Ta 6

27 część założenia jest cechą charakterystyczną nauk eksperymentalnych, gdzie w planowanym eksperymencie badacz ma możliwość ustalania wielkości czynników wpływających na zmienną objaśnianą. W badaniach ekonomicznych, gdzie prawie nigdy nie możemy powtarzać eksperymentów, założenie stałości zmiennych objaśniających jest nierealistyczne. Jedynie zmienne objaśniające mierzące upływ czasu ( t=,,...t ), są zmiennymi nielosowymi, a więc są stałe w powtarzalnych próbach. W większości innych przypadków zmienne objaśniające, mając swą ekonomiczną naturę analogiczną do zmiennej objaśnianej y są losowe, to znaczy, że każda z nich zawiera własne zaburzenie losowe. Dla spełnienia warunków KMRL wystarcza, aby losowe zmienne objaśniające były niezależne od równoczesnych zaburzeń losowych ε. Dlatego też w dalszych rozważaniach przyjmujemy wygodne upraszczające założenie, że zmienne objaśniane są stałe w powtarzalnych próbach. Do problemu tego wrócimy w w punkcie 4.6 rozdziału 4. Założenie należy rozumieć, że regresja jest regresją warunkową, a więc regresją przy danych wartościach zmiennych objaśniających X. Z powyższego wynika, że (.8) E( y X) = E( y), oraz (.9) Var( y X) = Var( y), gdzie symbol Var oznacza wariancję. Założenie 3: Rząd macierzy X jest równy liczbie szacowanych parametrów K, gdzie K jest mniejsze od liczby obserwacji n. A więc: (.0) r( X ) = K < n. Oznacza to, że macierz X ma pełny rząd kolumnowy, z czego wynika po pierwsze, że obserwacje na każdej zmiennej objaśniającej nie mogą być jednakowe, i po drugie, że każda kolumna macierzy X nie może być kombinacją liniową innych kolumn tej macierzy. Możemy więc powiedzieć, że każda zmienna wnosi do równania regresji własną informację i dlatego nie może być zastąpiona przez inne, już istniejące w równaniu regresji zmienne. Wynika stąd (patrz Rząd macierzy w ANEKSIE A), że wówczas również r( X X ) = K. Jak zobaczymy w trakcie dyskusji metody najmniejszych 7

28 kwadratów, powyższy warunek jest niezbędny dla rozwiązalności układu równań normalnych, z którego wyznaczamy wektor ocen b dla nieznanego wektora parametrów β. Druga grupa założeń dotyczy wektora zaburzeń losowych ε. Założenie 4: Wektor zaburzeń losowych ma warunkową wartość oczekiwaną przy danej macierzy X równą wektorowi zerowemu. Formalnie założenie to możemy zapisać: (.) E( ε X) = E( ε) = 0 Z założenia o tym, że macierz obserwacji na zmiennych objaśniających X jest nielosowa lub losowa, ale niezależna od zaburzeń ε, wynika pierwsza równość w (.). Druga z tych równości oznacza, że wartość oczekiwana wektora zaburzeń jest wektorem zerowym. Wynika stąd, że czynniki nie włączone explicite do modelu i dlatego przenoszące łącznie swoje efekty na zaburzenie losowe nie wpływają w sposób systematyczny na średnią wartość y, co oznacza, że ich dodatnie wpływy znoszą się z wpływami ujemnymi powodując, że oczekiwany łączny ich efekt wynosi zero. Zapis macierzowy drugiej części równania (.) można przedstawić jak niżej: L N M ε ε E( ε) = E ε n O L Q P = N M E( ε ) E( ε ) E( ε ) n O L0 O Q P = 0 N M Q P 0. Założenie 5: Zaburzenia losowe ε są sferyczne. Oznacza to, że warunkowa macierz wariancji-kowariancji wektora zaburzeń ε przy danej macierzy X ma postać: (.) Var( ε X) = E( εε X) = Var( ε) = E( εε ) = σ I, gdzie I oznacza macierz jednostkową. Z zapisu tego wynika, że warunkowa macierz wariancji-kowariancji jest równa bezwarunkowej macierzy wariancji-kowariancji. Założenie to możemy przedstawić w sposób rozwinięty następująco: 8

29 (.3) FL ε ε ε ε ε ε n ε ε ε ε ε ε n E( εε ) = E ε ε ε n E M G P ε J = M ε nε ε nε ε n = L N M HN n O Q E( ε ) E( ε ε ) E( ε ε ) E( ε ε ) E( ε ) E( ε ε ) E( ε ε ) E( ε ε ) E( ε ) n n n n n I K O Q P = L M NM L N M O P Q O QP L N M σ σ 0 P = 0 0 σ 0 0 σ 0 0 n O Q P Z ostatnich zapisów widać, że założenie sferyczności zaburzeń oznacza: po pierwsze, że wariacje kolejnych zaburzeń (elementy na diagonalnej) są takie same dla wszystkich obserwacji i równe σ, gdzie σ jest nieznaną dodatnią stałą; po drugie, że elementy pozadiagonalne, które są kowariancjami zaburzeń dla różnych obserwacji są równe zero, a więc zaburzenia dla różnych obserwacji są ze sobą nieskorelowane. Warto w tym miejscu przypomnieć, że zgodnie z definicją wariancja ε i oznacza b i ig, a kowariancje między ε i a ε j oznaczamy jako E ε E( ε ) o E ε i E( ε i ) ε j E( ε j ) t. Ze względu jednak na założenie 4 o zerowej wartości oczekiwanej zaburzeń E( ε ) = 0 zapis macierzy wariancji-kowariancji redukuje się do i postaci (.3). Jednakowe wariancje zaburzeń ε i nazywamy homoskedastycznością zaburzeń. Oznacza to, że zaburzenia losowe są jednakowo rozproszone wokół zerowej wartości oczekiwanej. Jeśli wariancje ε i nie byłyby jednakowe, to sytuację taką nazywamy heteroskedastycznością. Przypadek wzrastającej wariacji ilustruje Rys.. 9

30 y Rys... Heteroskedastyczność x Przypadek zerowych kowariancji dla różnych zaburzeń losowych ε i oraz ε j nazywamy brakiem autokorelacji zaburzeń. Oznacza to, że zaburzenia losowe dla różnych obserwacji są niezależne, a przez to nieskorelowane, a więc nie mają tendencji do gromadzenia się np. wokół dodatnich lub ujemnych (lub naprzemiennie dodatnich i ujemnych wartości), jak to prezentuje Rys..3. y Rys..3. Autokorelacja x Niespełnienie założenia o nieskorelowaniu zaburzeń nazywamy autokorelacją zaburzeń losowych. Szersze omówienie tego założenia odkładamy do rozdziału 8. Z założeń 4 i 5 wynika, że warunkowe rozkłady zaburzeń losowych mają identyczne i niezależne rozkłady ( o jednakowej warunkowej wartości oczekiwanej równej zero, o 30

31 jednakowych wariancjach równych σ i zerowych kowariancjach). Jeśli wektor zaburzeń losowych spełnia te warunki, to mówimy że ε i są niezależne i identycznie rozłożone, a więc mają rozkład IID, co zapisujemy ε ~ IID( 0, σ ) i lub ε ~ iid( 0, σ ). Skrót ten pochodzenia anglojęzycznego oznacza Idendependent and Identically Distributed - (niezależne i identycznie rozłożone). i Założenie 6: Zaburzenia losowe mają n-wymiarowy rozkład normalny, co zapiszemy formalnie: (.4) ε ~ N ( 0, σ I) i czytamy wektor zaburzeń losowych ε ma n wymiarowy rozkład normalny o wektorze średnich 0 i macierzy wariancji-kowariancji σ I. Połączenie założeń 4, 5 i 6 pozwala stwierdzić, że każde z zaburzeń ε i ma identyczny rozkład normalny o średniej 0 i wariancji σ i rozkład ten jest niezależny od rozkładu innego zaburzenia (dla wszystkich i =,,,... n ). O wektorze ε mówimy wówczas, że ma sferyczny rozkład normalny. Jest to wygodne i dość często spełnione w praktyce modelowania założenie, jakie przyjmujemy dla najprostszego teoretycznie modelu, to jest klasycznego modelu regresji liniowej. Przy tych założeniach estymatory metody najmniejszych kwadratów, którą przedyskutujemy w rozdziale 3, mają lepsze własności statystyczne od modelu regresji z nienormalnymi zaburzeniami, co istotnie wpływa na sposób testowanie stawianych hipotez. W dalszym ciągu wykładu będziemy rozważać konsekwencje przyjętych założeń i zastępować je innymi, mniej krępującymi, dającymi okazję do analizy bardziej złożonych przypadków modelowania ekonometrycznego. Pierwszą i to znaczną część rozważań poświęcimy wnioskowaniu o modelu ekonometrycznym spełniającym wyżej przedstawione założenia. Podsumowanie. Zapis macierzowy modelu 3

32 yi = β + β xi + β 3x3i + + β K xki + ε i i =,, 3 n lub dla i tej obserwacji y i = x i β + ε i. Model z wieloma zmiennymi objaśniającymi nazywa się regresją wieloraką. 3. Klasyczny model regresji liniowej opiera się na sześciu założeniach, których spełnienie jest gwarancją uzyskania teoretycznie poprawnego wyniku:. O generowaniu obserwacji na zmiennej objaśnianej,. Elementy macierzy X są nielosowe, lub losowe ale niezależne od równoczesnych zaburzeń losowych ε, 3. Rząd macierzy obserwacji na zmiennych objaśniających X jest równy liczbie szacowanych parametrów K, gdzie K jest mniejsze od liczby obserwacji n, 4. Zaburzenia losowe ε są sferyczne, to znaczy, że nie występuje heteroskedastyczność ani autokorelacja zaburzeń losowych, 5. Wektor zaburzeń losowych ma warunkową wartość oczekiwaną przy danej macierzy X równą wektorowi zerowemu, 6. Zaburzenia losowe mają n-wymiarowy rozkład normalny. 3

33 3. METODA NAJMNIEJSZYCH KWADRATÓW (MNK) Rozważania zamieszczone w tym rozdziale zostały po raz pierwszy sformułowane przez słynnego matematyka niemieckiego C. F. Gaussa, a następnie rozwinięte do współcześnie stosowanej postaci przez rosyjskiego matematyka A. Markowa już w końcu XIX wieku. Są one z powodzeniem stosowane do dnia dzisiejszego. Częste odwoływanie się do sformalizowanej teorii Gaussa i Markowa przydało metodzie najmniejszych kwadratów nazwę metody klasycznej. W niniejszym rozdziale wyprowadzimy estymatory tej metody i określimy ich własności. 3.. Estymatory metody najmniejszych kwadratów (MNK) Z rozdziału. wiemy, że regresję w populacji możemy opisać równaniem: (3.) y = E( y X) + ε = Xβ + ε Odpowiednik tego równania w próbie ma postać: (3.) y = y + e = Xb + e. Przypomnijmy, że w równaniu (3.) ŷ oznacza wektor wartości teoretycznych (wyliczonych) z regresji w próbie, zaś e jest wektorem reszt. Klasyczna metoda najmniejszych kwadratów, którą w skrócie będziemy oznaczać MNK, służy właśnie do wyznaczenia nieznanego wektora b, który to wektor traktujemy jako wektor estymatorów dla parametrów β. MNK polega na wyprowadzeniu b z warunku minimalizacji sumy kwadratów reszt określonych przez (3.), a więc: (3.3) e = y Xb. 33

34 Oznaczmy przez S minimalizowaną sumę kwadratów reszt, która jak zauważamy, jest skalarem. Możemy napisać: n S = e i = e e = ( y Xb) ( y Xb) = i= (3.4) = y y y Xb b X y + b X Xb = = y y b X y + b X Xb We wzorze (3.4) dwa wyrażenia środkowe w drugim wierszu różnią się jedynie transpozycją, a są skalarami, możemy więc dodając je do siebie napisać równość z trzeciego wiersza. Różniczkując powyższe wyrażenie względem b i przyrównując do zera otrzymujemy: (3.5) S b = X y + X Xb = 0. A po przekształceniu (3.6) X Xb = X y. Jest to tak zwany układ równań normalnych. Rozwiązaniem tego układu jest: (3.7) b = ( X X) X y. W powyższym wyrażeniu iloczyn macierzy X X zwany jest macierzą momentów. Mamy bowiem (3.8) X X = = L N M L N M x x x K K n O Q P L N M O L Q P N M x x x Kn x x x n x x x K K Kn x x x K K n x x x O P Q P = K K n x x x Kn x x x Kn O P Q P = L NM n i= n i n x x x n i Ki i= i= n n xi x i xki i= i= n x x x x Ki Ki i i= i= i= n n Ki O QP 34

35 Zauważmy, że jest to macierz symetryczna. Niekiedy wygodnie jest przedstawić ją jako: X X = x x. Układ równań normalnych (3.6) możemy zapisać w bardziej wyraźnej formie: (3.9) L NM n x x x x x x x x x x K K K K K K O QP L N M b O P Q b P = b Wśród założeń klasycznego modelu regresji liniowej jest założenie 3 o tym, że macierz X ma rząd kolumnowy równy K, r n i= L NM i n i= n i= n i= i y x y x i i Ki y i i O QP ( X ) = K, stąd z własności rzędu macierzy (patrz ANEKS A) wnosimy, że macierz X X jest dodatnio określona, a zatem istnieje do niej macierz odwrotna ( X X) i równanie (3.7) ma rozwiązanie. Ponieważ druga pochodna S równa S = X X jest dodatnio określona, to rozwiązanie (3.7) wyznacza minimum sumy b b kwadratów reszt S. Przykład 3.. Zastosujmy rozwiązanie (3.7) b = ( X X) X y do wyznaczenia ocen w przykładzie zależności między spożyciem indywidualnym w gospodarstwach domowych a produktem krajowym brutto, na podstawie danych z Tablicy.3. Macierz X X wynosi: X X = L NM n n n i= n x i i= i= x x i i O QP =L N M 4 976,8 976, ,5. L = N M O -0, ,783E - 06 Q P =L ; N M 58,55O X y Q P O QP =L N M, , O Q P L N M 58,55O Q P =L N M -,9O -0, ,783E ,3 0,64 Q P., , ( X X) L NM b b O Q P 39845,3. Stąd. 35

36 Otrzymaliśmy wynik identyczny z tym z wydruku komputerowego Gretla, zamieszczonego we Wprowadzeniu y i =, 9 + 0, 64 x i. 3. Własności algebraiczne rozwiązania MNK Rozwiązanie metody najmniejszych kwadratów dane równaniem (3.7) b = ( X X) X y ma kilka interesujących własności, przydatnych w dalszych rozważaniach. Przedstawimy je kolejno.. Macierz regresorów X jest nieskorelowana z wektorem reszt e. Dla ukazania tej własności wróćmy do równania (3.6) X Xb = X y. Jeśli X y przeniesiemy na lewą stronę równości to dostaniemy (3.8) X( y Xb) = 0. Ponieważ wyrażenie w nawiasie na podstawie równania (3.3) jest resztą e, e = y Xb, to (3.9) X e = 0.. W modelu regresji suma reszt wynosi 0. Z własności wynika, że każdy z regresorów w macierzy X jest nieskorelowany z wektorem reszt e, a więc (3.0) xk e = 0 dla k =,,, K. W szczególności pierwsza kolumna macierzy X złożona jest z samych jedynek. Tę kolumnę n jedynek oznaczmy jako wektor l. l = L O N M Q P. Wówczas możemy napisać n e i i= (3.) l e = 0, lub korzystając ze znaku sumy l e = = 0. Tak więc ustaliliśmy ważną własność, że w modelu regresji suma reszt wynosi 0. 36

37 Zauważmy, że własność ta jest spełniona jedynie w sytuacji, gdy równanie regresji L N M y y y n O L Q P = N M x x x 3 K x x x 3 K x x x O L Q P N M β β β n 3n Kn K n O L Q P + N M ε ε ε O Q P zawiera stałą β. Jeśli z powodu istotnych dla teorii ekonomii względów równanie regresji jest równaniem bez stałej, to własność, jak również z tych samych powodów, dalsze trzy własności nie obowiązują. 3. Średnia wartości rzeczywistych zmiennej objaśnianej y jest równa średniej wartości wyliczonych (teoretycznych) tej zmiennej. Dla ukazania tej własności przywołajmy równanie (.4) y = y + e i =,,, n, i i i z którego po wysumowaniu obydwu stron równania po obserwacjach i otrzymamy: n n yi = y i + ei. Z własności wynika, że e i = 0, a stąd po podzieleniu stronami i= i= i= przez n otrzymamy: n n i= (3.) n n yi y i i= i= = n n lub y = y. 4. Funkcja regresji przychodzi przez punkt średnich. Jeśli równanie (3.) napiszemy w postaci (3.3) y = b + bx + b x, to otrzymujemy interesującą nas własność. K K 5. Wektor wartości wyliczonych ŷ jest nieskorelowany z wektorem reszt e. Wektor wartości wyliczonych oznaczyliśmy jako ŷ = Xb. Stąd jego transpozycja jest równa y = b X. Po prawostronnym przemnożeniu przez wektor reszt e otrzymamy: (3.4) y e = b X e = 0, gdyż z własności : X e = 0. Przedstawione wyżej własności są często wykorzystywane w przekształceniach wzorów ekonometrycznych, znakomicie upraszczając zbyt długie niekiedy ciągi wywodów. 37

38 3.3 Dobroć dopasowania równania regresji Współczynnik determinacji R Dobroć dopasowania równania regresji (do danych empirycznych) wyrażona jest przez tak zwany współczynnik determinacji oznaczany przez R. Współczynnik ten określa jaka część zmienności zmiennej objaśnianej y jest wyjaśniona łącznie przez zmienność wszystkich zmiennych objaśniających x, x K. Zmienność całkowitą zmiennej objaśnianej y, oznaczaną w literaturze angielskim skrótem TSS (Total Sum of Squares), mierzymy za pomocą sumy kwadratów odchyleń obserwacji zmiennej objaśnianej od średniej: (3.5) TSS = ( yi y) n i= Jeśli model zawiera stałą, to całkowitą sumę kwadratów możemy zdekomponować na dwa składniki, na wyjaśnioną (równaniem regresji) sumę kwadratów, oznaczaną przez ESS (Explained Sum of Squares) (3.6) ESS = ( yi y) n i= i resztową (niewyjaśnioną) sumę kwadratów, oznaczaną przez RSS (Residual Sum of Squares). n i= (3.7) RSS = e i Wiemy, z (.4) że y = y + e. Odejmując od obydwu stron średnią y mamy b g i i i y = y + e = y y + ( y y) + e, a po podniesieniu do kwadratu i wysumowaniu i i i i i i 38

39 n n (3.8) ( y y) = ( y y) + e + ( y y) e i i i i= i= i= i= n n i i Z (3.4) wiemy, że Ostatecznie: n ŷ i ei = 0, a z (3.), że e i = 0, a więc i yei = y ei = 0. i= n i= n n i= i= n n n i i i i= i= i= (3.9) ( y y) = ( y y) + e lub inaczej TSS = ESS + RSS. W oparciu o tę dekompozycję zdefiniowany jest współczynnik determinacji (3.0) R wyjasniona suma kwadratów ESS = = = calkowita suma kwadratów TSS i= n n i= ( y y) i ( y y) i = RSS TSS. Zauważmy, że R przyjmuje wartości z przedziału między 0 i. Jeśli wynosi to funkcja regresji w 00% wyjaśnia zmienność y, a jeśli 0, to model regresji w ogóle nie wyjaśnia zmienności y. Jeśli na przykład R wynosi 0,7 to możemy powiedzieć, że 70% zmienności zmiennej objaśnianej y jest wyjaśnione przez łączną zmienność wszystkich zmiennych objaśniających, a 30% zmienności jest niewyjaśnione (jest zmiennością resztową). Z wydruku komputerowego zamieszczonego we Wprowadzeniu, ilustrującego obliczenia regresji między spożyciem indywidualnym a PKB odczytujemy, że R w tym zadaniu wynosi 0,9969. Wynik ten należy uznać za wysoce zadowalający. Skorygowany współczynnik determinacji R W sytuacjach niedużej liczby obserwacji, przy szacowaniu kilku modeli z różną liczbą regresorów, korzystanie ze współczynnika determinacji R dla wyboru modelu lepiej dopasowanego do danych empirycznych staje się problematyczne. Gdy bowiem dodajemy do równania dalsze regresory to zawsze wzrasta R niezależnie od prawdziwej ważności tych nowododanych zmiennych. Z tego powodu za miarę dobroci dopasowania zaproponowano nie R, a tak zwany skorygowany współczynnik determinacji R. Współczynnik ten jest skorygowany ze względu na tak zwaną liczbę stopni swobody, to znaczy ze względu na różnicę między liczbą obserwacji n a liczbą zmiennych objaśniających K. Współczynnik R zdefiniowany jest następująco: 39

40 (3.) R = n i= n ei / ( n K) i=. ( y y) / ( n ) i W cytowanym przykładzie liczbowym skorygowany współczynnik determinacji R wynosi 0,9966, a więc niewiele odbiega od nieskorygowanego. Zauważmy, że zwiększenie liczby dodanych zmiennych (a więc zwiększenie K ) zmniejszy sumę kwadratów reszt n e i, co wywołuje wzrost R. Ponieważ jednak i= n e i i= jest dzielona przez n K, to zwiększenie K skompensuje efekt spadku e i. Jeśli n i= spadek n e i będzie tak mały, że wzrost K z nadmiarem zniweluje ten spadek, to R i= będzie mniejsze od R. Z tych powodów R uważa się za bardziej rzetelną miarę dobroci dopasowania od R. Jeśli w modelu nie ma stałej to dekompozycja (3.9) nie obowiązuje i może się zdarzyć, że współczynnik determinacji przyjmie wartość ujemną. W takim przypadku stosuje się statystykę (3.) R * n = = i n i= e i y i. Współczynnik ten przyjmuje wartości z przedziału 0,, ale R * nie może być bezpośrednio porównywany ze współczynnikiem R, gdyż są to dwie różne miary dobroci dopasowania. Na zakończenie rozważań nad współczynnikiem determinacji warto zauważyć, że dla danych szeregów czasowych, ze względu na agregatowy charakter danych, współczynnik ten przyjmuje znacznie wyższe wartość, często bliskie, zaś dla danych przekrojowych, z powodu znacznych zaburzeń w danych pierwotnych, za wysoce zadowalającą można uznać wartość 0,5. Kryterium informacyjne Akaike (AIC) Innym współczynnikiem uwzględniającym wpływ nadmiernej liczby zmiennych objaśniających na spadek sumy kwadratów reszt jest kryterium informacyjne Akaike, 40

41 oznaczane w literaturze (Akaike Information Criterion - skrótem ) AIC. Jest ono zdefiniowane następująco: (3.3) AIC nln e K. = F H G n i= i I + KJ Zgodnie z tym kryterium włączenie dodatkowej zmiennej objaśniającej jest celowe jedynie gdy AIC spada. Podobnie jak R, AIC zależy od resztowej sumy kwadratów n e i i od i= liczby estymowanych parametrów K. Zauważmy, że spadek n e i wywołany dodaniem i= ekstra zmiennej nie musi prowadzić do spadku AIC. Dodatkowa zmienna wywołuje bowiem wzrost K - liczby estymowanych parametrów, co zwiększa AIC, stąd efekt liczby K może przewyższyć efekt spadku e i. n i= Zaletą kryterium informacyjnego Akaike jest możliwość porównywania dobroci dopasowania różnych modeli, w tym nawet modeli bez stałej oraz modeli nieliniowych względem parametrów, o czym będzie mowa w dalszej części wykładu. W literaturze ekonometrycznej i w ekonometrycznych programach komputerowych liczone są również inne współczynniki dobroci dopasowania, wśród których najbardziej rozpowszechnionym jest kryterium informacyjne Schwartza-Bayesa, zwane również kryterium bayesowskim Schwartza, które ma postać podobną do kryterium Akaike, oznaczane jest skrótem SBC lub niekiedy skrótem BIC i liczone jest według wzoru: (3.4) SBC n ln e K ln( n) = F H G n i= i I + KJ Mają one podobną wartość poznawczą do dotychczas omówionych. Przykład 3.. Oszacujmy zależność między stopą zgonów niemowląt na 000 ludności, oznaczoną jako zmienna objaśniana Niemowl a wielkością PKB na mieszkańca i stopą bezrobocia, które oznaczymy odpowiednio jako PKB i Bezrob w 5 krajach Unii Europejskiej w 004 roku według danych GUS Polska w Unii Europejskiej 006. Estymowane równanie regresji ma postać: (3.5) Niemowl = β + β PKB + β 3Bezrob + ε ; i =,, 5. i i i i 4

42 Dane statystyczne wzięte z publikacji GUS przedstawia poniższa Tablica 3. Tablica 3. Kraj Niemowl PKB Bezrob Spo Austria 9, , 0,6 Belgia 9, ,4 3,6 Cypr ,3 6,4 Dania 0, ,8,4 Estonia 3, ,9 0,5 Finlandia 9, 600 8,4,5 Francja 8, ,5 4, Grecja 9, ,8 5 Hiszpania 8, , 6 Irlandia 6, ,3 9,3 Litwa 00 8,3 9,7 Luksemburg 7, ,5 9,7 Łotwa 3, ,9, Malta 7, 600 7,3 7,3 Niderlandy 8, ,7 Niemcy 9, ,5,7 Polska 9, ,7 9, Portugalia 9, ,6 7 Rep. Czeska 0, ,9 7, Słowacja 9, ,3 9,7 Słowenia 9, ,5 5,8 Szwecja 0, b6900 7,8,3 Węgry 3, , 7,7 W. Brytania 9, ,7 8,9 Włochy 9, ,7 4,5 Stosując program ekonometryczny GRETL uzyskamy oszacowanie ModeL 3.: Estymacja KMNK z wykorzystaniem 5 obserwacji -5 Zmienna zależna: Niemowl Zmienna Współczynnik Błąd stand. Statystyka t wartość p const,484,6504 7,55 < 0,0000 *** PKB -0, ,9535e-05 -,5366 0,08798 ** Bezrob -0, ,06-0,4880 0,

43 Wsp. determinacji R = 0,576 Skorygowany R = 0,8374 Uzyskaliśmy równanie: Niemowl =,4-0,000 PKB - 0,059 Bezrob. i i i Współczynnik determinacji tego równania wynosi R = 0,576 zaś skorygowany współczynnik R = 0,8374. Nie są to wartości, które by można uznać za duże, jednak dla danych przekrojowych, zgodnie z wyżej sformułowanymi uwagami, są one zadowalające. Interpretację oszacowań uzyskanych w tym równaniu przeprowadzimy w rozdziale 5 po zapoznaniu się ze sposobami wnioskowania statystycznego w równaniu regresji.. Podsumowanie. Klasyczna metoda najmniejszych kwadratów, z warunku minimalizacji sumy kwadratów reszt, wyznacza wektor współczynników b, jako wektor estymatorów dla nieznanego wektora parametrów β : b = ( X X) X y.. Przydatne są następujące własności algebraiczne:. Macierz regresorów X jest nieskorelowana z wektorem reszt e,. suma reszt wynosi 0, 3. Średnia wartości rzeczywistych zmiennej objaśnianej y jest równa średniej wartości wyliczonych dla tej zmiennej ŷ, 4. Wektor wartości wyliczonych ŷ jest nieskorelowany z wektorem reszt e. 3. Współczynnik determinacji R określa jaka część zmienności zmiennej objaśnianej y jest wyjaśniona łącznie przez zmienność wszystkich zmiennych objaśniających x,. x K 4. Skorygowany współczynnik determinacji R uwzględnia efekt małej liczby stopni swobody, występującej w równaniu regresji, to znaczy różnicy między liczbą obserwacji n a liczbą zmiennych objaśniających K. 5. Podobną interpretację do R mają: Kryterium informacyjne Akaike (AIC) i kryterium informacyjne Schwartza-Bayesa (SBC). 43

44 4. WNIOSKOWANIE O ESTYMATORACH MNK 4.. Jeszcze o założeniu normalności zaburzeń losowych Dla dalszych rozważań wróćmy do założenia 6 klasycznego modelu regresji przedstawionego w podrozdziale.3. o tym, że zaburzenia losowe mają n-wymiarowy sferyczny rozkład normalny, co zapisaliśmy formalnie jako: (4.) ε ~ N ( 0, σ I). Jest to założenie o fundamentalnym znaczeniu dla rozważań nad klasycznym modelem regresji liniowej. Zauważmy, że zaburzenie losowe ujmuje sumaryczny wpływ wszystkich pominiętych w równaniu regresji zmiennych. Uzasadnienie dla przyjęcia rozkładu normalnego wynika z Centralnego Twierdzenia Granicznego, które luźno formułując określa, że jeśli mamy dużą liczbę niezależnych zmiennych losowych o identycznych rozkładach o tej samej średniej i wariancji, to ich suma zmierza do rozkładu normalnego. Jeśli liczba tych zmiennych nie jest bardzo duża i nie są one dokładnie niezależne, to ich suma może być bliska rozkładu normalnego. Konsekwencje tego założenia są dalekosiężne dla rozważań nad własnościami statystycznymi klasycznego modelu regresji liniowej. (Patrz Aneks B). Po pierwsze funkcja liniowa zmiennych o rozkładzie normalnym ma również rozkład normalny. Stąd wynika, że zmienna objaśniana y i estymatory β k mają również rozkłady normalne. Po drugie założenie normalności umożliwia korzystanie z testów statystycznych opartych na rozkładach związanych z rozkładem normalnym takich jak χ, t Studenta i F. Przyjęcie założenia o normalności zobowiązuje nas do sprawdzania, czy w małych próbach założenie to jest spełnione. W dalszej części wykładu omówimy testy sprawdzające założenie normalności w estymowanym modelu. 4.. Twierdzenie Gaussa-Markowa: wektor b jest liniowym, nieobciążonym i najlepszym estymatorem wektora parametrów β Najlepszy liniowy nieobciążony estymator powszechnie określany jest angielskim sympatycznym skrótem BLUE (od jego nazwy Best Linear Unbiased Estimator najlepszy liniowy nieobciążony estymator). 44

45 Twierdzenia Gaussa-Markowa jest podstawowym twierdzeniem o własnościach estymatorów wyznaczonych za pomocą MNK. Pominiemy bardziej złożone fragmenty jego dowodu, a podamy jedynie podstawowe własności estymatora β i omówimy ich znaczenie. Twierdzenie brzmi: W klasycznym modelu regresji liniowej (a więc spełniającym 6 założeń przedstawionych w poprzednim rozdziale) najlepszym liniowym i nieobciążonym estymatorem wektora parametrów β jest b wyznaczone za pomocą MNK (4.) b = ( X X) X y o macierzy wariancji-kowariancji (4.3) Dyskusja twierdzenia: = σ ( X X ). bb. Estymator b jest estymatorem liniowym, gdyż jest liniową funkcją zmiennej losowej y.. b jest estymatorem nieobciążonym, to znaczy E( b ) = β. Wiemy, że b = ( X X) X y i podstawiając za y prawą stronę równania generującego obserwacje na zmiennej objaśnianej y = Xβ + ε otrzymamy: b = ( X X) X y = ( X X) X ( Xβ + ε) = β + ( X X) X ε. Biorąc wartość oczekiwaną b = β + ( X X) X ε dostajemy bg c h bg (4.4) E b = β + E ( X X) X ε = β + ( X X) X E ε = β + ( X X) X 0 = β gdyż z założenia 4. Ebg ε = 0. Oznacza to, że wektor b w powtarzalnych próbach (przy tej samej macierzy X) jest średnio równy nieznanemu wektorowi parametrów β ; nie ma więc tendencji do systematycznego odchylania się od parametrów β, który estymuje. W indywidualnych przypadkach, ze względu na indywidualne zaburzenia losowe różne w różnych próbach, oszacowane b różni się od β, jednak średnio różnice te się znoszą. Jest więc estymatorem nieobciążonym. Jest to istotna własność estymatorów MNK. 45

46 3. Estymator b jest estymatorem najlepszym, co oznacza, że ma minimalną macierz wariancji-kowariancji, wynoszącą taki nazywamy estymatorem efektywnym. = ( X X ) bb σ. (Aneks B B.8). Estymator Ponieważ estymator b jest liniowy, to analogiczne własności posiada również dowolna kombinacja liniowa wektora b. Weźmy na przykład wektor złożony ze stałych v o nie wszystkich elementach jednocześnie równych 0; v = i utwórzmy kombinację liniową wektora v i b, a więc v b = v b + v b + + v b. Ta kombinacja liniowa jest również najlepszym liniowym i nieobciążonym estymatorem kombinacji liniowej v β. L N M v v v K O Q P K K Za v przyjmijmy wektor, który na k-tej pozycji ma jedynkę, a pozostałe elementy zerowe. Wektor taki nazywamy k-tym wersorem. Oznaczamy go przez i k : (4.5) i k = L0 O 0 NM 0QP k-ta pozycja. Wówczas iloczyn i b = b oraz β = β. k k i k k oznacza, że mnożenie wersorów przez odpowiednie wektory redukuje te wektory do ich k-tych składowych. Ważny jest wniosek płynący z tych rozważań, a mianowicie, że najlepszym, liniowym i nieobciążonym estymatorem pojedynczego parametru β k jest b k, które również ma rozkład normalny: (4.6) b ~ N ( β, σ c ) k k kk b k jest pojedynczą zmienną losową, dlatego mówimy jedynie o jego wariancji, która wynosi : 46

47 (4.7) σ = σ c, bk kk gdzie c kk jest kk tym elementem diagonalnym macierzy ( X X) (Aneks B B.0). Z twierdzenia Gaussa-Markowa wiemy, że wariancja ta jest najmniejsza w klasie estymatorów liniowych i nieobciążonych. Istotnym dopełnieniem własności estymatorów MNK jest własność zgodności, co oznacza, że dla wzrastającej wielkości próby estymator b jest zbieżny (zmierza) do prawdziwych wartości β w populacji. Pojęcie zgodności estymatora wprowadzimy niżej Estymator wariancji zaburzenia losowego i błędy standardowe estymatorów Z (4.6) widzimy, że pojedyncza składowa wektora b, to znaczy b k ma rozkład normalny wokół β k o wariancji σ c kk. Stąd zmienna (4.8) bk β k σ b k ~ N ( 0, ) ma standardowy rozkład normalny. Wyrażenie (4.9) σ = σ bk c kk nazywamy odchyleniem standardowym estymatora b k. Reasumując mamy: E( b ) = β - wektor b jest nieobciążonym estymatorem wektora parametrów β ; E( b ) = β k =,,, K ; b k jest nieobciążonym estymatorem parametru β k ; k k = ( X X) bb σ - macierz wariancji-kowariancji wektora estymatorów; σ = σ c - wariancja estymatora b k, oraz bk kk b ~ N ( β, σ c ). k k kk 47

48 Moglibyśmy więc wyznaczać przedział ufności dla nieznanego parametru β k lub weryfikować hipotezy o tym, że przyjmuje on określoną wielkość, jeśli znana byłaby wariancja zaburzenia losowego σ. Ponieważ zaburzenia losowe ε są nieznane, to i nieznana jest ich wariancja. Wektor reszt e w wyznaczony z próby traktujemy jako wektor estymatorów zaburzeń losowych ε. Istnieje więc przesłanka dla wyznaczenia estymatora wariancji σ na podstawie wektora reszt e. W teorii ekonometrii dowodzi się twierdzenie, że ei (4.0) σ i= e e = = n K n K n jest nieobciążonym estymatorem wariancji σ. Wyliczoną z próby wartość tego estymatora nazywamy wariancją resztową i oznaczamy σ. Przykład 4.. W zadaniu o związku między spożyciem indywidualnym a PKB otrzymaliśmy równanie (.3) zamieszczone we Wprowadzeniu postaci: y i =, 9 + 0, 64 x i. Dla tego zadania z wydruku komputerowego Gretla ze strony odczytujemy, że 8, 46 σ = = 8, Jeśli do wzoru (4.8) zamiast nieznanej wariancji σ podstawimy jej obliczoną z próby wariancję resztową σ, to otrzymujemy wyrażenie bk β k (4.9) σ c kk które, jak zobaczymy niżej, możemy wykorzystać we wnioskowaniu. W mianowniku formuły (4.9) mamy σ c kk. Jest to tak zwany błąd standardowy estymatora, oznaczany jako (4.0) σ = σ c = σ c k b kk kk. 48

49 Statystyka 3 (4.9) bk β k σ c kk bk β k = σ b k, w której mianowniku występuje błąd standardowy σ bk nie ma jednak rozkładu normalnego, a ma rozkład t Studenta (Patrz Aneks B). W zadaniu o związku między spożyciem indywidualnym a PKB błędy standardowe dla stałej b oraz dla współczynnika kierunkowego b wynoszą odpowiednio: σ b = σ c = 6,79 oraz σ b = σ c, = 0 0. Wartości te podane są w wydruku Gretla na stronie Wprowadzenia w kolumnie Błąd stand. Często błędy standardowe umieszczamy w równaniu regresji w nawiasach pod wyznaczonymi ocenami. W przykładzie o związku między spożyciem indywidualnym a PKB równanie uzupełnione błędami standardowymi ma postać: y i =, 9 + 0, 64 x i (6,79) (0,0) 4.4. Rozkład t Studenta, weryfikacja prostych hipotez i przedziały ufności Rozkład t Studenta jest rozkładem zbliżonym do standardowego rozkładu normalnego (patrz Aneks B) i poniższy rysunek Statystyką nazywamy regułę lub metodę określającą sposób estymacji parametru w populacji za pomocą informacji z próby. 49

50 Różni się od niego grubszymi ogonami, szczególnie gdy liczba stopni swobody n K jest mała. Im większa jest liczba stopni swobody, tym bardziej rozkład t Studenta zbliża się 50

51 do rozkładu normalnego i gdy liczba stopni swobody jest dostatecznie duża, to obydwa rozkłady są niemal identyczne. Rozkład t Studenta jest wykorzystywany do weryfikacji prostych hipotez i wyznaczania przedziałów ufności, o czym niżej. Weryfikacja prostych hipotez Rozkład t Studenta jest wykorzystywany dla weryfikacji prostych hipotez, to znaczy hipotez dotyczących pojedynczych parametrów β k ( k =,..., K) i wyznaczania przedziałów ufności dla tych parametrów. Testowanie prostych hipotez przebiega w następujących krokach: Krok. Stawiamy tak zwaną hipotezę zerową co do wartości nieznanego parametru β k, 0 0 a więc na przykład H 0 :β k = β k, gdzie β k jest liczbowo określoną wartością. Hipotezie 0 tej towarzyszy hipoteza alternatywna H :β k β k. (Hipotezy zawsze stawiamy parami). Krok. Przy założeniu, że postawiona hipoteza zerowa jest prawdziwa, wyznaczamy statystykę testującą z rozkładu t Studenta o n - K stopniach swobody postaci: (4.) t = b k 0 β k σ b k Krok 3. Sprawdzamy, czy w rozkładzie t Studenta o n - K stopniach swobody prawdopodobieństwo wystąpienia statystyki t = b k 0 β k σ b k jest na tyle małe, że hipoteza zerowa jest mało prawdopodobna i powinna być odrzucona na rzecz hipotezy alternatywnej. Odrzucenie hipotezy zerowej oznacza przyjęcie hipotezy alternatywnej. Mówiąc dokładniej odrzucamy hipotezę zerową, jeśli prawdopodobieństwo zaobserwowania wartości t lub większej od tak zwanej wartości krytycznej t α / jest mniejsze od α, zwanego poziomem istotności, więc przyjmowanego na ogół jako 0,05. A o α t (4.) P t > t = α gdzie tzw. wartość krytyczna t α / jest wyznaczona z tablic rozkładu t Studenta dla postulowanego poziomu istotności α i dla danej liczby stopni swobody n K. 5

52 Powyższy test nazywamy testem dwustronnym gdyż hipoteza alternatywna H dopuszcza, aby wartości parametru β k była większa lub mniejsza od β k 0. Hipotezy o istotności zmiennych objaśniających Wśród hipotez dwustronnych powszechnie formułowana jest hipoteza zerowa postaci H 0 :β k = 0 i hipoteza alternatywna H :β k 0. Zauważmy, że odrzucenie hipotezy zerowej oznacza, że parametr stojący przy k mówimy statystycznie różny od zera, a więc, że k tej zmiennej objaśniającej jest, jak ta zmienna jest statystycznie istotna, co oznacza, że wyjaśnia ona zachowanie się zmiennej objaśnianej. (Zauważmy, że przyjęcie zerowej hipotezy nie wskazuje, że jest ona prawdziwa, gdyż możliwe, że istnieje inna zerowa hipoteza, która jest również zgodna z danymi z próby. Bezpieczniej jest więc mówić, że możemy zaakceptować jakąś hipotezę niż że ją akceptujemy jako prawdziwą). Wartość p (p-value). W popularnych pakietach ekonometrycznych obok wyliczonej wartości statystyki t podawane jest również odpowiadające mu prawdopodobieństwo p odrzucenia hipotezy zerowej H : β =, oznaczane z angielskiego przez p value. Jest to 0 k 0 wyliczony poziom istotności dla statystyki t. Małe wartości p wskazują, że β k = 0 jest mało prawdopodobne i należy odrzucić hipotezę zerową. Jeśli p value jest mniejsze od 0,0 (w wydruku komputerowym oznaczone trzema gwiazdkami *** ), to wnosimy, że β k = 0 jest bardzo mało prawdopodobne, gdyż współczynnik istotności α jest mniejszy od 0,0; jeśli p value jest mniejsze od 0,05 (w wydruku komputerowym oznaczone dwiema gwiazdkami ** ), to współczynnik istotności α jest mniejszy od 0,05; jeśli p value jest mniejsze od 0, (w wydruku komputerowym oznaczone jedną gwiazdką * ), to współczynnik istotności α jest mniejszy od 0,. Jeśli p value jest większe od 0,05 to wnosimy, że β k = 0 jest dostatecznie prawdopodobne i akceptujemy hipotezę zerową. 5

53 Przykład 4.. : W zadaniu o związku między spożyciem indywidualnym a PKB postawmy hipotezę, że PKB nie wpływa na spożycie indywidualne, a więc H 0 :β = 0 wobec hipotezy alternatywnej, że wpływa, a więc H :β 0. Wartość statystyki t dla 3- stopni swobody wynosi y i =, 9 + 0, 64 x i t b = = 0, 64 0, 0 = 64 > t0, 05 =, 0 σ b, gdzie wartość krytyczna t 0, 05 =, 0 wzięta jest z tablic rozkładu t Studenta. Ponieważ t wyliczone jest znacznie większe od t krytycznego, to odrzucamy hipotezę zerową i przyjmiemy hipotezę alternatywną o tym, że współczynnik przy PKB, jest różny od zera, a więc że zmienna PKB jest zmienną statystycznie istotną dla wyjaśnienia kształtowania się spożycia indywidualnego. Zamiast przeprowadzania żmudnych obliczeń możemy sięgnąć do wydruku GRETLa podanego niżej i odczytać wartość p<0,0000, opatrzoną trzema gwiazdkami, a więc wskazującą na odrzucenie hipotezy zerowej o nieistotności zmiennej PKB. Model : Estymacja KMNK z wykorzystaniem 4 obserwacji Zmienna zależna: SPO Zmienna Współczynnik Błąd stand. Statystyka t wartość p const -,9007 6,7904-0,4300 0, PKB 0, ,00 6,5678 < 0,0000 *** Rozmiar testu (ang. size of a test ), moc testu (ang. power of a test ) Przy weryfikacji hipotez można popełnić dwa rodzaje błędów. Pierwszy, gdy odrzucamy hipotezę prawdziwą. Błąd ten zwany jest błędem pierwszego rodzaju. Wielkość tego błędu jest kontrolowana przez badacza, który ustala poziom istotności α, na ogół równy 0,05 lub 0,0. Oznacza on, że godzimy się odrzucić w α przypadkach na sto hipotezę prawdziwą. Wielkość -α zwana jest rozmiarem testu. Drugi rodzaj błędu popełniamy wówczas, gdy przyjmujemy hipotezę zerową, gdy jest ona fałszywa. Prawdopodobieństwo uniknięcia tego błędu zwane jest mocą testu. Moc testu wskazuje więc na zdolność testu do odrzucenia hipotezy zerowej, gdy jest ona fałszywa. Wielkość błędu drugiego rodzaju praktycznie nie jest wyliczalna. Zależy ona bowiem od rzeczywistej wartości parametru β k i od jakości danych statystycznych (niedostatecznej liczby obserwacji, niedostatecznej zmienności zmiennych objaśniających, od wysokiej 53

54 korelacji między regresorami). Na ogół zwiększenie rozmiaru testu - α prowadzi do redukcji jego mocy. Niekiedy dla hipotezy alternatywnej formułujemy test jednostronny. Wówczas hipotezę 0 zerową przedstawiamy na przykład jako H 0 :β k = β k, a hipotezę alternatywną 0 H :β k β k > lub odwrotnie, zależnie od ekonomicznego sensu szacowanego współczynnika regresji. Jeśli na przykład szacujemy wydatki na herbatę w zależności od dochodu na osobę w gospodarstwach domowych i współczynnik przy dochodzie oznaczymy przez β k, to dla testowania hipotezy o tym, że dochód nie wpływa na spożycie herbaty wykorzystywany jest test jednostronny H :β = wobec hipotezy alternatywnej H :β >. k 0 W przypadku testu jednostronnego zamiast (4.) mamy: n s. α (4.3) P t > t = α 0 k 0 Zauważmy, że przy teście jednostronnym postulowaną wartością krytyczną testu nie jest t α / a t α. Przedział ufności W poprzednim paragrafie weryfikowaliśmy hipotezę o tym, że parametr β k przyjmuje określoną wartość na przykład β k 0. Rozważania nasze możemy ująć inaczej pytając, jaki jest przedział, w którym z określonym prawdopodobieństwem znajdzie się nieznana wartość parametru β k. Odpowiedź na to pytanie uzyskamy wyznaczając tak zwany przedział ufności. Jeśli bowiem z (4.) wiemy, że Pot > tα t = α, to dopełnieniem prawdopodobieństwa α do jedności jest wyrażenie: o t (4.4) P t t = α i wiedząc, że t = (4.5) P( t b k α β k, możemy wyznaczyć σ α b k bk β k tα ) = α i po dalszym przekształceniu σ (4.6) P ( b t σ β b + t σ ) = α b k k α bk k k α b k 54

55 Jest to tak zwany przedział ufności, w którym znajduje się nieznana wartość parametru β k z prawdopodobieństwem α. Wielkości b k t α σ oraz b odpowiednio lewostronną i prawostronną granicą przedziału ufności. b k k + t α σ nazywamy b k Przykład 4.3. Korzystając z przykładu o związku między spożyciem a PKB, wyznaczmy 95 procentowy przedział ufności dla nieznanego parametru krańcowej skłonności do konsumpcji β. Podstawiając do równania (4.6) odpowiednie wielkości otrzymamy: P( 0, 64 0, 0, 0 β 0, , 04, 0) = 0, 95 P( 0, 68 β 0, 66) = 0, 95 Z powyższego wynika, że z prawdopodobieństwem 95% nieznana wartość parametru β znajduje się między 0,68 a 0,66. Widzimy więc, że nie jest to przedział szeroki. Zauważmy, że jeśli uprzednio wyznaczyliśmy już przedział ufności, to wyniki tych obliczeń możemy wykorzystać dla weryfikacji hipotezy zerowej H 0 :β k = 0. Jeśli przedział ufności nie zawiera liczby 0, to odrzucamy hipotezę zerową Istotność równania regresji Często stawianym pytaniem jest kwestia, czy równanie regresji jest statystycznie istotne? Jest ono równoważne pytaniu, czy łącznie współczynniki regresji, z wyjątkiem stałej, są równe zero. Jeśli wszystkie współczynniki przy zmiennych objaśniających są jednocześnie równe zero, to i współczynnik determinacji R również wynosi zero. Sprawdzenie istotności równania regresji przeprowadzamy w następujacych trzech krokach: 55

56 Krok. Stawiamy hipotezę zerową H 0 : L N M β β β 3 K O 0 L 0 O Q P = N M 0Q P wobec hipotezy alternatywnej, że nie wszystkie współczynniki β k są jednocześnie równe zero, a więc H : L N M β β 3 0 P M P. Z β 0 K O 0 L P O M P Q P NQ równania dekomponującego zmienność całkowitą zmiennej objaśnianej y na zmienność wyjaśnioną równaniem regresji i zmienność resztową (niewyjaśnioną) wiemy że: TSS = ESS + RSS. Przy tak postawionej hipotezie zerowej wyjaśniona suma kwadratów - ESS powinna być mała, gdyż regresja nic nie wyjaśnia, zaś resztowa suma kwadratów RSS powinna być duża. Krok. Konstruujemy statystykę ESS / ( K ), która ma rozkład F Fishera-Snedecora RSS / ( n K) o K i n K stopniach swobody, co formalnie możemy zapisać: ESS / ( K ) (4.7) F( K, n K) =. RSS / ( n K) Wyjaśnienie rozkładu F znajduje się w Aneksie B, [równanie (B.5)]. Można pokazać, że wyrażenia zarówno w liczniku jak i w mianowniku mają rozkłady χ, to znaczy: ESS / ( K ) ~ χ K oraz RSS / ( n K) ~ χ n K i że obydwie zmienne losowe są od siebie niezależne [równanie (B.4)], wówczas iloraz zmiennych o rozkładach χ, po ich podzieleniu przez odpowiednie liczby stopni swobody, ma rozkład F o tych liczbach stopni swobody. Sformułowana w (4.7) statystyka jest niewygodna w praktycznych zastosowaniach. Wiedząc jednak, że R ESS RSS = =, wyjaśnioną i resztową sumę kwadratów w TSS TSS (4.7) możemy podzielić przez TSS otrzymując wygodną dla obliczeń postać, opartą jedynie na współczynniku determinacji: (4.8) F( K, n K) = ESS / ( K ) R ( K ) = RSS / ( n K) ( R ) ( n K). Krok 3. Weryfikujemy hipotezę zerową. Duże wartości obliczonej statystyki F świadczą przeciw postawionej hipotezie zerowej. Jeśli więc obliczone F jest większe od F krytycznego, to hipotezę tę odrzucamy i stwierdzamy, że regresja jest statystycznie 56

57 istotna. Jeśli w pakiecie ekonometrycznym wyznaczana jest wartość p to p <0,05 wskazuje na odrzucenie hipotezy zerowej. Przykład 4.4. Korzystając z wzoru (4.8) policzmy istotność regresji w omawianym przykładzie, w którym R = 0, ; K = ; n K = 4 =. Po podstawieniu 0, / 0, do (4.8) otrzymamy F(, ) = = = 3909,584, co jest ( 0, ) / 0, znacznie większe od wartości krytycznej wziętej z tablic rozkładu F wynoszącej F 0, 05 = 4, 84. Hipotezę o nieistotności równania regresji zdecydowanie odrzucamy Asymptotyczne własności estymatorów MNK Pokazaliśmy, że estymatory MNK, które wyprowadziliśmy z założeń klasycznego modelu regresji liniowej, mają pożądane własności, pod warunkiem, że założenia te nie są naruszone. Własności te zwane są własnościami małej próby. Jeśli którekolwiek z tych założeń nie zostanie spełnione, a są to dosyć częste przypadki, to estymatory tracą swoje pożądane cechy. Na przykład, jeśli zaburzenia losowe nie mają rozkładu normalnego, to estymator b nie ma również rozkładu normalnego, statystki t-studenta, χ oraz F tracą również cechy rozkładów zgodnych z ich nazwami, gdyż w takich przypadkach rozkłady te nie są znane. Uniemożliwiłoby to praktyczne wnioskowanie i diagnozowanie modelu ekonometrycznego. Dla zachowania pożądanych własności estymatorów wykorzystywane jest wówczas alternatywne podejście oparte na teorii asymptotycznej. Teoria ta odnosi się do sytuacji sprawdzających co się stanie z własnościami modelu, gdy wielkość próby wzrasta do nieskończoności. Asymptotycznie estymatory w modelu ekonometrycznym zachowują dobre własności, takie jak normalność, co umożliwia przyjęcie zamiast nieznanych własności próby skończonej odpowiednich własności asymptotycznych. Zgodność estymatorów MNK Zgodność estymatora jest tak zwaną własnością dużej próby i oznacza, że jeśli będziemy brali coraz większą próbę, to prawdopodobieństwo tego, że estymator b k będzie się różnił od parametru β k o określoną dodatnią wielkość będzie coraz mniejsze. Innymi słowy - coraz mniej będzie prawdopodobne, że wartość estymatora będzie odbiegała od 57

58 estymowanego parametru. W wielu przypadkach nie można dowieść, że estymator jest nieobciążony, ale można pokazać, że jest zgodny (ma to miejsce zwłaszcza w sytuacjach modeli nieliniowych lub dynamicznych). Załóżmy, że spełniony jest tak zwany warunek regularności, oznaczający, że macierz X n X jest zbieżna przy wzrastającym n do skończonej nieosobliwej macierzy, którą oznaczymy przez XX. Wówczas własność zgodności formalnie możemy zapisać: (4.9) lim P{ b β > δ} = 0 dla wszystkich δ > 0. n k k Oznacza to, że asymptotycznie, prawdopodobieństwo tego, że estymator MNK odchyla się o więcej niż o δ od prawdziwej wartości parametru jest równe zeru. Mówimy również, że estymator b k jest zbieżny według prawdopodobieństwa do β k lub zapisujemy krótko: p (4.0) plim b k = β k lub b k β, gdzie plim jest anglojęzycznym skrótem Probability Limit, oznaczającym granicę stochastyczną. b k jest zbieżny według prawdopodobieństwa do β k oznacza, że granicą stochastyczną b k jest β k. Analogicznie oznaczamy zbieżność według prawdopodobieństwa wektora estymatorów b do wektora parametrów β : (4.) plim b = β lub b p β. Dowód zgodności estymatora MNK wymaga, aby spełniony był warunek: (4.) E(x ki ε i ) = 0, co oznacza, że zaburzenie losowe ma średnią zero oraz jest nieskorelowane równocześnie (to znaczy dla tego samego numeru obserwacji i ) z którąkolwiek ze zmiennych objaśniających. Jest to warunek dużo słabszy od założenia o nielosowości zmiennych objaśniających, wymaganego dla nieobciążoności k ( podrozdział.). Zwróćmy również uwagę na fakt, że (4.) wymaga, aby jedynie równoczesne elementy x ki oraz ε i były niezależne, co nie wyklucza możliwości skorelowania opóźnionych zmiennych objaśniających x ki-j z elementem ε i, gdzie x ki-j jest opóźniona o j jednostek w porównaniu z ε i. 58

59 Asymptotyczna normalność Jeśli rozkład estymatora lub innej statystyki w małej próbie nie jest znany, to możemy starać się znaleźć możliwie najlepsze przybliżenie. Najczęściej używamy przybliżenia asymptotycznego (przy n zmierzającym do nieskończoności) opartego na rozkładzie asymptotycznym. Okazuje się, że większość estymatorów w ekonometrii ma asymptotyczne rozkłady normalne. Można pokazać, że przy pierwszych 5 założeniach KMRL (ale bez ostatniego ε ~ N ( 0, σ I) ) i przy spełnieniu warunku regularności estymator b, ma asymptotyczny rozkład normalny, co formalnie zapisujemy: e b gj. (4.3) b ~ Asy. N β, σ X X Własność asymptotycznej normalności estymatora MNK wskazuje, że w małych próbach nawet wówczas, gdy zaburzenie losowe nie ma rozkładu normalnego, to estymator MNK zmierza do rozkładu normalnego, gdy wielkość próby wzrasta. Oznacza to również, że w przybliżeniu w małych próbach ważne są statystyki oparte na rozkładach t-studenta, χ oraz F. Podsumowanie. Nieobciążonym estymatorem wariancji zaburzenia losowego jest wariancja z próby σ równa sumie kwadratów reszt e podzielonej przez liczbę stopni swobody.. Hipotezy o istotności zmiennej objaśniającej weryfikujemy wykorzystując podaną w wydruku komputerowym wartość p. Jeśli wartość p jest mniejsze od 0,05 (w wydruku komputerowym oznaczone dwiema gwiazdkami ** ), to odrzucamy hipotezę, że zmienna jest statystycznie nieistotna. 3. Przedział ufności jest to przedział, w którym znajduje się nieznana wartość parametru β k z prawdopodobieństwem 95%. Szerokość tego przedziału zależy od zmienności reszt (ich sumy kwadratów), od zmienności zmiennych objaśniających stopni swobody równania regresji. i od liczby 59

60 4. Istotności równania regresji sprawdzamy za pomocą statystyki Fishera-Snedecora. Jeśli wartość p dla hipotezy zerowej o łącznej nieistotności wszystkich zmiennych objaśniających jest mniejsza od 0,05 to odrzucamy hipotezę o nieistotności równania regresji. 5. Zgodność estymatora metody najmniejszych kwadratów jest tak zwaną własnością dużej próby i oznacza, że jeśli będziemy brali coraz większą próbę, to prawdopodobieństwo tego, że estymator b k będzie się różnił od parametru β k o określoną dodatnią wielkość będzie coraz mniejsze.. 60

61 INTERPRETACJA RÓWNANIA REGRESJI 5.. Interpretacja współczynników regresji i założenie liniowości Model regresji liniowej zapisaliśmy w postaci macierzowej jako y = Xβ + ε lub dla i tej obserwacji: yi = xi β + ε i i =,,, n. = β + β xi + + β k xki + + β K xki + ε i gdzie wśród regresorów wyróżniliśmy jeden z elementów, a mianowicie β k x ki. Warunkowa wartość oczekiwana zmiennej objaśnianej przy danych wartościach zmiennych objaśniających zgodnie z równaniem (.8) wynosi E( yi xi ) = β + β xi + + β k xki + β K xki i =,,, n. Weźmy pochodną cząstkową warunkowej wartości oczekiwanej po x ki (5.) E( yi xi ) = β k. x A więc β k mierzy oczekiwaną zmianę y i jako efekt zmiany x ki o jedną jednostkę, gdy wartości innych zmiennych objaśniających modelu pozostają niezmienione. Warunek ten zwany jest warunkiem ceteris paribus (z łac. w tych samych, niezmienionych warunkach). W modelu regresji wielorakiej pojedynczy współczynnik ma jedynie sensowną interpretację ekonomiczną przy warunku ceteris paribus. Ponadto liniowy model regresji jest modelem liniowym względem parametrów, a nie względem zmiennych objaśniających, co oznacza, że zmienne objaśniające (regresory) mogą być nieliniowymi funkcjami pierwotnie obserwowanych zmiennych, np. ich potęgami, logarytmami, iloczynami dwóch różnych zmiennych itp.. ki Przykład 5. (Badanie Aktywności Ekonomicznej Ludności GUS z roku 000) ze strony internetowej: Tytułem przykładu przedyskutujmy uproszczoną wersję równanie regresji płac w zależności od płci, lat nauki i wieku badanych osób. Na dalszych stronach wzbogacimy ten model do wersji bardziej rozwiniętej. Niech to uproszczone równanie ma postać: (5.) placa = β + β plec + β nauka + β wiek + β wiek + ε i i 3 i 4 i 5 i i gdzie: placa i - płaca miesięczna i tej osoby, plec i - płeć i tej osoby (wartość w przypadku mężczyzn, wartość 0 w przypadku kobiet) 6

62 nauka i - lata nauki i tej osoby, wiek i - wiek i tej osoby mierzony w latach, wiek i - wiek do kwadratu i tej osoby mierzony w latach. Dla wyjaśnienia postaci tego równania musimy poczynić kilka uwag. Po pierwsze zauważmy, że zmienna płeć jest tak zwaną zmienną zero-jedynkową, to znaczy przyjmującą jedynie dwie wartości: - gdy badaną osobą jest mężczyzna i 0 gdy jest to kobieta. Szersze omówienie zmiennych 0- przedstawimy w następnym paragrafie. Po drugie, jak już uprzednio stwierdziliśmy, liniowy model regresji jest modelem liniowym względem parametrów, a nie względem zmiennych objaśniających. Dlatego dla wychwycenia parabolicznego wpływu wieku na płacę użyliśmy regresorów: wieku i wieku do kwadratu. (Z doświadczeń praktyki wiemy, że przeciętnie płace w pierwszych latach kariery zawodowej szybko przyrastają, później przyrosty zaczynają maleć, aż wreszcie w wieku około lat stabilizują się, poczym powolnie zaczynają spadać). Wykorzystajmy przedstawiony przykład dla interpretacji parametrów równania regresji. W naszym przykładzie parametr β 4 mierzy efekt wieku na oczekiwaną płacę przy założeniu, że pozostałe zmienne nie zmieniają swoich wartości. Zauważmy, że w sytuacji tej nie jest spełniony warunek ceteris paribus, gdyż ze zmianą o jeden rok wieku badanej osoby zmienia się jednocześnie wartość kolejnego regresora wieku w kwadracie. Policzymy zatem pochodną cząstkową płacy po zmiennej wiek. Otrzymamy: (5.3) E( yi xi ) = β 4 + wiekiβ 5. wiek Tak więc dla spełnienia warunku ceteris paribus krańcowy efekt zmiany wieku wynosi β + wiek i β, przy niezmienionych pozostałych wartościach zmiennych objaśniających 4 5 (z wyjątkiem oczywiście regresora wiek i ). Wyniki oszacowanego modelu przy użyciu programu Gretl: i 6

63 Przechodzimy do interpretacji oszacowanych parametrów stojących przy zmiennych objaśniających. Mężczyźni zarabiają przeciętnie o 387, 4 zł więcej niż kobiety przy założeniu pozostałych charakterystyk na tym samym poziomie (czyli wieku oraz liczby lat nauki). Miesięczne wynagrodzenie wzrasta przeciętnie o 73,59 zł przy wzroście liczby lat nauki o jeden rok, przy założeniu pozostałych charakterystyk na nie zmienionym poziomie. Zgodnie ze wcześniejszą uwagą, wyznaczenie wpływu zmiany wieku o jeden rok na oczekiwaną płacę nie jest już takie proste dla osób o różnym wieku wpływ ten jest inny. Porównajmy wpływ wzrostu wieku o jedną jednostkę w przypadku osoby dwudziestopięcioletniej, czterdziestoletniej oraz sześćdziesięcioletniej: Wiek wpływ wzrostu wieku o jeden rok na oczekiwaną płacę (w zł) 5 35,0948+*( -0,38460)*5 = 5, ,0948+*( -0,38460)*40 = 4, ,0948+*( -0,38460)*60 = -0,8004 Wyniki zamieszczone w powyższej tabeli wskazują, iż największy wzrost oczekiwanej płacy nastąpi przy wzroście wieku z 5 na 6 5,97 zł. W przypadku wzrostu wieku z 40 na 4 nastąpi wzrost wynagrodzenia przeciętnie już tylko o 4,5 zł. Natomiast przy wzroście wieku z 60 na 6 lat mamy już do czynienia ze spadkiem oczekiwanej płacy o 0,8 zł. Zaprezentowany model potwierdza więc hipotezę, iż dochód rośnie wraz z wiekiem pracownika, ale coraz wolniej, aby w pewnym momencie zacząć maleć. Elastyczność Przy konstrukcji modeli ekonomiści często chcą znać nie efekty krańcowe a elastyczności, które są wygodnymi miarami dla określenia relatywnej (względnej) zmiany zmiennej objaśnianej y i wywołanej relatywną (względną) zmianą zmiennej objaśniającej x k. Takimi wielkościami są na przykład: elastyczność dochodowa popytu, elastyczność cenowa popytu, czy elastyczność produkcji względem kapitału lub pracy, jak to ma miejsce w funkcji produkcji Cobb-Douglasa. Elastyczność odpowiada na pytanie: o ile procent zmieni się zmienna objaśniana, gdy zmienna objaśniająca zmieni się o jeden procent. Elastyczności mogą być wyznaczane bezpośrednio z modelu, w którym zarówno zmienna objaśniana jak i zmienne objaśniające są logarytmami zmiennych pierwotnych. Model taki możemy zapisać: (5.4) ln yt = γ + γ ln xt + + γ K ln xkt + vt, t =,,, T 63

64 gdzie dla odróżnienia parametry oznaczyliśmy symbolami γ, zaburzenie losowe symbolem ν, a indeks i zastąpiliśmy przez t dla podkreślenia, że takie modele są wyznaczane na danych szeregów czasowych. Logarytmowanie jest wygodną transformacją ze względu na fakt, że logarytm ilorazu jest w przybliżeniu równy relatywnej (względnej) zmianie zmiennej: (5.5) ln y ln y ln t t yt y = F H G I K J t y t yt y t. Przybliżenie to jest dostatecznie dobre, pod warunkiem, że zmiana wielkości y jest niewielka. 4 Z mikroekonomii wiemy, że współczynnik elastyczności zdefiniowany jest jako: wzgledna zmiana y ( yt yt ) / yt E = = wzgledna zmiana x ( x x ) / x t t t ln( yt / yt ) ln( x / x ) Przykład 5. W przykładzie posłużymy się danymi miesięcznymi za lata dla Polski dotyczącymi wielkości produkcji sprzedanej w przemyśle w mln. zł wyrażonej w cenach ze stycznia 003 oraz przeciętnego zatrudnienia w przemyśle wyrażone w tysiącach. Oszacujemy model na logarytmach zmienna zależną będzie logarytm produkcji, natomiast zmienną objaśniającą logarytm zatrudnienia. Przykład stanowi niezwykle uproszczoną wersję funkcji produkcji Cobb-Douglasa, ograniczoną tylko do jednego czynnika, jakim jest zatrudnienie. Niedostępność danych dotyczących wielkości zaangażowanego kapitału uniemożliwia sformułowanie szerszej wersji funkcji produkcji. t t Wzrost zatrudnienia w przemyśle o % przekłada się na wzrost produkcji sprzedanej w przemyśle o 4,83%. Zauważmy, że zatrudnienie jest jednym, ale nie jedynym czynnikiem produkcji i uwzględnienie dalszych czynników mogłoby istotnie zmienić uzyskany rezultat. Oszacujemy jeszcze raz ten sam model, ale nie będziemy logarytmować wyjściowych zmiennych. Poniżej wyniki: 4 Korzystając z przykładu przedstawionego we Wprowadzeniu, spożycie indywidualne w 00 wyniosło 479,60, a w ,50 to względna zmiana: y t yt y t 490, , 60 = = 0, 033 (lub 3, 3%). Dla tych wartości ln y t 479, 60 y Przybliżenie to jest lepsze dla mniejszych stóp zmian. F HG t I K J = 0,

65 Oszacowanie parametru przy zmiennej zatrudnienie ma następującą interpretację: wzrost zatrudnienia w przemyśle o jeden tysiąc powoduje przeciętnie wzrost produkcji sprzedanej w przemyśle o 0 mln. zł. Powstaje pytanie, który z modeli jest lepszy? Czy liniowy, czy logarytmiczny? Na to pytanie nie odpowie porównanie współczynników determinacji R ani skorygowanych współczynników determinacji R, gdyż są to statystyki nieporównywalne, jako, że w pierwszym modelu są one mierzone w miliardach złotych, a w drugim - w logarytmach naturalnych tych wielkości. Istnieją testy omówione w rozdziale 3, a mianowicie AIC oraz SBC - służące do wyboru lepszego z dwóch porównywanych modeli. Przyjmijmy, że wyboru dokonamy na podstawie celu ekonomicznego, dla którego został zbudowany model, a więc czy pożądaną informacją ma być elastyczność konsumpcji względem PKB, czy krańcowa skłonność do konsumpcji. Przykład 5.3 Rozpatrzmy inny przykład zaczerpnięty z teorii rynków finansowych. Jest nim tak zwany model wyceny aktywów kapitałowych (CAPM Capital Asset Pricing Model). We współczesnej teorii inwestowania (dla rynku kapitałowego znajdującego się w stanie równowagi) rozpowszechnionym modelem wyceny oczekiwanej stopy zwrotu papierów 65

66 wartościowych jest tak zwany model wyceny aktywów kapitałowych znany pod anglojęzycznym skrótem CAPM. Model ma postać: gdzie: (5.9) R = R + β ( R R ) + ε, it f t i M t f t it R it oczekiwana stopa zwrotu i-tych aktywów (np. akcji i-tej spółki) w czasie t, R f t stopa zwrotu wolna od ryzyka (np. dwuletnich obligacji skarbowych), R Mt oczekiwana stopa zwrotu portfela rynkowego (np. WIG0), β i tzw. współczynnik β -ta i-tych aktywów, ε it zaburzenie losowe stopy zwrotu i-tych aktywów w czasie t.. Zarówno zmienna objaśniana jak i zmienna objaśniająca są stopami (a więc są przyrostami względnymi), w związku z tym parametr β i ma interpretację elastyczności i-tych aktywów względem portfela rynkowego. Gdy β i > to jednoprocentowa zmiana portfela wywołuje ponad jedno procentową zmianę i-tych aktywów. Oznacza to, że zmieniają się one bardziej intensywnie niż cały portfel. Aktywa takie nazywamy aktywami agresywnymi. I odwrotnie, gdy β i < to i-te aktywa nazywamy defensywnymi. Ponieważ w równaniu (.) zarówno zmienna objaśniana jak i zmienna objaśniająca są wielkościami oczekiwanymi, to współczynnik β i można interpretować jako jednostkową miarę ryzyka, przypisanego i- temu aktywowi w porównaniu z ryzykiem portfela rynkowego. Zauważmy ponadto, że zmienna objaśniana równania ( R M t R f t ) jest różnicą między stopą zwrotu portfela rynkowego i stopą zwrotu wolną od ryzyka i dlatego jest interpretowana jako premia za ryzyko. Prawdziwa wartość parametru β i jest nieobserwowalna a jej estymator szacowany jest na podstawie równania: gdzie: r it stopa zwrotu i-tych aktywów w czasie t, (5.0) rit = ai + bi rmt + eit r mt rynkowa stopa zwrotu w czasie t dla szerokiego indeksu rynkowego (np. WIG0), e it reszta. Oszacujmy model wyceny stopy zwrotu dla akcji PKN Orlen. Wydruk komputerowy wygląda następująco. Model: Estymacja KMNK z wykorzystaniem 363 obserwacji od do Zmienna zależna: l_pkn Orlen 66

67 Zmienna Współczynnik Błąd stand. Statystyka t wartość p Const -7, , ,5667 < 0,0000 *** l_wig0,4933 0,063 8,3643 < 0,0000 *** Srednia arytmetyczna zmiennej zależnej = 3,3606 Odchylenie standardowe zmiennej zależnej = 0,46689 Suma kwadratów reszt =,584 Błąd standardowy reszt = 0,887 Wsp. determinacji R = 0,93704 Skorygowany R = 0,93648 Stopnie swobody = 36 Logarytm wiarygodności = 860,69 Kryterium informacyjne Akaika = -76,54 Kryterium bayesowskie Schwarza = -706, Wyniki estymacji wskazują na agresywny charakter akcji PKN Orlen: β Orlen =, Jakościowe zmienne objaśniające regresory zero-jedynkowe, oznaczane również jako zmienne 0- lub zmienne binarne Często w badaniach ekonomicznych mamy do czynienia ze zmiennymi jakościowymi, które przyjmują określone stany jakościowe, zwane kategoriami i których wartości nie mogą być przedstawione za pomocą zbioru liczb rzeczywistych. Takimi zmiennymi jakościowymi jest na przykład płeć, poziom wykształcenia (podstawowe, średnie, wyższe), region zamieszkania, czy też efekt sezonowy pewnych wielkości np. konsumpcji owoców, czy zakupu samochodów. Taką zmienną jakościową jest też zmieniająca się w kolejnych okresach czasu polityka podatkowa, stosowana przy opodatkowaniu dochodów osobistych ludności, czy też polityka podatkowa, stosowana względem różnej wielkości przedsiębiorstw itp. Wpływ jakościowych zmiennych objaśniających można w równaniu regresji przedstawić za pomocą zmiennych zero-jedynkowych. Rozważania nad zastosowaniem tych zmiennych ograniczymy do przypadku zmiennych objaśniających, a nie zmiennej objaśnianej, o której zakładamy tak jak dotąd, że jest zmienną ilościową. Włączenie zmiennych jakościowych do modelu ekonometrycznego rozpatrzymy na przykładzie efektów sezonowych dla danych kwartalnych. Przyjmijmy, że mamy model regresji prostej, a więc z jedną zmienną objaśniającą, co ułatwi prowadzenie rozważań. (5.6) y = α + β x + ε ; t =,, T. t t t Dla podkreślenia, że mamy do czynienia z danymi pochodzącymi z szeregów czasowych, indeks i =,, n zastąpiliśmy indeksem t =,, T. 67

68 Najprostszym założeniem o efekcie sezonowym jest przyjęcie, że w zależności od kwartału zmienia się stała modelu α. Wówczas mamy: (5.6) y = α + β x + ε w szym kwartale, t t t y = α + β x + ε w gim kwartale, t t t y = α + β x + ε w 3 cim kwartale, t 3 t t y = α + β x + ε w 4 tym kwartale; t 3 t t lub ogólnie: y = α + β x + ε w i tym kwartale, i =,, 3, 4. t i t t Drugą możliwością jest uzmiennienie nachylenia β. Mamy wtedy: (5.7) y = α + β x + ε w szym kwartale, t t t y = α + β x + ε w gim kwartale, t t t y = α + β x + ε w 3 cim kwartale, t 3 t t y = α + β x + ε w 4 tym kwartale; t 4 t t lub ogólnie: y = α + β x + ε w i tym kwartale, i =,, 3, 4. t i t t Trzecią możliwością jest uzmiennienie obydwu parametrów równocześnie, a więc: (5.8) y = α + β x + ε w szym kwartale, t t t y = α + β x + ε w gim kwartale, t t t y = α + β x + ε w 3 cim kwartale, t 3 3 t t y = α + β x + ε w 4 tym kwartale; t 4 4 t t lub ogólnie: y = α + β x + ε w i tym kwartale. t i i t t Ten ostatni przypadek oznacza, że mamy cztery odmienne równania regresji szacowane na podstawie czterech podprób dla poszczególnych kwartałów, wybranych z całkowitej próby ( t =,, T ). Rozpatrzmy przypadek pierwszy, gdy uzmienniona jest stała modelu. Dla tego przypadku definiujemy trzy zmienne zero-jedynkowe: 68

69 (5.9) Q Q Q t 3t 4t = = = R S T R S T R S T, jesli obserwacja pochodzi z giego kwartalu, 0, jesli obserwacja pochodzi z innego kwartalu;, jesli obserwacja pochodzi z 3 ciego kwartalu, 0, jesli obserwacja pochodzi z innego kwartalu;, jesli obserwacja pochodzi z 4 tego kwartalu, 0, jesli obserwacja pochodzi z innego kwartalu, Q = Q = Q = 0 jesli obserwacja pochodzi z pierwszego kwartalu. t 3t 4t Zdefiniowaliśmy tylko trzy, a nie cztery zmienne zero-jedynkowe, opuszczając pierwszy kwartał. Wyjaśnijmy powody tego postępowania. Gdybyśmy wprowadzili taką zmienną również dla pierwszego kwartału, to zauważmy, że suma czterech zmiennych zerojedynkowych dla każdej obserwacji wynosi i przez to w macierzy X suma czterech kolumn ze zmiennymi zero-jedynkowymi staje się równa kolumnie pierwszej, która jak pamiętamy, zawiera same jedynki. Oznaczałoby to, że macierz X miałaby rząd niższy od rzędu kolumnowego, co uniemożliwiłoby odwrócenie macierzy X X przy wyznaczaniu estymatorów MNK, liczonych zgodnie ze wzorem: b = ( X X) X y. Opuszczenie zatem jednej z kategorii dla zmiennej jakościowej jest podyktowane jedynie względami rachunkowymi, umożliwiającymi uzyskanie rozwiązania dla b. Wprowadzamy zatem ogólną zasadę ze względu na warunek rozwiązalności: dla cechy jakościowej o m kategoriach, należy wprowadzić do równania regresji jedynie m- zmiennych zero-jedynkowych, pomijając dowolną z kategorii, która swój efekt przenosi na wyraz stały równania regresji. pominiętą kategorię nazywamy kategorią referencyjną albo kategorią bazową. Równanie regresji z nowowprowadzonymi zmiennymi zerojedynkowymi ma postać: (5.0) y = α + δ Q + δ Q + δ Q + β x + ε t t 3 3t 4 4 t t t. Parametry δ przy zmiennych zero-jedynkowych interpretujemy jako różnice efektów sezonowych odpowiednich kwartałów w porównaniu z pominiętym -szym kwartałem, którego efekt oddaje parametr α. A więc efekt pierwszego kwartału włączony jest do stałej α, efekt drugiego kwartału w porównaniu z pierwszym jest o δ wyższy, trzeciego w porównaniu z pierwszym jest o δ 3 wyższy i czwartego w porównaniu z pierwszym jest wyższy o δ 4. 69

70 Przykład 5.4 Zobrazujmy przedstawione rozumowanie za pomocą przykładu empirycznego. Wykorzystamy dane kwartalne dla Polski za okres I kwartał 000 IV kwartał 005. i na ich podstawie oszacujmy związek między stopą bezrobocia wyrażoną w procentach a PKB w miliardach złotych. Sprawdzimy czy wzrost PKB przekłada się na spadek bezrobocia uwzględniając efekty sezonowe za pomocą zmiennych zero-jedynkowych. Za kategorie referencyjną przyjmujemy pierwszy kwartał. Opis zmiennych: stopa_bezrob stopa bezrobocia wyrażona w procentach; PKB PKB w miliardach złoty; Q, Q3, Q4 zmienne zero-jedynkowe zdefiniowane jak we wzorze (5.9). Zajmiemy się interpretacją współczynników przy zmiennych zero-jedynkowych odpowiadających za efekty sezonowe. Współczynnik przy zmiennej Q wynosi,34, co oznacza że średnio bezrobocie w drugim kwartale spada w porównaniu z pierwszym o,34 % (warto podkreślić, że zmienna ta nie jest istotna na poziomie 5%, bo p-value wynosi 0,). Współczynnik przy zmiennej Q3 wskazuje, że przeciętnie bezrobocie w trzecim kwartale roku jest mniejsze od tego w pierwszym o,73 %, natomiast współczynnik przy zmiennej Q4 informuje nas, że przeciętnie bezrobocie w czwartym kwartale roku jest mniejsze od tego w pierwszym o 3, %. W powyższym zadaniu musimy zwrócić uwagę na fakt, że parametr przy zmiennej PKB jest dodatni, co oznacza, że im wyższy poziom PKB, tym większe bezrobocie. Jest to wynik niezgodny z teorią ekonomii i praktycznie dyskwalifikuje oszacowany model. Korzystając z regresorów 0- możemy uzmiennić parametr nachylenia β : (5.) y = α + β x + γ Q x + γ Q x + γ Q x + ε t t t t 3 3t t 4 4 t t t 70

71 gdzie współczynniki przy zmiennej x w kolejnych kwartałach oznaczyliśmy przez γ. Zauważmy, że zdefiniowaliśmy tu nowe zmienne, które są iloczynami zmiennych zerojedynkowych Q przez zmienną x, a mianowicie: (5.) Q x t Q x 3t Q x 4t t t t = = = R S T R S T R S T x, jesli obserwacja pochodzi z giego kwartalu, t 0, jesli obserwacja pochodzi z innego kwartalu; x, jesli obserwacja pochodzi z 3 ciego kwartalu, t 0, jesli obserwacja pochodzi z innego kwartalu; x, jesli obserwacja pochodzi z 4 tego kwartalu, t 0, jesli obserwacja pochodzi z innego kwartalu, Q x = Q x = Q x = 0 jesli obserwacja pochodzi z pierwszego kwartalu. t t 3t 4t t Przykład 5.5 Wykorzystajmy omawiany wyżej przykład dla uzmiennienia parametru stojącego przy zmiennej PKB. Za poziom referencyjny, jak poprzednio, przyjmujemy pierwszy kwartał. Definiujemy następujące zmienne: PKB dla drugiego kwartalu PKB _ = 0 w pozostalych kwartalach PKB dla trzeciego kwartalu PKB _ 3 = 0 w pozostalych kwartalach PKB dla czwartego kwartalu PKB _ 4 = 0 w pozostalych kwartalach Wyniki estymacji: Zinterpretujmy parametry przy zmiennych PKB: wzrost PKB o mld w pierwszym kwartale przekłada się na wzrost bezrobocia o 0,075 %. Natomiast współczynnik przy zmiennej PKB_ oznacza, że wzrost PKB o mld w drugim kwartale wywoła zmniejszenie bezrobocia w tym kwartale o 0,007 % w porównaniu z pierwszym. Parametry przy zmiennych PKB_3 oraz PKB_4 mają analogiczną interpretację. 7

72 Jest to wynik ekonomicznie akceptowalny. Współczynniki regresji przy zmiennej PKB w wyróżnionych kwartałach mają teraz sensowne ujemne znaki, ukazując spadek bezrobocia na w kolejnych kwartałach na skutek wzrostu PKB. Niektóre cechy ilościowe możemy traktować jako cechy jakościowe i wykorzystać ideę zmiennych 0-. Liczby rzeczywiste, jakie mają cechy ilościowe możemy zastąpić przedziałami, dla których definiujemy zmienne 0-. W taki sposób możemy na przykład potraktować staż pracy jako cechę wyjaśniającą wielkość płacy miesięcznej. Przyjęcie stażu pracy jako cechy ilościowej, mierzonej latami pracy, prowadzi do szacowania współczynnika regresji, który w tym przypadku jest interpretowany jako krańcowy efekt wynagrodzenia, wywołany wzrostem stażu pracy o jeden rok. Wartość poznawcza takiego współczynnika jest ograniczona i to z przynajmniej dwóch powodów. Po pierwsze, roczne zmiany stażu mogą wywoływać bardzo nieznaczne zmiany płacy, utrudniając wnioskowanie. Po drugie, staż pracy na ogół wpływa nieliniowo na płacę. Wraz z pierwszymi latami stażu płaca może szybko wzrastać, zaś w dalszych latach może mieć dodatni, ale malejący, a nawet gasnący wpływ na wielkość płacy. W takiej sytuacji wygodniej jest wprowadzić zmienne zerojedynkowe dla sensownie określonych przedziałów lat stażu. 7

73 Przykład 5. 6 Zbadajmy związek między płacą (dane z przykładu 5.) a stażem pracy, wykształceniem (mierzone liczbą lat nauki) i płcią respondenta. Najpierw załóżmy, że zależność między dochodem a stażem jest liniowa. Poniżej wyniki estymacji. Współczynnik przy zmiennej staż oznacza, że wynagrodzenie wzrasta przeciętnie o 5,4 zł przy wzroście stażu o jeden rok przy pozostałych czynnikach niezmienionych. Zobaczmy jakie wyniki uzyskamy po rozkodowaniu zmiennej staż na zmienne zero-jedynkowe. Definiujemy następujące zmienne: gdy lata stazu ponad a ponizej 3 staz _ = 0 w innym przypadku gdy lata stazu powyżej 30 staz _ 3 = 0 w innym przypadku Przyjmujemy, że kategorią referencyjną jest staż pracy poniżej 3 lat. Wyniki estymacji: 73

74 Współczynnik przy zmiennej staz_ wskazuje, że osoby mające staż pracy w przedziale od 3 do 30 lat włącznie zarabiają przeciętnie o 38,45 zł więcej od osób o stażu pracy poniżej 3 lat. Osoby mające staż pracy przekraczający 30 lat zarabiają średnio o 57,34 zł więcej od osób o stażu pracy poniżej 3 lat. Do równania regresji możemy wprowadzić zmienne zero-jedynkowe dla dwóch lub większej liczby cech jakościowych w analogiczny sposób; pamiętając o pominięciu jednej z kategorii dla każdej cechy jakościowej. A więc możemy na przykład uzależnić płacę miesięczną od dwóch cech jakościowych: wykształcenia i miejsca zamieszkania (wieś miasto) itp. Powstaje komplikacja, gdy dwie zmienne jakościowe (lub większa ich liczba) nie wywierają wpływów niezależnych i dla oddania efektów ich interakcji należy wprowadzić oddzielną zmienną zero-jedynkową dla każdej krzyżowej kombinacji kategorii tych cech. Oznaczałoby to, że zakładamy, iż na przykład wykształcenie wyższe wywiera inny efekt płacowy, gdy osoba zamieszkuje na wsi od tego, gdy zamieszkuje w mieście. Dla oddania efektów interakcyjnych należy wprowadzić tyle zmiennych zero-jedynkowych ile wynosi iloczyn kategorii tych cech minus jeden Restrykcje i modele zagnieżdżone. Łączna istotność zmiennych zero-jedynkowych Testowanie łącznej istotności zmiennych zero-jedynkowych przebiega podobnie do testowania łącznej istotność równania regresji, omówionego w rozdziale poprzednim. Oszacujmy dwa równania regresji. Pierwsze uwzględniające zmienne zero-jedynkowe, jak w przykładzie (5.0) yt = α + δ Q t + δ 3Q3t + δ 4Q4 t + β xt + ε t, w którym obok zmiennej objaśniającej x znalazły się trzy regresory zero-jedynkowe jako zmienne sezonowe dla drugiego, trzeciego i czwartego kwartału. Równanie to nazwijmy równaniem regresji bez restrykcji o K regresorach, a sumę kwadratów reszt wyznaczoną z estymacji tego równania oznaczmy jak zwykle przez e e. Drugim równaniem jest równanie regresji pozbawione zmiennych zero-jedynkowych, a więc (5.6) yt = α + β xt + ε t. Równanie to nazwijmy równaniem regresji z restrykcjami, gdyż usunięto z niego trzy regresory sezonowe. Sumę kwadratów reszt dla tego równania oznaczmy przez e R e R. Subskrypt R przy resztach wskazuje na reszty równania z restrykcjami. Zauważmy, że równanie (5.0) staje się równaniem (5.6) jeśli narzucimy restrykcje δ = δ 3 = δ 4 = 0. Możemy również powiedzieć, że model bez restrykcji obejmuje model z restrykcjami, zaś o modelu z restrykcjami powiemy, że jest modelem zagnieżdżonym w modelu szerszym, tym bez restrykcji. Zauważmy ponadto, że suma kwadratów reszt równania z restrykcjami e R e R, jako równania gorzej dopasowanego do danych (gdyż nie uwzględniającego efektów sezonowych) jest większa od sumy kwadratów reszt e e równania bez restrykcji. Różnica e Re R e e określa zatem ubytek sumy kwadratów reszt z tytułu dołączenia regresorów sezonowych. Gdy różnica ta jest duża, to wnosimy, że uwzględnienie sezonowości istotnie poprawia oszacowanie równania bez restrykcji. L NM Stawiamy hipotezę łączną: H 0 : δ 3 δ δ O 0 L O QP = NM P Q 4 0 0P wobec hipotezy alternatywnej H : δ 3 Mδ L M N δ O 0 L O QP NM P Q 4 0 0P. 74

75 Statystyka testująca ma rozkład F -Fishera-Snedecora Duże wartości statystyki F, większe od wartości krytycznej wskazują na odrzucenie hipotezy zerowej. Wzór na statystykę Fishera-Snedecora ma postać: ( e Re R e e ) / ( m ) (5.3) Fbm, T Kg =, e e / ( T K) gdzie m jest liczbą kategorii cechy jakościowej, zaś K jest liczbą szacowanych parametrów w równaniu bez restrykcji. Z rozważań nad współczynnikiem determinacji R ESS RSS (Rozdział 3) wiemy, że R = = = e e. Zauważmy, że jeśli we wzorze TSS TSS TSS (5.3) licznik i mianownik podzielimy przez TSS to otrzymamy: ( e Re R e e ) / ( m ) ( R RR ) ( m ) (5.3`) F( m, T K) = =, co jest e e / ( T K) ( R ) / ( T K) wyrażeniem łatwiejszym dla praktycznych obliczeń. Przykład 5.7 Wykorzystamy dane z przykładu 5.4 do przetestowania łącznej istotności zero-jedynkowych zmiennych sezonowych. Wyniki estymacji dla równania regresji bez restrykcji: Wyniki estymacji dla równania regresji z restrykcjami: Przechodzimy do wyznaczenia statystyki testowej: ( R RR ) ( m ) (0, ,3804)/(4-) F = = = ( R ) /( T K ) ( 0,580694)/(4-5) Odczytujemy wartość krytyczną z tablic: F 0,95 (3,9)= 3,7. Ponieważ wartość statystyki testowej przewyższa wartość krytyczną, więc odrzucamy hipotezę zerową, która zakłada, iż parametry przy zero-jedynkowych zmiennych sezonowych wynoszą zero. 75

76 Przykład 5.7 Wróćmy do przykładu 5.5. Oszacujemy następujące równanie regresji: placa = B + B plec + B nauka + B staz _ + B staz _ 3 + ε. i i 3 i 4 i 5 i i Chcemy przetestować łączną istotność zmiennych zero-jedynkowych dotyczących stażu pracy. Hipoteza zerowa przyjmuje następującą postać: H0 : B4 = B5 = 0. Szacujemy regresję z restrykcjami (pomijamy zmienną staz_ i staz_3): ( R RR ) ( m ) (0,0585-0,099039))/(3-) F = = = 5,37746 ( R ) /( T K) ( 0,0585)/(089-5) Odczytujemy wartość krytyczną z tablic: F krytyczne (,084)= 3, Ponieważ wartość statystyki testowej przewyższa wartość krytyczną, więc odrzucamy hipotezę zerową, która zakłada, iż parametry przy zero-jedynkowych zmiennych dotyczących stażu pracy wynoszą zero. 5.4 Jakościowa zmienna objaśniana W analizach ekonometrycznych stosowane są również modele z jakościową zmienną objaśnianą. Z sytuacjami takimi mamy do czynienia, gdy chcemy oszacować modele określające na przykład uwarunkowania aktywności zawodowej kobiet (kobieta pracuje, lub nie pracuje), 76

77 posiadanie domu przez gospodarstwo domowe (rodzina posiada lub nie posiada domu) i tp. Z rozważań teoretycznych i praktycznego doświadczenia wiadomo jednak, że metoda najmniejszych kwadratów w takich przypadkach nie zapewnia uzyskania estymatorów najbardziej efektywnych i dlatego klasyczny model regresji liniowej nie powinien być stosowany. Metodami zalecanymi w takich przypadkach są dwie metody: metoda probitowa i metoda logitowa. Będzie o nich mowa w rozdziale Wybór regresorów. Skutki pominięcia w równaniu regresji istotnych zmiennych objaśniających; skutki dodania do równania regresji zmiennych nieistotnych Rozpatrzymy skutki dwóch sytuacji: pierwszej, gdy w równaniu regresji pomijamy istotne zmienne objaśniające i drugiej, gdy do równania regresji dodajemy zmienne nieistotne. Przejdźmy do sytuacji pierwszej. Konstruując równanie regresji powinniśmy do niego włączyć wszystkie zmienne objaśniające, które z punktu widzenia teorii ekonomii mogą wyjaśniać zachowanie się zmiennej objaśnianej, a następnie z duża uwagą eliminować te z nich, które okażą się nieistotne, a teoria sugeruje, że mają one drugorzędne znaczenie. Pojawia się sensowna pokusa postępowania odwrotnego. Rozpoczynania od regresji z małą liczbą regresorów i po jego oszacowaniu sprawdzania, czy dodanie dalszych zmiennych objaśniających polepsza oszacowane równanie. Ten drugi rodzaj postępowania powinniśmy jednak zdecydowanie odrzucić, jako niebezpieczny dla procedury estymacyjnej, która może prowadzić do zdecydowanie błędnego modelu końcowego. Rozpatrzmy dwa modele: (5.4) y = Xβ + ε, ε ~ N ( 0, σ I) ; (5.5) y = Xβ + Zγ + u, u ~ N ( 0, σ I). W modelu drugim (5.5) dodaliśmy dalszy zbiór zmiennych objaśniających, dla których macierz obserwacji na J dodatkowych regresorach oznaczyliśmy przez Z o wektorze współczynników regresji γ. Dla odróżnienia od równania pierwszego wektor zaburzeń losowych w tym równaniu oznaczyliśmy przez u. Jeśli γ = 0, to drugi model (szerszy) bez restrykcji jest równoważny pierwszemu (węższemu) z restrykcjami. Postawmy pytanie: Co się stanie, jeśli poprawny jest model drugi, a więc szerszy, a oszacujemy model pierwszy, węższy? Estymator b dla węższego równania jest 77

78 równy b = ( X X) X y. Poprawnym modelem jest jak założyliśmy model szerszy, a więc za y podstawiamy prawą stronę równania drugiego, skąd otrzymamy: (5.6) b = ( X X) X y = ( X X) X ( Xβ + Zγ + u). = β + ( X X) X Zγ + ( X X) X u Biorąc jego wartość oczekiwaną dostaniemy: (5.7) E( b) = β + ( X X) X Zγ + ( X X) X E( u) = β + ( X X) X Zγ gdyż u ma wartość oczekiwaną równą zero. Z rozważań tych wynika, że estymator b jest obciążony i obciążenie to wynosi ( X X) X Zγ ; z wyjątkiem dwóch sytuacji, gdy γ = 0, a więc gdy wszystkie zmienne w zbiorze Z są nieistotne (i ich dodanie okazało się niepotrzebne), lub gdy X Z = 0, co oznacza, że X i Z są nieskorelowane, a więc są zbiorami niezależnych zmiennych objaśniających. Jeśli pominiemy te dwie wyjątkowe i mało prawdopodobne sytuacje to możemy stwierdzić, że: pominięcie w równaniu regresji istotnych zmiennych objaśniających powoduje, że estymatory MNK dla istniejących zmiennych są obciążone. Jest to groźne w swych skutkach niebezpieczeństwo, wskazujące, że do równania powinniśmy wstawiać wszystkie zmienne sugerowane przez teorię ekonomii. Nie powinniśmy ich usuwać z równania regresji nawet, gdyby były nieistotne. Świadczy to bowiem jedynie o tym, że zbiór danych statystycznych użytych dla oszacowania modelu nie potwierdza przywoływanej teorii ekonomii, nie zaś o tym, że zmienne te są w równaniu niepotrzebne. Przykład 5.8 Model płac Szacujemy liniowe równanie regresji płac w zależności od wieku, poziomu wykształcenia płci i stanu cywilnego oraz wielkości miejscowości, w której mieszka respondent. Można przyjąć, że jest to zbiór najważniejszych zmiennych określających wielkość płac. Obliczenia oprzemy na danych, dotyczących ludności zamieszkałej w Województwie Mazowieckim. Pochodzą one z bazy BAEL (Badanie Aktywności Ekonomicznej Ludności GUS z roku 000) ze strony internetowej: Próba zawiera 089 obserwowanych pracujących osób. 78

79 Zdefiniujmy zmienne. W praktycznych zastosowaniach w miejsce symboli x i zmiennym nadajemy czytelne dla użytkownika nazwy. Zmienną objaśnianą w równaniu regresji jest zmienna, którą oznaczymy jako - stopaplac i i przyjmujemy, że jest to logarytm naturalny płacy miesięcznej i tej osoby. Powód dla którego zamiast płacy bierzemy logarytm naturalny płacy wynika, jak to już zauważyliśmy, z faktu że logarytm naturalny zmiennej jest w przybliżeniu równy stopie płac, zwanej przyrostem względnym. Zmiennymi objaśniającymi są: plec i - płeć i-tej osoby. wiek i wiek i-tej osoby mierzony w latach. wiek i - wiek do kwadratu i-tej osoby mierzony w latach. srednie i = jeśli i ta osoba ma wykształcenie średnie oraz srednie i = 0 jeśli i ta osoba ma wykształcenie inne niż średnie; wyzsze i = jeśli i ta osoba ma wykształcenie wyższe oraz wyzsze i = 0 jeśli i ta osoba ma wykształcenie inne niż wyższe; srednie i = 0 oraz wyzsze i = 0 jeśli i ta osoba ma wykształcenie podstawowe. Ten sam sposób rozumowania zastosujmy dla ustalenia wpływu wielkości miejscowości, zamieszkiwanej przez badaną osobę. Wprowadźmy następującą klasyfikację wielkości miejscowości: wieś, małe miasto do 0 tyś. mieszkańców, średnie miasto od 0 tyś. do 00 tyś. mieszkańców i duże miasto powyżej 00 tyś. mieszkańców. Dla ustalenia wpływu tych czterech kategorii miejscowości możemy zastosować trzy regresory 0-: malemiasto = jeśli i-ta osoba mieszka w mieście do 0 tyś. mieszkańców oraz małemiasto = 0 jeśli i-ta osoba mieszka w miejscowości o innej liczbie mieszkańców; sredniemiasto = jeśli i-ta osoba mieszka w mieście od 0 tyś. do 00 tyś. mieszkańców, sredniemiasto = 0 jeśli i-ta osoba mieszka w miejscowości o innej liczbie mieszkańców; duzemiasto = jeśli i-ta osoba mieszka w mieście powyżej 00 tyś. mieszkańców, duzemiasto = 0 jeśli i-ta osoba mieszka w miejscowości o innej liczbie mieszkańców: małemiasto = 0 oraz sredniemiasto = 0 oraz duzemiasto = 0 jeśli i-ta osoba mieszka na wsi. Ostatnia zmienna, którą umieścimy wśród regresorów, to stan_cywilny wartość, jeśli kawaler lub panna oraz 0 w innych przypadkach. Oszacujmy powyższy model. Otrzymujemy następujący wydruk wyników. 79

80 Wszystkie zmienne objaśniające w powyższym modelu są statystycznie istotne. Stopień wyjaśnienia zmienności zmiennej objaśnianej nie jest jednak wysoki. Współczynnik determinacji wynosi bowiem 0,4. Biorąc pod uwagę fakt, że model jest szacowany na danych przekrojowych wartość tego współczynnika można przyjąć za zadowalającą. Sprawdźmy jaki wpływ na wyniki oszacowań ma pominięcie istotnych zmiennych objaśniających usuniemy z modelu zmienne dotyczące wykształcenia. Poniżej wyniki oszacowania równania regresji: Usunięcie z modelu zmiennych dotyczących wykształcenia (zmienne zero-jedynkowe oznaczające posiadanie wykształcenia średniego i wyższego) spowodowało, iż uzyskaliśmy inne wartości oszacowanych parametrów. Największe różnice można zaobserwować w przypadku ocen przy zmiennych dotyczących miejsca zamieszkania. Ponieważ wiemy, iż 80

81 wykształcenie ma istotny wpływ na płace, więc uzyskane oceny dla modelu z restrykcjami z teoretycznego punktu widzenia należy traktować jako obciążone. Oceny przy zmiennych w modelu bez restrykcji w modelu z restrykcjami malemiasto 0,4 0,8 średniemiasto 0,5 0,3 duzemiasto 0,35 0,45 Dodatnie obciążenie wynika z faktu, iż wykształcenie jest dodatnio skorelowane z miejscem zamieszkania największy odsetek osób z wyższym wykształceniem jest w dużych miastach. Rozpatrzmy drugą sytuację, gdy do równania regresji wstawiamy regresory nieistotne. Korzystając z zapisu dwóch równań regresji (5.4) i (5.5) oznacza to, że równanie drugie niepotrzebnie rozszerzyliśmy o nieistotny zbiór regresorów Z, dla których możemy przyjąć hipotezę zerową, że wektor współczynników γ przy tych zmiennych jest zero: γ = 0. Bez wchodzenia w bardziej szczegółową analizę, możemy stwierdzić, że nie jest to sytuacja niebezpieczna. Z przypadkami nieistotności zmiennych objaśniających spotykamy się często w praktyce ekonometrycznej, gdzie za pomocą testu t Studenta weryfikujemy hipotezy o istotności zmiennych. Estymatory są wtedy nieobciążone, a jedną ich ujemną własnością są nieco większe błędy standardowe, co powoduje, że są one mniej efektywne od tych dla równania pomijającego zmienne nieistotne. Większa liczba regresorów, nawet nieistotnych, podwyższa jak wiemy, współczynnik determinacji R, sugerując polepszenie dopasowania. Należy więc stosować, przy małej liczbie stopni swobody, skorygowany współczynnik determinacji R Testowanie łącznej istotności podzbioru regresorów Testowanie łącznej istotności podzbioru regresorów, którymi na przykład są pominięte zmienne przebiega analogicznie do sprawdzania istotności zmiennych zero-jedynkowych, omówionych wyżej. Przyjmijmy mianowicie, że oszacowaliśmy dwa równania regresji. Pierwsze bez restrykcji, a więc zawierające wszystkie zmienne objaśniające, dla którego współczynnik determinacji oznaczamy jak zwykle przez R. Oraz drugie równanie, z restrykcjami, pozbawione J zmiennych, względem których stawiamy hipotezę, że są one łącznie nieistotne. Założenie to oznacza, że J parametrów przy pominiętych regresorach jest łącznie równych zero. Dla tak postawionej hipotezy zerowej statystyka testująca ma rozkład F Fishera-Snedecora postaci: (5.8) ( e ReR e e) J ( R RR ) / J F( J, n K) = = e e ( n K) ( R ) /( n K) Jeśli wartość tej statystyki jest większa od wartości krytycznej wziętej z tablic dla liczby stopni swobody J oraz n - K, to odrzucamy hipotezę o łącznej nieistotności J zmiennych objaśniających. Przykład 5.9 Wróćmy do przykładu 5.7. Oszacujemy następujące równanie regresji: dochod = B + B plec + B nauka + B staz _ + B staz _ 3 + ε. i i 3 i 4 i 5 i i 8

82 Chcemy przetestować łączną istotność dwóch zmiennych:zmiennej plec oraz zmiennej nauka. Hipoteza zerowa przyjmuje następującą postać: H0 : B = B3 = 0. Szacujemy regresję z restrykcjami (pomijamy zmienne nauka i plec): Wyznaczamy wartość statystyki testowej ( R RR ) J (0,0585-0, )/ F = = = 58,76093 ( R ) /( T K) ( 0,0585)/(089-5) Odczytujemy wartość krytyczną z tablic: F(,084)= 3, Ponieważ wartość statystyki testowej przewyższa wartość krytyczną, więc odrzucamy hipotezę zerową, która zakłada, iż zmienne plec i nauka są łącznie nieistotne Testowanie hipotez złożonych Niekiedy hipotezy mają bardziej złożoną postać; mogą być ograniczeniami narzuconymi na parametry modelu są to tak zwane warunki poboczne. Mówimy wówczas, że teoria ma testowalne implikacje. Przyjmijmy dla przykładu, że rozważamy model inwestycji, który może mieć postać: (5.9) ln It = β + β it + β 3 pt + β 4 lnyt + β 5t + ε t W powyższym modelu przyjmujemy, że inwestorzy reagują na nominalną stopę procentową i t, stopę inflacji p t logarytm realnej produkcji lny t i inne czynniki wywołujące stały trend wzrostowy t. Możemy przetestować hipotezę, że inwestorzy nie reagują na realną stopę procentową H 0 :β + β 3 = 0. Równanie regresji przy tej hipotezie ma postać (5.0) ln It = β + β ( it pt ) + β 4 lnyt + β 5t + ε t, Rozpatrzmy inny przykład: funkcji produkcji Cobb- Douglasa, zapisanej jako model regresji liniowej względem logarytmów. 8

83 3 K i y = x x x e gdzie : y x x i β β β β ε i 3i Ki 3 produkcja, naklad pracy, naklad kapitalu, x naklad K tego czynnika K e podstawa log arytmow natura ln ych. Założenie stałych efektów skali oznacza, że suma wszystkich parametrów nachyleń przy nakładach jest jednocześnie równa jedności. Wówczas hipoteza zerowa ma postać H 0 : β + β 3+ + β K =. Uogólniając te rozważania, jeśli mamy J liniowych ograniczeń narzuconych na K parametrów, to możemy zapisać układ równań ograniczających parametry jako: (5.) H0: Rβ = q, gdzie R jest macierzą znanych elementów o wymiarach J na K. Macierz ta ma rząd wierszowy, wynoszący J < K,, co oznacza, że narzucane ograniczenia nie są sprzeczne i żadne z nich nie jest zbędne. O wektorze q zakładamy, że jego elementy są znane. W praktycznych zastosowaniach w macierzy R mamy niewiele wierszy i dużo elementów zerowych. Rozpatrzmy przykłady: β Przykład. Jeśli w równaniu regresji mamy na przykład 6 regresorów β = hipotezę zerową, jak w przekładzie funkcji produkcji Cobb- Douglasa, to R = [ 0] ; q = Przykład. Jeden ze współczynników jest zero: np. β 4 = 0, to R = [ ] ; ; q = 0 L M NM β β 3 [ 0 ] MβP β = β + β 3 + β 4 + β 5 + β 6 = β β O P QP L NM β β 3 β β β O QP i stawiamy 83

84 84 Przykład 3. Podzbiór współczynników równa się wektorowi zerowemu: β β β = = =,,, to R q = L N M M M O Q P P P = L N M M M O Q P P P ;, L N M M M O Q P P P L N M M M M M M M O Q P P P P P P P = L N M M M O Q P P P = L N M M M O Q P P P β β β β β β β β β Przykład 4. Dwa współczynniki są sobie równe: np. β β 3 5 =, to R = [ ] ; q = 0. [ ] L N M M M M M M M O Q P P P P P P P = = β β β β β β β β Przykład 5. Kilka ograniczeń zachodzi równocześnie: β β β β β β = + = + =,,, to [ ] L N M M M M M M M O Q P P P P P P P = β β β β β β β

85 L NM O P Q P L NM β β β 3 β β β O QP = L NM β + β 3 β + β 4 6 β + β 5 6 O QP = L O 0 NM 0QP. Hipotezy łączne możemy testować na dwa sposoby.. Pierwszy sposób polega na bezpośrednim wbudowaniu narzuconych restrykcji na szacowane parametry w równaniu regresji. Jeśli na przykład na parametry równania regresji yt = β + β x t + β x t + ε t którego reszty po oszacowaniu oznaczymy przez e e narzucimy restrykcję β więc 3 3, R = 0 ; β = β ; q = L NM β O QP β 3 to wstawiając tę restrykcję bezpośrednio do równania otrzymamy: y = β + β x + β x + ε t t 3 3t t = β + β x + ( β ) x + ε t 3t t = β + β ( x x ) + x + ε. t 3t 3t t y x = β + β ( x x ) + ε t 3t t 3t t + β =, a 3 Powyższe równanie nazwijmy równaniem z restrykcjami, a jego sumę kwadratów oznaczmy jak zwykle przez e R e R. Statystyką testującą hipotezę H 0 :β + β 3 = jest statystyka F. ( e ReR e e ) / (5.) F[, T K] =. ( e e ) /( T K) Jeśli mielibyśmy nie jeden a J warunków ograniczających, to wbudowując te warunki bezpośrednio do równania regresji i postępując analogicznie mielibyśmy statystykę testującą postaci: ( e ReR e e ) / J (5.) F[ J, T K] = ( e e ) /( T K). Drugi sposób polega na estymacji wyjściowego równania regresji i sprawdzeniu, czy estymator b wyznaczony MNK spełnia narzucone restrykcje H0: Rβ = q. Rozumowanie przebiega następująco: oznaczmy przez d = Rβ q wektor rozbieżności powstający w wyniku niespełnienia narzuconych restrykcji. Jeśli test oprzemy na estymatorze MNK, to d wyznacza różnicę między estymatorem bezwarunkowym b a estymatorem warunkowym, (spełniającym warunek Rb = q ). Ponieważ b ma rozkład normalny i d jest liniową funkcją b, to d ma również rozkład normalny. Jeśli H 0 jest prawdziwa, to d ma wektor średnich zero i wariancję (5.3) Var( d) = Var( Rβ q) = RVar( b) R = σ R( X X ) R. 85

86 Przypomnijmy, że jeśli xn ~ N ( µ, Σ), gdzie Σ nieosobliwa, to (5.4) ( x µ ) Σ ( x µ ) ~ χ n. Korzystając z tego wyrażenia możemy napisać: (5.5) w = χ J = d [ Var( d)] d. W testach dużej próby, które omówimy w dalszych rozważaniach, jest to tak zwany test Walda. Jeśli hipoteza H 0 jest poprawna, to w ma rozkład χ o J stopniach swobody. Intuicyjnie możemy powiedzieć, że im większe jest d to większy jest błąd estymatorów MNK w spełnieniu ograniczeń i większe jest χ J. Duże wartości tej statystyki świadczą przeciw hipotezie zerowej. Jeśli za d i za wariancję d podstawimy odpowiednie wyrażenia i nieznaną σ zastąpimy jej oceną z próby σ to możemy skonstruować obliczeniową statystykę testującą F postaci: ( Rb q) [ R( X X) R ] ( Rb q) / J ( Rb q) [ σ R( X X) R ] ( Rb q) (5.5) F = =. ( e e ) / ( T K) J Przykład 5.0 Wróćmy do przykładu 5.8. Model bez restrykcji zdefiniujmy w następujący sposób: stopaplac = β + β wiek + β wiek + β plec + β srednie + β wyzsze i i 3 i 4 i 5 i 6 i + β malemiasto + β sredniemiasto + β duzemiasto + β stcyw + ε 7 i 8 i 9 i 0 i i Załóżmy, iż chcemy przetestować następującą hipotezę złożoną: mężczyźni i kobiety zarabiają tyle samo ( B 4 = 0), oraz osoby z wykształceniem średnim i wyższym zarabiają tyle samo ( B5 = B6 ), oraz zarobki osób zamieszkałych w dużym mieście są większe o 0% w porównaniu z mieszkańcami wsi ( B 9 = 0,). Powyższe ograniczenia możemy zapisać w następujący sposób: B H0 : = B , B 0 lub po wymnożeniu: B4 = 0 H0 : B5 B6 = 0 B9 = 0, Wprowadzamy powyższe ograniczenia do modelu wyjściowego: stopaplac = B + B wiek + B wiek + B srednie + B wyzsze + B malemiasto + i i 3 i 5 i 5 i 7 i B sredniemiasto + 0, * duzemiasto + B stan _ cyw + ε = 8 i i 0 i i B + B wiek + B wiek + B ( srednie + wyzsze ) + B malemiasto + B sredniemiasto + i 3 i 5 i i 7 i 8 i duzemiastoi + B0 stan _ cywi + εi 0, Po przeniesieniu wyrażenia 0, duzemiasto na lewą stronę otrzymujemy stopaplac 0, duzemiasto = B + B wiek + B wiek + B ( srednie + wyzsze ) + B malemiasto + i i i 3 i 5 i i 7 i B8sredniemiasto i + B0 stan _ cywi + εi Definiujemy następujące zmienne: 86

87 y = stopaplac 0, duzemiasto i i i xi = srednii + wyzszei przy ich użyciu możemy zapisać ostateczną postać modelu: yi = B + Bwiek i + Bwiek 3 i + B5 xi + Bmalemiasto 7 i + Bsredniemiasto 8 i + B0 stan _ cyw i + εi Oszacowania modelu : model bez ograniczeń: Model z ograniczeniami: Wprowadzamy następujące oznaczenia: J = 3 (liczba ograniczeń) N = 089 (liczba obserwacji) K = 0 (ilość szacowanych parametrów w modelu bez ograniczeń) Wyznaczamy statystykę testową: ( e ReR e e ) / J (349,5-8,64)/3 F = = = 85, ( e e ) /( T K) 8,64/(089 0) Następnie odczytujemy wartość krytyczną z tablic: F(3,079)=,635. Ponieważ wartość statystyki testowej przewyższa wartość krytyczną, więc odrzucamy hipotezę zerową. Podsumowanie. β k mierzy oczekiwaną zmianę y i jako efekt zmiany x ki o jedną jednostkę, gdy wartości pozostałych zmiennych objaśniających są niezmienione. Warunek ten zwany jest warunkiem ceteris paribus.. Liniowy model regresji jest modelem liniowym względem parametrów, a nie względem zmiennych objaśniających. 87

88 3. Dla oddania efektów nieliniowych wprowadza się zmienną i zmienną do kwadratu, jak w przykładzie wiek i wiek do kwadratu. Wówczas dla spełnienia warunku ceteris paribus efekt takiej zmiennej jest mierzony za pomocą parametru przy zmiennej wiek + dwukrotny iloczyn zmiennej wiek przez parametr przy zmiennej wiek do kwadratu. gdyż: E( yi xi ) = β 4 + wiekiβ 5 wiek i b g 4. W modelu podwójnie logarytmicznym parametry przy zmiennych są elastycznościami, a więc określają o ile procent zmieni się zmienna objaśniana, jeśli zmienna objaśniająca zmieni się o jeden procent, gdy wartości pozostałych zmiennych objaśniających modelu pozostają niezmienione. 5. Zmienne zero-jedynkowe przyjmują jedynie wartości 0 lub. Są stosowane dla oddania efektów zmiennych jakościowych. 6. Gdy zmienna jakościowa ma m kategorii, to do równania wprowadza się m- regresorów zero-jedynkowych, pomijając dowolną kategorię zwaną kategorią referencyjną albo kategorią bazową.. 7. Niektóre wygodnie jest cechy ilościowe podzielić na przedziały i traktować jako cechy jakościowe,. wykorzystując ideę zmiennych Dla oddania efektów interakcyjnych iloczynu dwóch lub większej liczby zmiennych jakościowych wprowadza się tyle zmiennych zero-jedynkowych ile wynosi iloczyn kategorii tych cech minus jeden. 9. W przypadkach jakościowej zmiennej objaśnianej stosowane są modele ligitowe lub probitowe, omówione w rozdziale 0 0. Testowanie łącznej istotności zmiennych zero-jedynkowych przebiega analogicznie do testowania łącznej istotność równania regresji. Wymaga oszacowania dwóch równań regresji. Pierwszego bez restrykcji i drugiego z restrykcjami (usunięte zmienne zero- ( e Re R e e ) / ( m ) jedynkowe) i wyznaczenia testu F postaci: F m, T K = e e / ( T K) gdzie m jest liczbą kategorii cechy jakościowej, zaś K jest liczbą szacowanych parametrów w równaniu bez restrykcji.. Pominięcie w równaniu regresji istotnych zmiennych objaśniających powoduje, że estymatory MNK dla istniejących zmiennych są obciążone. 88

89 . Dodanie do równania regresji nieistotnych zmiennych objaśniających powoduje, że estymatory równania rozszerzonego są nieobciążone i jedną ujemną cechą są nieco większe błędy standardowe, co powoduje mniejszą efektywność rozszerzonego równania. 3. Testowanie łącznej istotności podzbioru regresorów, którymi na przykład są pominięte zmienne przebiega analogicznie do sprawdzania istotności zmiennych zerojedynkowych. 4. Przy testowaniu hipotez złożonych wykorzystywany jest test Walda, omówiony na stronach

90 6. PROBLEMY DANYCH STATYSTYCZNYCH Dotychczas przyjmowaliśmy, że dane statystyczne służące do estymacji modelu nie budzą naszego niepokoju, że są poprawne ze względu na wymogi modelowania. Bieżący rozdział ukazuje jednak duże zagrożenia dla budowy modeli, wynikające z niedostatków danych statystycznych. 6.4 Współliniowość i jej konsekwencje. Wykrywanie współliniowości i środki zaradcze Współliniowość oznacza dokładną lub bardzo wysoką korelację między regresorami. Dokładna korelacja jest błędem ekonometryka, który do zbioru zmiennych objaśniających wprowadził regresor lub regresory, będące kombinacją liniową innych regresorów. Jeśli na przykład dla wyjaśnienia mechanizmu zakupu dóbr trwałych w gospodarstwie domowym, zgodnie z hipotezą dochodów permanentnych Miltona Friedmana, za regresory wstawimy trzy wielkości:. dochody,. dochody permanentne (dochody trwale uzyskiwane) i 3. dochody tranzytywne (przechodnie, okazjonalne), to z definicji suma dochodów permanentnych i tranzytywnych jest równa kategorii dochodów, co spowoduje, że kolumny obserwacji na trzech kategoriach dochodów są dokładnie liniowo zależne. Typowym jednak przypadkiem współliniowości jest wysoka korelacja między regresorami, co utrudnia, a niekiedy uniemożliwia wydzielenie indywidualnego wpływu każdej ze zmiennych objaśniających na zmienną objaśnianą. W sytuacji współliniowości poszczególna zmienna wywiera swój własny wpływ na zmienną objaśnianą, jak również przenosi wpływ wszystkich innych zmiennych z nią skorelowanych. Na przykład przy szacowaniu płacy jako funkcji wykształcenia, płci, wieku, stażu pracy możemy oczekiwać, że wiek badanej osoby i jej staż pracy wykażą silną dodatnią korelację. Współliniowość nie jest więc cechą populacji, a cechą próby, w której zmienne są zbyt silnie ze sobą powiązane liniowo. Współliniowość wywiera negatywny wpływ na oszacowanie modelu i dlatego jest zjawiskiem niebezpiecznym. Gdy pojawia się współliniowość to estymatory są nadal BLUE, ale mają zbyt duże błędy standardowe, co zmniejsza precyzję oszacowania. 90

91 Symptomy współliniowości Występowaniu współliniowości towarzyszą następujące objawy:. Współczynniki mają bardzo duże błędy standardowe i w związku z tym znaczna liczba regresorów jest nieistotna, nawet wtedy, gdy łącznie są one istotne, a R jest wysokie.. Współczynniki regresji mogą mieć niewłaściwe znaki i niedopuszczalną wielkość. 3. Małe zmiany w zbiorze danych statystycznych (na przykład dodanie jednej lub kilku nowych obserwacji) mogą prowadzić do znacznych zmian oszacowań współczynników regresji przy niektórych zmiennych. Analogiczne zjawiska obserwujemy, gdy w próbie jest mała liczba obserwacji i mała zmienność zmiennych objaśniających. Wykrywanie współliniowości Zaobserwowanie objawów występowania współliniowości skłania do sprawdzenia, czy rzeczywiście mamy do czynienia ze współliniowością. Wykrywanie współliniowości odbywa się za pomocą wyznaczania K regresji pomocniczych, w których kolejno zmienną objaśnianą jest jedna z dotychczasowych zmiennych objaśniających na przykład - x k, zaś zmiennymi objaśniającymi są pozostałe regresory wyjściowego równania regresji. Współczynnik determinacji z regresji pomocniczej dla k tej zmiennej objaśniającej, pełniącej w równaniu pomocniczym rolę zmiennej objaśnianej oznaczmy przez R k.wówczas statystyką testującą jest (6.) F n ( K ). K ( n ( K ) Rk / ( K ) = ( R ) / ( n ( K )) k o liczbie stopni swobody K i Jest to znana już nam postać statystyki testującej łączną istotność równania regresji. Duże wartości tej statystyki, większe od wartości krytycznej, wskazują na silne skorelowanie k tej zmiennej objaśniającej z pozostałymi regresorami. Zamiast przeprowadzać kłopotliwe testowanie statystyki F, dla każdego k, gdzie k =, 3,, K ; (gdyż pomijamy stałą), proponuje się regułę kciuka, sprowadzającą się do porównania R k z k tej regresji pomocniczej z R dla równania wyjściowego. 9

92 Jeśli R > R, uznajemy, że k ta zmienna jest zbyt silnie skorelowana z pozostałymi k regresorami i może się stać kandydatką do usunięcia z wyjściowego równania regresji. Innym proponowanym wskaźnikiem współliniowości jest statystyka zwana czynnikiem powiększenia wariancji (Variance Inflation Factor), oznaczana skrótem VIF k, która mierzy przyrost wariancji b k (a więc i błędu standardowego), wywołany skorelowaniem k zdefiniowany jest następująco: (6.) VIF Jeśli VIF k > 0, to k tej zmiennej objaśniającej z pozostałymi regresorami. Czynnik ten k = R. k ta zmienną należy traktować jako ważny czynnik sprawczy współliniowości. Wygodną statystyką jest łączna statystyka współliniowości VIF k k = (6.3) K. K Jeśli wielkość ta znacznie przekracza, to wskazuje to na wysoką współliniowość i konieczność jej usuwania. Środki zaradcze W literaturze proponuje się szereg działań, mających na celu usunięcie lub jedynie złagodzenie negatywnych skutków współliniowości. Wszystkie z nich są jednak mało doskonałe. Opuszczenie zmiennej, zgodnie z VIF k lub regułą kciuka sprowadza się w zasadzie do wymuszania, aby teoria ekonomii dopasowała się do złych danych. Wiemy, że usunięcie ważnej z punktu widzenia teorii zmiennej prowadzi do obciążenia pozostałych estymatorów. Ten środek zaradczy może być niekiedy gorszy od samej choroby. Proponuje się również szacowanie modelu na pierwszych różnicach wyjściowych zmiennych, wychodząc z założenia, że będą one słabiej skorelowane między sobą niż pierwotne zmienne. Inną propozycją jest wprowadzenie w charakterze dodatkowych regresorów, oprócz zmiennych pierwotnych, również kwadratów zmiennych pierwotnych, oczekując, że zmniejszy to negatywny efekt współliniowości. Oprócz proponowanych w literaturze również innych działań (jak np. zastosowanie regresji grzbietowej), najlepszym środkiem, (o ile jest to możliwe) jest rozszerzenie zbioru pierwotnych obserwacji o obserwacje dodatkowe, które złagodzą niepożądane skutki współliniowości. 9

93 Podkreślmy jeszcze raz, że współliniowość nie jest cechą populacji, a wyraźną niedomogą zbyt ubogiej zmienności zmiennych objaśniających i ich znacznego skorelowania w próbie. Przykład 6..: Badamy zależność między zgonami niemowląt zmienna Niemowl (na 000 urodzeń żywych) a PKB - zmienna PKB (na mieszkańca ), stopą bezrobocia zmienna Bezrob i udziałem żywności w spożyciu indywidualnym w sektorze gospodarstw domowych w krajach Unii Europejskiej w 004 roku * * Dane z publikacji GUS: Polska w Unii Europejskiej 006. Tablica 6.. Tablica 6.. Zgony niemowląt (na 000 urodzeń żywych), PKB (na mieszkańca w PPP w euro), stopa bezrobocia i udział żywności w spożyciu indywidualnym w sektorze gospodarstw domowych w krajach Unii Europejskiej w 004 roku. Kraj Niemowl PKB Bezrob Spo Austria 9, , 0,6 Belgia 9, ,4 3,6 Cypr ,3 6,4 Dania 0, ,8,4 Estonia 3, ,9 0,5 Finlandia 9, 600 8,4,5 Francja 8, ,5 4, Grecja 9, ,8 5 Hiszpania 8, , 6 Irlandia 6, ,3 9,3 Litwa 00 8,3 9,7 Luksemburg 7, ,5 9,7 Łotwa 3, ,9, Malta 7, 600 7,3 7,3 Niderlandy 8, ,7 Niemcy 9, ,5,7 Polska 9, ,7 9, Portugalia 9, ,6 7 Rep. Czeska 0, ,9 7, Słowacja 9, ,3 9,7 Słowenia 9, ,5 5,8 Szwecja 0, ,8,3 Węgry 3, , 7,7 W. Brytania 9, ,7 8,9 Włochy 9, ,7 4,5 Oszacowanie modelu za pomocą MNK przedstawia poniższy wydruk. 93

94 Model : Estymacja KMNK z wykorzystaniem 5 obserwacji -5 Zmienna zależna: Niemowl Zmienna Współczynnik Błąd stand. Statystyka t wartość p const 8,6847,7757 3,634 0, *** PKB -4,9039e-05 5,0776e-05-0,804 0,405 Bezrob -0, ,64-0,7367 0,46943 Spo 0, ,06,706 0,07 Srednia arytmetyczna zmiennej zależnej = 9,68 Odchylenie standardowe zmiennej zależnej =,79374 Suma kwadratów reszt = 50,7446 Błąd standardowy reszt =,55448 Wsp. determinacji R = 0,34856 Skorygowany R = 0,48978 Statystyka F (3, ) = 3,656 (wartość p = 0,09) Logarytm wiarygodności = -44,36 Kryterium informacyjne Akaika = 96,645 Kryterium bayesowskie Schwarza = 0,5 Wnosimy, że żadna ze zmiennych objaśniających nie jest istotna, chociaż zwroty przy współczynnikach są zgodne z oczekiwaniami, zaś współczynnik determinacji R = 0,34856 należy uznać, jak dla próby przekrojowej, za dostatecznie wysoki. Można podejrzewać występowanie współliniowości. Policzmy współczynniki determinacji w równaniach pomocniczych oraz czynniki powiększenia wariancji VIF k dla każdej zmiennej objaśniającej zgodnie ze wzorem (6.). Otrzymamy: Rownanie wyjsciowe: R = 0, R R R PKB Bezr Spo = 0, VIF = 3, 385 PKB = 0, 8709 VIF =, 4058 Bezr = 0, 5700 VIF =, Spo Z powyższego wynika, że zarówno równania pomocnicze dla PKB, jak i dla Spożycia mają współczynniki determinacji wyższe od tego dla równania wyjściowego i zgodnie z Regułą kciuka te obydwie zmienne mogłyby być usunięte. Jeśli policzymy dodatkowo łączną statystykę współliniowości zgodnie ze wzorem (6.3) to otrzymamy: 4 k= VIF K k 3, 385 +, , = =, Jest to liczba dużo większa od, co wskazuje na współliniowość. 94

95 Sens ekonomiczno-społeczny szacowanego równania wyjściowego wskazuje jednak, że PKB jako ogólny wskaźnik rozwoju ekonomicznego, i co za tym idzie, rozwoju społecznego, jest zmienną o większym znaczeniu dla wyjaśnienia zjawiska zgonów niemowląt niż udział wydatków żywnościowych w dochodach ludności. Usuńmy zatem z równania wyjściowego zmienną Spo. Otrzymamy: Model : Estymacja KMNK z wykorzystaniem 5 obserwacji -5 Zmienna zależna: Niemowl Zmienna Współczynnik Błąd stand. Statystyka t wartość p const,484,6504 7,55 < 0,0000 *** PKB -0, ,9535e-05 -,5366 0,08798 ** Bezrob -0, ,06-0,4880 0, Srednia arytmetyczna zmiennej zależnej = 9,68 Odchylenie standardowe zmiennej zależnej =,79374 Suma kwadratów reszt = 57,779 Błąd standardowy reszt =,6059 Wsp. determinacji R = 0,576 Skorygowany R = 0,8374 Statystyka F (, ) = 3,709 (wartość p = 0,04) Logarytm wiarygodności = -45,9453 Kryterium informacyjne Akaika = 97,8907 Kryterium bayesowskie Schwarza = 0,547 W równaniu tym stopa bezrobocia jest zmienną statystycznie nieistotną i ma niedopuszczalny znak współczynnika. Należy tę zmienną usunąć z równania regresji. Otrzymamy: Model 3: Estymacja KMNK z wykorzystaniem 5 obserwacji -5 Zmienna zależna: Niemowl Zmienna Współczynnik Błąd stand. Statystyka t wartość p const,7 0,8506 4,387 < 0,0000 *** PKB -9,0949e-05 3,3347e-05 -,7 0,054 ** Wsp. determinacji R = 0,4366 Skorygowany R = 0,0777 Skorygowany współczynnik determinacji tego równania jest wyższy niż w poprzednim przypadku i wynosi: Skorygowany R = 0,0777, zaś poprzednio: Skorygowany R = 0,8374. Końcowym zatem równaniem, w którym przezwyciężyliśmy negatywny efekt współliniowości jest regresja opisana przez model 3. 95

96 6.5 Obserwacje opuszczone Obserwacje opuszczone (missing observations) oznaczają sytuacje braku obserwacji. Można wyróżnić dwa powody tej sytuacji:. Brak danych lub wystąpienie tak zwanych danych niekompletnych (brak niektórych informacji) z niewiadomych dla badacza przyczyn.. Z powodów samoankietowania lub samoselekcji dane nie zostały podane przez ankietowanego (np. niechęć ujawnienia wielkości dochodów). Nic nie wiadomo o własnościach estymatorów opartych na danych zawierających luki w obserwacjach. Wiadomo natomiast, że zastępowanie brakujących informacji średnią arytmetyczną lub w przypadku szeregów czasowych, średnią ruchomą - prowadzi do obciążenia estymatorów i zabiegi takie nie są zalecane Wykrywanie nietypowych wartości zmiennej objaśnianej i nietypowych wartości zmiennych objaśniających (obserwacje znaczące) Tak zwane obserwacje nietypowe pojawiające się w próbie, zniekształcają efekty oszacowania modelu i dlatego ich badanie jest sprawą ważną. Można wyróżnić dwa rodzaje obserwacji nietypowych: Pierwszy ich rodzaj zwany nietypowymi obserwacjami zmiennej objaśnianej (outliers) charakteryzuje się nieoczekiwanie dużymi resztami ei = yi. yi Ilustruje to poniższy rysunek 6.. y x Rys. 6. Przypadek dwóch nietypowych obserwacji zmiennej objaśnianej (duże reszty) 96

97 Drugi rodzaj, to tak zwane nietypowe obserwacje zmiennych objaśniających lub punkty dźwigniowe (leverage points). y ŷ = b + b x i i ŷ = b + b x i i x Rys. 6.. Przypadek punktu dźwigniowego Cechą charakterystyczną punktów dźwigniowych jest ich znaczne oddalenie od środka zmienności zmiennych objaśniających, co istotnie wpływa na wyznaczone oceny parametrów przy jednocześnie małej wielkości reszty, jak na Rys.6.. Brak ostatniej dźwigniowej obserwacji zmienia znacząco równanie regresji, i zamiast b oraz b otrzymujemy b oraz b. Wskazuje to na fakt, że jeśli opuścimy obserwację dźwigniową, to uzyskamy inny model. Rodzi się pytanie, który z tych dwóch modeli jest zgodny z danymi? Odpowiedź wymaga głębszego wniknięcia w powody wystąpienia nietypowości obserwacji dźwigniowych. Może się bowiem okazać, że obserwacja dźwigniowa jest po prostu błędem w zapisie danych, ale może być również wywołana bliżej nierozpoznanymi przyczynami, które wymagają wnikliwszej analizy. O wystąpieniu jednego z dwóch zjawisk nietypowości informuje wykres reszt e i dla kolejnych obserwacji oraz wykres wartości wyliczonych ŷ i. Na podstawie tych wykresów łatwo odnajdziemy obydwa rodzaje obserwacji znaczących. Formalnymi statystykami ukazującymi obserwacje nietypowe i dźwigniowe łącznie jest indeks zwany DFITS i, który jest liczony w ekonometrycznie bardziej zaawansowanych pakietach. Czytelników zainteresowanych tą statystyką odsyłam do podręcznika pakietu ekonometrycznego STATA 9. 97

98 Podsumowanie. Typowym przypadkiem współliniowości jest wysoka korelacja między regresorami, co utrudnia, a niekiedy uniemożliwia wydzielenie indywidualnego wpływu każdej ze zmiennych objaśniających na zmienną objaśnianą. Przy współliniowości estymatory są nadal nieobciążone, ale mają zbyt duże błędy standardowe, co zmniejsza precyzję oszacowania.. objawy współliniowości: współczynniki mają bardzo duże błędy standardowe i w związku z tym znaczna liczba regresorów jest nieistotna, nawet wtedy, gdy łącznie są one istotne, a R jest wysokie. Współczynniki regresji mogą mieć niewłaściwe znaki i niedopuszczalną wielkość. Małe zmiany w zbiorze danych statystycznych (na przykład dodanie jednej lub kilku nowych obserwacji) mogą prowadzić do znacznych zmian oszacowań współczynników regresji przy niektórych zmiennych. 3. Wykrywanie współliniowości odbywa się za pomocą wyznaczania K regresji pomocniczych, w których kolejno zmienną objaśnianą jest jedna z dotychczasowych zmiennych objaśniających na przykład - x k, zaś zmiennymi objaśniającymi są pozostałe regresory wyjściowego równania regresji. 4. miarą współliniowości jest statystyka zwana czynnikiem powiększenia wariancji (Variance Inflation Factor). 5. Środki zaradcze są jednak mało doskonałe: opuszczenie zmiennej wywołującej współliniowość, szacowanie modelu na pierwszych różnicach wyjściowych zmiennych, wprowadzenie w charakterze dodatkowych regresorów obok zmiennych pierwotnych, również kwadratów zmiennych pierwotnych. Środek najlepszy (o ile jest to możliwe) to rozszerzenie zbioru pierwotnych obserwacji o obserwacje dodatkowe. 6. Nic nie wiadomo o własnościach estymatorów opartych na danych zawierających luki w obserwacjach. 7. Wykrywanie nietypowych wartości zmiennej objaśnianej i nietypowych wartości zmiennych objaśniających jest ważne, gdyż obecność takich obserwacji prowadzi do zniekształceń oszacowania modelu. 98

99 7. PROGNOZOWANIE NA PODSTAWIE KMRL 7. Prognoza i błąd standardowy prognozy Oszacowany na podstawie szeregów czasowych model może być wykorzystany dla celów prognozowania (predykcji). Predykcją ekonometryczną nazywamy wnioskowanie w przyszłość na podstawie modelu ekonometrycznego. Niech poniższa linia oznacza oś czasu, na której jest zaznaczony przedział próby dla t =,, T ; oraz przyszły w stosunku do przedziału próby moment czasu, na który wyznaczana jest prognoza, zwany okresem prognozy T + S. t =,..., T; T + S przedział próby okres prognozy Oś czasu Dla podkreślenia, że obserwacje w modelu dotyczą kolejnych jednostek czasu, zamiast indeksu i =,, n; wprowadzamy indeks t =,, T ;. t ta obserwacja na zmiennej objaśnianej jest równa: (7.) y t = x t β + ε t, gdzie x t jest wektorem wierszowym t tej obserwacji na kolejnych zmiennych objaśniających, a więc = x t, x t, x 3t,, x Kt. Przyjmijmy, że prawidłowość opisana równaniem regresji w próbie obowiązuje również w okresie prognozy, a więc (7.) y T + S = x T + S β + ε T + S, gdzie x T + S jest wektorem wierszowym wartości, jakie przyjmują zmienne objaśniające w okresie prognozowanym: = x T + S, x, T + S, x 3, T + S,, x K, T + S pojedynczą realizacją zmiennej prognozowanej.. Wielkość y T + S nazwiemy Przyjmijmy również, że zaburzenie losowe w okresie prognozy ε T + S ma te same własności, co zaburzenia w próbie, a więc wartość oczekiwaną wynoszącą 0 E( ε T + S ) = 0, stałą wariancję var( ε + ) = var( ε ) = σ i że jest nieskorelowane z T S t zaburzeniami z próby cov( ε, ε + ) = 0. Wówczas możemy wykorzystać oszacowany model z okresu próby ŷ t t T S = x t b dla prognozowania poza próbę. Prognozą nazywamy wartość wyliczoną z modelu regresji: (7.3) ŷ T + S = x T + S b, 99

100 gdzie b zostało oszacowane z próby, zaś zmienne objaśniające dotyczące okresu prognozy przyjmują wartości x T + S : = x T + S, x, T + S, x 3, T + S,, x K, T + S. Błąd jaki popełniamy przyjmując prognozę ŷ T + S zamiast pojedynczej wartości zmiennej prognozowanej y T + S wynosi: yt + S yt + S. Jest to tak zwany błąd prognozy. Podstawiając za y T + S prawą stronę równania (7.), a za ŷ T + S prawą stronę równania (7.3) dostaniemy: (7.4) y y = x ( β b) + ε. T + S T + S T + S T + S Równanie to ukazuje dwa źródła błędu prognozy. Pierwsze źródło bierze się stąd, że zamiast nieznanego wektora parametrów β przyjmujemy w prognozie wektor ocen b, zaś drugim źródłem błędu jest fakt, że w okresie prognozowanym zrealizuje się nieznane zaburzenie losowe ε T + S, które wywrze wpływ na wartość zmiennej prognozowanej y T S Zauważmy, że wartość oczekiwana tego błędu jest zero. Mamy bowiem: (7.5) E( y y T + S T + S ) = x T + S E( β b) + E( ε T + S ), = x = 0 T + S gdyż pierwszy składnik prawej strony równania znika na skutek tego, że b jest nieobciążonym estymatorem β, a drugi też wynosi zero z założenia, że wartość oczekiwana zaburzeń losowych jest zero. Możemy przeto powiedzieć, że prognoza jest dobrym estymatorem dla wartości zmiennej prognozowanej. +. Zauważmy ponadto, że wariancja błędu prognozy, którą oznaczymy przez σ ŷt+ S wyniesie: (7.6) σ var( y = yt S yt S ) = var[ T S ( β )] + var( ε T S ) T+ S + + x + b + = x var( β b) x + σ T + S T + S = x σ ( X X) x + σ z ( B. 3) T + S T + S = σ [ + x ( X X) x ] T + S T + S Podstawmy do (7.6) za nieznaną wariancję σ jej nieobciążony estymator z próby σ i weźmy pierwiastek kwadratowy z tego wyrażenia. Otrzymamy tak zwany standardowy błąd prognozy którego nie można mylić z błędem prognozy zdefiniowanym przez (7.4)). Zgodnie z (7.6) standardowy błąd prognozy wyniesie: (7.7) σ = σ = σ [ + x ( X X) x ]. y T+ S y T+ S T + S T + S. 00

101 Znając standardowy błąd prognozy możemy wyznaczyć przedział prognozy, który jest przedziałem ufności dla wartości y T + S. Jest on wyznaczony analogicznie do przedziału ufności dla pojedynczego parametru β k (4.6): (7.8) P ( y t σ y y + t σ ) = α T + S n k; α y T+ S T + S T + S n k; α y T+ S W rozważaniach nad prognozowaniem zakładamy, że wektor wartości, jakie przyjmują zmienne objaśniające w okresie prognozowanym: = x T + S, x, T + S, x 3, T + S,, x K, T + S jest znany badaczowi. Dla wyznaczenia prognozy znajomość tego wektora jest niezbędna. Należy więc podjąć wysiłki dla jego wyznaczenia. Niekiedy wartości te możemy poznać z założeń planu gospodarczego, niekiedy z innych oszacowań, z ekstrapolacji trendów dla tych zmiennych, lub gdy zmiennymi objaśniającymi są opóźnione wielkości ekonomiczne możemy je obserwować z ich realizacji. Dobór wartości zmiennych objaśniających dla okresu prognozy jest niewątpliwie najtrudniejszym fragmentem prognozowania ekonometrycznego. 7.. Wykorzystanie modelu dla celów symulacji Modele ekonometryczne są w praktyce coraz częściej wykorzystywane dla celów symulacji. W takich sytuacjach do zbioru zmiennych objaśniających, w zależności od przeznaczenia modelu, wstawiane są regresory opisujące różne warianty decyzji polityki ekonomicznej, społecznej, fiskalnej itp. Nadając tym zmiennym pożądane przez decydentów wartości, można za pomocą oszacowanego modelu ekonometrycznego oceniać efekty proponowanych wariantów polityki. Na przykład na podstawie modelu podatków od dochodów osobistych ludności, można wyznaczać oczekiwane wielkości podatków przy różnych progach podatkowych, stawkach podatku, czy różnych formach ulg podatkowych. Podsumowanie. Predykcją ekonometryczną nazywamy wnioskowanie w przyszłość na podstawie modelu ekonometrycznego.. Standardowy błąd prognozy jest średnim błędem o który różni się prognoza ŷ t = x t b od pojedynczej realizacji zmiennej prognozowanej y T S = x T S β + ε T S Przedział prognozy jest przedziałem ufności dla pojedynczej realizacji zmiennej prognozowanej y T + S. Jest on wyznaczony analogicznie do przedziału ufności dla pojedynczego parametru β k. 0

102 CZĘŚĆ II ZŁAGODZENIE ZAŁOŻEŃ MODELU KLASYCZNEGO 8. UOGÓLNIONA METODA NAJMNIEJSZYCH KWADRATÓW (UMNK) Uogólniona metoda najmniejszych kwadratów zwana jest w języku angielskim Generalised Least Squares (GLS) 8. Heteroskedastyczność i autokorelacja zaburzeń losowych w KMRL W licznych praktycznych zastosowaniach modelowania ekonometrycznego nie jest spełnione założenie 5 KMRL o sferyczności zaburzeń, a więc o tym, że warunkowa macierz wariancjikowariancji wektora zaburzeń ε przy danej macierzy X ma postać: (8.) Var( ε X) = E( εε X) = Var( ε) = E( εε ) = σ I. Przypomnijmy sobie, że założenie sferyczności zaburzeń oznacza: Po pierwsze, wariacje kolejnych zaburzeń (elementy stanowiące diagonalną macierzy jednostkowej I) są takie same dla wszystkich obserwacji. Sytuację tę nazywamy homoskedastycznością zaburzeń, lub jednorodnością zaburzeń. Wariancje ε i mogą się jednak zmieniać wraz z numerem obserwacji i sytuację tę nazywamy heteroskedastycznością, lub niejednorodnością zaburzeń. Po drugie, elementy pozadiagonalne, które są kowariancjami zaburzeń dla różnych obserwacji są równe zero, a więc zaburzenia są ze sobą nieskorelowane. Sytuację tę nazywamy brakiem autokorelacji zaburzeń. Niespełnienie założenia o homoskedastyczności lub braku autokorelcji powoduje, że estymatory MNK są nadal nieobciążone i zgodne, ale przestają być estymatorami najbardziej efektywnymi, co oznacza, że ich błędy standardowe nie są najmniejsze z możliwych. Zanim podamy ekonomiczne przykłady ilustrujące takie sytuacje, zauważmy, że na ogół heteroskedastyczność występuje w modelach szacowanych na podstawie danych przekrojowych, zaś autokorelacja w modelach opartych na szeregach czasowych. Przykłady heteroskedastyczności i autokorelacji. Zacznijmy od przypadku heteroskedastyczności. Przyjmijmy, że chcemy określić regresję wydatków żywnościowych na jednostkę konsumpcyjną w gospodarstwach domowych w zależności od dochodów osobistych, liczonych również na jednostkę konsumpcyjną. Podzielmy gospodarstwa na pewną liczbę grup dochodowych według rosnącego dochodu i w każdej grupie wyznaczmy średnie wydatki żywnościowe i wariancję tych wydatków wokół średniej. Zauważymy, że wariancja ta wzrasta wraz z przechodzeniem od niskich do 0

103 wysokich grup dochodowych. Oznacza to, że mamy do czynienia z heteroskedastycznością zaburzeń. Powód wzrostu wariancji jest oczywisty. Gospodarstwa z dolnego krańca rozkładu dochodów są gospodarstwami biednymi, które wydają na żywność około 70 % swoich dochodów. W rodzinach tych ograniczenie dochodowe jest niezwykle dotkliwe, a presja niezaspokojonych potrzeb i to nie tylko żywnościowych, nadzwyczaj silna. Muszą się one zachowywać w podobny sposób, a więc kupować najtańszą żywność, aby sprostać dotkliwemu ograniczeniu budżetowemu. W gospodarstwach tych wariancja wydatków wokół średniej jest względnie mała w porównaniu z gospodarstwami o wzrastającej zamożności. Gospodarstwa o najwyższych dochodach wydają na żywność zaledwie kilka procent dochodu i tu łatwiej o zróżnicowanie wydatków wokół średniej ze względu na czynniki pozaekonomiczne, takie jak upodobania, przyzwyczajenia, styl odżywiania itp. Wariancja wydatków jest dlatego znacznie wyższa niż w przypadkach rodzin mniej zamożnych. Możemy przeto stwierdzić, że w prezentowanym przykładzie modelu regresyjnego występuje heteroskedastyczność zaburzeń losowych. Sytuacja autokorelacji zaburzeń losowych jest typowa przy szacowaniu modeli na podstawie szeregów czasowych, gdzie zaburzenie z jednego okresu czasu jest często skorelowane z zaburzeniem z okresu wcześniejszego. Zapiszemy to jako E( ε t ε t ) 0. Powodem skorelowania zaburzeń jest inercja zjawisk ekonomicznych. Takie zmienne jak PKB, zatrudnienie, inflacja wykazują powolne procesy wzrostu lub spadku, trwające dłużej niż jeden okres czasu. Przykładem modelu z autokorelacją zaburzeń jest model wzrostu produkcji zwierzęcej wyjaśnianej przez wielkości nakładów kapitałowych, zużycia pasz, struktury rasowej bydła itp. Zaburzenia pogodowe w roku nieurodzaju lub zmiany w regulacjach ekonomicznych mogą wywierać wpływ na produkcję zwierzęcą przez kilka najbliższych lat. Oznacza to skorelowanie zaburzenia losowego w określonym roku z zaburzeniami w latach następnych, aż do czasu ustabilizowania się produkcji na pożądanym poziomie. Zauważmy w związku z tym, że sytuacje niesferyczności są zjawiskami częstymi i raczej typowymi dla modelowania ekonometrycznego. Pytanie zatem brzmi: nie czy występuje heteroskedastyczność lub autokorelacja, ale jak silna jest heteroskedastyczność czy autokorelacja? Przy nieznacznej heteroskedastyczności lub autokorelacji utrata efektywności oszacowań jest nieznaczna, ale przy sinych procesach tych zjawisk może istotnie podwyższać błędy standardowe estymatorów, pogarszając tym samym efektywność oszacowań. 03

104 8.. Estymatory uogólnionej metody najmniejszych kwadratów (UMNK) Rozważania nad uogólnioną metodą najmniejszych kwadratów zwaną również od nazwiska jej autora metodą Aitkena rozpoczniemy od uchylenia dotychczasowego założenia MNK o sferyczności zaburzeń (8..) i przyjmijmy założenie bardziej ogólne (8.) Var( ε X) = E( εε X) = Var( ε) = E( εε ) = σ Ω, gdzie o macierzy Ω zakładamy, że może mieć elementy diagonalne różne, a więc dopuszczamy heteroskedastyczność, oraz może mieć elementy pozadiagonalne różne od zera, a więc dopuszczamy autokorelację zaburzeń losowych. Macierz Ω jako macierz wariancjikowariancji wektora losowego jest z definicji macierzą dodatnio określoną, co oznacza, że ma wyznacznik dodatni i jest macierzą odwracalną. Dla rozważań teoretycznych przyjmijmy, że macierz Ω jest znana. Oczywiście w praktycznych zastosowaniach macierz tę będziemy musieli oszacować. Z algebry macierzy wiemy, że dla macierzy dodatnio określonej istnieje taka macierz dolnotrójkątna P, że (8.3) P P = Ω oraz PΩ P = I. Istnienie takiej macierzy jest kluczem do wyznaczenia estymatorów UMNK. Przyjmijmy dla rozważań teoretycznych, że macierz Ω jest znana, a więc można wyznaczyć dla niej macierz P. Jeśli teraz przemnożymy lewostronnie równanie regresji y = Xβ + ε, w którym zaburzenia są niesferyczne, (a więc dla którego zachodzi var( ε) = σ Ω ) przez P to otrzymamy: (8.4) Py = PXβ + Pε, gdzie wektor zaburzeń spełnia założenie klasycznego modelu regresji, gdyż wariancja tego zaburzenia jest równa (8.5) var( Pε) = P var( ε) P = σ PΩ P = σ I. Oznacza to, że model uogólnionej metody najmniejszych kwadratów można sprowadzić poprzez lewostronne przemnożenie przez macierz P do modelu najmniejszych kwadratów. klasycznej metody Stąd już krok do wyznaczenia estymatora uogólnionej metody najmniejszych kwadratów. Jak wiemy, estymator MNK ma postać b = ( X X) X y. Jeśli w tym wzorze zastąpimy y przez Py, X przez PX oraz ε przez Pε, to otrzymamy estymator UMNK, który dla odróżnienia oznaczmy przez b ~ : ~ (8.6) b = [( PX) ( PX)] ( PX) Py = ( X X) X Ω Ω y. Drogą analogicznych podstawień uzyskamy inne statystyki w UMNK. 04

105 Jeśli w MNK var( b) = σ ( X X), to w UMNK przyjmie ona postać (8.7) var( ~ b) = σ ( X Ω X). Oznaczmy reszty w UMNK przez ~ ~ e = y Xb. Wtedy podobnie do wariancji resztowej w e e MNK σ = n K otrzymamy: (8.8) ~ ~ ~ σ = e Ω e n K. Sensowne jest pytanie o konsekwencje zastosowania MNK w sytuacji, gdy powinna być użyta UMNK, a więc gdy macierz wariancji-kowariancji powinna mieć postać var( ε) = σ Ω zamiast var( ε) = σ I. Oczywiste jest, że estymator MNK jest nadal nieobciążony, gdyż do dowodu nieobciążoności niepotrzebna jest informacja o postaci macierzy wariancji-kowariancji zaburzeń losowych. W rozdziale 4 dowodząc twierdzenia Gaussa-Markowa pokazaliśmy, że b = ( X X) X y = ( X X) X ( Xβ + ε) = β + ( X X) X ε, a biorąc wartość oczekiwaną b otrzymaliśmy: (8.9) E( b) = β + ( X X) X E( ε) = β, co oznacza nieobciążoność estymatora b. Jednak macierz wariancji-kowariancji estymatora MNK przy założeniu UMNK (8.) wynosi: (8.0) var( b) = E[( b β)( b β) ] = E[( X X) X εε X( X X) ] = ( X X) X ( σ Ω) X( X X) i jest obciążona, gdyż jak przedstawiliśmy powyżej w (8.7) dla UMNK nieobciążona macierz wariancji-kowariancji wynosi var( ~ b) = σ ( X Ω X). A więc (8.) var( b) = ( X X) X ( ) X( X X) var( b ~ σ Ω ) = σ ( X Ω X). e e Ponadto wariancja resztowa σ = jest obciążona, o nieznanym kierunku obciążenia w n K przypadku heteroscedastyczności i jest niedoszacowana - w przypadku autokorelacji. W konsekwencji testy hipotez oparte na statystykach t Studenta i F są niepoprawne, co prowadzi do błędnych wniosków wyprowadzanych na ich podstawie. Z tego powodu należy 05

106 zawsze rozpoznać, czy nie mamy do czynienia z przypadkiem heteroscedastyczności lub autokorelacji i jeśli tak, to należy zastosować UMNK zamiast MNK. Temu zadaniu służą testy statystyczne na heteroskedastyczność i na autokorelację. Zwykle rozgraniczamy te dwa przypadki i oddzielnie przeprowadzamy test heteroscedastyczności, gdy model oparty jest na danych przekrojowych i oddzielnie na autokorelację, gdy model zbudowany jest na szeregach czasowych. Z tego powodu testy te omówimy oddzielnie. 8.3.Testowanie heteroskedastyczności: testy Goldfelda-Quandta, Breuscha-Pagana oraz White a Przy badaniu heteroscedastyczności wykorzystywane są trzy podstawowe testy. Kolejność ich prezentacji nie jest przypadkowa. Ich stosowanie zależy od stopnia złożoności heteroskedastyczności, co z kolei wyznacza ich moc, a więc zdolność do odrzucania hipotezy o homoskedastyczności, gdy jest ona fałszywa. Ta ogólna uwaga stanie się zrozumiała w trakcie dalszych wywodów. Test Goldfelda-Quandta jest stosowany w przypadkach, gdy znamy cechę wywołującą heteroskedastyczność. Najczęściej cecha ta jest reprezentowana przez jedną ze zmiennych objaśniających równania regresji. W przypadkach badań zachowań konsumpcyjnych jest nią z reguły dochód, którego wzrost wywołuje powiększanie się wariancji zaburzeń prawie wszystkich rodzajów wydatków konsumpcyjnych, rejestrowanych w budżetach gospodarstw domowych. Użycie tego testu sprowadza się do wykonania następujących kroków:. Przenumerowujemy obserwacje według rosnących wartości cechy, wywołującej heteroskedastyczność (np. według rosnącego dochodu).. Opuszczamy c środkowych obserwacji, gdzie c dobrane jest tak, że c n 5 oraz n c jest parzyste. (Opuszczenie c środkowych obserwacji zwiększa moc testu, a więc zdolność testu do wykrycia homoskedastyczności, gdy ona rzeczywiście występuje). W ten sposób uzyskujemy dwie podpróby; nazwijmy je i o jednakowych liczebnościach n c każda. 3. Oddzielnie oszacowujemy dwa równania regresji dla pierwszej i drugiej części próby i wyznaczamy dwie wariancje resztowe, oznaczone odpowiednio subskryptami i dla e e e e pierwszej i drugiej części próby: σ = oraz σ n c =. n c K K 06

107 4. Stawiamy hipotezę zerową H 0 :σ = σ (występuje homoskedastyczność) wobec hipotezy alternatywnej H :σ σ (występuje heteroskedastyczność). n c 5. Wyznaczamy statystykę F n c K n c σ K (, K) = n c F σ K F I HG K J I HG K J przy statystyce F są liczbami stopni swobody odpowiednio licznika i mianownika., gdzie liczby 6. Weryfikujemy hipotezę zerową: jeśli F > obl. F (gdzie F krytyczne obl. oznacza wyliczoną wartość statystyki, zaś F krytyczne wartość tablicową), to odrzucamy hipotezę zerową o homoskedastyczności i przyjmujemy hipotezę alternatywną o heteroskedastyczności. Korzystając z wartości p dla wyliczonej statystyki F możemy również stwierdzić, że jeśli p < 0, 05, to odrzucamy hipotezę zerową o homoskedastyczności i przyjmujemy hipotezę alternatywną o heteroscedastyczności. Badania symulacyjne nad tym testem wskazują, że jest on czuły na spełnienie założenia o normalności zaburzeń. Przykład 8. Dane wykorzystane w tym przykładzie pochodzą ze strony internetowej: (diagnoza społeczna 005). Przedmiotem analizy jest czas (wyrażony w godzinach) poświęcany w ciągu tygodnia na korzystanie z internetu (zmienna internet). Lista zmiennych objaśniających uwzględnionych w analizie znajduje się poniżej: dochod dochód miesięczny netto w złotówkach; wiek wiek wyrażony w latach; duze_miasto wartość, jeżeli respondent mieszka w mieście powyżej 00 tyś. mieszkańców oraz 0 w pozostałych przypadkach; male_miasto wartość, jeżeli respondent mieszka w mieście poniżej 00 tyś. mieszkańców oraz 0 w pozostałych przypadkach; plec - wartość dla mężczyzn oraz 0 dla kobiet. Poniżej wyniki regresji w modelu, w którym ilość godzin korzystania w ciągu tygodnia z internetu uzależniamy od wieku, dochodu, miejsca zamieszkania (za poziom referencyjny przyjmujemy wieś) oraz płci respondenta: 07

108 Za pomocą testu Goldfelda Quandta sprawdzimy czy zmienna wiek wywołuje heteroskedastyczność. Budowę testu rozpoczynamy od uporządkowania obserwacji według rosnących wartości zmiennej wiek. Następnie opuszczamy 300 środkowych obserwacji. Wyniki regresji na podpróbie zawierającej respondentów młodszych: Wyniki regresji na podpróbie zawierającej respondentów starszych: 08

109 Wyznaczamy statystykę testową (do licznika wstawiamy większą sumę kwadratów reszt. Zauważmy, że wariancja dla podpróby młodszych jest większa od tej dla podpróby starszych. Oznacza to, że heteroskedastyczność maleje wraz z wiekiem respondenta): n c e e K /( 6) F = =,43 n c ,9/( 6) e e K Wyznaczamy wartość krytyczną: F krytyczne (590,590) =,5. Wartość statystyki testowej jest większa od wartości krytycznej, co jest równoznaczne z odrzuceniem hipotezy zerowej zakładającej homoskedastyczność. Wniosek z przeprowadzonego testu jest następujący: w modelu występuje heteroskedastyczność wywoływana przez wiek respondenta. Nie jest to jednak heteroskedastyczność znaczna, gdyż wartość obliczona statystyki większa od wartości krytycznej. F jest niedużo Test Breuscha-Pagana (oznaczany skrótem BP) jest stosowany w sytuacjach, gdy wzrost wariancji zależy nie od jednej zmiennej, a od większej ich liczby. Dla odróżnienia zmiennych objaśniających w wyjściowym równaniu regresji od zmiennych wpływających na wariancję oznaczmy te drugie symbolami z z, 3,, z m. Jeśli na przykład wyjaśniamy wydatki kulturalne gospodarstw domowych, to do równania wyjściowego regresji wstawimy zmienne objaśniające oznaczone przez x x x K, wśród których mogą się znaleźć zmienne:, 3,, dochód, poziom wykształcenia głowy gospodarstwa domowego, zawód głowy gospodarstwa 09

110 domowego, liczba osób w gospodarstwie domowym, liczba dzieci w wieku szkolnym itp. Do zbioru zmiennych Z wpływających na wariancję możemy wstawić niektóre ze zmiennych objaśniających z równania wyjściowego, a mianowicie: z - dochód i z 3 - poziom wykształcenia głowy gospodarstwa domowego. Są to dwie zmienne, które najprawdopodobniej odpowiadają za wzrost wariancji zaburzenia losowego, a więc i wzrost wariancji wydatków kulturalnych. Idea testu jest następująca: Szacujemy dwa równania regresji. Pierwsze - równanie wyjściowe: (8.) yi = β + β xi + + β K xki + ε i ; oraz drugie - wyznaczające wariancję zaburzenia losowego: (8.3) σ = α + α z + + α z + u. i i m mi i Jeśli α = α = = α m =, to σ = α, a więc zaburzenie jest homoskedastyczne. 3 0 i Procedurę testowania testem Breuscha-Pagana możemy ująć w kolejnych krokach:. Szacujemy za pomocą MNK równanie (8.) i wyznaczamy reszty e i.. Wyznaczamy wariancję resztową e σ i = = n resztowej sumę kwadratów reszt dzielimy nie przez n K wariancja resztowa jest estymatorem metody największej wiarogodności. 3. Konstruujemy nową zmienną p wariancję resztową. 4. Szacujemy regresję pomocniczą i ei = σ (8.4) pi = α + α z i + α mzmi + ui. n i. Zauważmy, że przy liczeniu wariancji, a przez n. Tak wyznaczona. Jest to kwadrat i-tej reszty podzielony przez 5. Z oszacowania równania regresji pomocniczej (8.4) wyznaczamy wyjaśnioną sumę kwadratów ESS, gdzie ESS = ( pi p) n i= i definiujemy statystykę testującą BP = ESS ( ). Tak zdefiniowana statystyka ma asymptotyczny rozkład χ o m- stopniach swobody 5, co zapisujemy BP ~ Asy. χ m. 6. Stawiamy hipotezę zerową H :α = α = = α m = losowe są homoskedastyczne , która oznacza, że zaburzenia 5 Rozkładem asymptotycznym, mówiąc niezbyt precyzyjnie, nazywamy rozkład graniczny (przy T ), który przyjmujemy jako przybliżenie dla nieznanego rozkładu rzeczywistego zmiennej losowej. 0

111 7. Weryfikujemy hipotezę H0:α = α 3 = = α m = 0 za pomocą statystyki BP. Jeśli BP > χ m to odrzucamy hipotezę zerową o homoscedastyczności i przyjmujemy, że występuje heteroskedastyczność. Przykład 8. Kontynuacja przykładu 8.. Za pomocą testu BP sprawdzimy czy w wyjściowym modelu dwie zmienne płeć oraz dochód wywołują heteroskedastyczność. Procedurę testowania rozpoczynamy od oszacowania regresji, w której zmienną zależną jest liczba godzin poświęcanych w ciągu tygodnia na korzystanie z internetu, zaś zmienne objaśniające to płeć, wiek, dochód oraz miejsce zamieszkania 6. Z tak oszacowanego modelu wyznaczamy reszty, a następnie zmienną p i - kwadraty reszt podzielone przez wariancję resztową. Po obliczeniu zmiennej p i ei = σ szacujemy regresję pomocniczą: p = α + α dochod + α plec + u i i 3 i i Poniżej wyniki estymacji regresji pomocniczej (zmienna zależna - płeć oraz dochód): p i, zmienne niezależne 6 Regresja ta została oszacowana w przykładzie 8., więc wydruk z programu Gretl tym razem zostaje pominięty.

112 Kolejny krok to wyznaczenie ESS. Dysponując powyżej zamieszczonym wydrukiem z programu GRETL wielkość tę można wyliczyć według wzoru: R 0, ESS = RSS = 086,9* = 83,4. R -0, Wartość statystyki testowej wynosi BP = ( ESS ) = 4,7, natomiast wartość krytyczna odczytana z tablic to: χ () = 5,99. Statystyka testowa przewyższa wartość krytyczną, co oznacza odrzucenie hipotezy zerowej zakładającej homoskedastyczność. Test White a stosujemy w sytuacjach, gdy nie wiemy która ze zmiennych objaśniających wywołuje heteroskedastyczność. Test ten wykrywa również błędną specyfikację równania, a więc wskazuje, że aktualnie zastosowana postać równania regresji jest niepoprawna. Nie podpowiada jednak jaka forma spełnia wymogi poprawności. Do zagadnienia poprawności specyfikacji równania regresji wrócimy w rozdziale następnym, w którym omówimy test błędnej specyfikacji RESET Ramsey a. Użycie testu White`a przedstawimy dla prostoty zapisu na przykładzie regresji z dwiema zmiennymi objaśniającymi. Idea tej procedury sprowadza się do uzależnienia wariancji zaburzenia losowego od regresorów, ich kwadratów i iloczynów. Procedura testowania dla przypadku dwóch regresorów sprowadza się do następujących kroków:. Szacujemy za pomocą MNK równanie wyjściowe regresji, w tym przypadku z dwiema zmiennymi objaśniającymi: i wyznaczamy reszty e i.. Wyznaczamy regresję pomocniczą: (8.5) y = β + β x + β x + ε i i 3 3 i i (8.6) e = α + α x + α x + α x + α x + α x x + u, i i 3 3i 4 i 5 3i 6 i 3i i w której regresorami są zmienne objaśniające równania wyjściowego (8.5), ich kwadraty i iloczyny. 3. Wyznaczamy R dla regresji pomocniczej. Statystyka n R ma asymptotyczny rozkład χ o m- stopniach swobody, (gdzie m jest liczbą regresorów w regresji pomocniczej), co zapisujemy n R ~ Asy.χ m.

113 4. Stawiamy hipotezę zerową H :α = α = = α m = są homoskedastyczne , która oznacza, że zaburzenia losowe 5. Weryfikujemy hipotezę H 0 :α = α 3 = α 4 = α 5 = 0 za pomocą statystyki n R. Jeśli n R > χ m to odrzucamy hipotezę zerową o homoskedastyczności i przyjmujemy, że występuje heteroskedastyczność. Przykład 8.3 Sprawdzimy czy w modelu, w którym czas korzystania z internetu uzależniamy od wieku i dochodu występuje heteroskedastyczność. Posłużymy się tymi samymi danymi co w przykładzie 8.. Do weryfikacji hipotezy o homoskedastyczności zaburzenia losowego posłużymy się testem White a. Wyniki regresji podstawowej: Poniżej wyniki regresji pomocniczej, gdzie uhat^ oznacza reszty z wyjściowej regresji podniesione do kwadratu; sq_wiek i sq_dochod to odpowiednio zmienne wiek i dochod podniesione do kwadratów, zaś wiek_dochod iloczyn zmiennych wiek i dochod: 3

114 Wyznaczamy wartość statystyki testowej: n 49*0,04664,88, R = natomiast wartość krytyczna wynosi: χ (5) =,07 (liczba stopni swobody jest równa liczbie zmiennych w regresji pomocniczej, czyli 5). Statystyka testowa jest większa od wartości krytycznej, co oznacza odrzucenie hipotezy zerowej o homoskedastyczności. 8.4 Estymacja macierzy wariancji-kowariancji zaburzeń losowych w przypadku heteroskedastyczności. Stosowalna uogólniona metoda najmniejszych kwadratów Uwzględnienie heteroskedastyczności wymusza znajomość macierzy Ω. Musimy ją oszacować na podstawie informacji z próby. W praktyce modelowania brak jest dobrego wzorca heteroskedastyczności, który mógłby być zalecany do powszechnego stosowania. Dlatego eliminacja tego zjawiska jest możliwa jedynie w przypadkach bardzo znacznej heteroskedastyczności. Poniżej omówimy najprostszy przypadek, gdy wariancje zaburzeń losowych wzrastają wraz ze wzrostem jednej ze zmiennych objaśniających. Taki właśnie schemat przyjmowaliśmy w przykładzie wzrostu wariancji w modelu wydatków żywnościowych zależnych od wzrostu dochodu. Przyjmijmy, że w modelu regresji y = β + β x + β 3x3 + + β x + ε, w którym zmienną objaśnianą są wydatki i i i K Ki i żywnościowe na głowę w i-tym gospodarstwie domowym regresorem odpowiedzialnym za wzrost wariancji zaburzeń jest x i - dochód do dyspozycji na głowę. Przyjmujemy zatem, że (8.7) σ = σ x. Stąd i i 4

115 (8.8) Ω = L N M x x x n O Q P, gdzie daszek nad macierzą Ω oznacza, że wartość teoretyczna wariancji-kowariacji zaburzeń losowych jest zastąpiona jej estymatorem z próby. Dla macierzy (8.8) łatwo wyznaczymy macierze (8.9) Ω = L NM 0 0 x 0 0 x 0 0 x n oraz P. (Dla macierzy z daszkiem obowiązuje (8.3), a więc P P = Ω oraz P Ω P = I.) Mamy zatem L 0 0 x (8.0) P = M 0 0 x 0 0 NM Wówczas transformacja pierwotnego równania regresji ma postać: (8.) Py = PX β + P ε. x n Dla równania i tej obserwacji każdy składnik równania jest podzielony przez x i : (8.) y x i O QP O QP. Ω β x3 i xki ε i = + β + β β K +. x x x x i i i i Wielkość x i możemy traktować jako wagę, przypisaną i-tej obserwacji. W związku z tym opisany wyżej zabieg usuwania heteroscedastyczności sprowadzający się do przeważenia i-tej obserwacji przez x i zwany jest również ważoną uogólnioną metodą najmniejszych kwadratów. Zauważmy, że nowa zmienna objaśniana y x i transformowanego równania regresji (8.) ma sensowną interpretację ekonomiczną. Jest to udział wydatków żywnościowych 5

116 w dochodach i tego gospodarstwa domowego. Modele postaci (8.) są często stosowane w ekonometrii i zwane są ze względu na interpretację zmiennej objaśnianej - modelami na udziałach. 8.5 Odporny na heteroskedastyczność estymator White`a macierzy wariancjikowariancji dla b wyznaczonego za pomocą MNK Z rozważań podrozdziału 8.. wiemy, że estymatory MNK stosowane w sytuacji UMNK są nadal nieobciążone, ale przestają być najbardziej efektywne. W podrozdziale 8.4. zapoznaliśmy się z jedną z najprostszych metod poszukiwania estymatora bardziej efektywnego w sytuacji heteroscedastyczności. Można odnieść nie pozbawione zdrowego rozsądku przekonanie, że zabiegi usuwania efektów heteroscedastyczności są w praktyce niezwykle uciążliwe, a ponadto są one oparte na dość arbitralnych założeniach co do postaci heteroscedastyczności. Rodzi się pytanie, czy nie ma sposobu prostszego na przezwyciężenie ujemnych efektów heteroscedastyczności? Oczekiwaniom pozytywnej odpowiedzi na to pytanie przychodzi metoda White`a, pozwalająca wyznaczyć odporny na heteroskedastyczność estymator macierzy wariancji-kowariancji dla b wyznaczonego za pomocą MNK. Przywołajmy wzór (8.0) na wariancję estymatora b wyznaczonego metodą najmniejszych kwadratów (8.0) var( b) = ( X X) X ( σ Ω ) X( X X) White wykazał, że przy bardzo ogólnych założeniach co do postaci heteroscedastyczności, zgodnym estymatorem macierzy wariancji-kowariancji b jest : (8.3) F I HG K J F IF I HG i KJ HG K J = b g 0b g n Est. Var( b) = X X ei xixi X X n n n n gdzie skrót Est. oznacza estymator, (8.4) zaś S 0 = n X X S X X n = e i x i x i. n i= 6

117 W literaturze ekonometrycznej błędy standardowe dla b k od nazwiska autora noszą nazwę błędów standardowych White`a. Przykład 8.4 Kontynuacja przykładu 8.. Porównamy wyniki estymacji modelu, gdzie błędy standardowe są wyznaczone tak, jak w metodzie najmniejszych kwadratów, z estymacją, w której wykorzystano odporne błędy standardowe. Poniżej wyniki obu estymacji: Obie estymacje różnią się nieznacznie wielkością błędów standardowych, a tym samym wartościami statystyki t-studenta. Po zastosowaniu odpornych błędów standardowych wartości tych błędów nie uległy wyraźnemu zmniejszeniu (co do wartości bezwzględnej), co oznacza że heteroskedastyczność w modelu jest wielkością zaniedbywalną. 8.6 Testowanie autokorelacji: testy Durbina-Watsona i Breuscha-Godfrey a 7

118 Jak już sygnalizowaliśmy, autokorelacja zaburzeń losowych jest częstym zjawiskiem w modelach szacowanych na podstawie szeregów czasowych. W związku z tym dla oznaczenia numeru obserwacji będziemy używać indeksu t i zakładać, że t =,,, T. Test Durbina-Watsona jest powszechnie stosowanym testem wykrywania autokorelacji pierwszego rzędu, a więc autokorelacji między sąsiednimi zaburzeniami losowymi. Autokorelację pierwszego rzędu opisuje równanie: (8.5) ε = ρε + u t t t gdzie ρ jest współczynnikiem autokorelacji zaburzeń, zaś ut ~ iin ( 0, σ ) jest zaburzeniem o identycznych i niezależnych rozkładach normalnych; (iin jest anglojęzycznym skrótem nazwy independent and identically normally distributed. Idea testu jest następująca: Weźmy sumę kwadratów różnic sąsiednich reszt podzieloną przez sumę kwadratów reszt, po przekształceniach otrzymujemy: (8.6) d = T t = ( e e ) t T t= e t t = T t= T T t t t t t = t = T et t= e + e e e gdzie ρ jest współczynnikiem autokorelacji reszt pierwszego rzędu (8.7) ρ = T T t = t= e e t t T et t = e t zaś symbol " " oznacza w przybliżeniu równe., ρ Wyrażenie (8.6) oznaczone przez d lub niekiedy przez DW znane jest pod nazwą statystyki Durbina-Watsona. Statystyka ta jest rutynowo liczona przy szacowaniu regresji w prawie wszystkich pakietach ekonometrycznych. Ponieważ (8.8) d ( ρ ), zaś ρ, to (8.9) 0 d 4. Powyższy wzór wskazuje, że obliczona wartość d leży między tymi granicami. Z (8.8) wynika, że jeśli ρ = 0 to d =. A więc jeśli nie zachodzi dodatnia autokorelacja pierwszego rzędu to oczekujemy, że wartość d winna wynosić około. Dlatego przyjmujemy jako regułę kciuka, że jeśli w szacowanym modelu d wynosi lub jest w przybliżeniu równe 8

119 , to nie występuje autokorelacja pierwszego rzędu, ani dodatnia, ani ujemna. Jeśli ρ = +, to w modelu zachodzi doskonała dodatnia korelacja reszt, wówczas d 0. Stąd im obliczone d leży bliżej zera to mamy do czynienia z wyższą dodatnią autokorelacją. W praktycznych zastosowaniach testu Durbina-Watsona wykonujemy następujące kroki.. Szacujemy za pomocą MNK równanie regresji i wyznaczamy reszty e i.. Obliczamy statystykę d (większość programów komputerowych wykonuje takie obliczenia rutynowo). 3. Stawiamy hipotezę zerową H 0 :ρ = 0 (brak autokorelacji) wobec hipotezy alternatywnej H :ρ > 0. Ten rodzaj hipotezy jest zdecydowanie najczęstszym przypadkiem, gdyż korelacja ujemna, chociaż teoretycznie możliwa, w praktyce jest sytuacją wyjątkową. 4. Weryfikujemy hipotezę zerową. Z tablic rozkładu statystyki d Durbina-Watsona dla danej wielkości próby T oraz danej liczby regresorów K znajdujemy dwie wartości: d L oraz du, gdzie L oznacza (lower - dolną) oraz U (upper górną) granicę przedziału, między którymi znajduje się rzeczywista wartość krytyczna, na ogół podawana dla poziomu istotności α = 0, 05. Dodajmy, że dokładna wartość krytyczna tej statystyki jest nieznana, gdyż zależy ona od macierzy obserwacji na zmiennych objaśniających X. Tablice Durbina- Watsona znajdują się w większości rozszerzonych podręczników ekonometrii. Dla przykładu podamy dolne i górne granice dla 5 % poziomu istotności testu Durbina-Watsona dla kilku wybranych wielkości próby T oraz kilku wybranych liczb regresorów K. Szersza tablica załączona jest niżej. TABLICA 8. : Granice dla 5 % poziomu istotności d L oraz d U STATYSTYKI DURBINA- WATSONA Liczba regresorów (z wyłączeniem stałej) K = 3 K = 5 K = 7 K = 9 Liczba Obserwacji d L d U d L d U d L d U d L d U T = 5,06,550,038,767 0,868,0 0,70,80 T = 50,46,68,378,7,9,8,0,930 9

120 T = 75,57,680,55,739,458,80,399,867 T = 00,634,75,59,758,550,803,506,850 T = 00,748,789,78,80,707,83,686,85 0

121 a k' is the number of regressors excluding the intercept. Źródło: N. E. Savin; Kenneth J. White Econometrica, Vol. 45, No. 8. (Nov., 977), pp

122 Jeśli d < d L to odrzucamy H 0 :ρ = 0 i przyjmujemy H :ρ > 0, oznacza to, że występuje dodatnia autokorelacja zaburzeń losowych. Jeśli d d d, to test jest nie rozstrzygnięty, oznacza to, że za pomocą testu Durbina- L U Watsona nie możemy rozstrzygnąć czy istnieje, czy nie istnieje dodatnia autokorelacja. Jeśli d losowych. > d U, to przyjmujemy H 0 :ρ = 0, oznacza to brak dodatniej autokorelacji zaburzeń Niekiedy alternatywną hipotezą jest występowanie ujemnej autokorelacji. Przy doskonałej ujemnej autokorelacji wartość statystyki d, jak wynika z (8.9) jest równa 4. Stąd, ze względu na symetrię statystyki d wokół wartości, przy weryfikacji ujemnej autokorelacji za granicę dolną możemy przyjmować 4 d U i za górną 4 d L. Okazało się w praktycznych zastosowaniach, że nadzwyczaj popularny test Durbina-Watsona ma szereg istotnych wad. Wymienimy jedynie najważniejsze z nich:. Istotnym jego mankamentem jest przedział nie rozstrzygnięcia testu. Jest to sytuacja bardzo częsta w praktyce modelowania, a jednocześnie niezwykle niewygodna dla badacza, gdyż nie wiadomo, czy występuje, czy nie występuje autokorelacja. Zauważmy jednak, że im większa jest próba, tym węższy jest przedział nie rozstrzygnięcia testu. Wśród dalszych niedogodności tego testu wymienimy następujące:. Test ten ma zdolność wykrywania autokorelacji tylko pierwszego rzędu. W danych kwartalnych lub miesięcznych możemy oczekiwać autokorelacji równej liczbie obserwacji w cyklu sezonowym (np. czwartego rzędu dla obserwacji kwartalnych). 3. Test daje odpowiedzi poprawne, gdy zmienne objaśniające są stałe w powtarzalnych próbach, a nie losowe, co jest najczęstszym przypadkiem. 4. Model nie może zawierać jako regresorów zmiennych opóźnionych, co jest nierzadkim przypadkiem modelowania dynamicznego. 5. Test jest bardzo czuły na założenie normalności zaburzeń losowych i zawodzi, gdy zaburzenia nie mają tego rozkładu. Przykład 8.5 W przykładzie posłużymy się danymi miesięcznymi za lata dla Polski dotyczącymi wielkości produkcji sprzedanej w przemyśle w mln. zł wyrażonej w cenach ze stycznia 003 oraz przeciętnego zatrudnienia w przemyśle wyrażonego w tysiącach zatrudnionych. Oszacujemy model na logarytmach zmienna zależną jest logarytm produkcji, natomiast zmienną objaśniającą - logarytm zatrudnienia. Za pomocą statystyki Durbina Watsona sprawdzimy, czy w modelu występuje autokorelacja reszt.

123 Ponieważ próbkowe oszacowanie korelacji pierwszego rzędu jest dodatnie, to testujemy H : ρ = 0 (brak autokorelacji pierwszego rzędu) wobec 0 H : 0 ρ > (autokorelacja dodatnia). Z tablic odczytujemy wartości krytyczne dla K = (liczba szacowanych parametrów) i T = 39 (ilość obserwacji): d L =, 43 i d U =,54. Statystyka testowa jest mniejsza od dolnej wartości krytycznej ( d = 0, <,43 = dl ), więc odrzucamy hipotezę zerową o braku autokorelacji pierwszego rzędu na rzecz hipotezy alternatywnej w modelu występuje dodatnia autokorelacja. Wymienionych wad nie posiada test Breuscha-Godfrey a, oznaczony skrótem BG, (zwany również niekiedy testem LM od anglojęzycznej nazwy Lagrange Multiplier test mnożników Lagrange a) który jest testem ogólnym wykrywania autokorelacji w tym sensie, że wykrywa autokorelacje wyższych rzędów, zachodzące między zaburzeniami losowymi. Idea testu jest następująca. Niech model z K regresorami ma tradycyjną postać: (8.30) yt = β + β xt + + β K xkt + ε t. Załóżmy, że występuje autokorelacja zaburzeń losowych rzędu p, którą przedstawia równanie: (8.3) ε t = ρε t + ρε t + + ρ pε t p + ut, gdzie u ~ N ( 0, σ I), tak jak poprzednio. Na przykład dla danych kwartalnych p = 4. Weryfikujemy hipotezę H 0 : (8.3) H0:ρ = ρ = = ρ p = 0, co oznacza, że między zaburzeniami nie zachodzi autokorelacja żadnego rzędu. Procedurę tego testu możemy ująć w następujących krokach:. Szacujemy za pomocą MNK wyjściowe równanie regresji (8.30) i wyznaczamy reszty e t.. Szacujemy równanie regresji pomocniczej, w którym zmienną objaśnianą są reszty e t z równania wyjściowego (8.30), zaś zmiennymi objaśniającymi wszystkie regresory z równania wyjściowego oraz dodatkowo p opóźnionych reszt: e, e,, e wyznaczonych t t t p również z tego równania. Równanie regresji pomocniczej ma więc postać: 3

124 (8.33) e = α + α x + + α x + ρ e + ρ e + + ρ e + u. t t K Kt t t p t p t Zauważmy, że przy oszacowaniu regresji pomocniczej (8.33), ze względu na opóźnione reszty, tracimy p pierwszych obserwacji, w związku z tym dysponujemy jedynie T-p obserwacjami. Dla regresji pomocniczej (8.33) wyznaczamy R. 3. Stawiamy hipotezę zerową H0:ρ = ρ = = ρ p = 0 wobec hipotezy alternatywnej, że nie wszystkie ρ są jednocześnie równe zero. Hipoteza H 0 jest hipotezą o braku autokorelacji. 4. Breusch i Godfrey wykazali, że dla dużych prób, a więc asymptotycznie - statystyka (T-p) R ma rozkład chi-kwadrat o p stopniach swobody, a więc: (8.34) ( T p) R ~ Asy. χ p. 5. Weryfikujemy hipotezę H0:ρ = ρ = = ρ p = 0 za pomocą statystyki (T-p) R. Jeśli ( T p) R > χ p to odrzucamy hipotezę zerową, że między zaburzeniami nie zachodzi autokorelacja żadnego rzędu i przyjmujemy hipotezę alternatywną o występowaniu autokorelacji. Test BG nie nakłada żadnych ograniczeń na zmienne objaśniające, tak jak czyni to test Durbina-Watsona. Gdy p =, a więc - gdy proces autoregresyjny jest procesem pierwszego rzędu to test BG znany jest wtedy pod nazwą Testu M Durbina. Istotną wadą tego testu jest brak wskazówek, co do wyboru wartości p, określającej rząd procesu autoregresyjnego. Dobór p wymaga eksperymentowania. Niekiedy jest to ilość obserwacji w cyklu sezonowym (na przykład p = 4 dla danych kwartalnych). W praktyce wybieramy większą wartość p od postulowanej przez sens ekonomiczny równania i testujemy hipotezę, czy ρ p = 0. Jeśli tak, to zmniejszamy liczbę opóźnień o i powtarzamy procedurę tak długo, aż odrzucimy hipotezę, że ρ p = 0. W ten sposób wyznaczone p jest żądaną liczbą opóźnień. Przykład 8.6 Kontynuacja przykładu 8.5. Za pomocą testu BG zweryfikujemy hipotezę o występowaniu autokorelacji rzędu drugiego. Poniżej wyniki estymacji regresji pomocniczej (uhat reszty z regresji podstawowej; uhat_, uhat_ reszty opóźnione odpowiednio o i okresy): 4

125 Wyznaczamy wartość statystyki testowej: ( T p) R = (39 )*0,4768=7,64007 Natomiast wartość krytyczna wynosi: * χ = χ 0,95; = 5, Statystyka testowa przewyższa wartość krytyczną, co implikuje odrzucenie hipotezy zerowej zakładającej brak autokorelacji rzędu drugiego. 8.7 Estymacja macierzy wariancji-kowariancji zaburzeń losowych w przypadku autokorelacji zaburzeń pierwszego rzędu Analogicznie jak w przypadku praktycznego usuwania negatywnych efektów heteroscedastyczności, usuwanie efektów autokorelacji nazywamy stosowalną uogólniona metodą najmniejszych kwadratów. Przyjmijmy, że oczekujemy, że zaburzenia losowe powiązane są procesem autokorelacyjnym pierwszego rzędu, opisanym równaniem (8.) ε = ρε + u t t t gdzie ρ jest współczynnikiem autokorelacji zaburzeń. Można łatwo pokazać, że w tym przypadku macierz wariancji-kowariancji zaburzeń ma postać: (8.35) Var( ε X ) = σ Ω = σ L NM ρ ρ ρ T ρ ρ ρ ρ ρ ρ T T 3 ρ ρ ρ T T T 3 Jeśli taką macierz wstawimy do równania ~ (8.6) b = [( PX) ( PX)] ( PX) Py = ( X X) X Ω Ω y, to oszacujemy efektywny estymator b ~. O QP 5

126 W praktycznych zastosowaniach szacujemy ρ na podstawie wzoru: (8.7) ρ = T T t = t= e e t t T et t = e t, a następnie szacujemy za pomocą MNK model: b g, (8.36) y ρ y = β ρ + β ( x ρ x ) + + β ( x ρ x ) + ε ρ ε t t t t K Kt Kt t t w którym, jak wynika z (8.3), nowe zaburzenie u t = ε t ρε t nie zawiera autokorelacji. Przy tej metodzie, zwanej od nazwisk jej autorów metodą Cochrane- Orcutta, tracimy pierwszą obserwację, w związku z czym w próbie użytej do oszacowania mamy jedynie T- obserwacji. Przykład 8.7 Do regresji z przykładu 8.5 zastosujemy przekształcenie Cochrane Orcutta. Zaczynamy od oszacowania ρ. Najprościej oszacować ten parametr na podstawie regresji pomocniczej: gdzie e e u t = ρ t + t, e t są resztami z estymacji metodą najmniejszych kwadratów modelu wyjściowego. Wyniki oszacowania regresji poniżej: Następnie wyznaczamy przekształcone zmienne zgodnie z formułą: y = l _ prod 0,6943* l _ prod t t t x = l _ zatr 0,6943* l _ zatr t t t Poniżej wyniki regresji na przekształconych zmiennych: 6

127 Wartość statystyki Durbina Watsona tym razem wskazuje na brak autokorelacji pierwszego rzędu ( d =,8749 >,53 = du ). 8.8 Odporny na heteroskedastyczność i odporny na autokorelację estymator Neweyà- Westa macierzy wariancji-kowariancji dla b oszacowanego za pomocą MNK Analogicznie do odpornego na heteroskedastyczność estymatora Whiteà ekonometrycy Newey i West zaproponowali odporny na heteroskedastyczność i na autokorelację (o niesprecyzowanej strukturze) estymator macierzy wariancji-kowariancji dla b, oszacowanego za pomocą MNK. Newey i West wykazali, że odpornym na przypadek heteroscedastyczności i jednocześnie odpornym na bliżej nieokreśloną strukturę autokorelacji jest zgodny estymator macierzy wariancji-kowariancji dla b, postaci: L T j (8.37) Est. Var( b) = S0 + e e x x x x T L + gdzie j= t = j+ S 0 jest wyrażeniem określonym przez (8.4) S 0 F I HG K J + t t jd t t j t j ti, T = e t x t x t, zaś L jest maksymalną liczbą opóźnień. T t = W praktycznych zastosowaniach gdy nieznana jest maksymalna liczba opóźnień przyjmuje się, że jest ona liczbą całkowitą w przybliżeniu równą L T 4. Estymator odporny Neweyà-Westa jest liczony standardowo przez większość pakietów ekonometrycznych. Podsumowanie. Przypadki heteroskedastyczności lub autokorelacji zaburzeń losowych wymagają stosowania uogólnionej metody najmniejszych kwadratów, co niekiedy znacznie poprawia efektywność oszacowań.. Wykrywanie heteroskedastyczności przeprowadza się za pomocą testów Goldfelda-Quandta, Breuscha-Pagana lub Whiteà. 3. Usuwanie efektów heteroskedastyczności wymaga oszacowania macierzy wariancji-kowariancji reszt. 7

128 4. W sytuacji bliżej nieznanej postaci heteroskedastyczności rekomendowane jest stosowania odpornego na heteroskedastyczność estymatora White`a. 5. Wykrywanie autokorelacji przeprowadza się za pomocą testów Durbina- Watsona lub Breuscha-Godfreya. 6. Usuwanie efektów autokorelacji wymaga oszacowania macierzy wariancjikowariancji reszt. 7. W sytuacji bliżej nieznanej postaci heteroskedastyczności i autokorelacji rekomendowane jest stosowania odpornego na heteroskedastyczność i autokorelację estymatora Newey`a-Westa. 8

129 9. DIAGNOSTYKA W KMRL Diagnostyką nazywamy sprawdzanie poprawności specyfikacji równania regresji. Jest to ważny etap modelowania, następujący po oszacowaniu równania regresji. Sprawdzeniu temu służą testy, zwane testami diagnostycznymi lub testami specyfikacji. Niektóre z nich omówiliśmy już poprzednio, jak na przykład testy t Studenta weryfikacji istotności pojedynczych zmiennych objaśniających, test łącznej istotności równania regresji, czy test pominiętych zmiennych, zaprezentowany w rozdziale 5, czy też wreszcie testy heteroskedastyczności i autokorelcji, przedstawione w rozdziale 8. Na szczególną uwagę zasługują test Whiteà i test Ramseyà, zwany testem RESET. 9.. Test Whiteà Test ten, jak już wspomnieliśmy w rozdziale 8, można traktować jako ogólny test niewłaściwej specyfikacji równania regresji. Sprawdza on hipotezę:. Czy równanie regresji ma poprawną specyfikację matematyczną? Błąd niepoprawnej specyfikacji oznacza, że niektóre lub wszystkie zmienne y lub X winny być transformowane, a więc przedstawione jako funkcje potęgowe, logarytmiczne, odwrotności lub inne funkcje wyjściowych zmiennych.. Czy występuje homoskedastyczność zaburzeń losowych?. 3. Czy zmienne objaśniające ze zbioru X nie są skorelowane z zaburzeniem losowym ε? Występowanie takiej korelacji wywołuje obciążoność i niezgodność estymatorów MNK. Małe wartości statystyki Whiteà wskazują, że żaden z tych trzech przypadków nie jest naruszony, jednak niespełnienie któregokolwiek z nich prowadzi do dużej wartości statystyki. Test Whiteà nie podpowiada, jak należy zmodyfikować równanie regresji, aby warunki te były spełnione. Uzyskanie poprawnego modelu wymaga w takiej sytuacji dalszych żmudnych zabiegów, popartych dobrym przygotowaniem ekonomicznym w zakresie istoty modelowanego zagadnienia. 9. Test RESET błędu specyfikacji postaci funkcyjnej równania regresji Ramseyà. Błąd specyfikacji jest ogólnym określeniem dla odchyleń od założeń przyjętych w modelu. W rozważanym przez nas przypadku, modelem tym jest klasyczny model regresji liniowej. Test 9

130 RESET (Regression Specification Error Test) jest ogólnym testem wychwytującym następujące błędy:. Błąd poprawnej specyfikacji matematycznej równania regresji. Błąd ten oznacza, analogicznie jak w teście White`a, że niektóre lub wszystkie zmienne y lub X winny być transformowane, a więc przedstawione jako funkcje potęgowe, logarytmiczne, odwrotności lub inne funkcje wyjściowych zmiennych.. Błąd pominiętych zmiennych. Jak wiemy błąd ten występuje, gdy w macierzy X pominięte zostały istotne zmienne objaśniające. 3. Błąd korelacji między X i ε wywołany skorelowaniem niektórych zmiennych ze zbioru X z zaburzeniem losowym ε lub błędem pomiaru niektórych zmiennych objaśniających lub autokorelacją zaburzenia losowego. W takich przypadkach ze względu na obciążoność i niezgodność estymatorów MNK zawodzą procedury testowania wykorzystujące testy t Studenta, χ oraz F. Test RESET jest oparty na regresji rozszerzonej, w której obok zmiennych objaśniających X występuje drugi zbiór zmiennych Z, zawierający potęgi wartości wyliczonych zmiennej objaśnianej y, (najczęściej drugie i trzecie, niekiedy również wyższe), a więc: 3 Z = cy, yh. Procedura testowania przebiega w następujących krokach:. Rozwiązujemy wyjściowe równanie regresji, które oznaczmy przez (9.) y = Xβ + ε. Z rozwiązania wyznaczamy wartości wyliczone zmiennej objaśnianej ŷ, a następnie ich kwadraty ŷ i trzecie potęgi ŷ 3, a więc macierz Z oraz współczynnik determinacji tego równania, który oznaczymy przez R.. Szacujemy równanie regresji rozszerzonej (9.) y = Xβ + Zγ + u, w której obok regresorów równania wyjściowego (9.) dodane są regresory Z i wyznaczamy współczynnik determinacji tego równania, oznaczony przez R, a łączną liczbę regresorów tego równania oznaczmy jak zwykle przez K. 3. Stawiamy hipotezę zerową H 0 :γ = 0 (równanie regresji jest poprawnie wyspecyfikowane) wobec hipotezy alternatywnej H :γ 0 (równanie regresji jest niepoprawnie wyspecyfikowane). 30

131 4. Wyznaczamy statystykę F Fishera-Snedecora cr Rh (9.3) F(, n K) =. R ( n K) c h 5. Weryfikujemy hipotezę zerową. Jeśli obliczone F jest większe od wartości krytycznej, to odrzucamy hipotezę zerową o poprawności wyspecyfikowania równania wyjściowego. Test Ramsey`a jest uważany za test dużej mocy, mający zdolność odrzucenia hipotezy zerowej w sytuacji, gdy jest ona fałszywa. Liczne badania nad testem Ramsey`a wskazały, że test ten wykrywa niepoprawną specyfikację równania regresji, o którym z góry wiadomo, że jest źle wyspecyfikowane, a w którym zarówno R, jak i test autokorelacji Durbina-Watsona, jak i statystyki t-studenta wskazują, że równanie należałoby uznać za poprawne. Test ten jest rekomendowany we wszystkich sytuacjach, w których podejrzewamy niewłaściwą specyfikację równania. Niestety, test ten nie wskazuje w hipotezie alternatywnej - jaka powinna być specyfikacja poprawna. Zadanie to musi rozwiązać badacz. Przykład 9. W przykładzie tym posłużymy się danymi z przykładu 5.8. Ponownie oszacujemy regresję, w której zmienną zależną jest logarytm płac, natomiast zmienne niezależne to: wiek, wiek podniesiony do kwadratu, płeć, wykształcenie (średnie, wyższe; za poziom bazowy przyjmujemy wykształcenie podstawowe), miejsce zamieszkania (małe miasto, średnie miasto, duże miasto; za poziom referencyjny przyjmujemy wieś) oraz stan cywilny zmienna ta przyjmuje wartość, jeśli kawaler lub panna oraz 0 w pozostałych przypadkach.. Poniżej wyniki estymacji: 3

132 Następnie szacujemy równanie regresji rozszerzonej (zmienne y_ i y_3 to odpowiednio wartości wyliczone podniesione do i 3 potęgi): Obie regresje zostały oszacowane na próbie liczącej 089 obserwacji (n = 089), natomiast liczba szacowanych parametrów w regresji rozszerzonej wynosi (K = ). Wyznaczamy wartość statystyki testowej: ( R R ) ( ) (0,4833-0,38005)/ F = = = 7, R ( n K) (-0,4833)/(089-) Odczytujemy wartość krytyczną z tablic: F krytyczne (,077) = 3, Ponieważ wartość statystyki testowej przewyższa wartość krytyczną, więc odrzucamy hipotezę zerową, co oznacza, że równanie ma złą formę funkcyjną. 9.3 Test niezagnieżdżonych alternatyw Przypomnijmy rozważania z rozdziału 5, w którym określiliśmy model szerszy, z wszystkimi zmiennymi objaśniającymi i model węższy - z niepełną listą zmiennych objaśniających. Powiedzieliśmy, że model szerszy, a więc bez restrykcji obejmuje model z restrykcjami, zaś o modelu z restrykcjami powiedzieliśmy, że jest modelem zagnieżdżonym w modelu szerszym, tym bez restrykcji. Testowanie poprawności specyfikacji takich modeli przeprowadzaliśmy za pomocą test F, porównując sumy kwadratów reszt obydwu modeli. Było to możliwe, gdyż model węższy był zagnieżdżony w modelu szerszym. Jeśli jednak 3

133 chcemy porównać dwa modele o odmiennych zbiorach zmiennych objaśniających, a więc dwa modele alternatywne, nie zagnieżdżone jeden w drugim, to poprzednio omówiona procedura testowania staje się niepoprawna. W sytuacjach takich należy zastosować test Mizona Richarda lub test Davidsona MacKinnona. Omówimy je kolejno. Test Mizona Richarda Rozważmy przykład, w którym chcemy ustalić, czy poprawną specyfikacją jest jeden z dwóch modeli, a mianowicie model w którym zmienne objaśniające są zmiennymi pierwotnych obserwacji, które nazwijmy zmiennymi pierwotnymi i model ze zlogarytmowanymi zmiennymi pierwotnymi. Niech modele te mają postać: (9.4) y = α + α x + α x + ε i i 3 3 i i, (9.5) y = β + β ln x + β ln x + u. i i 3 3i i Model te nie są modelami zagnieżdżonymi, a więc nie możemy zastosować standardowego testu F dla weryfikacji, który z nich ma poprawną specyfikację. Mizon i Richard proponują utworzenie pomocniczego modelu, zagnieżdżającego obydwa modele. Model pomocniczy przyjmuje postać: (9.6) y = γ + γ x + γ x + γ ln x + γ ln x + v. i i 3 3i 4 i 5 3i i Dla testowania poprawności modelu (9.4) stawiamy hipotezę H 0 :γ 4 = γ 5 = 0, zaś dla testowania modelu (9.5) stawiamy hipotezę H 0 :γ = γ 3 = 0. Dalej postępujemy jak w przypadku modeli zagnieżdżonych.. Test Davidsona MacKinnona. Inny test zaproponowali Davidson i MacKinnon. Test jest oparty na następującym rozumowaniu. Jeśli model (9.4) jest modelem poprawnym, to wartości wyliczone z modelu (9.5) dodane do modelu (9.4) winny być statystycznie nieistotne. Tak więc dla testowania (9.4) szacujemy najpierw za pomocą MNK model (9.5) i wyznaczamy wartości wyliczone, oznaczone przez ŷ i. Tworzymy równanie pomocnicze: 33

134 (9.7) y = γ + γ x + γ x + α y + zaburzenie i i 3 3i i Wówczas test Davidsona MacKinona poprawności specyfikacji równania (9.4) jest testem t Studenta dla hipotezy H 0 :α = 0. Podobnie, jeśli przez ŷ i oznaczymy wartości wyliczone z równania (9.4), to równanie pomocnicze przyjmie formę: (9.8) y = β + β ln x + β ln x + δ y + zaburzenie i i 3 3i i W tej sytuacji test poprawności specyfikacji równania (9.5) jest testem t Studenta dla hipotezy H 0 :δ = 0. Może się zdarzyć, że testy wskażą, że żaden z dwóch konkurujących modeli nie jest poprawny i obydwa powinny być odrzucone lub odwrotnie, obydwa modele mogą być akceptowane. W pierwszym przypadku należy poszukiwać innych specyfikacji dla poszukiwanego modelu, na przykład modelu z potęgami. W drugim przypadku można przyjąć za poprawny model ten o wyższym skorygowanym współczynniku R, a ostateczny wybór uzależnić od ekonomicznego sensu rozważanego problemu. Daleko bardziej złożony jest problem, gdy obydwa modele mają inne zmienne objaśniane, na przykład y i oraz ln y i. Istnieją propozycje testowania takich sytuacji, lecz złożoność procedur testowania jest tak znaczna, że wykracza poza ramy tego podręcznika. Przykład 9. Celem przykładu jest prezentacja testu Mizona Richarda. Dysponujemy następującymi zmiennymi: płaca miesięczne zarobki w złotówkach; wiek wiek wyrażony w latach; edukacja liczba lat nauki wyrażona w latach. Zmienne ln_wiek oraz ln_edukacja to wyjściowe zmienne po zlogarytmowaniu. Chcemy oszacować regresję, w której płace uzależnimy od wieku i oraz liczby lat nauki. Pojawia się pytanie, czy powinniśmy logarytmować zmienne objaśniające? Do sprawdzenia tego posłuży nam test Mizona Richarda. Poniżej wyniki regresji, w której zagnieżdżone są modele 9.4 i 9.5: 34

135 Sprawdźmy najpierw czy poprawnym modelem jest ten, w którym zmienne niezależne są zlogarytmowane. Sprowadza się to do przetestowania następującej hipotezy: H : 0. 0 βwiek = βedukacja = Poniżej wyniki estymacji modelu z ograniczeniami: Liczba obserwacji wynosi 087 (n = 087). Wyznaczamy statystykę testową: ( R RR ) J (0, , )/ F = = = 3, ( R ) /( T K) ( 0,047609)/(087-5) Wyznaczamy wartość krytyczną: F krytyczne (,08) = 3, Ponieważ wartość statystyki testowej jest większa od wartości krytycznej, więc odrzucamy hipotezę zerową. Oznacza to, że model, w którym zmienne niezależne zostały zlogarytmowane jest niepoprawny. Sprawdzimy jeszcze, czy właściwym modelem jest model, w którym wyjściowe zmienne nie zostały zlogarytmowane. Jeśli tak jest, to nie powinniśmy mieć podstaw do odrzucenia hipotezy H0 : βln_ wiek = βln_ edukacja = 0. Poniżej wyniki regresji z ograniczeniami: Wyznaczamy statystykę testową: 35

136 R R J F = = = ( R ) /( T K) ( 0,047609)/(087-5) ( R ) (0, ,044379)/, Ponieważ wartość statystyki testowej jest mniejsza od wartości krytycznej (ta sama, co w poprzednim teście), więc nie ma podstaw do odrzucenia hipotezy zerowej. Oznacza to, że model, w którym zmienne niezależne nie zostały zlogarytmowane jest poprawny. Sprawdzimy jeszcze czy te same wnioski można wyciągnąć za pomocą testu Davidsona MacKinona. Wyniki regresji placai = β + β ln_ wieki + β3 ln_ edukacjai + δ yi + εi, gdzie y oznacza wartości wyliczone z regresji, w której wyjściowe zmienne nie zostały zlogarytmowane, znajdują się poniżej: Zmienna y jest istotna na poziomie istotności 0,05 (p-value = 0,0433 < 0,05), co implikuje, że model na logarytmach nie jest właściwy. Wyniki regresji placa = β + βwiek + β3 edukacja + δ y + ε, gdzie y oznacza wartości i i i i i wyliczone z regresji, w której wyjściowe zmienne zostały zlogarytmowane, znajdują się poniżej: Zmienna y jest nieistotna na poziomie istotności 0,05 (p-value = 0,46084 > 0,05), co implikuje, że model, w którym wyjściowe zmienne nie zostały zlogarytmowane jest poprawny. Oba testy dają więc ten sam rezultat. 9.4 Testy stabilność parametrów Chowa Testy stabilności sprawdzają hipotezy, czy parametry modelu są stabilne w różnych podpróbach dla przypadku danych przekrojowych lub w różnych podokresach czasu dla przypadku szeregów czasowych. W tym drugim przypadku testy stabilności zwane są testami punktu zwrotnego lub testami zmian strukturalnych. 36

137 Rozpoczniemy od przypadku danych przekrojowych. Załóżmy, że szacujemy regresję płac dla kobiet i mężczyzn za pomocą równania: (9.9) placa = β + β plec + β nauka + β wiek + β wiek + β staz + β staz + ε i i 3 i 4 i 5 i 6 i 7 i i gdzie: placa i - płaca miesięczna i tej osoby, plec i - płeć i tej osoby, nauka i - lata nauki i tej osoby, wiek i - wiek i tej osoby mierzony w latach, wiek i - wiek do kwadratu i tej osoby, staz i - staż pracy i tej osoby mierzony w latach, staz i - staż pracy do kwadratu i tej osoby mierzony w latach. Z rozważań nad zmiennymi 0- wiemy, że wpływ wykształcenia, ze względu na walory interpretacyjne, lepiej oddają zmienne postaci 0-. Zdefiniujmy dwie takie zmienne, a mianowicie: R S T R T S jesli i ta osoba ma wyksztalcenie wyzsze, wyzszei = 0 jesli inne, jesli i ta osoba ma wyksztalcenie srednie, sredniei = 0 jesli inne, gdzie kategorią referencyjną jest wykształcenie podstawowe. Model regresji wygląda wtedy następująco: (9.0) placa = β + β plec + β wyzsze + β srednie + β wiek + β wiek + β staz + β staz + ε i i 3 i 4 i 5 i 6 i 7 i 8 i i Zauważmy, że przy takiej specyfikacji równania zakładamy, że zróżnicowanie płac ze względu na płeć oddaje parametr β, zaś efekty wykształcenia, wieku i stażu są dla obu płci jednakowe. Możemy jednak sensownie zakładać, że efekty wykształcenia, wieku i stażu są odmienne dla mężczyzn i dla kobiet, a więc, że parametry β do β przyjmują inne wartości 3 8 dla mężczyzn i inne dla kobiet. Hipotezę taką możemy zweryfikować przy wykorzystaniu testu stabilności parametrów Chowa. Szacujemy trzy jednakowe modele regresji, jednak każdy z nich jest oparty na innej próbie: -szy jest modelem dla próby połączonej mężczyzn i kobiet, -gi dla podpróby tylko mężczyzn i 3-ci - dla podpróby tylko kobiet. We wszystkich trzech modelach postaci (9.0) 37

138 mamy identyczne zmienne objaśniające, różniące się od (9.0) brakiem zmiennej plec i i związanego z nią parametru β. A zatem: (9.) placa = β + β wyzsze + β srednie + β wiek + β wiek + β staz + β staz + ε i 3 i 4 i 5 i 6 i 7 i 8 i i Hipoteza zerowa brzmi - H :β do β są takie same dla mężczyzn, jak i dla kobiet, zaś hipoteza alternatywna - H :β do β są różne dla mężczyzn i kobiet. 3 8 Statystyka testująca opiera się na porównaniu sumy kwadratów reszt dla modelu próby połączonej, w której obserwowani są jednocześnie mężczyźni i kobiety z sumami kwadratów reszt z modeli estymowanych oddzielnie dla każdej z tych dwóch podprób. Oznaczmy przez e e - sumę kwadratów reszt dla próby połączonej, przez e e - sumę kwadratów reszt dla modelu z podpróby mężczyzn, zaś przez e e - sumę kwadratów reszt dla modelu z podpróby kobiet. Wówczas statystyka testu Chowa, przy założeniu, że zaburzenia losowe są normalne, przyjmuje dla naszego przykładu postać następującej statystyki F Fishera-Snedecora: ( e e e e e e ) / 6 (9.) F( 6, n 6) =. ( e e + e e ) / ( n 6) Zauważmy, że stawiamy hipotezę, że 5 parametrów z równania dla mężczyzn jest identyczne z 6-cioma parametrami z równania dla kobiet. Wzór ogólny, gdy liczba porównywanych parametrów wynosi J, ma postać: ( e e e e e e ) / J (9.3) F( J, n J) =. ( e e + e e ) / ( n J) W rozważanym dotychczas przypadku próbę dzieliliśmy na dwie podpróby. Podprób takich może być oczywiście więcej niż dwie. Moglibyśmy na przykład założyć, że mechanizm kształtowania płac jest odmienny dla każdego poziomu wykształcenia. W tym przypadku próbę dzielilibyśmy na trzy podpróby osób o wykształceniu podstawowym, średnim i wyższym i dalsza procedura testowania przebiegałaby analogicznie, z tym że we wzorze na statystykę testującą w jej mianowniku sumy kwadratów reszt dzielilibyśmy nie przez n J, a przez n 3 J. W przypadku, gdy takich podprób byłoby m, to dzielnikiem 38

139 byłoby wyrażenie n m J. Warunkiem testowania jest wymóg, aby liczba obserwacji w każdej podpróbie była większa od liczby szacowanych współczynników. Przykład 9.3 Przeprowadzimy test stabilności parametrów Chowa dla modelu opisanego równaniem 9.. Poniżej wyniki estymacji dla całej próby 087 obserwacji (dla kobiet i mężczyzn): Tę samą regresję szacujemy na próbie kobiet: oraz na próbie zawierającej tylko mężczyzn: Przechodzimy do wyznaczenia statystyki testowej (J = 7 liczba porównywanych parametrów, m = liczba wyodrębnionych podprób): 39

140 e e e e e e m J F = = = ( e e + e e ) /( n m J ) ( ) /(087 *7) ( ) /( )* ( ) /( )*7,5985 Wyznaczamy wartość krytyczną: F * F 0,95 = (7,074) =, Ponieważ wartość statystyki testowej przewyższa wartość krytyczną, więc odrzucamy hipotezę zerową zakładającą stabilność parametrów w obu próbach. Test punktu zwrotnego Chowa (Test stabilności parametrów dla szeregów czasowych). Gdy szacujemy modele na podstawie szeregów czasowych, to często interesuje nas, czy parametry równania nie uległy zmianie w czasie. Testem wykorzystywanym w tej sytuacji jest test stabilności Chowa, zwany wówczas testem punktu zwrotnego. Dla testowania takiej hipotezy dzielimy zbiór obserwacji z całego okresu próby na dwa lub więcej podokresów. Dla ustalenia uwagi przyjmijmy, że T elementowy przedział próby dzielimy na pierwszy podokres, zawierający T obserwacji i drugi, zawierający T obserwacji, tak, że T + T = T. Obowiązuje ten sam wymóg, aby liczba obserwacji w każdym z podokresów była większa od liczby szacowanych współczynników. Dalej procedura testowania przebiega analogicznie jak w przypadku testu stabilności. Teoria ekonometrii nie dostarcza wyraźnych i szybkich reguł dzielenia próby o liczebności T na dwie podpróby T i T. Niekiedy podziały takie są oczywiste, jak na przykład w przypadku szeregów czasowych z okresu przed transformacją i w jej trakcie, gdzie rok 989 oddziela okres gospodarki centralnie planowanej od gospodarki o orientacji rynkowej. Niekiedy może to być data wprowadzenia nowych przepisów, jak na przykład importu używanych samochodów, lub zmiana stałego kursu walutowego na płynny itp. Gdy brak jest a priori wskazówek określających czas wprowadzenia zmiany strukturalnej, to praktyczną zasadą (regułą kciuka) jest użycie 85% do 90% obserwacji dla estymacji i wykorzystanie dalszej części próby dla testowania stabilności parametrów. Dla testu punktu zwrotnego obowiązuje ten sam wzór (9.) na statystykę testującą, jak w przypadku stabilności parametrów, z tym, że na ogół wielkość próby oznaczamy w tej sytuacji przez T, a liczbę szacowanych parametrów jak zwykle przez K. ( e e e e e e ) / K (9.4) F( K, T K) = ( e e + e e ) / ( T K) 40

141 Przykład 9.4 W przykładzie posłużymy się danymi miesięcznymi za lata dla Polski dotyczącymi wielkości produkcji sprzedanej w przemyśle w mln. zł wyrażonej w cenach ze stycznia 003 oraz przeciętnego zatrudnienia w przemyśle wyrażonego w tysiącach. Za pomocą testu punktu zwrotnego Chowa sprawdzimy, czy relacja między poziomem zatrudnienia a wielkością sprzedaną w przemyśle zmieniła się po wejściu Polski do Unii Europejskiej (maj 004). Wszystkie regresje przeprowadzone są na zlogarytmowanych zmiennych. Wyniki oszacowań modelu na całej próbie: Regresja dla okresu przed wstąpieniem do Unii Europejskiej: oraz po wstąpieniu do Unii Europejskiej: Przechodzimy do wyznaczenia statystyki testowej: F K T K ( e e e e e e ) / K (0, ,0983 0,069056)/ ( e e + e e ) /( T K) (0,0983+0,069056)/(39-*) (, ) = = = 4, Wyznaczamy wartość krytyczną: 4

142 F * F 0,95 = (,35) = 3,67435 Wartość statystyki testowej jest większa od wartości krytycznej, co implikuje odrzucenie hipotezy zerowej. Oznacza to, że parametry nie są stabilne w wyodrębnionych próbach, czyli nastąpiła zmiana strukturalna. Test prognozy Chowa Ten sam test jest stosowany w przypadkach wykorzystania modelu regresji dla prognozowania nie na jeden okres, jak to zakładaliśmy w rozważaniach rozdziału 7, poświęconego prognozowaniu, a na kilka lub kilkanaście okresów w przód. Test prognozy Chowa jest testem ex post, a więc testem, który jesteśmy w stanie przeprowadzić po zrealizowaniu się prognoz. Przyjmijmy, że model jest oszacowany na podstawie T obserwacji. Model ten jest następnie wykorzystany do prognozowania wartości zmiennej objaśnianej w T dalszych punktach czasowych. Duże różnice między rzeczywistymi a predykowanymi z modelu wartościami poddają w wątpliwość stabilność równania w obydwu podpróbach. Statystyka testująca F jest w tej sytuacji liczona zgodnie z wzorem: ( e e e e) / T (9.5) F( T, T K) =, e e / ( T K) gdzie e e jest sumą kwadratów dla regresji liczonej na T + T = T obserwacjach, e e jest sumą kwadratów dla regresji liczonej na T obserwacjach, zaś K jest liczbą estymowanych współczynników. Zauważmy, że w tym teście T (a więc liczba punktów czasowych prognozy) może być mniejsze od K (liczby szacowanych parametrów). Przykład 9.5 Posłużymy się tymi samymi danymi co w przykładzie 9.4 dla zobrazowania budowy testu prognoz Chowa. Okresem prognozy są trzy pierwsze miesiące roku 006 ( T = 3 ), natomiast okres próby stanowią wszystkie pozostałe obserwacje ( T = 36 ). Poniżej wyniki estymacji modelu na podstawie danych z obu okresów (okres próby i prognozy): 4

143 Następnie szacujemy model tylko dla okresu próby: Przechodzimy do wyznaczenia statystyki testowej: F ( e e e e ) / T (0, ,35447) / 3 e e /( T K) 0,35447 /(36 ) = = = Odczytujemy wartość krytyczną: F (3,34) =, , Wartość statystyki testowej jest mniejsza od wartości krytycznej, co oznacza, że nie ma podstaw do odrzucenia hipotezy zerowej parametry modelu w okresie prognozy i w okresie próby są takie same. 9.5 Test Jarque-Bera`y normalności zaburzeń. Założeniem o istotnych konsekwencjach dla wnioskowania na podstawie klasycznego modelu regresji liniowej jest założenie o normalności zaburzeń losowych. Jeśli założenie to nie jest spełnione, to procedury testowania oparte na rozkładach związanych z rozkładem normalnym, takich jak rozkład χ, t Studenta, czy F nie są procedurami uprawnionymi w małych próbach 7, gdyż obliczone wartości statystyk nie mają pożądanych rozkładów. Normalność zaburzeń jest zwykle sprawdzana za pomocą miary skośności i miary kurtozy dla reszt, wyznaczonych metodą najmniejszych kwadratów. Oznaczmy drugi moment reszt 7 Zwróćmy uwagę, że testy te w dużych próbach (przy n ) są nadal ważne asymptotycznie nawet jeśli zaburzenia nie mają rozkładu normalnego. 43

144 wokół zerowej średniej, (tak zwany drugi moment centralny) przez σ = e i (Zauważmy, że sumę kwadratów reszt nie dzielimy w tym wypadku przez n - K, a przez n). Oznaczmy go przez µ, zaś pierwiastek z tego wyrażenia jest odchyleniem standardowym n i= n. reszt i wynosi σ = n ei i= 3 n. Podobnie zapiszemy trzeci i czwarty moment: µ 3 = ei n i= n, n 4 µ 4 = ei i= n. Miarę skośności oznaczaną zwykle przez S definiuje się jako iloraz trzeciego momentu przez odchylenie standardowe reszt podniesione do trzeciej potęgi, a więc: 3 ei µ 3 i (9.6) S = = = 3 3 σ σ n n. Jeśli S jest dodatnie, to mówimy o prawostronnej skośności (prawy ogon rozkładu jest dłuższy od lewego) i odwrotnie. Dla rozkładu normalnego S = 0, co oznacza symetrię rozkładu, a więc brak skośności. Miarę kurtozy oznaczaną zwykle przez K definiuje się jako iloraz czwartego momentu przez odchylenie standardowe reszt podniesione do czwartej potęgi, a więc: 4 ei µ 4 i (9.7) K = = = 4 4 σ σ n n. Dla rozkładu normalnego kurtoza wynosi 3. Gdy K > 3 rozkład staje się platokurtyczny (jest spłaszczony; mówimy, że rozkład ma grube ogony) zaś rozkład, w którym K < 3 nazywamy rozkładem leptokurtycznym (jest on smuklejszy od rozkładu normalnego). W oparciu o skośność i kurtozę zbudowany jest test Jarque-Bera normalności zaburzeń. Od nazwiska autorów oznaczany jest przez JB i zdefiniowany następująco: L NM (9.8) JB = n S + K b g O, gdzie S oznacza skośność, zaś K - kurtozę. QP Test ten ma rozkład chi-kwadrat o dwóch stopniach swobody: (9.9) JB ~ χ. Jeśli JB > χ krytyczne to odrzucamy hipotezę o normalności zaburzeń. 44

145 Przykład 9.6 Dla modelu oszacowanego w przykładzie 5.8 przeprowadzimy test Jarque Bera na normalność składnika losowego. Poniżej wyniki testu oraz histogram reszt z nałożoną gęstością rozkładu normalnego: Wartość statystyki testowej wynosi 6809,934, natomiast p-value jest praktycznie równe zero, co oznacza odrzucenie hipotezy zerowej, zakładającej normalność zaburzenia losowego. 9.6 Ocena wyników analizy regresji Z przedstawionych dotychczas rozważań wnosimy, że etap diagnozowania modelu jest szczególnie ważny dla oceny poprawności modelu, a niestety, często niezbyt wnikliwie przeprowadzany. Ocenę wyników analizy możemy ująć w następujących pytaniach:. Czy model jest zgodny z teorią i z postawionymi hipotezami?. Czy oszacowane współczynniki mają poprawne znaki? 3. Czy zmienne objaśniające są istotne? 4. Czy wyliczone R wyjaśnia dostatecznie dobrze zmienność zmiennej objaśnianej? 5. Czy dane statystyczne użyte do estymacji modelu są poprawne? 6. Czy model spełnia założenia klasycznego modelu regresji liniowej? 6.. Czy nie występuje heteroscedastyczność? 6.. Czy nie występuje autokorelacja? 6.3. Czy nie zostały pominięte istotne zmienne objaśniające? 6.4. Czy zachodzi stabilność parametrów? 45

146 6.5. Czy funkcja regresji ma poprawną specyfikację? 6.6. Czy reszty są losowe? Pozytywne odpowiedzi na powyższe pytania są gwarancją poprawności oszacowanego modelu. Podsumowanie. Poprawność specyfikacji matematycznej równania regresji sprawdza się za pomocą testu White`a lub testu RESET Ramseya.. Dla porównania dwóch modeli o odmiennych zbiorach zmiennych objaśniających (z których jeden nie jest zagnieżdżony w drugim) należy zastosować test Mizona Richarda lub test Davidsona MacKinnona. 3. Testy stabilności Chowa sprawdzają hipotezy, czy parametry modelu są stabilne w różnych podpróbach dla przypadku danych przekrojowych lub w różnych podokresach czasu dla przypadku szeregów czasowych. W tym drugim przypadku testy stabilności zwane są testami punktu zwrotnego lub testami zmian strukturalnych. 4. Test ex post prognozy Chowa jest testem sprawdzającym stabilność parametrów w okresie próby i w okresie prognozowanym. 5. Test Jarque-Bera`y normalności zaburzeń weryfikuje założenie o normalności reszt w oszacowanym modelu regresji. 6. Po oszacowaniu model należy przeprowadzić w sposób systematyczny ocenę uzyskanych wyników. 46

147 CZĘŚĆ III. SZCZEGÓLNIE WAŻNE MODELE EKONOMETRYCZNE 3. OGRANICZONA ZMIENNA OBJAŚNIANA W badaniach ekonometrycznych spotykamy sytuacje, gdy nie tylko zmienne objaśniające mają charakter jakościowy i w związku z tym w równaniu regresji są przedstawiane za pomocą zmiennych zero-jedynkowych, co prowadziło do modeli opisanych w 5.. Często również zmienna objaśniana jest zmienną typu jakościowego i zdarza się, że przyjmuje ona tylko dwie wartości. Z sytuacjami takimi mamy do czynienia przy wyjaśnianiu powodów, dla których niektórzy kończą studia wyższe, a inni nie kończą, lub niektóre kobiety podejmują pracę zawodową, a inne nie podejmują, lub niektóre rodziny korzystają z internetu, a inne nie, lub posiadają własny dom, a inne nie posiadają. We wszystkich przedstawionych sytuacjach zmienna objaśniana jest zmienną binarną, przyjmującą wartość gdy badane zjawisko występuje oraz 0 gdy nie występuje. Metodami estymacji tego rodzaju modeli są dwie równoważne metody: metoda logitowa i metoda probitowa. 3.. Liniowa funkcja prawdopodobieństwa Wstępem do rozważań nad metodą logitową i probitową jest liniowa funkcja prawdopodobieństwa. Dla jej omówienia posłużmy się przykładem korzystania przez badaną osobę z internetu. Oznaczmy zmienną y i = gdy i-ta osoba (i=,,...n) korzysta z internetu oraz y i = 0, gdy nie korzysta. Załóżmy rozsądnie, że wykorzystywanie internetu zależy od zarobków badanej osoby, jej płci, wieku i poziomu wykształcenia. Przyjmijmy, zgodnie z konwencjonalnym zapisem, że liczba tych zmiennych wynosi K. Przyjmijmy, że chcemy zastosować klasyczny model regresji. Wówczas równanie regresji dla posługiwania się internetem przez i-tą osobę przyjmie postać: (0.) yi = β + β xi + β 3x3i + + β K xki + ε i i =,, 3 n ; lub krócej y i = x i β + ε i, gdzie y i równa się jeden lub zero, zaś x i =, x i, x 3i, x Ki jest wektorem wierszowym zmiennych objaśniających dla i-tej osoby używającej internet. Stojąc na gruncie założeń klasycznej metody najmniejszych kwadratów przyjmujemy: (0.) E( ε i x i ) =0, a stąd oczekiwana wartość warunkowa korzystania z internetu przez i-tą osobę wyniesie: E( x ) = x β. y i i i 47

148 Z definicji wartości oczekiwanej, przy przyjętym założeniu, że mamy jedynie dwa zdarzenia: korzystanie lub nie korzystanie z internetu, możemy napisać: E( yi x i ) = Pi ( yi = xi ) + 0 Pi ( yi = 0 xi ) (0.3), = P( y = x ) = x β i i i i gdzie P i (. ) oznacza prawdopodobieństwo analizowanego zdarzenia. Z powyższego zapisu wnosimy, że model liniowy implikuje: Po pierwsze, że x i β jest prawdopodobieństwem, a więc winno leżeć między 0 a. Jest to możliwe jedynie wtedy, gdy na wektor β nałożymy sensowne ograniczenia. Po drugie: zaburzenie losowe ε i w modelu (0.) nie ma rozkładu normalnego, gdyż przyjmuje jedynie dwie wartości: - x i β, gdy y i =, oraz - x i β gdy y i = 0. Stąd wariancja zaburzenia losowego nie jest stała i wynosi ( x β) x β + ( x β) ( x β) = ( x β) x β[ x β + x β] = ( x β) x β. Oznacza to, i i i i i i i i i i że w liniowym modelu prawdopodobieństwa występuje heteroskedastyczność. Po trzecie: z (0.3) wynika, że ze wzrostem wartości zmiennych objaśniających liniowo wzrasta prawdopodobieństwo P i, co oczywiście jest niezgodne z naszymi odczuciami, gdyż nie prawdą jest, że np. wraz ze wzrostem zarobków wzrasta liniowo prawdopodobieństwo używania internetu. Te trzy główne powody sprawiają, że liniowy model prawdopodobieństwa nie jest poprawnym narzędziem dla modelowania równania regresji z binarną zmienną objaśnianą. 0.. Metody logitowa i probitowa Alternatywnymi metodami estymacji modeli z binarną zmienną objaśnianą są modele: logitowy i probitowy. Obydwa wyznaczają prawdopodobieństwo P i tego, że y i = w zależności od zmiennej, którą oznaczmy przez Z i, a którą potraktujemy jako liniową kombinację zmiennych, opisujących cechy mające wpływ na wystąpienie zdarzenia: (0.4) Z i = β + β x i + + β Ki x i Podobieństwo dystrybuant rozkładów logitowego i probitowego przedstawia rysunek (0.) P i Probit 48

149 Logit 0 Z i Rys. 0. Dystrybuanty rozkładów logitowego i probitowego W modelu probitowym 8 zakładamy, że prawdopodobieństwo P i, (które nazywamy probitem) jest opisane dystrybuantą rozkładu normalnego: i (0.5) Pi = F( Zi ) = exp{ t } dt π Z z Szerzej zajmiemy się prezentacją modelu logitowego, ze względu na jego prostszą matematyczną postać i w związku z tym na częstsze zastosowania. W modelu logitowym 9 zamiast prawdopodobieństwa P i, którego dystrybuanta dana jest wzorem xi β e (0.6) Pi =, + xi β e (dla zdarzenia y i = ) szacujemy model (0.7) ln F HG I Pi = xi β + ε i. PiKJ Ponieważ w naszym przykładzie P i jest prawdopodobieństwem używania przez i-tą osobę Pi internetu, to P i jest prawdopodobieństwem nie używania. Zaś iloraz, zwany Pi ilorazem szans jest szansą używania do jego nieużywania. Jeśli dwie trzecie osób korzysta z internetu to szansa używania internetu przez losowo wybraną osobę wynosi jak dwa do jednego. Logarytm naturalny ilorazu szans zwany jest logitem. Model logitowy, jako model nieliniowy względem szacowanych parametrów, jest estymowany metodą największej wiarygodności, a prawdopodobieństwa P i są następnie wyliczane z funkcji regresji (0.7). Istotną zaletą modelu logitowego (podobnie jak i probitowego) jest utrzymywanie prawdopodobieństw w logicznie sensownych granicach między 0 a. Z rysunku (0.) widzimy, że prawdopodobieństwo wystąpienia zdarzenia (w naszym przypadku używania internetu) nie zmienia się liniowo (jak ma to miejsce w liniowym modelu prawdopodobieństwa). Prawdopodobieństwo to wzrasta lub maleje w coraz wolniejszym 8 Nazwa model probitowy pochodzi od anglojęzycznego skrótu słów probability unit (jednostka prawdopodobieństwa). 9 Nazwa logitowy pochodzi od logistycznego rozkładu prawdopodobieństwa. 49

150 tempie zbliżając się do jedności lub do zera, gdy wartości zmiennej Z i wzrastają lub maleją. Zwykle koncentrujemy uwagę na wpływie k-tej zmiennej objaśniającej na prawdopodobieństwo wystąpienia badanego zdarzenia. Jak pamiętamy w klasycznym modelu regresji liniowej parametr β k określa, o ile jednostek zmieni się zmienna objaśniana, gdy k-ta zmienna objaśniająca zmieni się o jednostkę, przy pozostałych zmiennych niezmienionych. Model logitowy, podobnie jak model probitowy nie jest, jak wynika z (0.6), modelem liniowym i stąd interpretacja parametrów nie jest tak oczywista jak w modelu liniowym. Pochodna P i ze wzoru (0.6) wynosi (0.8) Pi x ki = β k xi β e xi β [ + e ] Ponieważ wyrażenia licznika i mianownika ułamka z prawej strony są prawdopodobieństwami, a więc są dodanie, to znak parametru β k określa kierunek wpływu k-tej zmiennej x ki na prawdopodobieństwo wystąpienia badanego zdarzenia, a więc dodatnia jego wartość zwiększa, a ujemna zmniejsza to prawdopodobieństwo. O ile znak pochodnej (0.8) jest określony wyłącznie przez znak β k, o tyle wielkość pochodnej zależy od wektora x i β. Dlatego w praktycznych zastosowaniach oblicza się średnie wartości zmiennych objaśniających w próbie, a więc wektor x = (, x,, x K ) i dla nich ze wzoru (0.8) wylicza się wartość pochodnej. W wydruku komputerowym GRETLa wielkości te podane są w ostatniej kolumnie i nazywane w zależności od wersji pakietu GRETL efekt krańcowy dla średnich lub nachylenie (do średniej). Użyteczną interpretację parametrów uzyskamy wyliczając z (.8) pochodne dla dwóch różnych zmiennych objaśniających na przykład x k oraz x l a następnie obliczając ich iloraz. Pi Pi β l (0.9) = x x β li ki k Jeśli celowo wybrany parametr uznamy za układ odniesienia (oznaczmy go przez β k ), - w naszym przykładzie niech to będzie parametr przy zmiennej dochodu, mierzonego w tysiącach złotych miesięcznie - zaś parametr β l niech będzie parametrem przy zmiennej wykształcenie wyższe, to iloraz tych parametrów β l β k wskaże, ile razy silniejszy jest wpływ na prawdopodobieństwo używania internetu wykształcenia wyższego od wzrostu miesięcznego dochodu o tysiąc złotych. Jest to jeden z możliwych sposobów interpretacji parametrów. Dla zapoznania się z innymi możliwymi sposobami interpretacji odsyłam do książki M. Gruszczyńskiego [00]. Jak już wspomnieliśmy modele logitowe i probitowe szacowane są metodą największej wiarygodności. Obydwa modele dają podobne wyniki; wszystkie miary dopasowania obydwu modeli są identyczne. W praktycznych zastosowaniach korzysta się z jednej z tych dwóch metod. W odróżnieniu od KMRL, w którym powszechnie stosowaną miarą dobroci dopasowania jest R, w modelach binarnych istnieje wiele takich miar (patrz A.Cameron i F. Windmeijer [997]. Powszechnie używaną miarą dobroci dopasowania w modelach binarnych jest test ilorazu wiarygodności (likelihood ratio test), zwany pseudor. Niech lnl oznacza maksimum funkcji wiarygodności szacowanego modelu i niech lnl 0 oznacza maksimum 50

151 funkcji wiarygodności, gdy wszystkie parametry z wyjątkiem stałej są zero. Oczywiście ln L ln L0. Im większa jest różnica, tym zmienne objaśniające przydają więcej wyjaśnienia zero-jedynkowej zmiennej objaśnianej. Stąd pseudor jest określone następująco: (0.) pseudor =, + (ln L ln L0 ) / n gdzie n jest liczbą obserwacji. Przykład 0.. Dane wykorzystane w przykładzie pochodzą ze strony i dotyczą roku 003. Celem modelu jest znalezienie determinantów korzystania z internetu. Poniżej znajduje się opis zmiennych. Zmienna objaśniana: internet ; - korzysta z internetu, 0 nie korzysta z internetu; Zmienne objaśniające: plec - płeć respondenta; - mężczyzna, 0 kobieta; wiek - wiek respondenta; dochod - miesięczne zarobki; wyzsze dla osób o wykształceniu wyższym; srednie dla osób o wykształceniu średnim; Za poziom referencyjny przyjmujemy wykształcenie podstawowe. Poniżej oszacowanie modelu logitowego: 5

152 Wysokie wartości bezwzględne statystyki t wskazują na odrzucenie hipotezy zerowej o nieistotności poszczególnych zmiennych objaśniających. W przypadku modelu logitowego, jak wiemy z równania (0.8), interpretujemy tylko znaki oszacowanych parametrów. I tak, dodatni współczynnik przy zmiennej plec oznacza, że mężczyźni mają większe prawdopodobieństwo korzystania z internetu w porównaniu z kobietami. Ujemny znak współczynnika przy zmiennej wiek oznacza, że wraz z wiekiem maleje prawdopodobieństwo korzystania z internetu. Dodatnie znaki współczynników przy zmiennych zero-jedynkowych dotyczących wykształcenia oznaczają, że osoby z wykształceniem średnim oraz wyższym częściej korzystają z internetu w porównaniu z osobami o wykształceniu podstawowym. Dodatni współczynnik przy zmiennej dochod oznacza, że wzrost zarobków przyczynia się do zwiększenia prawdopodobieństwa korzystania z internetu. 5

153 Interesujące jest wyznaczenie ilorazów oszacowanych współczynników zgodnie z wyrażeniem (0.9) Pi x li Pi x Za układ odniesienia przyjmijmy współczynnik przy zmiennej dochód, który po przemnożeniu przez 000 mierzy efekt płacowy wyrażony w tysiącach złotych zarobków miesięcznych. Z wydruku Gretla wynika że jest to wielkość 0, zaś współczynnik przy zmiennej wykształcenie wyższe wynosi,33560, stąd iloraz tych współczynników wskazuje, że wykształcenie wyższe wywiera przeszło,5 razy silniejszy wpływ na prawdopodobieństwo używania internetu niż wzrost miesięcznego dochodu o tysiąc złotych. Zestawiając analogicznie współczynnik płci ze współczynnikiem dochodu uzyskujemy wynik wynoszący 0,49, co oznacza, że płeć męska osoby badanej ma o połowę mniejszy wpływ na korzystania z internetu w porównaniu ze wzrostem dochodów o 000 złotych. W przypadku modelu logitowego interpretację ilościową mają efekty krańcowe wyznaczone dla średnich wartości zmiennych objaśniających x = (, x,, x K ) (ostatnia kolumna tabeli). I tak, mężczyźni w porównaniu z kobietami mają o 0,0879 wyższe prawdopodobieństwo korzystania z internetu w porównaniu z kobietami. Wzrost wieku o rok przekłada się na spadek prawdopodobieństwa korzystania z internetu o 0,048. Osoby z wykształceniem średnim i wyższym mają odpowiednio o 0,0883 i 0,79 większe prawdopodobieństwo korzystania z internetu w porównaniu z osobami o wykształceniu podstawowym. Wzrost zarobków miesięcznych o 000 zł powoduje wzrost prawdopodobieństwa korzystania z internetu o 0,793. Zwróćmy jeszcze uwagę na lewy dolny fragment wydruku Gretla, który powtórzymy poniżej : ki = β l β k Prognoza 53

154 Empiryczne W wierszach tablicy określone są, zgodnie z przyjętymi oznaczeniami empiryczne wartości zmiennej objaśnianej: 0 oraz, a w kolumnach Prognoza - wartości wyliczone na podstawie modelu logitowego: 0 oraz, zaś w czterech kratkach tablicy podane są liczebności. Tablica uzewnętrznia zgodność wartości wyliczonych (prognoz) z wartościami empirycznymi. Koncentrując uwagę na wierszu 0 nie korzystanie z internetu obserwujemy 360 przypadków poprawnego trafienia prognozy i 595 przypadków nie trafienia prognozy. W wierszu drugim: - korzystania z internetu sytuacja jest daleko lepsza. Prognoza nietrafiona pojawiła się jedynie w przypadkach, zaś trafiona aż w 85 przypadkach. Wnosimy stąd że model poprawniej prognozuje korzystanie niż nie korzystanie z internetu. Oczywiście w sytuacji doskonałych prognoz pojawiać się powinny liczebności tylko na głównej przekątnej tablicy. W wydruku komputerowym Gretla znajduje się informacja: Liczba przypadków poprawnej predykcji = (73,%) Często model binarny jest wyprowadzany z założeń o zachowaniu się jednostek, będących przedmiotem badania. Rozumowanie prowadzi wówczas do modelu z tak zwaną zmienną ukrytą. Istotne jest jednak podkreślenie, że wprowadzenie koncepcji zmiennej ukrytej nie jest konieczne dla stosowania modeli binarnych. Rozważmy model decyzji mężatki o podjęciu pracy zarobkowej. Podjęcie płatnej pracy zależy z jednej strony od wielkości oferowanej płacy przez pracodawcę, a z drugiej od płacy oczekiwanej przez kobietę (zwanej płacą referencyjną). Można sądzić, że płaca referencyjna zależy silnie nie tylko od wieku, stażu w zawodzie, poziomu wykształcenia, stanu rodzinnego, dzietności itd, ale również od cech osobowościowych kobiety: jej aspiracji zawodowych, pracowitości i wytrwałości w realizacji celów życiowych itp.. Dla i-tej kobiety możemy przeto sformułować równanie różnicy użyteczności między płacą referencyjną a płacą oferowaną przez pracodawcę. Przyjmijmy rozsądną zasadę, że jeśli oczekiwana przez mężatkę płaca referencyjna jest wyższa od oferowanej to różnica użyteczności jest ujemna i nie podejmie ona pracy, jeśli odwrotnie, to podejmie. Ponieważ różnica użyteczności jest nieobserwowalna, to tworzy ona tak zwaną zmienną ukrytą. * Różnicę użyteczności oznaczmy przez y i i zapiszmy: (0.) y * i = x i β + ε i. Zgodnie z tymi założeniami obserwujemy y i = (kobieta jest zatrudniona) wtedy i tylko wtedy, gdy y i * > 0, oraz y i = 0 gdy kobieta nie pracuje. Możemy wówczas napisać: * (0.3) P( y = ) = P( y > 0) = P( x β + ε > 0) = P( ε x β) = F( x β ), i i i i i i i 54

155 gdzie F oznacza funkcję dystrybuanty standardowego rozkładu normalnego lub rozkładu logistycznego zmiennej. Dalsze rozważania nad zastosowaniem modelu są analogiczne jak poprzednio omówione Wielomianowa metoda logitowa, metoda tobitowa, modele samoselekcji próby Jakościowa zmienna objaśniana może przyjmować więcej niż dwie wartości. Gdy na przykład modelujemy czynniki określające poziom wykształcenia, to zmienna objaśniana przyjmie wartości wykształcenia wyższego, średniego lub podstawowego, a więc nie dwa stany jakościowe, a trzy. W przypadkach modelowania bardziej złożonych zjawisk jak na przykład w przypadku modelowania stopnia satysfakcji z osiąganego dochodu - zmienna objaśniana może przyjmować kilka stanów jakościowych; na przykład: bardzo zadowolony, zadowolony, ani zadowolony ani niezadowolony, niezadowolony, bardzo niezadowolony. Właściwą metodą estymacji jest wówczas wielomianowa metoda logitowa, w której prawdopodobieństwo każdego z możliwych stanów jakościowych jest przedstawione jako funkcja cech badanej jednostki. Istotną własnością metody jest opisanie tych prawdopodobieństw za pomocą ograniczonej liczby nieznanych parametrów i to w sposób zgodny z logiką problemu, a mianowicie prawdopodobieństwa leżą w przedziale 0 i, oraz suma tych prawdopodobieństw dla wszystkich alternatyw wynosi. Istnieją dwie wersje wielomianowej metody logitowej, a mianowicie modele dla alternatyw uporządkowanych i modele dla alternatyw nieuporządkowanych. Stosowanie modeli alternatyw uporządkowanych jest możliwe w sytuacjach, gdy istnieje logiczne uporządkowanie alternatyw, jak na przykład w przypadku satysfakcji z dochodu. Wówczas prawdopodobieństwa dla kolejnych alternatyw są zależne od ich uporządkowania. W modelach alternatyw nieuporządkowanych przyjmowane jest założenie, że wybór określonej alternatywy jest wynikiem maksymalizacji użyteczności płynącej z wyboru jednej z możliwych alternatyw. Klasycznym przykładem jest modelowanie wyboru środka transportu (autobus, metro, samochód, rower, pieszo). Ze względu na złożoność wielomianowych modeli logitowych i trudności interpretacyjne uzyskanych wyników, pominiemy prezentację tych modeli, odsyłając Czytelnika do bardziej zaawansowanych podręczników ekonometrii, na przykład W.Greene [003]. Zmienna objaśniana może mieć również inne ograniczenia. Przy modelowaniu na przykład wydatków na zakup samochodu - zmienna ciągła (ilość wydanych złotówek) może przyjmować wartość 0 w gospodarstwach domowych, które nie zakupiły w rozpatrywanym okresie samochodu lub wartości liczb rzeczywistych (ilości złotówek) w 55

156 przypadku rodzin, które zakupiły samochód. Modelowanie wydatków na zakup samochodów za pomocą MNK na podstawie próby gospodarstw domowych, w której znajdują się jedynie nabywcy daje niepoprawne wyniki i należy wówczas stosować specjalne modele dla prób ocenzurowanych. Modelem takim jest model tobitowy 0, zwany często modelem regresji cenzurowanej. Wróćmy do przykładu wydatków na zakup samochodów i przyjmijmy, że wydatki te w i-tej rodzinie zależą od zestawu cech opisanych wektorem zmiennych objaśniających x i. Oznaczmy przez y * i wielkość tych wydatków zależną od x i.. A więc (0.0) y * i = x i β + ε i, przy czym y i = y i * jeśli y i * > 0 = 0 jeśli y i * 0 o ε i zakładamy, że n. i. d.( 0, σ ) i jest niezależne od x i. W rozpatrywanym przykładzie zmienna ukryta y * i ocenzurowana jest od dołu, z granicą ocenzurowania w punkcie 0. Zmienna objaśniana może być nieobserwowana dla wartości mniejszych od określonego progu dolnego, oznaczanego przez y L (L lower), lub większych od określonego progu górnego, oznaczonego przez y U (U upper), może być również ocenzurowana jednocześnie od dołu i od góry. Metodą estymacji modeli tobitowych jest również metoda największej wiarogodności, ale stopień matematycznej komplikacji jest znaczny i z tego powodu prezentacja tych modeli zostanie pominięta. Zwróćmy uwagę na podobieństwo modelu tobitowego z modelem probitowym. Różnica tkwi w odwzorowaniu zmiennej ukrytej y * i w zmienną obserwowalną y i. Metodą godną szczególnego podkreślenia jest tak zwana metoda samoselekcji próby Heckmana. Często zdarza się, że próba, na podstawie której szacowany jest model, nie jest próbą losową, (co jest niezbędnym wymogiem zastosowania MNK- zaburzenia losowe mają rozkłady normalne), a próbą dobraną nielosowo. Na przykład kobiety pracujące zawodowo nie są losowo wybranymi osobami spośród wszystkich kobiet, a stanowią zbiór kobiet o wyjątkowych predyspozycjach do podjęcia pracy i stąd model oparty na próbie kobiet pracujących nie jest poprawnym modelem dla wszystkich kobiet, zarówno pracujących jak i niepracujących. W takich przypadkach właściwym modelem jest model samoselekcji próby Heckmana. Czytelników zainteresowanych 0 Nazwa upodobniona do nazw modele probitowe lub logitowe nawiązuje do nazwiska twórcy tej metody Jamesa Tobina, który w 958 zastosował ją do modelowania wydatków gospodarstw domowych na dobra trwałego użytku. 56

157 zastosowaniami zasygnalizowanych wyżej metod odsyłamy do bardziej zaawansowanych podręczników ekonometrii, na przykład W.Greene [003]. Podsumowanie. Często zmienna objaśniana jest zmienną typu jakościowego i zdarza się, że przyjmuje ona tylko dwie wartości. Z sytuacjami takimi mamy do czynienia przy wyjaśnianiu powodów, dla których niektórzy kończą studia wyższe, a inni nie kończą, lub niektóre kobiety podejmują pracę zawodową, a inne nie podejmują, lub niektóre rodziny korzystają z internetu, a inne nie, lub posiadają własny dom, a inne nie posiadają.. Metodami estymacji modeli z binarną zmienną objaśnianą są modele: logitowy i probitowy. Obydwa wyznaczają prawdopodobieństwo P i tego, że y i = w zależności od zmiennej Z i, która jest liniową kombinację zmiennych, opisujących cechy mające wpływ na wystąpienie zdarzenia: Z i = β + β x i + + β Ki x i 4. Model logitowy, podobnie jak model probitowy nie jest modelem liniowym i stąd interpretacja parametrów jest odmienna niż w modelu liniowym. Pochodna P i ze wzoru wynosi xi β Pi e = β k x iβ xki [ + e ] W praktycznych zastosowaniach oblicza się średnie wartości zmiennych objaśniających w próbie, a więc wektor x = (, x,, x K ) i dla niego wylicza się wartość pochodnej. W wydruku komputerowym GRETLa wielkości te podane są w ostatniej kolumnie i nazywane w zależności od wersji pakietu GRETL efekt krańcowy dla średnich lub nachylenie (do średniej). 3. Użyteczną interpretację parametrów uzyskuje się wyliczając pochodne dla dwóch różnych zmiennych objaśniających na przykład x k oraz x l a następnie obliczając ich iloraz. Pi Pi β l = xli xki β. k 5. Powszechnie używaną miarą dobroci dopasowania w modelach binarnych jest test ilorazu wiarygodności (likelihood ratio test), zwany pseudor 57

158 . MODELE POJEDYNCZEGO SZEREGU CZASOWEGO. Analiza klasyczna Modele regresyjne rozważane dotychczas miały na celu ustalenie struktury zjawiska, uzależniając tę strukturę od zbioru zmiennych objaśniających. Znajomość zmiennych objaśniających była więc niezbędna dla opisu i prognozowania. Doświadczenie podpowiada, że nie zawsze znamy wartości tych zmiennych dla okresu prognozowanego. Dla względnie prostych w swej strukturze zjawisk, budowa modelu regresji wielorakiej wydaje się zabiegiem niepotrzebnym. W takich sytuacjach możemy korzystać z modeli opartych na analizie pojedynczego szeregu czasowego. Klasyczna analiza statystyczna sprowadzała się do dekompozycji szeregu na elementy składowe, jak na przykład: (.) yt = Tt + St + Ct + ε t, gdzie: y t - badane zjawisko w czasie t, T t - składnik trendu w czasie t, S t - składnik sezonowy w czasie t, C t - składnik cykliczny w czasie t, ε t - składnik losowy w czasie t. Niekiedy była to dekompozycja z elementami multiplikatywnymi: (.) yt = Tt St Ct ε t. Czasem stosowane są specjalne metody analizy, jak na przykład wyrównywanie wykładnicze (Exponential Smooting)... Szereg czasowy jako realizacja procesu stochastycznego Przypomnijmy, że szereg czasowy rozumiemy jako zbiór równo rozmieszczonych w czasie obserwacji badanego zjawiska w określonym przedziale czasu. W przedstawionych niżej rozważaniach będziemy traktować szereg czasowy jako pojedynczą realizację procesu stochastycznego, przez który rozumiemy ciąg zmiennych losowych o argumencie naturalnym. W szeregach czasowych, traktowanych jako realizacje procesu stochastycznego, będziemy badać, oprócz dotychczas zauważonych cech nowe własności szeregów.. Trend deterministyczny: (.3) trend liniowy : y = γ + γ t + ε t t, i (.4) trend wielomianowy rzędu p : y = γ + γ t + ε, t p i= i t 58

159 . Trend stochastyczny: (.5) : y = δ + y + ε t t t. Zauważmy, że w tym ostatnim przypadku (modelu zwanego modelem błądzenia losowego z dryfem), opóźniając zmienną y t razy i dokonując t-krotnego podstawienia otrzymamy: (.6) yt = y0 + δ t + ε t i. t i= Z powyższego zapisu widać, że parametr dryfu δ pełni podobną rolę jak parametr trendu deterministycznego γ w (.3). Jednak w (.3) losowe efekty szoków ε t rozpraszają się z upływem czasu, albo jak mogli byśmy powiedzieć wygasają z upływem czasu. W (.5) co widać z (.6) szoki wywierają trwały wpływ na y t. Taki trwały wpływ na produkcję wywiera postęp technologiczny, lub obowiązujące w kolejnych latach formy polityki fiskalnej. O szeregu z trwałym wpływem zaburzeń mówimy, że jest szeregiem z długą pamięcią. 3. Błądzenie losowe (bez dryfu), jako model typowy dla badania relacji kursów walutowych ma postać: (.7) yt = yt + ε t ε t ~ IID( 0, σ ), gdzie zaburzenie losowe ε t zwane jest również białym szumem. 4. Szeregi w niektórych przedziałach czasu mogą wykazywać większą od przeciętnej zmienność (silne wahania wokół średniej), jak na przykład na poniższym rysunku. szereg t 59

160 Po okresach podwyższonej zmienności następują okresy uspokojenia. Zachowania takie są typowe dla zjawisk giełdowych i są modelowane za pomocą modeli z warunkową heteroskedastycznością. 5. Szeregi mogą wykazywać niesymetryczność reakcji na szoki losowe, jak to ma na przykład miejsce w reakcjach graczy giełdowych na silne wzrosty lub spadki kursów akcji..3. Procesy autoregresyjne rzędu p -AR(p) (Autoregressive), procesy średniej ruchomej rzędu q MA(q) (Moving Average), zintegrowane rzędu d procesy autoregresyjne rzędu p ze średnią ruchomą rzędu q - ARIMA(p,d,q) (Autoregressive Integrated Moving Average). Dysponując jedynie pojedynczym szeregiem staramy się ustalić relacje dynamiczne, jakie mogą zachodzić między różnymi obserwacjami badanego zjawiska. Przyjmijmy, że zachodzi następujący prosty związek: (.8) yt = θ yt + ε t ε t ~ IID( 0, σ ). Proces opisany równaniem (.8) zwany jest procesem autoregresyjnym rzędu pierwszego AR(). Określa on, że bieżąca wartość szeregu równa się poprzedniej razy parametr θ plus zaburzenie. Z procesami tego rodzaju mieliśmy do czynienia przy badaniu autokorelacji zaburzenia losowego w klasycznym modelu regresji liniowej. Mechanizm opisany procesem autoregresyjnym możemy uogólnić pisząc: (.9) yt = θ yt + θ yt + + θ p yt p + ε t ε t ~ IID( 0, σ ) Jest to proces autoregresyjny rzędu p - AR(p). Inną formą związku są procesy średniej ruchomej. Proces średniej ruchomej rzędu pierwszego opisuje równanie:. (.0) yt = ε t + αε t, ε t ~ IID( 0, σ ). gdyż y t jest opisane średnią ruchomą bieżącego zaburzenia i minionego. Jego uogólnieniem jest proces średniej ruchomej rzędu q: MA(q). (.) y = ε + α ε + α ε + + α ε, ε ~ IID( 0, σ ) t t t t q t q t 60

161 O ile mechanizm procesu autoregresyjnego jest akceptowalnym procesem ekonomicznym, w którym obecny stan procesu jest uzależniony od jego historii, o tyle mechanizm procesu średniej ruchomej może się wydawać niezrozumiały. Po wnikliwszym oglądzie różnych procesów ekonomicznych możemy jednak znaleźć takie, w których nawarstwianie się kolejnych innowacji (szoków) wywiera stały wpływ na bieżącą wartość procesu. Przykładem może być postęp techniczny. Nowe rozwiązania technologiczne i organizacyjne oraz nowe produkty, które pojawiają się w pewnych okresach czasu i zaburzają dotychczasowy rytm wytwórczy, często wpisują się na trwałe w mechanizm innowacyjny. Model średniej ruchomej oddaje właśnie tego typu uwarunkowania. Procesy autoregresyjne i średniej ruchomej można połączyć otrzymując proces mieszany: autoregresyjny ze średnią ruchomą, zapisywany jako ARMA(p,q). Identyfikację procesów ARMA(p,q) umożliwiają funkcja autokorelacji i cząstkowej autokorelacji. Obserwując pojedynczy szereg możemy jedynie wyznaczyć jego średnią, wariancję i kowariancje między równooddalonymi od siebie obserwacjami. Dotychczas zakładaliśmy, że rozpatrywane szeregi są stacjonarne. Proces jest stacjonarny, jeśli jego średnia i wariancja są stałe, zaś kowariancja zależy tylko od opóźnienia występującego między dwoma okresami czasu i nie zależy od konkretnego okresu czasu, począwszy od którego kowariancja ta jest liczona. Stosując zapis formalny możemy napisać, że szereg stochastyczny jest stacjonarny (ściślej kowariancyjnie stacjonarny lub słabo stacjonarny), jeśli spełnia następujące trzy warunki: (.) Warunek średniej: E(y t ) = µ (.3) Warunek wariancji: E(y t µ) = σ = γ 0 (.4) Warunek kowariancji: E[(y t µ) (y t-k µ)] = γ k, k=,, 3,... gdzie σ = γ 0 oznacza wariancję, zaś γ k oznacza kowariancję o opóźnieniu k, a więc kowariancję między wartościami y oddzielonymi od siebie o k okresów. Używając dalej w tekście określenia stacjonarny, będziemy przez nie rozumieć kowariancyjnie stacjonarny. 6

162 Funkcja autokorelacji, oznaczana w skrócie ACF. Ponieważ kowariancje zachowują miano zmiennych (zmienna mierzona w złotych ma kowariancję mierzona w złotych do kwadratu), to powszechnie stosuje się wielkości niemianowane, jakimi są autokorelacje ρ k zdefiniowane jako: Cov( yt, yt k ) γ k (.5) ρ k = =. Var( yt ) γ 0 Zauważmy, że ρ 0 = oraz ρ k. Autokorelacje traktowane jako funkcja k zwane są funkcją autokorelcji (ACF) lub niekiedy kolerogramem szeregu y t. ACF gra ważną rolę w modelowaniu zależności między obserwacjami, gdyż opisuje przebieg y t w czasie. Obok średniej i wariancji jest ważną charakterystyką procesu, na podstawie której możemy wnosić, jak pojedyncza obserwacja w szeregu jest powiązana z poprzednimi obserwacjami. Na tej podstawie możemy wnioskować o parametrach procesu ARMA(p,q), a stąd o długości i sile pamięci, cechującej badany proces, a więc określać jak długo i jak silnie zaburzenie ε t wpływa na wartość y t. Funkcja cząstkowej autokorelacji (PACF) (Partial Autocorrelation Function) Przy wstępnym doborze parametrów procesu ARMA (p,q) obok funkcji autokorelacji korzystamy z pojęcia funkcji cząstkowej autokorelacji. Współczynnik cząstkowej autokorelacji dla procesu autoregresyjnego rzędu p mierzy cząstkowy efekt procesu autoregresyjnego rzędu p, jaki przydaje dodatkowo ten proces ponad to, co wyznacza proces autoregresyjny rzędu p-. Zgodnie z przyjętą konwencją zapiszmy proces autoregresyjny rzędu p- i rzędu p jako: (.6) y = θ y + θ y + + θ y ( ) + ε AR( p ) t t t p t p t (.7) y = θ y + θ y + + θ y ( ) + θ y + ε AR( p). t t t p t p p t p t Wówczas współczynnikiem cząstkowej autokorelacji rzędu p jest θ p. Funkcją cząstkowej autokorelacji jest ciąg współczynników autokorelacji cząstkowych traktowanych jako 6

163 funkcja argumentu naturalnego k. Dla podkreślenia, że są to współczynniki cząstkowe dodajemy podwójny subskrypt pisząc: (.8) PACF: θ, θ,, θ lub krótko: θ pp kk ; k =,,, p. Eliminacja niestacjonarności Procesy ekonomiczne często są niestacjonarne. Najczęściej jest to niestacjonarność względem średniej, rzadziej względem wariancji. Niestacjnarność względem średniej jest widoczna nie tylko z wykresu szeregu, na którym zauważalny jest rosnący lub malejący trend, ale również z postaci funkcji autokorelacji, która to funkcja nawet dla kilkudziesięciu opóźnień nie wygasa, obniżając swoje wartości niezwykle powoli. Niestacjnarność względem średniej usuwa różnicowanie szeregu, zaś niestacjnarność względem wariancji eliminuje w znacznym stopniu logarytmowanie szeregu. Zajmiemy się przede wszystkim niestacjonarnością względem średniej. Zapiszmy: yt = yt yt Jeśli y t jest procesem ARMA(p,q) powstałym z procesu y t przez jednokrotne jego zróżnicowanie, to y t zwane jest procesem zintegrowanym rzędu pierwszego: I() zapisywanym jako: ARIMA(p,,q), co jest skrótem anglojęzycznej nazwy: Autoregressive Integrated Moving Average. O procesie y t mówimy, że ma pierwiastek jednostkowy. Proces, który dla zapewnienia stacjonarności wymaga d krotnego różnicowania zapisujemy jako: ARIMA(p,d,q). Procesy zintegrowane rzędu d oznaczamy ogólnie I(d). Doświadczenie podpowiada, że większość szeregów makroekonomicznych przedstawiających strumienie lub zasoby powiązanych z liczbą ludności, takich jak produkcja lub zatrudnienie jest stopnia I(). Szeregi I() wzrastają według stale rosnącej stopy. Są to w większości przypadków szeregi powiązane z poziomem cen. Szeregi I(3) lub wyższe występują niezmiernie rzadko. Są to na przykład zasoby pieniądza, poziomy cen przy hiperinflacji.,4, Procedura Boxa Jenkinsa Procedurą Boxa Jenkinsa nazywamy metodę wstępnego wyznaczania parametrów p,d,q modelu ARIMA, adekwatnego dla danego szeregu czasowego. Procedura zwyczajowo dzielona jest na trzy etapy: 63

164 . Identyfikacja,. estymacja, 3. diagnozowanie.. Identyfikacja. Estymacja parametrów modelu ARIMA wymaga wstępnej identyfikacji trzech parametrów określających: a) rząd procesu autoregresyjnego p, b) rząd integracji d, oraz c) rząd średniej ruchomej q. Identyfikację rozpoczynamy od oglądu wykresu, z którego wnosimy o jego niestacjonarności względem średniej i/lub wariancji, skupiskach lokalnej podwyższonej zmienności itp. Istotnym elementem identyfikacji jest analiza funkcji autokorelacji i cząstkowej autokorelacji (ACF i PACF). Możemy wyróżnić następujące sytuacje wstępnej identyfikacji parametrów: p, d, q.. ACF nie wygasa. Oznacza to niestacjonarność. Należy zróżnicować szereg wyjściowy jednokrotnie d = lub co najwyżej dwukrotnie d =.. ACF wykładniczo gaśnie, zaś PACF jest ucięta, to znaczy dla k > p θ kk = 0. Oznacza to proces AR(p). 3. ACF jest ucięta, to znaczy ρ k = 0 dla k > q, a PACF szybko gaśnie. Oznacza to proces MA(q). 4. Jeśli ani ACF ani PACF nie mają punktu ucięcia, to proces jest mieszany ARIMA(p,q). Wygodnym postępowaniem jest estymacja modeli przeidentyfikowanych w porównaniu z modelem o wstępnie dobranych parametrach. Liczymy więc kolejno modele powiększając za każdym razem tylko jeden parametr o jedną jednostkę. W praktycznie liczonych modelach parametry p oraz q bardzo rzadko przekraczają liczbę, co istotnie ogranicza procedurę estymacyjną. Jeśli okaże się, że mimo procedury przeidentyfikowania otrzymujemy nieakceptowalny ze względu na normalność reszt model, oznacza to, że metoda ARIMA jest niewłaściwą metodą estymacji dla danego szeregu. 64

165 , Estymacja. Estymujemy model przy wstępnie dobranych parametrach. Dla szacowania modeli ARIMA, ze względu na nieliniowość procesu, szacuje się metodą największej wiarogodności. 3. Diagnozowanie. Po oszacowaniu modelu sprawdzamy wykresy reszt i przeprowadzamy test Jarque-Bera`y na normalność reszt. Często stosowanym testem na autokorelację reszt oszacowanego modelu jest test Q Ljunga- Boxa. Statystyka testująca przy hipotezie zerowej brak autokorelacji reszt wyższej od k liczona jest wzorem: (.9) Q = T T + LB k ( ) j= r j T j gdzie: r j - współczynnik autokorelacji rzędu j, T liczba obserwacji. Współczynnik autokorelacji rzędu j mierzący autokorelację reszt opóźnionych o k obserwacji dany jest wzorem: (.0) r k = T ( y y)( y y) t t k t= k + T ( yt y) t = gdzie: y - średnia szeregu y. Statystyka ta ma asymptotyczny rozkład χ z liczbą stopni swobody k. Powszechnie stosowanym kryterium porównania modeli o różnych zestawach parametrów są kryterium informacyjne Akaike lub kryterium informacyjne Schwartza-Bayesa, omówione w zakończeniu rozdziału 3. Istotna uwaga przy stosowaniu tych kryteriów dotyczy liczby szacowanych parametrów. Za liczbę K oznaczającą liczbę szacowanych parametrów należy podstawić p+q. Za model lepiej dopasowany należy uznać ten o najniższej wartości kryterium informacyjnego. Przykład. Rozpatrzmy przykład szeregu notowań dziennych indeksu Down Jones (średnia notowań 30 największych przedsiębiorstw przemysłowych Stanów Zjednoczonych) z giełdy nowojorskiej za okres od 980/0/0 do 985//30 liczącym 56 obserwacji. Tytułem egzemplifikacji poniżej zamieszczone są dane za styczeń 980 roku. Nazwa zmiennej djclose oznacza wartości zamknięcia dla indeksu Down Jones. 65

166 Obs djclose Czas 80/0/0 84,57 80/0/03 80,3 80/0/04 88, /0/07 83, /0/08 85,7 5 80/0/09 850, /0/0 858, /0/ 858, /0/4 863, /0/5 868, /0/6 865,9 80/0/7 863,57 80/0/8 867,5 3 80/0/ 87, /0/ 866, 5 80/0/3 877, /0/4 879, /0/5 876, 8 80/0/8 878, /0/9 874, /0/30 88,9 80/0/3 875,85 Wykres całego szeregu zawiera rys.. 66

167 Rys.. Wykres indeksu Down Jones Na wykresie obserwujemy trend wzrostowy indeksu z wyraźną tendencją do zwiększania się amplitudy wahań wokół trendu. Oznacza to niestacjonarność szeregu względem średniej i jednocześnie względem wariancji. Śledząc wydruk funkcji autokorelacji (niżej rys..) zauważamy bardzo powolne zmniejszanie się autokorelacji, które nawet dla autokorelacji rzędu 5 jest równy 0,9595, co jest oznaką niestacjonarności. Funkcja autokorelacji (ACF): djclose Ljung-Box Q' = 6085,5588 Stopnie swobody = 5, wartość p = 0,0000 ) 0,9983 ) 0,9965 3) 0,9949 4) 0,993 5) 0,997 6) 0,990 7) 0,9885 8) 0,9869 9) 0,9853 0) 0,9836 ) 0,989 ) 0,9803 3) 0,9786 4) 0,9770 5) 0,9753 6) 0,9738 7) 0,97 8) 0,9704 9) 0,9688 0) 0,967 ) 0,9656 ) 0,964 3) 0,966 4) 0,960 5) 0,9595 Funkcja autokorelacji cząstkowej (PACF): ) 0,9983 ) 0,0007 3) 0,079 4) 0,0049 5) 0,045 6) -0,008 7) -0,0037 8) -0,040 9) 0,0036 0) -0,048 ) -0,0057 ) -0,00 3) 0,0037 4) 0,09 5) -0,068 6) 0,07 7) -0,09 8) -0,003 9) 0,0053 0) 0,046 ) 0,06 ) 0,0060 3) -0,0039 4) -0,003 5) -0,0065 5% wartość krytyczna:,96/t^0,5 = 0, Rys.. Korelogram dla szeregu Down Jones Fakt ten ilustruje również wykres funkcji autokorelacji.3. 67

168 .3 Funkcja autokorelacji i cząstkowej autokorelacji szeregu Down Jones Rekomendowanym w takim przypadku przekształceniem jest: (.) y t djcloset ln ln djcloset lndjcloset djclose = F H G I K J = t, gdzie: djclose i - wartość zamknięcia indeksu Down Jonesa w dniu t, y t - stopa zwrotu w dniu t. Zauważmy, że dokonana transformacja polega na wzięciu różnic logarytmów szeregu wyjściowego, co nadaje nowej zmiennej sensowną interpretację ekonomiczną jako stopy zwrotu z indeksu. Transformacja ta, poprzez zlogarytmowanie, usunęła niestacjonarność względem wariancji, a poprzez odjęcie logarytmów usunęła niestacjonarność względem średniej. Wykres stóp zwrotów prezentuje poniższy rysunek.3. 68

169 Rys..3 Wykres stóp zwrotów z indeksu Down Jonesa Zabieg transformacji przyniósł oczekiwane rezultaty. Po wstępnej transformacji danych zapewniających stacjonarność przystępujemy do oszacowania modelu ARIMA(p,q) na zlogarytmowaanych danych wyjściowych. Oszacowanie modeli ARIMA Rozpocznijmy od modelu ARIMA(3,,3), jako modelu przeidentyfikowanego. Wydruk oszacowania niżej. Model : Estymacja ARIMA z wykorzystaniem 55 obserwacji 80/0/03-85/0/3 Zmienna zależna: (-L) l_djclose Zmienna Współczynnik Błąd stand. Statystyka t wartość p const 0, ,000504,6600 0,0969 * phi_ -0, , ,548 0,59 phi_ -0, ,74 -,7883 0,00530 *** phi_3 0,6948 0, ,8090 0,485 theta_ 0, ,34397,6859 0,098 * theta_ 0, ,7766,940 0,0037 *** theta_3-0,7348 0, ,66 0,50855 Srednia arytmetyczna zmiennej zależnej = 0, Odchylenie standardowe zmiennej zależnej = 0, średnia z zaburzeń losowych =,9549e-007 wariancja z zaburzeń losowych = 8,649e-005 Logarytm wiarygodności = 4969,9 Kryterium informacyjne Akaike'a = -99,58 Kryterium bayesowskie Schwarza = -9879,99 Kryterium infor. Hannana-Quinna = -9906,7 Istotność statystyczna ocen sugeruje, że modelem poprawnym może być model ARIMA(3,,). Wydruk: 69

170 Model : Estymacja ARIMA z wykorzystaniem 55 obserwacji 80/0/03-85/0/3 Zmienna zależna: (-L) l_djclose Zmienna Współczynnik Błąd stand. Statystyka t wartość p const 0, , ,6848 0,090 * phi_ -0,7554 0, ,467 <0,0000 *** phi_ -0, ,065-44,697 <0,0000 *** phi_3 0, ,05635,790 0,0734 * theta_ 0, , ,058 <0,0000 *** theta_ 0, ,38 <0,0000 *** Srednia arytmetyczna zmiennej zależnej = 0, Odchylenie standardowe zmiennej zależnej = 0, średnia z zaburzeń losowych = 3,5085e-007 wariancja z zaburzeń losowych = 8,669e-005 Logarytm wiarygodności = 4969,09 Kryterium informacyjne Akaike'a = -994,8 Kryterium bayesowskie Schwarza = -9886,9 Kryterium infor. Hannana-Quinna = -990,3 Jest to model lepszy od poprzedniego, na co wskazuje bardziej ujemna wartość kryterium informacyjnego Akaike. Dopasowanie modelu ilustruje wykres wartości obserwowanych i wyliczonych indeksu Down Jones. Rys..4 Wykres wartości obserwowanych i wyliczonych indeksu Down Jones. Wykres ukazuje dobre dopasowanie wartości wyliczonych do danych empirycznych. 70

171 Rys..5 Wykres normalności rozkładu reszt modelu ARIMA(3,,) Down Jones Test na normalność, zamieszczony w lewym górnym rogu wykresu wskazuje, że reszty z oszacowanego modelu ARIMA(3,,) nie mają rozkładu normalnego. Potwierdza to również ogląd wykresu reszt, który jest bardziej smukły od normalnego, są znacznie leptokurtyczne. Sygnalizuje to, że poszukiwania poprawnego modelu nie zostały zakończone. Program Gretla umożliwia wykorzystanie oszacowanego modelu dla wyznaczenia prognozy indeksu Down Jones (na przykład 0 dni naprzód.) Poniżej wykres Dziesięciodniowa prognoza indeksu Down Jones 7

172 Z wykresu widzimy, że prognozowanie nawet na tak krótki, bo zaledwie 0-cio dniowy przedział czasu jest obarczone znacznymi błędami, pozbawiającymi wyznaczone prognozy znaczących wartości poznawczych..5 Procesy ARIMA dla danych sezonowych W praktycznych zastosowaniach często mamy do czynienia z danymi sezonowymi o sezonowym cyklu miesięcznym lub kwartalnym. Modele ARIMA mogą również służyć do wyrównywania szeregów, w których dodatkowo występują parametry sezonowe. Modele są wówczas oznaczane jako ARIMA(p,d,q)(p s,d s,q s ), gdzie parametry w drugim nawiasie z subskryptami s oznaczają rzędy analogicznych procesów sezonowych. Wynika stąd, że sezonowy proces ARIMA zawiera nie trzy a sześć parametrów wymagających wstępnej identyfikacji. Procedura estymacyjna rozpoczynana jest zwykle od wyznaczenia funkcji autokorelacji sezonowej i cząstkowej autokorelacji sezonowej. Autokorelacje w takich przypadkach są wyznaczane dla obserwacji oddalonych od siebie o wielokrotność cyklu sezonowego s ( dla danych kwartalnych oznacza to przeskok o 4 obserwacje, dla danych miesięcznych o obserwacji). Znajomość tych funkcji umożliwia ustalenie, za pomocą procedury Boxa- Jenkinsa, wstępnych wartości trzech parametrów sezonowości: p s, d s, q s. Następnie ponawiana jest procedura Boxa-Jenkinsa dla wyznaczenia parametrów zasadniczego procesu ARIMA. Postępowanie takie jest jednak niezwykle żmudne i nie zawsze prowadzi najkrótszą drogą do poprawnego modelu. W ostatnim okresie zostały opracowane programy o nazwach X--ARIMA i TRAMO/SEATS, Zawarte są one w nowszych wersjach Gretla. X--ARIMA zredagowany został w oparciu o podobny program kanadyjski przez B. Monsella i M. Otto na potrzeby Amerykańskiego Biura Spisów Powszechnych. Program TRAMO/SEATS autorstwa V. Gomeza i A. Maravella jest rekomendowanym programem Eurostatu, a anglojęzyczny skrót TRAMO oznacza Time series Regression with ARIMA noise, Missing values and Outliers, zaś SEATS Signal Extraction in ARIMA Time Series. Obydwa programy mają tę istotną zaletę, że nie wymagają od badacza wstępnej identyfikacji sześciu poszukiwanych parametrów, a zatem niepotrzebna staje się procedura Boxa-Jenkinsa. Obydwa programy same wyznaczają model optymalny. Są to programy nadzwyczaj złożone, dające głęboki wgląd w mechanizm generowania modelowanych szeregów. Ich pełne omówienie przerasta zakres tematyczny niniejszej książki. Można jedynie odesłać 7

173 zainteresowanego Czytelnika do bardziej zaawansowanych prac z tej tematyki: M. Verbeek [000], J. D. Hamilton [994]. Zaprezentujemy fragmenty analizy przeprowadzonej w programie X--ARIMA przy wykorzystaniu miesięcznych danych o inflacji w Polsce. Dane te zostały zestawione przez Prof. T. Kufla i udostępnione autorowi dla potrzeb niniejszej książki. Niech to będzie jednocześnie okazja dla złożenia najlepszego podziękowania. Niżej wykres inflacji..6 Wykres miesięcznej inflacji w Polsce Obserwujemy wyraźnie gasnący trend inflacji i malejącą amplitudę jej wahań. Trzy pierwsze wydruki, opisane w prawych górnych rogach przedstawiają kolejno:. wykres inflacji i jego wyrównanie sezonowe,. wykres inflacji z naniesionym trendem i 3. wahania 73

174 przypadkowe (reszty oszacowanego modelu). Analogiczną dekompozycję zawiera program TRAMO/SEATS. Program X--ARIMA jak już sygnalizowaliśmy, jest niezwykle szczegółowy. Oto istotne dla nas szczegóły: Kryterium odrzucenia jest test Q Ljunga-Boxa dany wzorem (.9) Statystyka ta ma asymptotyczny rozkład χ z liczbą stopni swobody k, gdzie k = p+q+p s +q s. Sprawdzane są kolejno modele rozpoczynając od najprostszego (zawierającego najmniejszą liczbę parametrów) aż do uzyskania modelu o statystyce χ (Q Ljunga-Boxa) o prawdopodobieństwie większym od 0, 05. Kolejno testowane modele: Model : (0 )(0 ) odrzucony, Chi Square Probability:.58% Model : (0 )(0 ) odrzucony, Chi Square Probability:.77% Model 3: ( 0)(0 ) odrzucony, Ljung-Box Q chi-square probability < 5.00% Model 4: (0 )(0 ) odrzucony, Ljung-Box Q chi-square probability < 5.00% Model 5: ( )(0 ) przyjęty - Chi kwadrat prawdopodobieństwo:.68%. Szczególy akceptowanego modelu: Różnicowanie niesezonowe: Różnicowanie sezonowe: Oceny Błędy standardowe Niesezonowe AR Lag Lag Niesezonowe MA Lag Lag Sezonowe MA Lag Podsumowanie. W statystycznej analizie klasycznej szereg jest dekomponowany na elementy składowe: trend, wahania cykliczne, wahania sezonowe, wahania przypadkowe. 74

175 . W nowoczesnej analizie ekonometrycznej szereg czasowy traktowany jest jako pojedyncza realizacja procesu stochastycznego. 3. W procesie autoregresyjnym rzędu p AR(p) zmienna objaśniana jest wyjaśniana przez swoje opóźnienia: yt = θ yt + θ yt + + θ p yt p + ε t ε t ~ IID( 0, σ ). 4. Proces średniej ruchomej rzędu q MA(q) jest opisany przez bieżące i minione zaburzenia:. y = ε + α ε + α ε + + α ε, ε ~ IID( 0, σ ). t t t t q t q t 5. Procesy autoregresyjne i średniej ruchomej można połączyć otrzymując proces mieszany: autoregresyjny ze średnią ruchomą, zapisywany jako ARMA(p,q). 6. Jeśli proces ARMA jest dodatkowo procesem zintegrowanym rzędu d, to tworzy proces ARIMA(p,d,q). 7. Proces jest stacjonarny, jeśli jego średnia i wariancja są stałe, zaś kowariancja zależy tylko od opóźnienia występującego między dwoma okresami czasu i nie zależy od konkretnego momentu czasu, począwszy od którego kowariancja ta jest liczona. 8. Strukturę dynamiczną szeregu opisuje jego funkcja autokorelacji i cząstkowej autokorelacji. 9. Procedurą Boxa Jenkinsa nazywamy metodę wstępnego wyznaczania parametrów p,d,q modelu ARIMA, adekwatnego dla danego szeregu czasowego. Procedura zwyczajowo dzielona jest na trzy etapy:. Identyfikacja,. estymacja,3. diagnozowanie. 0. Dla wyrównywania szeregów sezonowych (kwartalnych lub miesięcznych) stosowana jest procedura ARIMA(p,d,q)(p s,d s,q s ), gdzie parametry w drugim nawiasie z subskryptami s oznaczają rzędy procesów sezonowych.. Programy badania sezonowości o nazwach X--ARIMA i TRAMO/SEATS są częścią nowszych wersji Gretla. 75

176 . MODELE DYNAMICZNE Większość z dotychczas rozważanych modeli była oparta na danych przekrojowych. Oznaczało to, że zmienna objaśniana była zależna od równoczesnych obserwacji na zmiennych objaśniających. Relacje ekonomiczne bardzo często przebiegają w czasie, co oznacza, że w równaniu regresji zmienna objaśniana może zależeć nie tylko od równoczesnych, ale i od opóźnionych (minionych) obserwacji na zmiennych objaśniających, jak też od opóźnionych obserwacji na zmiennej objaśnianej. Modele tego rodzaju zwane są modelami dynamicznymi, gdyż wyznaczane są na podstawie szeregów czasowych dla obserwacji pochodzących z różnych okresów czasu. Można wyróżnić co najmniej trzy podstawowe powody, dla których w badaniach ekonomicznych występują opóźnienia w reakcjach. Po pierwsze są one wynikiem opóźnień reakcji psychicznych podmiotów gospodarczych. Z reguły, ludzkie przyzwyczajenia i nawyki wywołują pewną bezwładność zachowań, która powoduje, że zmiany na przykład dochodów lub cen nie wywierają natychmiastowych reakcji rynkowych. Potrzebny jest pewien upływ czasu dla wykształcenia się nowych przyzwyczajeń postępowania. Po drugie przystosowanie się podaży do zmian rynkowych następuje z opóźnieniem, wymuszonym warunkami technologicznymi uruchamiania nowych inwestycji, produkcji, importu i tp. Po trzecie działają czynniki instytucjonalne, takie jak umowy dostaw, warunki długookresowych kontraktów, terminy wchodzenia w życie nowych przepisów i tp. Z tych i wielu podobnych powodów opóźnienia odgrywają w procesach ekonomicznych ważną rolę. Są one powodem wprowadzenia do rozważań teorii ekonomii pojęcia krótkiego i długiego okresu. Problemy ekonometryczne modeli dynamicznych. Szacowanie modeli na podstawie szeregów czasowych tworzy nowe, niespotykane przy danych przekrojowych problemy. Wynikają one z niebezpiecznego zjawiska niestacjonarności szeregów czasowych. Dodatkowym, często pojawiającym się problemem jest skorelowania zmiennych objaśniających z równoczesnym zaburzeniem losowym. Zagadnienia te omówimy w dalszej części tego rozdziału. 76

177 .. Modele o opóźnieniach rozłożonych (Distributed Lag Models) Modele dynamiczne, w których zmiana objaśniana jest zależna od opóźnień zmiennej objaśniającej nazywane są modelami o opóźnieniach rozłożonych, określanych anglojęzycznym skrótem DL. Model DL(q) opisany jest równaniem: (.) y = α + β x + β x + β x + + β y + ε t 0 t t t q t q t Po prawej stronie równania mamy regresory, które nie są różnymi zmiennymi objaśniającymi, jak to miało miejsce w dotychczas rozpatrywanych przypadkach danych przekrojowych, a są tą samą zmienną, obserwowaną w coraz wcześniejszych jednostkach czasu. Regresory te nazywamy zmiennymi opóźnionymi; zaś q rzędem opóźnienia lub długością opóźnienia. Skoncentrujemy uwagę na przypadku jednej zamiennej objaśniającej i jej opóźnieniach, jednak nasze rozważania mają charakter ogólny i mogą być uogólnione na przypadki wielu zmiennych objaśniających, z których każda ma swoje własne opóźnienia. W równaniu regresji (.) parametr β 0 zwany jest mnożnikiem krótkookresowym, gdyż przedstawia on wpływ jednostkowej zmiany zmiennej objaśniającej (obserwowanej w tym samym przedziale czasu) na wartość oczekiwaną zmiennej objaśnianej. Jeśli taka sama jednostkowa zmiana zmiennej objaśniającej ma miejsce w czasie t, to w następnym okresie wartość oczekiwana zmiennej objaśnianej zmieni się o (β 0 + β ), zaś w okresie dalszym o jednostkę czasu o (β 0 + β + β ). Te cząstkowe sumy parametrów zwane są mnożnikami pośrednimi. Wreszcie suma (β 0 + β + β β q ) zwana jest mnożnikiem całkowitym lub mnożnikiem długookresowym. Przykładem takiego modelu jest funkcja konsumpcji, w której wydatki konsumpcyjne zależą nie tylko od bieżących dochodów, ale również od minionych. Rozważmy hipotetyczny przykład, w którym wydatki konsumpcyjne gospodarstw domowych w t-tym roku, które oznaczymy przez y t zależą od dochodów do dyspozycji w tym samym roku x t, od dochodów opóźnionych o jeden rok x t- i o dwa lata x t-. Dla ilustracji rozważamy model: (.) y = α + β x + β x + β x + ε t 0 t t t t 77

178 Przyjmijmy, że współczynniki przy dochodach bieżących i opóźnionych wynoszą: (.3) y t = stała + 0,4 x t + 0,3 x t- + 0, x t-, oraz, że badana osoba uzyskała stałą podwyżkę dochodów, nie zmieniającą się w ciągu pewnego okresu czasu, wynoszącą 000 złotych. Jeśli funkcja konsumpcji tej osoby opisana jest równaniem (.3), to w pierwszym roku konsumpcja tej osoby przyrośnie o 0,4 razy 000 złotych, a więc o 400 złotych, w drugim roku o dalsze 300 złotych, a w trzecim o dalsze 00 złotych. W przykładzie tym mnożnik krótkookresowy wynosi 0,4, a długookresowy (0,4 +0,3 + 0, ) = 0,9; pozostałe 0, dochodu jest oszczędzane. Ilustruje to poniższy rysunek Rys. (.). Wydatki konsumpcyjne w 3-cim roku w -gim roku w -szy roku przed podwyżką 0 t t t 3 czas Rys.. Długookresowe przystosowanie się wydatków konsumpcyjnych do wzrostu dochodów.. Estymacja modeli DL i wybór rzędu opóźnienia 78

179 Jeśli zmienna objaśniająca x jest nielosowa to model z opóźnieniami rozłożonymi możemy szacować za pomocą MNK. Powstaje jednak praktyczny problem wyboru rzędu opóźnienia. Niekiedy rząd ten zależy od rodzaju modelowanych danych statystycznych. Jeśli są to dane miesięczne lub kwartalne, to opóźnienie może wynosić jednokrotną, dwukrotną (lub przy długim szeregu czasowym - wielokrotną) liczbę obserwacji w cyklu sezonowym (a więc dla danych kwartalnych q = 4 lub wielokrotność 4, dla miesięcznych q = lub wielokrotność ). Wprowadzenie zbyt wielu opóźnień zmniejsza liczbę stopni swobody, co wpływa istotnie na obniżenie precyzji oszacowania modelu. Sprawa ta staje się szczególnie ważna, gdy model zawiera większą liczbę zmiennych objaśniających. Inną istotną komplikacją pojawiającą się przy zbyt dużej liczbie opóźnień jest współliniowość, gdyż dla większości zmiennych ekonomicznych kolejne wartości tych zmiennych są ze sobą silnie skorelowane, a z rozważań nad współliniowością wiemy, że obniża ona efektywność ocen, co powoduje, że stają się one zbyt często statystycznie nieistotne. W związku z powyższymi uwagami można postulować następujące postępowanie: Rozpocząć od rozsądnie dużej liczby opóźnień q max i sprawdzić za pomocą testu t - studenta, czy współczynnik o najwyższym rzędzie opóźnienia β qmax jest statystycznie różny od zera. Jeśli tak, to jest to poszukiwany rząd opóźnienia. Jeśli akceptujemy hipotezę, że β qmax = 0, to szacujemy ponownie model z obniżonym o jeden rzędem opóźnień i ponawiamy procedurę weryfikacji. Postępowanie to powtarzamy aż do uzyskania rzędu opóźnienia, dla którego współczynnik jest statystycznie różny od zera. Jest to poszukiwany rząd opóźnienia. Może się zdarzyć, że szacowany współczynnik przy którymś opóźnieniu zmienia znak z dodatniego na ujemny, co podważa sensowność interpretacji sumy współczynników jako mnożnika reakcji długookresowej. Oznacza to, że równanie regresji zostało niepoprawnie wyspecyfikowane i winno być zastąpione równaniem regresji o innej specyfikacji..3. Modele autoregresyjne i modele autoregresyjne z opóźnieniami rozłożonymi (AutoRegressive Distributed Lag Models Modele ADL lub ARDL) Zapiszmy model (.4.) y = β + β x + β y + ε t t 3 t t 79

180 Jest to model autoregresyjny rzędu - AR (), gdyż opóźniona zmienna objaśniana y t- pełni tu funkcję zmiennej objaśniającej. Zauważmy, że w modelu z opóźnieniami rozłożonymi (.) musieliśmy oszacować dużą liczbę parametrów przy zmiennych opóźnionych, co przy względnie krótkich szeregach czasowych może istotnie ograniczyć liczbę stopni swobody. W modelu (.4) mamy znacznie mniejszą liczbę parametrów do oszacowania, a przez to oszczędzamy dużą liczbę stopni swobody. Zauważmy ponadto, że opóźniona zmienna objaśniana zastępuje w powyższym równaniu dużą liczbę opóźnionych zmiennych x z równania (.). Jeśli bowiem opóźnimy (4.3) o jednostkę czasu to otrzymamy: (.5) y = α + β x + β x + β x + + β x + ε t 0 t t t 3 q t ( q+ ) t a więc zmienna y t- zastępuje ciąg opóźnionych zmiennych x. Uogólnieniem modelu autoregresyjnego rzędu jest model autoregresyjny rzędu p AR(p): (.6) y = α + α y + α y + + α y + ε t 0 t t p t p t Szacowanie modeli autoregresyjnych rodzi nowe problemy ekonometryczne. Ponieważ y t jest losowe, to i y t- jest również losowe, co oznacza, że zmienna objaśniająca y t- jest zmienną losową, a nie wielkością stałą i może być skorelowana z zaburzeniem losowym ε t, jeśli w zaburzeniu tym występuje autokorelacja.. Jest to problem zwany endogenicznością zmiennej objaśniającej, co oznacza, że proces generujący tę zmienną nie jest dany z zewnątrz, a jest zależny od zmiennej objaśnianej. W teorii ekonometrii udowadnia się, że jeśli występuje takie skorelowanie, to estymatory MNK są nie tylko obciążone, ale również niezgodne, a stąd procedury testujące oparte na statystykach t, χ oraz F są niepoprawne, gdyż statystyki te nie mają w takich sytuacjach pożądanych rozkładów. Dlatego szacując model autoregresyjny za pomocą MNK musimy się upewnić, że zmienne objaśniające nie są nieskorelowane z zaburzeniem losowym ε t. Dlatego przy szacowaniu modeli autoregresyjnych ważne staje się testowanie, czy reszty modelu nie wykazują autokorelacji (najczęściej autokorelacji pierwszego rzędu testowanej statystyką Durbina-Watsona), co sprawdza ich niezależność od opóźnionej zmiennej y t-. Model opisany równaniem (.6) możemy uogólnić zapisując postać (.7) y = α + α y + α y + + α y + β x + β x + β x + + β x + ε t 0 t t p t p 0 t t t q t q t 80

181 Jest to model autoregresyjny rzędu p z opóźnieniami rozłożonymi rzędu q - ADL(p,q). Poczynione wyżej uwagi, dotyczące estymacji modeli autoregresyjnych ważne są oczywiście również dla przypadku modeli uogólnionych ADL(p,q). Przykład. Celem poniższego przykładu jest oszacowanie długookresowej relacji pomiędzy konsumpcją a PKB dla Stanów Zjednoczonych. Dysponujemy danymi rocznymi za okres pochodzącymi ze strony Zarówno konsumpcja, jak i PKB są wyrażone w bilionach dolarów 990 roku. Zaczynamy od oszacowania modelu o rozłożonych opóźnieniach (przyjmijmy, że maksymalne opóźnienie wynosi ). Opis zmiennych: l_konsumpcja logarytm konsumpcji l_pkb logarytm PKB l_pkb_ pierwsze opóźnienie dla logarytmu PKB l_pkb_ drugie opóźnienie dla logarytmu PKB Poniżej wyniki oszacowania modelu: 8

182 W modelu tym mnożnik krótkookresowy wynosi,3 i oznacza, że wzrost PKB o % powoduje w tym samym roku wzrost konsumpcji,3%. Mnożnik długookresowy wynosi,3. (,3383 0, , =,34773). Wielkość tę należałoby zinterpretować następująco: wzrost PKB o % w danym roku spowoduje łączny (w długim okresie) wzrost konsumpcji o,3%. Zauważmy jednak, że wartość poznawczą oszacowanego modelu DL dyskwalifikuje ujemna wartość oceny przy pierwszym opóźnieniu logarytmu PKB, gdyż sensowna interpretacja mnożników nie toleruje wartości ujemnych dla mnożników pośrednich. Ponadto statystyka Durbina-Watsona wynosi 0,456, co wskazuje na autokorelację reszt, a stąd na endogeniczność zmiennej objaśniającej. W związku z tym oszacujmy model autoregresyjny o opóźnieniach rozłożonych ADL(p=,q=). Wyniki oszacowania poniżej: Dołączenie do zbioru zmiennych objaśniających pierwszego i drugiego opóźnienia logarytmu konsumpcji doprowadziło do uzyskania wyniku, który jest sensownie interpretowalnym modelem. Zastrzeżenia mogą budzić jedynie bardzo wysokie wartości p-value w teście na istotność drugich opóźnień logarytmu konsumpcji i logarytmu PKB, wskazując na ich statystyczną nieistotność. 8

183 Co jednak jest szczególnie ważne, to wysoka wartość testu Durbina-Watsona, wynosząca,0096, która oznacza brak autokorelacji reszt. Wiemy, że jest to ważny sygnał o nieobciążoności estymatorów i ich zgodności. Wynik ten pozwala przyjąć, że zaburzenie losowe ε t nie jest skorelowane z opóźnioną zmienną objaśniającą y t-. Możemy oczekiwać, że usunięcie z modelu dwóch zmiennych nieistotnych. nie wpłynie znacząco na zmianę wyniku. Eliminacja z modelu drugich opóźnień logarytmu konsumpcji i logarytmu PKB nie wpłynęła znacząco na wyniki estymacji. Próba zastosowania modelu ADL okazała się pomyślna i model należy uznać za poprawny..4. Niestacjonarność i integracja szeregu ; konsekwencje Szacowanie modeli regresyjnych na podstawie niestacjonarnych szeregów czasowych często może prowadzić niekiedy do tak zwanej regresji pozornej (Spurious Regression), co powoduje niepoprawne wartości statystyki t-studenta i innych statystyk, które przyjmują zbyt duże wartości. Z regresją pozorną mamy do czynienia w sytuacjach, gdy modelujemy regresję między szeregami, z których każdy ma swój własny niezależny trend. Wówczas możemy uzyskać 83

184 regresję pozorną, w której w rzeczywistości nie występuje zależność uwidoczniona w równaniu regresji, a szeregi powiązane ze sobą podobnymi trendami tworzą pozorną zależność. Wyniki estymacji noszą wszelkie pozory poprawności (oszacowany model może zawierać istotne zmienne objaśniające, współczynnik determinacji R może być satysfakcjonująco wysoki), jednak w takich przypadkach niepokój budzi współczynnik autokorelacji reszt Durbina-Watsona, który jest bliski zeru, wskazując na występowanie znacznej autokorelacji. Powodem regresji pozornej jest na ogół niestacjonarność szeregów czasowych. Pojęcie stacjonarności wprowadziliśmy już w poprzednim rozdziale dyskutując modele ARIMA. Przypomnijmy zatem, że stochastyczny szereg czasowy jest stacjonarny, jeśli jego średnia i wariancja są stałe, zaś kowariancja zależy tylko od opóźnienia występującego między dwiema obserwacjami i nie zależy od konkretnego okresu czasu, począwszy od którego kowariancja ta jest liczona. Powtórzmy również zapis formalny. Szereg stochastyczny jest stacjonarny (ściślej kowariancyjnie stacjonarny lub słabo stacjonarny), jeśli spełnia następujące trzy warunki: (.8) Warunek średniej: E(y t ) = µ (.9) Warunek wariancji: E(y t µ) = σ (.0) Warunek kowariancji: E[(y t µ) (y t+k µ)] = γ k, gdzie µ, σ oznaczają średnią i wariancję, zaś γ k oznacza kowariancję o opóźnieniu k, a więc kowariancję między wartościami y oddzielonymi od siebie o k okresów. Z warunku kowariancyjnej stacjonarności wynikają istotne dla analizy ekonomicznej własności, a mianowicie:. zdolność szeregu do powrotu do średniej, oraz. przejściowość zaburzeń, co oznacza, że efekty zaburzeń (lub jak je czasem nazywamy szoków) rozpraszają się z upływem czasu i szereg powraca do poziomu długookresowej średniej Test pierwiastka jednostkowego Dickeya-Fullera (Test DF) 84

185 Wykrycie niestacjonarności umożliwia test niestacjonarności, zwany również testem pierwiastka jednostkowego. Omówimy ten test, a następnie przedstawimy jego zastosowania. Rozpocznijmy od znanego z rozdziału poprzedniego procesu autoregresyjnego (.0) yt = θ yt + ε t, w którym ε t ~ iin ( 0, σ ) szumem. jest białym Jeśli θ = to mamy do czynienia z przypadkiem pierwiastka jednostkowego (wariancja procesu wzrasta do nieskończoności). Wprowadźmy powszechnie używane oznaczenie dla procesu niestacjonarnego. Jeśli jednokrotne różnicowanie procesu y t prowadzi do jego stacjonarności, to mówimy że jest on zintegrowany stopnia pierwszego i zapisujemy y t ~I(). Jeśli proces wymaga podwójnego różnicowania dla osiągnięcia stacjonarności, to jest zintegrowany stopnia drugiego, a więc y t ~I() i jeśli jest stacjonarny, to mówimy że jest zintegrowany stopnia 0, co zapisujemy y t ~I(0). Na pierwszy rzut oka wydaje się, że jeśli szacowalibyśmy regresję y t względem jego wielkości opóźnionej y t to moglibyśmy przetestować hipotezę, że θ =. Zastosowanie testu t Studenta jest jednak w tym przypadku błędne, gdyż jeśli θ =, to proces jest błądzeniem losowym i jest niestacjonarny. Statystyka t nie ma wówczas rozkładu t Studenta nawet w dużych próbach. Dlatego wygodnym zapisem równania regresji jest odjęcie stronami y t w (.0), co prowadzi do postaci: (.) y = ( θ ) y + ε, gdzie ( y t = y t - y t- ). t t t Jeśli θ =, to y t jest stacjonarne, a więc yt ~ I ( 0 ) gdyż z założenia zaburzenie losowe ε t jest białym szumem. Możemy więc oszacować (.) i przetestować hipotezę H 0 : θ jest zero. Jeśli jest zero (θ = ), to y t jest niestacjonarne, a więc yt ~ I ( ) (występuje pierwiastek jednostkowy), jeśli zaś jest ujemne, to wnosimy, że y t jest stacjonarne. (θ w szeregu stacjonarnym musi spełniać warunek θ <, gdyż inaczej proces jest wybuchowy). 85

186 Dickey i Fuller wykazali, że w tym przypadku poprawną statystyką jest tak zwana statystyka τ (tau), nazywana również od nazwisk jej autorów statystyką Dickey`a - Fullera lub testem DF. Wartości krytyczne statystyki τ zależą od postaci testowanego równania. Wyróżnia się trzy następujące przypadki gdy θ = : (.) y t jest błądzeniem losowym: y = ( θ ) y + ε, t t t (.3) y t jest błądzeniem losowym z dryfem: y = β + ( θ ) y + ε, (.4) y t jest błądzeniem losowym z dryfem t t t wokół trendu deterministycznego: y = β + β t + ( θ ) y + ε. t t t Procedura testowania dowolnego z trzech powyższych równań przebiega w znany nam sposób. Krok. Wyznaczamy nową zmienną y t = y t - y t-. Krok. Szacujemy za pomocą MNK parametry jednego z tych równań. (Niżej wyjaśnimy, które z nich należy wybrać). Krok 3. Stawiamy hipotezę zerową H : θ = 0 H : θ < 0 0 Zerowa hipoteza zakłada, że istnieje pierwiastek jednostkowy. Nie stawiamy hipotezy alternatywnej postaci H :θ > 0, gdyż oznaczałoby to, że model ma charakter wybuchowy, co jest nieprawdopodobne w szeregach ekonomicznych. Krok 4.Wyznaczamy statystykę testującą tak, jakby pochodziła ona z rozkładu t-studenta θ t =, ale oznaczmy ją przez τ. τ σ θ ( ) θ. obl = σ ( θ ) Krok 5. Weryfikujemy hipotezę zerową. Jeśli τ obl < τ to odrzucamy hipotezę, że krytyczne istnieje pierwiastek jednostkowy H 0 :θ = 0, a więc przyjmujemy, że proces jest stacjonarny. Tablica wartości krytycznych zamieszczona jest niżej. 86

187 Tablica. % i 5% wartości krytyczne τ testu Dickey`a-Fullera (Fuller, 976, str. 373) Bez stałej i bez trendu Ze stałą i bez trendu Ze stałą i z trendem Poziomy istotności Wielkość próby % 5% % 5% % 5% T = 5 -,66 -,95-3,75-3,00-4,38-3,60 T = 50 -,6 -,95-3,58 -,93-4,5-3,50 T = 00 -,60 -,95-3,5 -,89-4,03-3,45 T = 50 -,58 -,95-3,46 -,88-3,99-3,43 T = 500 -,58 -,95-3,44 -,87-3,98-3,4 T = -,58 -,95-3,43 -,86-3,96-3,4 Uwaga: Wartości krytyczne testu τ są ujemne, gdyż stosujemy test jednostronny przy hipotezie alternatywnej H : θ < 0. Wartości krytyczne testu τ są bardziej ujemne od odpowiednich wartości krytycznych statystyki t Studenta, co wskazuje, że estymatory θ mają ujemne obciążenie, skutkiem czego stosowanie tradycyjnego testu. t Studenta prowadziłoby do nadmiernie częstego odrzucania hipotezy pierwiastka jednostkowego. Teoria testowania podpowiada, że jeśli będziemy testować niepoprawnie wybrane równanie spośród trzech wyżej przedstawionych, to popełnimy błąd specyfikacji, którego konsekwencje są poważne. Przystępując do testowania równania nie wiemy jednak, która z trzech specyfikacji jest poprawna. Dlatego w praktyce testujemy równanie trzecie (tj. równanie ze stałą i trendem liniowym). Jeśli parametr regresji przy trendzie liniowym β jest różny od zera, to za poprawną specyfikację uznajemy to właśnie równanie. Jeśli z wykresu szeregu wnosimy, że trend jest wykładniczy, jak to ma miejsce w szeregach PKB czy w szeregach zmian ludnościowych, to szereg wyjściowy należy zlogarytmować, co przekształca trend wykładniczy w trend liniowy i do tak przekształconego szeregu zastosować równanie trzecie. Jeśli parametr regresji przy trendzie deterministycznym β jest zero, to testujemy równanie drugie (ze stałą i bez trendu). Jeśli w tym równaniu parametr stałej β jest różny od zera, to za 87

188 poprawną specyfikację uznajemy równanie drugie. Jeśli możemy przyjąć, że jest zero, to za poprawnie wyspecyfikowane równanie przyjmujemy pierwsze..6. Rozszerzony test pierwiastka jednostkowego zwany w języku angielskim Augmented Dickey-Fuller Test (Test ADF). Przy testowaniu pierwiastka jednostkowego na podstawie równań (.), (.3) lub (.4) przyjmowaliśmy założenie, że nie występuje w nich skorelowanie zaburzeń losowych. Jeśli testy Durbina-Watsona lub Breuscha-Godfrey`a wykazują na skorelowanie reszt w którymś z szacowanych równań, to należy je uzupełnić dodatkowymi wartościami opóźnionymi zmiennej zależnej y t i stosować tak zwany rozszerzony test DF oznaczany jako ADF (Augmented Dickey-Fuller Test), gdzie regresja jest rozszerzona o opóźnione zmiany y t i. Dla równania trzeciego (ze stałą i trendem liniowym) test ten jest oparty na estymacji następującego równania: (.5) y = β + β t + ( θ ) y + α y + ε. t t i i= p t i t Stosowanie w charakterze dodatkowych regresorów opóźnionych przyrostów zmiennej objaśnianej y t i, a nie bezpośrednio samej zmiennej y t, podyktowane jest koniecznością uniknięcia współliniowości, która zachodzi z reguły między kolejnymi obserwacjami zmiennej y t. Wartości krytyczne i reguła odrzucania hipotezy zerowej są dla rozszerzonego testu DF takie same jak w teście DF poprzednio omówionym. Koleje kroki testowania przebiegają następująco: Krok. Tworzymy równanie regresji (.5) t, y t i, y t, y t,...aż do y t p. ze stałą i regresorami: 88

189 Zauważmy, że ponieważ yt p = yt p yt p jest określone jedynie dla obserwacji począwszy od p+ do T, to tracimy p+ pierwszych obserwacji. Im więcej opóźnień włączymy do równania regresji (.5) tym więcej tracimy początkowych obserwacji. Przy małych próbach prowadzi to do spadku mocy testu (maleje liczba stopni swobody). Jeśli jednak włączymy zbyt mało opóźnień, to narażamy się na efekty autokorelacji zaburzeń losowych. Często liczba opóźnień jest podyktowana częstotliwością zbieranych danych (dane miesięczne, kwartalne). Brak jest jednak jednoznacznych reguł postępowania w doborze liczby opóźnień. Dla danych rocznych zwykle wystarczy jedno lub dwa opóźnienia. Krok. Szacujemy za pomocą MNK równanie (.5). Krok 3. Procedurę testowania rozpoczynamy od określenia rzędu opóźnienia przy zmiennej y t p. Jeśli współczynnik regresji α p przy tym opóźnieniu y t p nie jest statystycznie istotny (co sprawdzamy testem t-studenta), to zmniejszamy rząd opóźnienia i ponownie szacujemy model. Jeśli współczynnik regresji α p jest statystycznie istotny, to poszukiwanym rzędem opóźnienia jest p-. W przypadku przeciwnym powtarzamy procedurę dla równania o rzędzie opóźnionym o dalszą jednostkę. Krok 4. Testujemy istotność parametru przy trendzie liniowym β (testem t-studenta). Jeśli jest on nieistotny, usuwamy z równania trend liniowy. Krok 5. Stawiamy hipotezę H 0 :θ = 0 wobec hipotezy alternatywnej H :θ < 0 Zerowa hipoteza zakłada, że istnieje pierwiastek jednostkowy. i wyznaczamy statystykę testującą: τ θ. obl = σ ( θ ) Krok 6. Weryfikujemy hipotezę zerową. Jeśli τ obl < τ to odrzucamy hipotezę, że krytyczne istnieje pierwiastek jednostkowy H 0 :θ = 0, a więc przyjmujemy, że proces jest stacjonarny. Przykłady testowania pierwiastka jednostkowego: Przykład.. 89

190 Dla θ = y t jest błądzeniem losowym opisanym równaniem: (.6) y t = ε t. Celem modeli regresji jest opisanie zmian zmiennej objaśnianej za pomocą zbioru zmiennych objaśniających. W modelu błądzenia losowego (.6) zmienna objaśniana jest białym szumem, a więc zmiany tej zmiennej są nieprzewidywalne. Rodzi się uzasadnione pytanie o celowość badania tego rodzaju procesu. Tkwi ona w tak zwanej zmienności (ang. Volatility) badanego procesu. Jeśli badamy stopy zwrotu z papierów wartościowych to interesującą kwestią jest ustalenie, jak zmienia się owa zmienność w czasie. Pierwszymi badaniami nad zmiennością były analizy zmienności inflacji, w których pytanie badawcze nie dotyczyło poziomu inflacji (chociaż i to zagadnienie jest niezwykle ważne), a wariancji inflacji. Nawet przy wysokiej inflacji można sensownie planować przyszłość, jeśli wariancja inflacji jest niska. Wysoka wariancja oznacza trudności w ustalaniu przewidywań co do poziomu stopy inflacji w następnym okresie. Z tych powodów wariancja interpretowana jest jako miara ryzyka przypisywanego badanemu zjawisku. Jednakże, jak podkreśla model CAPM ryzyko związane z portfelem aktywów zależy nie tylko od zmienności poszczególnych aktywów, ale również od współczynnika korelacji między różnymi aktywami. Modele błądzenia losowego (choć nie tylko one) są często stosowane do modelowania stóp zwrotu akcji i innych papierów wartościowych. Dane dzienne WIG 0 od 99/04/6 do 004/0/ obserwacje Adres internetowy: Rys... Obserwacje dzienne WIG0 od 99/04/6 do 004/0/ obserwacje. Test Dickeya-Fullera dla zmiennej CLOSE 90

191 liczebność próby 333 Hipoteza zerowa: występuje pierwiastek jednostkowy a = ; proces I() test z wyrazem wolnym (const) model: ( - L)y = b0 + (a-)*y(-) + e estymowana wartość (a-) wynosi: 0, statystyka testu: t = 0,93846 wartość p 0,996 Równanie regresji testu Dickeya-Fullera Estymacja KMNK z wykorzystaniem 333 obserwacji 9/04/7-04/0/09 Zmienna zależna: d_close Zmienna Współczynnik Błąd stand. Statystyka t Wartość p const 3,507 0,885 0,34 CLOSE_ 0, , ,938 0, Wartości p z pracy MacKinnon (Journal of Applied Econometrics, 996) Test wskazuje na istnienie pierwiastka jednostkowego. Ponieważ dane są obserwacjami dziennymi, to możemy podejrzewać 5 dniową autokorelację zaburzeń. Zastosujmy dwukrotny cykl 5-dniowy ( a więc 0 opóźnionych przyrostów zmiennej). Otrzymamy: (Wydruk zawiera standardowo wyniki testu kolejno:. bez trendu liniowego,. z trendem liniowym, 3. z trendem kwadratowym.) Rozszerzony test Dickeya-Fullera dla rzędu opóźnienia 0, dla zmiennej CLOSE liczebność próby 334 Hipoteza zerowa: występuje pierwiastek jednostkowy a = ; proces I() test z wyrazem wolnym (const) model: ( - L)y = b0 + (a-)*y(-) e estymowana wartość (a-) wynosi: 7,03484e-005 statystyka testu: t = 0,5465 asymptotyczna wartość p = 0,967 Równanie regresji rozszerzonego testu Dickeya-Fullera Estymacja KMNK z wykorzystaniem 334 obserwacji 9/04/30-04/0/09 Zmienna zależna: d_close Zmienna Współczynnik Błąd stand. Statystyka t Wartość p 9

192 const 8,4493 0,784 0,78 CLOSE_ 7,03484E-05 0, ,5 0,96697 d_clos_ 0,705 0, ,798 d_clos_ -0,0608 0, ,57 d_clos_3 0, ,07733,497 d_clos_4 0, , ,755 d_clos_5 0, ,0780,944 d_clos_6 0, , ,74 d_clos_7-0, , ,350 d_clos_8 0, ,07866, d_clos_9 0, , ,403 d_clo_0 0, ,075963,349 z wyrazem wolnym i trendem liniowym model: ( - L)y = b0 + b*t + (a-)*y(-) e estymowana wartość (a-) wynosi: -0,00575 statystyka testu: t = -,6609 asymptotyczna wartość p = 0,96 Równanie regresji rozszerzonego testu Dickeya-Fullera Estymacja KMNK z wykorzystaniem 334 obserwacji 9/04/30-04/0/09 Zmienna zależna: d_close Zmienna Współczynnik Błąd stand. Statystyka t Wartość p const 7,637 0,795 0,707 CLOSE_ -0, , ,66 0,9663 d_clos_ 0,70 0, ,837 d_clos_ -0,0635 0, ,465 d_clos_3 0, ,0779,545 d_clos_4 0, , ,807 d_clos_5 0, ,0780,998 d_clos_6 0,0469 0, ,796 d_clos_7-0, , ,9 d_clos_8 0,0094 0,078735,70 d_clos_9 0, , ,457 d_clo_0 0, ,07604,43 time 0, ,008850,49 z wyrazem wolnym, trendem liniowym i trendem kwadratowym model: ( - L)y = b0 + b*t + b*t^ + (a-)*y(-) e estymowana wartość (a-) wynosi: -0, statystyka testu: t = -,67 asymptotyczna wartość p = 0,95 Równanie regresji rozszerzonego testu Dickeya-Fullera Estymacja KMNK z wykorzystaniem 334 obserwacji 9/04/30-04/0/09 Zmienna zależna: d_close 9

193 Zmienna Współczynnik Błąd stand. Statystyka t Wartość p const 37,86 6,4,7 CLOSE_ -0, , ,670 0,953 d_clos_ 0,7007 0, ,77 d_clos_ -0, , ,5 d_clos_3 0, ,077,484 d_clos_4 0,0336 0, ,744 d_clos_5 0, ,078047,934 d_clos_6 0, , ,738 d_clos_7-0,04 0, ,35 d_clos_8 0, ,078673,05 d_clos_9 0, , ,400 d_clo_0 0, ,076047,347 time -0, , ,55 timesq,4453e-05 6,063E-06,398 Wartości p z pracy MacKinnon (Journal of Applied Econometrics, 996) Wyniki wskazują, że występują efekty autokorelacji reszt. Wyznaczmy zatem test przy opóźnieniach: Rozszerzony test Dickeya-Fullera dla rzędu opóźnienia, dla zmiennej CLOSE liczebność próby 33 Hipoteza zerowa: występuje pierwiastek jednostkowy a = ; proces I() test z wyrazem wolnym (const) model: ( - L)y = b0 + (a-)*y(-) e estymowana wartość (a-) wynosi: 0, statystyka testu: t = 0,6353 asymptotyczna wartość p = 0,9907 Równanie regresji rozszerzonego testu Dickeya-Fullera Estymacja KMNK z wykorzystaniem 33 obserwacji 9/04/8-04/0/09 Zmienna zależna: d_close Zmienna Współczynnik Błąd stand. Statystyka t Wartość p* const 5,9 0,6797 0,479 CLOSE_ 0, , ,635 0,9907 d_clos_ 0, , ,834 d_clos_ -0, , ,36 *Wartości p z pracy MacKinnon J. G. [99] Procedurą weryfikacji hipotezy o niestacjonarności (o istnieniu pierwiastka jednostkowego możemy uznać za zakończoną. 93

194 .7. Kointegracja szeregów czasowych Stwierdźmy, że jeśli szeregi są stacjonarne, to nie ma żadnych przeciwwskazań do ich stosowania w analizie regresji. Doświadczenia badań podpowiadają jednak, że większość szeregów czasowych jest niestacjonarna. Zatem stosowanie ich w modelowaniu ekonometrycznym może prowadzić niekiedy do regresji pozornych. Wniosek taki przekreślałby możliwość wykorzystania w badaniach ekonometrycznych znacznej części dostępnych danych statystycznych. Sytuacja jednak nie jest aż tak niepomyślna. Jeśli obydwa szeregi są niestacjonarne, to jest całkiem możliwe, że istnieje między nimi długookresowa stabilna zależność mająca swoje źródło w złożonych procesach ekonomicznych, występujących w gospodarce. Jeśli tak jest, to mówimy, że szeregi są skointegrowane. Engle i Grenger [987] zauważają, że jeśli zachodzi długookresowa równowaga między dwoma szeregami czasowymi, to błąd równowagi nie powinien zbytnio odchylać się od zera i powinien często przekraczać linię zero, a więc powinien być procesem stacjonarnym o średniej zero. Przykłady szeregów skointegrowanych:. Spożycie i PKB. Siła nabywcza pieniądza (Purchasing Power Parity) i dochody permanentne. 3. Krótko i długookresowe stopy procentowe wkładów oszczędnościowych. 4. Szeregi cen na dobra substytucyjne (np. masło i margarynę). Załóżmy, że mamy dwa niestacjonarne procesy x t oraz y t i jeśli są one powiązane długookresową relacją, to błąd równowagi, będący ich liniową kombinacją powinien być stacjonarny. Sformułujmy liniową regresję między y t a x t. (.6) yt = β 0 + β xt + ε t, zaś błąd równowagi jako (.7) ε = y β β x t t 0 t. 94

195 Błąd ten, jako błąd długookresowej równowagi, powinien być stacjonarny. Oznaczmy reszty równania (.6) przez e t. Możemy wówczas sformułować równanie testujące pierwiastek jednostkowy dla reszt postaci podobnej do (.), ale bez stałej: (.8) et = ( θ ) et + ut i wyznaczyć statystykę τ, którą porównamy z wartością krytyczną statystyki τ Dickeya- Fullera wziętą z tablic. Jeśli wyliczone τ co do wartości absolutnej jest większe od wartości krytycznej, to oznacza, że szereg e t jest stacjonarny, a stąd wnosimy, że obydwa szeregi y t i x t mimo, że są niestacjonarne, to są skointegrowane i nie zagraża niebezpieczeństwo uzyskania pozornej regresji. Przykład.3.: Model : Estymacja KMNK z wykorzystaniem 4 obserwacji Zmienna zależna: SPO Zmienna Współczynnik Błąd stand. Statystyka t wartość p const -,9007 6,7904-0,4300 0, PKB 0, ,00 6,5678 < 0,0000 *** Srednia arytmetyczna zmiennej zależnej = 45,897 Odchylenie standardowe zmiennej zależnej = 74,55 Suma kwadratów reszt = 8,46 Błąd standardowy reszt = 4,6674 Wsp. determinacji R = 0, Skorygowany R = 0, Stopnie swobody = Statystyka testu Durbina-Watsona =,688 Autokorelacja reszt rzędu pierwszego = 0, Logarytm wiarygodności = -39,098 Kryterium informacyjne Akaika = 8,96 Kryterium bayesowskie Schwarza = 83,474 Zapisujemy równanie testujące: e = ( θ ) e + u. t t t Testujemy pierwiastek jednostkowy: 95

196 Test Dickeya-Fullera dla zmiennej uhat liczebność próby Hipoteza zerowa: występuje pierwiastek jednostkowy a = ; proces I() test bez wyrazu wolnego (const) model: ( - L)y = (a-)*y(-) + e estymowana wartość (a-) wynosi: -,496 statystyka testu: t = -7,04585 wartość p,7e-005 Równanie regresji testu Dickeya-Fullera Estymacja KMNK z wykorzystaniem obserwacji Zmienna zależna: d_uhat Zmienna Współczynnik Błąd stand. Statystyka t Wartość p uhat_ -,496 0,68-7,046 0,0000 Wartości p z pracy MacKinnon (Journal of Applied Econometrics, 996) Bez pierwszej obserwacji. Model : Estymacja KMNK z wykorzystaniem obserwacji Zmienna zależna: Y Zmienna Współczynnik Błąd stand. Statystyka t wartość p const -,4663 9,5579 -,53 0,38939 X 0, , ,4987 < 0,0000 *** Srednia arytmetyczna zmiennej zależnej = 400,09 Odchylenie standardowe zmiennej zależnej = 67,503 Suma kwadratów reszt = 40,949 Błąd standardowy reszt = 4,90866 Wsp. determinacji R = 0,99593 Skorygowany R = 0,9947 Stopnie swobody = 0 Statystyka testu Durbina-Watsona =,45466 Autokorelacja reszt rzędu pierwszego = 0,0959 Logarytm wiarygodności = -35,053 Kryterium informacyjne Akaika = 74,0507 Kryterium bayesowskie Schwarza = 75,005 Zapiszmy reszty: Uhat Obs uhat 99 4, , , , , , , , , , ,

197 00 9,3 Test Dickeya-Fullera dla zmiennej uhat liczebność próby Hipoteza zerowa: występuje pierwiastek jednostkowy a = ; proces I() test bez wyrazu wolnego (const) model: ( - L)y = (a-)*y(-) + e estymowana wartość (a-) wynosi: -0,90409 statystyka testu: t = -,39009 wartość p 0,033 Równanie regresji testu Dickeya-Fullera Estymacja KMNK z wykorzystaniem obserwacji Zmienna zależna: d_uhat Zmienna Współczynnik Błąd stand. Statystyka t Wartość p uhat_ -0, , ,390 0,033 Wartości p z pracy MacKinnon (Journal of Applied Econometrics, 996) Odrzucamy hipotezę pierwiastka jednostkowego dla statystyki testującej. PKB i Konsumpcja są skointegrowane.. 8. Przyczynowość w ekonometrii Dobierając zmienne objaśniające modelu regresyjnego często upatrujemy w nich przyczyn, które wywołują zmiany zmiennej objaśnianej. Niekiedy jednak mogą powstawać wątpliwości, czy dobrane regresory są rzeczywistymi przyczynami. Niepewność ta zrodziła potrzebę testowania przyczynowości w modelach ekonometrycznych. Przyczynowość w ekonometrii jest koncepcją różną od przyczynowości w sensie filozoficznym. Problem ten podjął C. Granger formułując test przyczynowości. Od nazwiska autora pochodzi też nazwa przyczynowość w sensie Grangera (Granger Causality). x jest przyczyną w sensie Grangera dla y jeśli bieżąca wartość zmiennej y może być przewidywana z większą dokładnością przy wykorzystaniu minionych wartości zmiennej x niż bez nich, przy pozostałej niezmienionej informacji, a więc przy założeniu ceteris paribus. Celem zweryfikowania hipotezy, że x jest przyczyną y szacujemy równanie (.9) y = α + α y + α y + β x + β x + ε. t 0 t l t l t l t l t Hipoteza zerowa brzmi: x nie jest przyczyną w sensie Grangera dla y. Weryfikacja tej hipotezy sprowadza się do zweryfikowania hipotezy, że parametry β do β l są łącznie 97

198 równe zero. Dla zweryfikowania tej hipotezy stosujemy test F Fishera-Snedecora opisany w 5.3 postaci: (.0) F l n K = ( R RR ) / l, ( R ) / ( n K) gdzie l jest liczbą zastosowanych opóźnień. Test przyczynowości Grangera umożliwia weryfikację hipotez o przyczynowości zmiennych sezonowych, trendów itp. Drugim testem przyczynowości jest test Simsa. Punktem wyjściowym rozważań nad tym testem jest oczywista teza, że przyszłość nie może być przyczyną teraźniejszości. Dla zweryfikowania hipotezy, że x jest przyczyną w sensie Grangera dla y szacowane jest równanie (.) x = γ + γ x + γ x + γ x + δ y + δ y + δ y t 0 t t 3 t 3 t + 3 t+ 3 t+ + δ y + δ y + δ y + ε 4 t 5 t 6 t 3 t, gdzie dla uproszczenia ograniczyliśmy liczbę opóźnień i wyprzedzeń do trzech. Zauważmy, że w tym równaniu zamiast y zmienną objaśnianą jest x Wśród regresorów włączone są wartości wyprzedzające y. Jeśli x jest przyczyną y, to oczekujemy zależności między x a wyprzedzającymi wartościami y, a więc przyczynowość nie wystąpi jeśli δ = δ = δ 3 = 0. Oczywiście nie może zajść sytuacja odwrotna, gdyż przyszłość nie wyznacza teraźniejszości. Niezerowe wartości δ oznaczają, że przyczynowość biegnie od x do przyszłych y. Zauważmy, że wartości różne od zera dla każdego δ, δ, δ 3 z osobna nie wyznaczają przyczynowości. Nie wiadomo który z dwóch testów jest lepszy. Test Simsa zużywa większą liczbę stopni swobody. Powstaje pytanie, jak wiele opóźnień lub wyprzedzeń należy stosować przy formułowaniu równania testującego. Zaleca się włączenie takiej ich ilości, aby nie wystąpiła autokorelacja reszt. Jeśli bowiem ona wystąpi, to kombinacja autokorelacji i opóźnień zmiennej zależnej spowoduje, że test F nie będzie miał poprawnego rozkładu. Przykłady: Czy zmiany dochodu są przyczyną zmian konsumpcji? Czy wzrost gospodarczy jest przyczyną wzrostu oszczędności? Czy wzrost poziomu wykształcenia jest przyczyną wzrostu gospodarczego? Czy inflacja płac jest przyczyną inflacji cen? Podsumowanie 98

199 . W modelach dynamicznych zmienna objaśniana zależy nie tylko od równoczesnych, ale i od opóźnionych (minionych) obserwacji na zmiennych objaśniających, jak też od opóźnionych obserwacji na zmiennej objaśnianej.. Szacowanie modeli na podstawie szeregów czasowych tworzy nowe, niespotykane przy danych przekrojowych problemy. Wynikają one z niebezpiecznego zjawiska niestacjonarności szeregów czasowych. Dodatkowym, często pojawiającym się problemem jest skorelowania zmiennych objaśniających z równoczesnym zaburzeniem losowym. 3. W modelach o opóźnieniach rozłożonych (DL) zmiana objaśniana jest zależna od opóźnionych wartości zmiennej objaśniającej. y = α + β x + β x + β x + + β y + ε t 0 t t t q t q t 4. Modele DL umożliwiają wyznaczanie mnożników krótko okresowych, pośrednich i długo okresowych. 5. Modele DL można szacować za pomocą MNK, dobierając poprawnie rząd opóźnienia. jedynie w sytuacjach, gdy zaburzenie losowe ε t nie jest skorelowane z opóźnioną zmienną objaśniającą y t-. W przeciwnym przypadku, jak dowodzi teoria ekonometrii, estymatory MNK są nie tylko obciążone, ale również niezgodne. 6. Dobór liczby opóźnień przeprowadzamy według zasady od ogólnego do szczególnego sprawdzając statystyczną istotność parametru przy najwyższym opóźnieniu i w sytuacji jego nieistotności redukujemy liczbę opóźnień o jeden i ponawiamy procedurę estymacji modelu. 7. W modelach autoregresyjnych (AR) zmiennymi objaśniającymi są zmienne, będące opóźnieniami zmiennej objaśnianej. 8. Modele AR można szacować za pomocą MNK w sytuacjach, gdy zaburzenie losowe ε t nie jest skorelowane ze zmienną objaśniającą y t-. W przeciwnym przypadku, jak dowodzi teoria ekonometrii, estymatory MNK są nie tylko obciążone, ale również niezgodne. 9. Szereg stochastyczny jest stacjonarny (ściślej kowariancyjnie stacjonarny lub słabo stacjonarny), jeśli spełnia następujące trzy warunki: Warunek średniej: E(y t ) = µ, warunek wariancji: E(y t µ) = σ i warunek kowariancji: E[(y t µ) (y t+k µ)] = γ k,. 0. Wykrycie niestacjonarności umożliwia test niestacjonarności, zwany również testem pierwiastka jednostkowego Dickeya-Fullera (Test DF). 99

200 . Jeśli dwa szeregi są niestacjonarne, to możliwe, że istnieje między nimi długookresowa stabilna zależność. Jeśli tak jest, to mówimy, że szeregi są skointegrowane. Dla szeregów skointegrowanych możliwa jest analiza regresji.. x jest przyczyną w sensie Grangera dla y jeśli bieżąca wartość zmiennej y może być przewidywana z większą dokładnością przy wykorzystaniu minionych wartości zmiennej x niż bez nich, przy pozostałej niezmienionej informacji. 00

201 3. MODELE WEKTOROWEJ AUTOREGRESJI - VAR (Vector AutoRegressive Models) I MODLE KOREKTY BŁĘDEM (Error Correction Models). Omówimy dwie grupy szeroko stosowanych modeli dynamicznych, a mianowicie: modele wektorowej autoregresji i modele korekty błędem. 3.. Modele wektorowej autoregresji (Vector AutoRegressive Models (VAR) Modele autoregresyjne z rozłożonymi opóźnieniami (modele ADL) omawiane w poprzednim rozdziale można uogólnić na przypadek wielu zmiennych, gdzie proces stochastyczny generuje nie pojedynczy szereg czasowy a wektor złożony na ogół z kilku zmiennych. Jednym z takich uogólnień jest zaproponowana przez Simsa, powszechnie dziś stosowana metoda wektorowej autoregresji, zwanej w skrócie VAR. W metodzie VAR modelujemy zjawiska za pomocą ich historii. Rozważmy przypadek dwóch zmiennych y oraz y tworzących dwurównaniowy model VAR pierwszego rzędu - VAR(). Niech na przykład wektor obserwacji na zmiennej y oznacza roczną zagregowaną produkcję przemysłową w cenach stałych liczoną w mld zł., zaś y - import również przedstawiony w tych samych jednostkach. Model VAR możemy wówczas zapisać jak niżej: (3..) y t = µ + α y t + β yt + ε t y = µ + α y + β y + ε, t t t t gdzie zaburzenia losowe ε t oraz ε t zwane są w języku VAR szokami lub impulsami lub innowacjami. Formalny zapis równań wskazuje, że mają one postać analogiczną do równań testujących przyczynowość w sensie Grangera, a więc można za ich pomocą testować przyczynowość. W takich przypadkach najczęściej zakłada się, że każde równanie zawiera k opóźnionych wartości zmiennych y oraz y tworzących model VAR rzędu k - VAR(k). A więc: (3.) y = µ + α y + β y + ε t i t i i= k i= i t i y = µ + α y + β y + ε t i t i i= k k k i= i t i t t 0

202 gdzie pierwsze subskrypty przy parametrach α oraz β są subskryptami numeru równania, zaś drugie subskrypty oznaczają rząd opóźnienia. Zauważmy, że zmienne y oraz y są zmiennymi endogenicznymi, gdyż są określane przez równania modelu (a nie przez funkcje generujące ich wartości poza modelem). Model VAR może być rozszerzony o dalsze zmienne endogeniczne oraz o zmienne egzogeniczne, (których funkcje generujące są określone poza modelem). Oznaczmy zmienne egzogeniczne dołączone do modelu VAR przez x j, ( j =,,..., m). Wówczas dwurównaniowy model VAR(k) z m zmiennymi egzogenicznymi możemy zapisać: (3.3) y = µ + α y + β y + γ x + ε t i t i i= k k i t i i= j= y = µ + α y + β y + γ x + ε t i t i i= k k m m i t i i= j= j j jt jt t t Metoda VAR ma kilka niezaprzeczalnie korzystnych własności, godnych podkreślenia.. Pierwszą istotną własnością VAR jest struktura równań, w której jedynie historia procesów ekonomicznych kształtuje teraźniejszość (regresorami są minione obserwacje na zmiennych endogenicznych). Jest to zatem uzewnętrznienie koncepcji przyczynowości w sensie Grangera, dyskutowanej w poprzednim rozdziale, zgodnie z którą jedynie przeszłość określa teraźniejszość.. Drugą własnością tej metody jest brak skorelowania równoczesnych obserwacji zmiennych objaśniających z zaburzeniem losowym, co powoduje, że spełnione jest założenie o niezależności regresorów od zaburzeń losowych. Z tego powodu estymacja za pomocą MNK daje zawsze estymatory zgodne, zaś UMNK estymatory zgodne i asymptotycznie normalne. 3. Ważną zaletą VAR jest mała liczba równań, składających się na model wielorównaniowy. Doświadczenia stosowania VAR wskazują, że metoda ta lepiej wyjaśnia modelowane procesy i daje dokładniejszą predykcję od tradycyjnie stosowanych modeli wielorównaniowych o równaniach równoczesnych, złożonych z dużej liczby równań nie uwzględniających w sposób dostateczny opóźnień w procesach ekonomicznych. 4. Krytycy VAR wskazują, że jest to metoda ateoretyczna, gdyż poza określeniem zmiennych objaśnianych nie odwołuje się do żadnej teorii ekonomicznej, której 0

203 operacjonalizacją jest konkretna postać modelu wielorównaniowego, zawierającego sformalizowany opis procesów gospodarczych. Entuzjaści VAR podkreślają jednak, że po oszacowaniu modelu za pomocą MNK można wyeliminować z niego zmienne, które okazały się statystycznie nieistotne. Taką drogą zawężając liczbę regresorów można następnie poszukiwać teorii zgodnej z danymi, na podstawie których oszacowany był model. 5. Modele VAR są wykorzystywane dla sprawdzania efektów polityki ekonomicznej, przez którą rozumie się analizę nagłych, szokowych zmian zaburzeń (w terminologii VAR zwanych szokami) w którymkolwiek równaniu na inne zmienne endogeniczne modelu w kolejnych jednostkach czasu. Jest to tak zwana funkcja reakcji na impulsy (an impulse response function), pozwalająca ukazać jak szybko i jak silnie zamierzone oddziaływanie polityki, opisanej określonym równaniem modelu, rozprzestrzenia się na zjawiska modelowane przez inne równania. 6. Metoda VAR umożliwia dekompozycję wariancji (opisującej zmienność dowolnej zmiennej endogenicznej) na składowe płynące z szoków w innych zmiennych. Te niezaprzeczalne zalety powodują, że w analizie makroekonomicznej metoda VAR znajduje coraz szersze zastosowanie. Mankamentem VAR jest duża liczba szacowanych parametrów. Na przykład przy 5 zmiennych (5 równaniach) i 3 opóźnieniach w każdym oddzielnie szacowanym równaniu mamy łącznie ze stałymi i współczynnikami trendów liniowych +5*3 = 7 parametrów. Często model może okazać się zbyt duży dla ograniczonej liczby obserwacji. Przed szacowaniem modelu należy wybrać maksymalną liczbę opóźnień k, jednakową dla wszystkich zmiennych endogenicznych. Zbyt duże k może wywoływać współliniowość regresorów. Zwiększa również istotnie liczbę szacowanych parametrów, obniżając tym samym liczbę stopni swobody T - k. Dobór liczby opóźnień przeprowadza się według zasady od ogólnego do szczególnego sprawdzając statystyczną istotność parametru przy najwyższym opóźnieniu i w sytuacji jego nieistotności redukuje się liczbę opóźnień o jeden i ponawia procedurę. Przy porównaniu dwóch modeli o różnej liczbie opóźnień możemy wykorzystać test kryterium informacyjnego Akaike lub kryterium informacyjnego Schwartza, przedstawione w zakończeniu rozdziału 3. W modelu VAR może wystąpić równoczesne skorelowanie zaburzeń z różnych równań, co wymaga dla efektywnego oszacowania zastosowania UMNK, celem wyeliminowania efektów tego skorelowania. W poniższym przykładzie oznaczałoby to, że szok w roku t 03

204 zaburzający zmienną produkcja przemysłowa jest skorelowany z szokiem tego samego roku zaburzającym drugą zmienną, jaką jest import. Uwzględnienie tego skorelowania zwiększa efektywność estymatorów. Z drugiej jednak strony istotnie komplikuje procedurę określania funkcji reakcji na impuls, gdyż szoki w równaniach są w tej sytuacji zależne. Dlatego w praktycznych zastosowaniach, używanych we wszystkich pakietach ekonometrycznych, w tym również w Gretlu, innowacje, traktowane jako impulsy są transformowane do postaci innowacji ortogonalnych. Ortogonalizacja ta, zapewniająca nieskorelowanie zaburzeń, wymaga przekształcenia, które jednak zależy od kolejności równań usytuowanych w modelu Dla estymacji parametrów VAR można zastosować MNK szacując kolejno pojedyncze równania i pomijając efekty skorelowania równoczesnych szoków różnych równań, (co jak wiemy daje estymatory zgodne, ale nieefektywne) lub też zastosować UMNK szacując macierz wariancji-kowariancji szoków na podstawie reszt MNK. Procedury VAR są stosowane dla szeregów kowariancyjnie stacjonarnych, co oznacza brak trendów i sezonowości. Wymaga to wstępnej transformacji danych, lub w przypadkach szeregów z trendami liniowymi i efektami sezonowymi wprowadzenia trendu liniowego i zmiennych sezonowych jako zmiennych egzogenicznch do równań VAR-u, chyba, że rozważane szeregi są skointegrowane i wykazują tę samą sezonowość.. Przykład 3.. Zastosujmy metodę VAR do estymacji związku między produkcją przemysłową i importem (dane miesięczne obejmujące 56 obserwacji w mld zł) w Polsce w latach Powyższe szeregi zostały zestawione przez Tadeusza Kufla i w tej postaci udostępnione autorowi, za co w tym miejscu składam podziękowania. Ideą modelu jest teoria, że w Polsce okresu transformacji produkcja przemysłowa jest silnie uzależniona od niezbędnego dla jej realizacji importu, związanego z nowymi technologiami, wprowadzanymi do polskiej gospodarki. Z drugiej jednak strony wielkość tego importu zależy od już zainstalowanych mocy produkcyjnych, wyznaczających rozmiary produkcji przemysłowej i w coraz większym zakresie wytwarzających wyroby uprzednio importowane. Zatem obydwie wielkości wzajemnie się warunkują. Można również rozsądnie założyć, że we wzajemnym uzależnieniu występują opóźnienia, związane z naturalnymi procesami dostosowawczymi obydwu wielkości. 04

205 Poniżej zamieszczamy wykresy obydwu szeregów. Rys. 3.. Dane miesięczne produkcji przemysłowej i importu w Polsce w latach Wykresy ukazują: Obydwa szeregi są niestacjonarne. Mają jednak podobne trendy liniowe, co podpowiada, że obydwa szeregi mogą być skointegrowane i ich modelowanie nie będzie wymagało wprowadzenia egzogenicznej zmiennej trendu, zapewniającej stacjonarność względem średniej. Obydwa szeregi mają analogiczne wahania sezonowe. W związku z tym nie ma potrzeby wprowadzania do modelu oddzielnych egzogenicznych zmiennych sezonowych wychwytujących tego rodzaju wahania. 3 Widoczny jest wyraźny wzrost wariancji zaburzeń wraz z upływem czasu. Usunięcie efektów wzrastającej wariacji można osiągnąć przez logarytmowanie. Alternatywnie można skorzystać z opcji odpornej heteroskedastyczności (odporny estymator White`a).To ostatnie rozwiązanie jako wygodniejsze przyjmiemy w rozpatrywanym przykładzie. 05

206 Wykorzystując Gretla sprawdzamy kointegrację obydwu szeregów. Poniżej fragment wydruku Gretla: Krok : test na pierwiastek jednostkowy dla zmiennej produk Rozszerzony test Dickeya-Fullera dla rzędu opóźnienia, dla zmiennej produk liczebność próby 43 Hipoteza zerowa: występuje pierwiastek jednostkowy a = ; proces I() z wyrazem wolnym, trendem liniowym i trendem kwadratowym estymowana wartość (a-) wynosi: -0,457 Statystyka testu: tau_ctt() = -,0846 asymptotyczna wartość p = 0,787 Test wskazuje na przyjęcie hipotezy o występowaniu pierwiastka jednostkowego. Krok : test na pierwiastek jednostkowy dla zmiennej import Rozszerzony test Dickeya-Fullera dla rzędu opóźnienia, dla zmiennej import liczebność próby 43 Hipoteza zerowa: występuje pierwiastek jednostkowy a = ; proces I() z wyrazem wolnym, trendem liniowym i trendem kwadratowym estymowana wartość (a-) wynosi: -0,8034 Statystyka testu: tau_ctt() = -,9445 asymptotyczna wartość p = 0,8378 Podobnie jak w przypadku zmiennej produk przyjmujemy hipotezę o występowaniu pierwiastka jednostkowego. Krok 3: równanie kointegrujące Równanie kointegrujące - Estymacja KMNK z wykorzystaniem 56 obserwacji 993:0-005: Zmienna zależna: produk Zmienna Współczynnik Błąd stand. Statystyka t Wartość p 06

207 const 746,88 435,453 6,64 <0,0000 *** import,7937 0, ,99 <0,0000 *** time 3,8 7,699 6,965 <0,0000 *** timesq -0, , ,4 0,0643 ** Wsp. determinacji R-kwadrat = 0,98459 Skorygowany wsp. R-kwadrat = 0,98488 Statystyka testu Durbina-Watsona =,048 Autokorelacja reszt rzędu pierwszego = 0,3934 Kryterium informacyjne Akaike'a (AIC) = 770,34 Kryterium bayesowskie Schwarza (BIC) = 78,54 Kryterium infor. Hannana-Quinna (HQC) = 775,3 Zmienne objaśniające w równaniu kointegrującym są statystycznie istotne. Wysoki jest współczynnik determinacji. Wskazuje to, że obydwa szeregi są skointegrowane. Mimo uzasadnionych podejrzeń co do możliwości pominięcia efektów trendu i wahań sezonowych oszacujmy model VAR z opóźnieniami stóp zmian produkcji i importu i ze zmiennymi egzogenicznymi: liniowym składnikiem trendu i zmiennymi sezonowymi. Poniżej wydruk Gretla. System VAR (model wektorowej autoregresji), rząd opóźnienia Estymacja KMNK dla obserwacji 994:0-005: (T = 44) Logarytm wiarygodności = -384,55 Wyznacznik macierzy kowariancji = 8,8590e+0 AIC = 34,465 BIC = 35,677 HQC = 34,7667 Portmanteau test: LB(36) = 09,647 (st. swobody = 96, wartość p 0,648) Równanie : produk Błędy standardowe parametrów według odpornej heteroskedastyczności, wariant HC Zmienna Współczynnik Błąd stand. Statystyka t wartość p const 884,6 45,33,533 0,334 produk_ 0, , ,356 0,0009 *** produk_ 0,470 0,05388,3438 0,0093 ** produk_3 0, ,09978,680 0,09567 * produk_4-0, ,844 -,5649 0,07 ** produk_5 0,7969 0,3987,9540 0,0533 * produk_6 0, , ,69 0,5306 produk_7-0, ,6934 -,0946 0,766 produk_8-0, ,8 -,66 0,644 07

208 produk_9 0, ,5388 0,787 0,43609 produk_0-0,7460 0,4684 -,893 0,3697 produk_ 0, ,470 0,658 0,53936 produk_ 0, ,0649 0,3349 0,73837 import_ -0, , ,0955 0,9408 import_ -0, , ,088 0,999 import_3 0, ,030 0,5780 0,56450 import_4 0,038 0, ,38 0,8639 import_5 0, , ,456 0,6493 import_6 0,096 0,3793 0,748 0,45599 import_7 0, ,0943,3338 0,850 import_8-0,4945 0, ,5 0,03673 ** import_9-0, ,4056-0,43 0,909 import_0-0, ,0844-0,4074 0,68455 import_ 0, ,0967 0,5706 0,56944 import_ 0,7067 0,07459,588 0,58 S -086,8 888,8 -,3 0,397 S -660, ,76-0,870 0,3858 S3 967,63 883,405 3,3593 0,0008 *** S4 573,48 950,30 0,603 0,54770 S5 48, ,076 0,77 0,88 S6 00,69 769,73,5599 0,73 S7 094,74 906,677,303 0,079 ** S8 48,03 83,778,7806 0,0778 * S9 855,6 750,903,4706 0,0507 ** S0 599,7 87,508 3,794 0,0093 *** S -7,4 86,38-0,783 0,7830 time 5,658 0,794,34 0,988 Srednia arytmetyczna zmiennej zależnej = 3476,7 Odchylenie standardowe zmiennej zależnej = 467 Suma kwadratów reszt =,7575e+008 Błąd standardowy reszt = 69,98 Wsp. determinacji R = 0,9935 Statystyka F (36, 07) = 636,6 (wartość p < 0,0000) Statystyka testu Durbina-Watsona =,9395 Autokorelacja reszt rzędu pierwszego = 0, Test F dla hipotezy o braku restrykcji: Wszystkie opóźnienia zm. produk F(, 07) = 7,5653, wartość p 0,0000 Wszystkie opóźnienia zm. import F(, 07) =,79, wartość p 0,737 Wszystkie zm. opóźnione o F(, 07) =,359, wartość p 0,9 Równanie : import Błędy standardowe parametrów według odpornej heteroskedastyczności, wariant HC Zmienna Współczynnik Błąd stand. Statystyka t wartość p const -38,88 30,98 -,0548 0,9388 produk_ 0, ,34458,355 0,7939 produk_ 0, ,0946,046 0,9950 produk_3-0, ,0934-0,340 0,89367 produk_4-0,4343 0,605-3,633 0,0048 *** produk_5 0,6749 0,0404,0833 0,0396 ** 08

209 produk_6 0,669 0,0307,3435 0,896 produk_7 0, ,3458 0,06 0,9803 produk_8-0, ,6465 -,0668 0,047 ** produk_9 0,0348 0,3388 0,0 0,9883 produk_0-0,54 0,5476-0,985 0,3679 produk_ 0,4567 0,636,846 0,0676 * produk_ -0, ,397-0,0775 0,93836 import_ 0, ,847 0,365 0,7766 import_ 0, , ,83 0,06986 * import_3 0,6733 0,06535,5706 0,93 import_4 0,0486 0,09590,90 0,6566 import_5 0,0657 0,3069 0,49 0,88664 import_6-0, ,0963 -,0654 0,8908 import_7 0, ,9784,475 0,4309 import_8-0, ,057-0,769 0,44346 import_9 0,5407 0,4308,0580 0,944 import_0-0, ,9099-0,44 0,906 import_ -0, ,0847-0,447 0,65889 import_ -0, ,0343-0,63 0,87079 S -48,68 786,976-0,544 0,58744 S 44, ,8 0,0599 0,9533 S3 899,64 836,86,700 0,05 ** S4 70,49 758,97,6740 0,09706 * S5 354,88 679,078 0,55 0,6040 S6 75,5 68,849,8674 0,06458 * S7 608,99 876,593,9763 0,0036 *** S8 430, ,36 0,494 0,644 S9 486, ,83 0,667 0,50960 S0 35,0 837,05,65 0,093 S 8,76 75,753 0,906 0,779 time 34,934 9,667,8 0,0777 * Srednia arytmetyczna zmiennej zależnej = 5676,6 Odchylenie standardowe zmiennej zależnej = 7383,06 Suma kwadratów reszt =,38779e+008 Błąd standardowy reszt = 38,86 Wsp. determinacji R = 0,9896 Statystyka F (36, 07) = 376, (wartość p < 0,0000) Statystyka testu Durbina-Watsona =,9784 Autokorelacja reszt rzędu pierwszego = -0, Test F dla hipotezy o braku restrykcji: Wszystkie opóźnienia zm. produk F(, 07) =,944, wartość p 0,039 Wszystkie opóźnienia zm. import F(, 07) =,86, wartość p 0,009 Wszystkie zm. opóźnione o F(, 07) = 0,0876, wartość p 0,9774 Dla systemu jako całości Hipoteza zerowa: najdłuższe opóźnienie wynosi Hipoteza alternatywna: najdłuższe opóźnienie wynosi Test ilorazu wiarygodności: Chi-kwadrat(4) = 7,87 (wartość p 0,0987) 09

210 Stwierdzamy, że zgodnie z oczekiwaniem ani zmienna trendu liniowego ani znaczna liczba zmiennych sezonowych nie są w obydwu równaniach statystycznie istotne. Istotność zmiennych sezonowych wydaje się być przypadkowa, bez głębszego ekonomicznego sensu. Można nawet podejrzewać, że dodanie zmiennych sezonowych istotnie zaburzyło efekty opóźnionych zmiennych produkcji i importu, które same są pod wpływem sezonowości. Ponadto poczynając od 7 opóźnienia w obydwu równaniach nie są również istotne opóźnione zmienne produkcji i importu. Powyższe wyniki skłaniają do oszacowania VAR z sześcioma opóźnieniami bez zmiennych egzogenicznych, a więc bez trendu i sezonowości. Poniżej wydruk Gretla. System VAR (model wektorowej autoregresji), rząd opóźnienia 6 Estymacja KMNK dla obserwacji 993:07-005: (T = 50) Logarytm wiarygodności = -575,57 Wyznacznik macierzy kowariancji =,855e+0 AIC = 34,6875 BIC = 35,094 HQC = 34,8995 Portmanteau test: LB(37) = 5,85 (st. swobody = 4, wartość p 0,00000) Równanie : produk Błędy standardowe parametrów według odpornej heteroskedastyczności, wariant HC Zmienna Współczynnik Błąd stand. Statystyka t wartość p const 60,89 854,74 3,0664 0,006 *** produk_ 0, ,33 6,00 <0,0000 *** produk_ -0, , ,4486 0,65440 produk_3 0,450 0,3066,0948 0,7554 produk_4-0, , ,784 <0,0000 *** produk_5 0, ,3078,806 0,3980 produk_6 0,7404 0,34067,044 0,04487 ** import_ -0,733 0,4559 -,904 0,3595 import_ -0, ,7607-0,349 0,7750 import_3 0, ,5750,909 0,0599 * import_4 0, , ,894 0,37377 import_5 0,3738 0,66,359 0,005 ** import_6-0,5407 0,6097-0,9575 0,34003 Srednia arytmetyczna zmiennej zależnej = 33795,4 Odchylenie standardowe zmiennej zależnej = 306, Suma kwadratów reszt = 4,407e+008 Błąd standardowy reszt = 793,54 Wsp. determinacji R = 0,9878 Statystyka F (, 37) = 75,08 (wartość p < 0,0000) Statystyka testu Durbina-Watsona =,9680 Autokorelacja reszt rzędu pierwszego = 0,0459 Test F dla hipotezy o braku restrykcji: 0

211 Wszystkie opóźnienia zm. produk F(6, 37) = 6,98, wartość p 0,0000 Wszystkie opóźnienia zm. import F(6, 37) =,748, wartość p 0,0400 Wszystkie zm. opóźnione o 6 F(, 37) =,36, wartość p 0,08 Równanie : import Błędy standardowe parametrów według odpornej heteroskedastyczności, wariant HC Zmienna Współczynnik Błąd stand. Statystyka t wartość p const -569, ,99-0,746 0,47607 produk_ 0, ,80374,559 0,0383 ** produk_ -0, ,007-0,883 0,4089 produk_3-0, ,558 -,60 0,607 produk_4-0,8885 0, ,448 0,0004 *** produk_5-0, , ,4688 0,63998 produk_6 0,355 0, ,5734 0,00049 *** import_ 0, ,0875 0,760 0,86057 import_ 0, ,46569,4 0,784 import_3 0,8435 0,536,8386 0,0683 * import_4 0,8649 0,938,547 0,964 import_5 0,9736 0,5643,57 0,0 ** import_6-0, ,4385 -,849 0,0773 * Srednia arytmetyczna zmiennej zależnej = 570, Odchylenie standardowe zmiennej zależnej = 7650,06 Suma kwadratów reszt =,540e+008 Błąd standardowy reszt = 354,64 Wsp. determinacji R = 0,977 Statystyka F (, 37) = 659,59 (wartość p < 0,0000) Statystyka testu Durbina-Watsona =,9839 Autokorelacja reszt rzędu pierwszego = -0, Test F dla hipotezy o braku restrykcji: Wszystkie opóźnienia zm. produk F(6, 37) = 3,599, wartość p 0,006 Wszystkie opóźnienia zm. import F(6, 37) = 7,3906, wartość p 0,0000 Wszystkie zm. opóźnione o 6 F(, 37) = 6,6307, wartość p 0,008 Dla systemu jako całości Hipoteza zerowa: najdłuższe opóźnienie wynosi 5 Hipoteza alternatywna: najdłuższe opóźnienie wynosi 6 Test ilorazu wiarygodności: Chi-kwadrat(4) = 4,789 (wartość p 0,00559) Zauważmy, że w zredukowanej o zmienne egzogeniczne i ograniczonej do sześciu opóźnień wersji modelu tylko nieznacznie wzrosła wartość testu AIC ( z 34,465 do 34,6875, zaś wartość testu BIC nawet zmalała ( z 35,677 do 35,094). Oszacowanie modelu VAR możemy uznać za zadowalające.

212 Kontynuując powyższy przykład przeanalizujmy sposób, w jaki model reaguje na impulsy w zaburzeniach, zwanych w tym przypadku szokami lub innowacjami Innowację w równaniu produkcji lub importu możemy traktować jako nagłą zmianę polityki produkcyjnej lub importowej, wywołującej nagłą zmianę tych wielkości. W teorii VAR, jak już to sygnalizowaliśmy, zdefiniowana jest tak zwana funkcja reakcji na impuls zwana w języku angielskim impulse-response function. Wyznacza ona efekt innowacji o wielkości jednego odchylenia standardowego, w wybranej przez badacza zmiennej endogenicznej, na bieżące i przyszłe wartości wszystkich zmiennych endogenicznych w modelu VAR. Szok i-tej zmiennej wywiera bezpośredni efekt (krótkookresowy) na i-tą zmienną w tej samej jednostce czasu i jest z opóźnieniami przekazywany poprzez dynamiczną strukturę VAR-u innym zmiennym endogenicznym. Początkowy szok rozprzestrzeniając się w kolejnych jednostkach czasu na inne zmienne wraca również drogą sprzężenia zwrotnego do zmiennej endogenicznej będącej jego źródłem. Kolejne jego nawarstwienia tworzą efekt długookresowy. Przykład 3.. Oszacujmy funkcję reakcji na impuls w wyżej rozważanym dwurównaniowym modelu produkcji i importu w Polsce. Przyjmijmy, że innowacje mają wielkości jednego błędu standardowego zarówno dla pierwszej jak i dla drugiej zmiennej endogenicznej i prześledźmy ich efekty w ciągu kolejnych dwunastu miesięcy. Poniżej wartości i wykresy reakcji. Odpowiedź na impuls wielkości jednego błędu standardowego reszt w zmiennej produkcja okres produk import 74, 847,76,5 697, ,43 45, ,06 3,08 5 7,38 3, ,7 40, ,3 544, ,49 54, ,04 374, ,8 384, 30,93 46, ,3 Odpowiedź na impuls wielkości jednego błędu standardowego reszt w zmiennej import okres produk import

213 0 978,4-69,57 35, ,88 09, 4 4,7 7, , 33, , 57, ,64 9, ,83 05,0 9 70,4 7,95 0,4 70,9 354,5 0,63 405,75 43,9 Obserwując wykresy zauważamy, że innowacja produkcji wywiera wraz z upływem kolejnych miesięcy gasnący wpływ na przyszłe wartości produkcji, zaś wzmaga wraz z upływem czasu efekty importowe (górne wykresy). Innowacja importu przez pierwsze półrocze osłabia produkcję (możliwe, że jest to związane z 3

Pokazać jeszcze