Dawid Twardowski Wrocław, dnia 6 czerwca 2010 Przyjazdy turystów zagranicznych do Polski miesięcznie od 2005 roku do 2009 roku modelowanie ekonometryczne Spis treści Spis treści... 1 Struktura projektu... 2 Zmienne zastosowane w modelu... 4 Dobór zmiennych objaśniających do modelu po przez eliminację nieistotnych zmiennych.... 8 Metoda analizy współczynników korelacji...10 Weryfikacja najlepszego modelu strukturalnego...18 Modyfikacje modelu strukturalnego...22 Model na zmiennych opóźnionych na Y rząd opóźnieo 7...30 Model strukturalny z czasem...34 Dodawanie zmiennej czas do wszystkich zmiennych objaśniających...34 Dodawanie zmiennej czas do ostatecznego modelu strukturalnego...36 Model czystej tendencji rozwojowej...36 Model oparty na funkcji kwadratowej wielomianowej...40 Modyfikacja nieliniowego modelu trendu...45 Model nieliniowego trendu ze zmiennymi sztucznymi...49 Model na przyrostach....54 Test pierwiastka jednostkowego...55 Model ARIMA (model losowy)...56 Kointegracja...57
Struktura projektu W poniższym projekcie szacowanie modeli odbyło się za pomocą pakietu statystycznego GRETL. Najpierw został utworzony model strukturalny, a następnie jego modyfikacje, model z czasem, model trendu, nieliniowy model trendu i model na przyrostach. W każdym przypadku sprawdzam stosowalnośd założeo KMNK estymatora, opierającego się na założeniach: - średnia wartośd zakłóceo wynosi 0, Do weryfikacji testu o wartości oczekiwanej reszt = 0 przyjąłem następujące hipotezy: H₀ : μ = 0 H₁ : μ 0 Ponieważ H₁ : μ 0, występuje dwustronny obszar krytyczny obszar odrzucenia. Hipotezę zerową odrzuca się, gdy z z - składnik losowy jest homoscedastyczny, Hipotezą, którą również należy zweryfikowad jest homoscedastycznośd składnika losowego. W tym celu wykorzystywany jest test White a. Niska wartośd p wyliczona z tego testu oznacza, że są podstawy do odrzucenia H 0, czyli składnik losowy jest heteroscedastyczny, natomiast wysoka wartośd oznacza, że nie ma podstaw do odrzucenia H 0, a więc składnik losowy nie jest heteroscedastyczny. Kolejnym testem weryfikującym czy zachodzi homoscedastycznośd jest test Goldfielda Quandtta o hipotezach: 2 2 H 0 : 1 2 2 2 2 2 1 2 1 2 ; ( ). H 1 : Jeżeli F F * nie ma podstaw do odrzucenia hipotezy H 0, wariancja odchyleo losowych jest stała; jeżeli F F * odrzucamy H 0 na rzecz hipotezy alternatywnej, wariancja odchyleo losowych zmienia się w czasie. Zatem F e <F*, co oznacza, że nie ma podstaw do odrzucenia hipotezy zerowej, czyli składnik losowy jest homoscedastyczny. Podobnie zachodzi dla pozostałych podziałów. Ostatnim wykorzystywanym testem do zweryfikowania homoscedastyczności jest test Breuscha- Pagan a. - nie występuje autokorelacja składnika losowego, Hipotezę o występowaniu autokorelacji składnika losowego pozwala zweryfikowad test Durbina-Watsona: α 2 Statystyka testowa D-W postaci: D W H 0 : p( H 1 : p( n 1 i 1, ) 0 i i j, ) 0 e i 1. j e i 2 n i 1 e 2 i 1 - składnik losowy ma rozkład normalny, Aby ocenid czy składnik losowy ma rozkład normalny przyjąłem hipotezy: H 0 : e N H 1 : e N Test normalności reszt oparty jest na statystyce testowej postaci: S W n 2 i 1 a n 2 2 n i 1 ( e( n i 1) e( i) ) ( ei e) i 1 1 2
Niska wartośd p oznacza, że są podstawy do odrzucenia H 0, czyli składnik losowy nie ma rozkładu normalnego, natomiast wartośd przekraczająca zakładany poziom krytyczny, oznacza że nie ma podstaw do odrzucenia H 0, a wtedy składnik losowy ma rozklad normalny. - zmienne objaśniające nie są losowe lub są nieskorelowane z zakłóceniami Na podstawie oceny wzrokowej wykresów rozrzutu X-Y podejmuję decyzję o istnieniu, bądź nie korelacji pomiędzy zakłóceniami a zmiennymi objaśniającymi pochodzącymi z modelu. - reszty modelu są losowe Do sprawdzenia czy składnik losowy jest losowy posługuję się testem serii (dla dodatnich i ujemnych serii). Hipotezą zerowa jest losowośd reszt, a hipotezą alternatywną jest brak tej losowości. 3
Wyk_ob_cudz Wyk_ob Przyjazd_cudz Zmienne zastosowane w modelu Za zmienną objaśnianą przyjąłem: Przyjazd_cudz Miesięczne przyjazdy turystów *podane w milionach+ w latach 2005-2009 7 6.5 6 5.5 5 4.5 4 3.5 Przyjazdy turystów do Polski w badanym okresie charakteryzują się sezonowością. Najwięcej przyjazdów notuje się w okresie letnim (czerwiec wrzesieo). Największa liczba przyjazdów wyniosła w sierpniu 2005 roku 6802000 cudzoziemców. Średnio w całym okresie przyjechało 5161400 turystów zagranicy. Za zmienne objaśniające zjawisko przyjąłem: Wyk_ob Wykorzystanie turystycznych obiektów zbiorowego zakwaterowania 2.4e+006 2.2e+006 2e+006 1.8e+006 Średnie wykorzystanie w całym okresie wyniosło 1468200. Charakteryzuje się sezonowością. Tutaj również największe wykorzystanie przypada na letnie miesiące. Największe wykorzystanie obiektów przypadło na sierpieo 2008 roku - 2243946 1.6e+006 1.4e+006 1.2e+006 1e+006 800000 Wyk_ob_cudz Turyści zagraniczni korzystający z turystycznych obiektów zbiorowego zakwaterowania 650000 600000 550000 500000 450000 Wartości charakteryzują się sezonowością. Największa ilośd turystów zagranicznych korzystający z obiektów zakwaterowania wyniosła w sierpniu 2005 roku - 603785. Średnia ilośd wyniosła 348660. 400000 350000 300000 250000 200000 150000 4
Przewozy_og r_opad r_temp Lud_Pol Lud_Pol Liczba ludności zamieszkałej w Polsce *podana w tysiącach+ 38500 38000 Średnia liczba ludności Polski w badanym okresie wynosiła 38107000. Drastyczny spadek zanotowano w maju 2007 roku (36113000). 37500 37000 36500 36000 r_temp Średnia temperatura powietrza *podana w o C] średnia z głównych ośrodków meteorologicznych w Polsce 25 20 15 10 Średnia temperatura powietrza w Polsce największe wartości przybiera w okresach letnich, natomiast w okresach zimowych najniższe. Najwyżej odnotowana średnia temperatura miała miejsce w lipcu 2006, najniższa natomiast w styczniu 2006 roku. 5 0-5 -10 r_opad Średnia ilośd opadów atmosferycznych *podana w mm+ 450 400 350 Największa średnia ilośd opadów atmosferycznych przypada na sierpieo 2007. 300 250 200 150 100 50 Przewozy_og 0 Ilośd przewozów pasażerów w Polsce dowolnym środkiem komunikacji zbiorowej *podana w tysiącach+ 100000 95000 90000 85000 80000 75000 70000 65000 60000 Ilośd przewozów pasażerskich w Polsce dowolnymi środkami komunikacji zbiorowej charakteryzuje się sezonowością. Najmniej przejazdów przypada w każdym roku na lipiec, sierpieo, co może mied związek z okresem letnim i tym, że komunikacja zbiorowa miejska traci znaczenie na rzecz komunikacji długodystansowej. Średnie wykorzystanie komunikacji zbiorowej dla badanego okresu wynosi 80675000. 55000 50000 5
r_kurs_euro r_kurs_usd Il_podr_kraj_Po Il_podr_zagr_Po Il_podr_zagr_Po Ilośd podróży zagranicznych Polaków *podana w milionach+ 1.1 1 0.9 0.8 0.7 Najwięcej podróży Polaków zagranicę notuje się w okresach letnich (najwięcej w sierpniu 2007 około 1,10 miliona podróży). Średnia liczba wyjazdów wyniosła 0,53 mln. 0.6 0.5 0.4 0.3 0.2 Il_podr_kraj_Po Ilośd podróży krajowych Polaków *podana w milionach+ 7 6.5 6 5.5 5 4.5 4 Największa ilośd podróży krajowych Polaków przypada na miesiące wakacyjne. Najwyższy punkt wartości przyjęły w lipcu 2006 roku - 6,55 mln. Średnio Polacy odbywając 2,92 milionów podróży po swoim kraju. 3.5 3 2.5 2 1.5 r_kurs_usd Średni kurs $ *podany w PLN+ 3.8 3.6 3.4 3.2 3 2.8 2.6 Kurs dolara stopniowo ciągle spadał aż do lipca 2007 roku. W tym czasie za jednego dolara można było zapłacid 2,07 PLN. Od tego momentu ciągle rósł, aby w lutym 2009 przybrad najwyższą wartośd w badanym okresie (za 1 dolara trzeba było zapłacid 3,63 PLN) 2.4 2.2 2 r_kurs_euro Średni kurs *podany w PLN+ 4.8 4.6 4.4 4.2 Kurs euro najniższą wartośd osiągnął w lipcu 2007 (za 1 euro trzeba było zapłacid 3,26 PLN), a najwyższy w lutym 2009 (za 1 euro trzeba było zapłacid 4,64 PLN) 4 3.8 3.6 3.4 3.2 6
Sp_us_zakw_gast Kon_zakw_gastr UNESCO Pom_hist Pom_hist Ilośd ustanowionych Pomników Historii w Polsce 38 36 34 Pomniki Historii są szczególną formą ochrony najcenniejszych zabytków w Polsce. W badanym okresie zostało ustanowionych 13 pomników historii. 32 30 28 26 UNESCO 24 Ilośd ustanowionych obiektów światowego dziedzictwa UNESCO w Polsce 13 12.8 12.6 12.4 Lista Światowego Dziedzictwa Kulturowego i Przyrodniczego Ludzkości - lista obiektów objętych szczególną ochroną międzynarodowej organizacji UNESCO, filii ONZ, ze względu na ich unikatową wartośd kulturową bądź przyrodniczą dla ludzkości. W badanym okresie na listę został wpisany jeden obiekt Hala Ludowa we Wrocławiu. 12.2 12 Kon_zakw_gastr 25 20 15 10 5 Wskaźnik ogólnego klimatu koniunktury dla działalności związanej z zakwaterowaniem i usługami gastronomicznymi Wskaźniki ogólnego klimatu koniunktury powstały na podstawie sformułowanych przez dyrektorów przedsiębiorstw usługowych związanych z zakwaterowaniem i usługami gastronomicznymi opinii i oczekiwao co do ich ogólnej sytuacji gospodarczej. 0-5 -10 Sp_us_zakw_gast Wskaźnik sprzedaży usług dla działalności związanej z zakwaterowaniem i usługami gastronomicznymi 30 20 10 Analiza sprzedaży zawiera wiele przydatnych informacji dotyczących sprzedaży produktów wytwarzanych przez daną firmy związaną z zakwaterowaniem i usługami gastronomicznymi 0-10 -20-30 7
Og_syt_zakw_gas Og_syt_zakw_gas Wskaźnik ogólnej sytuacji dla działalności związanej z zakwaterowaniem i usługami gastronomicznymi 20 15 Rosnąca wartośd wskaźnika jest świadectwem poprawiającej się sytuacji w firmie. 10 5 0-5 -10-15 Dobór zmiennych objaśniających do modelu po przez eliminację nieistotnych zmiennych. W tym celu przeprowadzamy estymację KMNK dla wszystkich zmiennych objaśniających. Jak widad z poniżej zamieszczonego zrzutu z programu statystycznego Gretl, zmienna UNESCO przyjmuje największą wartośd p. Z tego też powodu eliminujemy ją ze zbioru i powtarzamy kroki do uzyskania najwiarygodniejszej postaci modelu. Model 1: Estymacja KMNK, wykorzystane obserwacje 2005:01-2009:12 (N = 60) Zmienna zależna: Przyjazd_cudz Współczynnik Błąd stand. t-studenta wartość p const 4,89823 7,18677 0,6816 0,49909 Wyk_ob -4,54885e-07 4,69524e-07-0,9688 0,33793 Wyk_ob_cudz 3,91224e-06 1,53388e-06 2,5506 0,01431 ** Lud_Pol -5,67538e-05 0,000154026-0,3685 0,71429 r_temp 0,0196069 0,01818 1,0785 0,28669 r_opad 0,000590664 0,00075224 0,7852 0,43654 Przewozy_og 1,91386e-05 1,05429e-05 1,8153 0,07630 * Il_podr_zagr_Po 0,223614 0,404058 0,5534 0,58278 Il_podr_kraj_Po 0,166723 0,0860152 1,9383 0,05902 * r_kurs_usd 0,514638 0,341712 1,5061 0,13920 r_kurs_euro -0,545292 0,523207-1,0422 0,30301 Pom_hist -0,0086422 0,0242401-0,3565 0,72315 UNESCO 0,0147101 0,172399 0,0853 0,93239 Kon_zakw_gastr -0,00499223 0,00957205-0,5215 0,60460 Sp_us_zakw_gast 0,00516806 0,00734253 0,7039 0,48523 Og_syt_zakw_gas 0,0208555 0,0101635 2,0520 0,04615 ** Średn.aryt.zm.zależnej 5,161417 Odch.stand.zm.zależnej 0,779532 Suma kwadratów reszt 3,528025 Błąd standardowy reszt 0,283165 Wsp. determ. R-kwadrat 0,901596 Skorygowany R-kwadrat 0,868049 F(15, 44) 26,87578 Wartość p dla testu F 2,87e-17 Logarytm wiarygodności -0,128125 Kryt. inform. Akaike'a 32,25625 Kryt. bayes. Schwarza 65,76576 Kryt. Hannana-Quinna 45,36366 Autokorel.reszt - rho1 0,108815 Stat. Durbina-Watsona 1,724522 W toku dalszego postępowania z modelu odrzuciłem zmienne: UNESCO, Pom_hist, Lud_Pol, Kon_zakw_gastr, Sp_us_zakw_gast, Il_podr_zagr_Po, r_opad, Wyk_ob, r_kurs_euro, r_temp, const 8
Przyjazd_cudz Model 1: Estymacja KMNK, wykorzystane obserwacje 2005:01-2009:12 (N = 60) Zmienna zależna: Przyjazd_cudz Współczynnik Błąd stand. t-studenta wartość p Wyk_ob_cudz 3,88476e-06 3,88722e-07 9,9937 <0,00001 *** Przewozy_og 2,68565e-05 2,72491e-06 9,8559 <0,00001 *** Il_podr_kraj_Po 0,253412 0,0383851 6,6018 <0,00001 *** r_kurs_usd 0,258934 0,0900319 2,8760 0,00572 *** Og_syt_zakw_gas 0,024884 0,00502946 4,9476 <0,00001 *** Średn.aryt.zm.zależnej 5,161417 Odch.stand.zm.zależnej 0,779532 Suma kwadratów reszt 3,858943 Błąd standardowy reszt 0,264882 Wsp. determ. R-kwadrat 0,997639 Skorygowany R-kwadrat 0,997467 F(5, 55) 4647,509 Wartość p dla testu F 6,67e-71 Logarytm wiarygodności -2,817778 Kryt. inform. Akaike'a 15,63556 Kryt. bayes. Schwarza 26,10728 Kryt. Hannana-Quinna 19,73162 Autokorel.reszt - rho1 0,109607 Stat. Durbina-Watsona 1,732171 W tym przypadku postad oszacowanego modelu wygląda następująco: Ӯ = 3,88476e-06 x 1 + 2,68565e-05 x 2 + 0,253412 x 3 + 0,258934 x 4 + 0,024884 x 5 + e Ӯ = 0,00000388476 x 1 + 0,0000268565 x 2 + 0,253412 x 3 + 0,258934 x 4 + 0,024884 x 5 + e Wynika, że wzrost wykorzystania obiektów zakwaterowania przez cudzoziemców o jedną jednostkę, wpłynie na wzrost przyjazdów turystów zagranicznych do Polski o 3,88. Wzrost ilości przewozów środkami transportu zbiorowego w Polsce o 1000 będzie skutkowało wzrostem liczby przyjazdów cudzoziemców do Polski o 26,7. Jeżeli liczba podróży krajowych po Polsce wzrośnie o milion, to spowoduje to wzrost przyjazdów zagranicznych o 253412. Dodatnia zmiana średniego kursu USD o 1 PLN wpłynie na przyjazdy cudzoziemców do Polski wzrostem o 258934. A zwiększenie się wskaźnika ogólnej sytuacji jednostek gospodarczych związanych z zakwaterowaniem i gastronomią spowoduje wzrost przyjazdów o 24884. Współczynnik determinacji R 2 wyniósł 0,997639 co oznacza, że oszacowany model w 99,76 % opisuje zmiennośd przyjazdów turystów zagranicznych do Polski. Wykres dopasowania wygląda następująco: Empiryczne i wyrównane warto ci zmiennej: Przyjazd_cudz 7 wyrównane empiryczne 6.5 6 5.5 5 4.5 4 3.5 9
Metoda analizy współczynników korelacji Na początku szukam zmiennych o współczynniku zmienności mniejszym od wartości progowej 10% (quasi-stałe). Współczynnik Wartośd Zmienna zmienności procentowa x 1 Wyk_ob 0,28629 28,63% x 2 Wyk_ob_cudz 0,361087 36,11% x 3 Lud_Pol 0,006889 0,69% x 4 r_temp 0,840797 84,08% x 5 r_opad 1,14144 114,14% x 6 Przewozy_og 0,140858 14,09% x 7 Il_podr_zagr_Po 0,400705 40,07% x 8 Il_podr_kraj_Po 0,460509 46,05% x 9 r_kurs_usd 0,125368 12,54% x 10 r_kurs_euro 0,077715 7,77% x 11 Pom_hist 0,096886 9,69% x 12 UNESCO 0,036388 3,64% x 13 Kon_zakw_gastr 1,00861 100,86% x 14 Sp_us_zakw_gast 8,59471 859,47% x 15 Og_syt_zakw_gas 1,53068 153,07% Z powyżej zamieszczonej tabelki, zawierającej obliczony współczynnik zmienności wychodzi na to, że zmienne Lud_Pol, r_kurs_euro, Pom_hist, UNESCO przyjmują wartości mniejsze niż 10%. Z tego powodu też odrzucamy te zmienne z modelu. Kolejnym krokiem jest stworzenie macierzy korelacji: 10
y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 x 11 x 12 x 13 x 14 x 15 y 1 0,7939 0,8368-0,1275 0,7708 0,3774-0,2447 0,6779 0,6608-0,0601-0,266-0,1817-0,0495 0,6833 0,7809 0,6551 x 1 0,7939 1 0,9356-0,1261 0,9152 0,3971-0,4997 0,7603 0,6815-0,3196-0,3354 0,1445 0,1789 0,6315 0,7761 0,5164 x 2 0,8368 0,9356 1-0,0875 0,942 0,4186-0,5047 0,7556 0,6835-0,0811-0,0965 0,0438 0,0363 0,6036 0,6998 0,4249 x 3-0,1275-0,1261-0,0875 1-0,1053 0,0014-0,0895-0,0428 0,0195 0,0865 0,0985-0,0568-0,1243-0,2468-0,1988-0,1597 x 4 0,7708 0,9152 0,942-0,1053 1 0,3746-0,5402 0,7439 0,6373-0,1312-0,0809 0,1542 0,1579 0,5773 0,6981 0,4138 x 5 0,3774 0,3971 0,4186 0,0014 0,3746 1-0,4901 0,5157 0,5459 0,021 0,0737 0,0812 0,1353 0,2397 0,287 0,1607 x 6-0,2447-0,4997-0,5047-0,0895-0,5402-0,4901 1-0,6852-0,7383 0,0141-0,2286-0,4165-0,3066-0,0546-0,1928 0,0093 x 7 0,6779 0,7603 0,7556-0,0428 0,7439 0,5157-0,6852 1 0,8357-0,1709-0,151 0,1575 0,2019 0,3664 0,5423 0,3935 x 8 0,6608 0,6815 0,6835 0,0195 0,6373 0,5459-0,7383 0,8357 1-0,0923-0,144-0,0081 0,0677 0,3764 0,5112 0,341 x 9-0,0601-0,3196-0,0811 0,0865-0,1312 0,021 0,0141-0,1709-0,0923 1 0,8261-0,366-0,5097-0,2466-0,3842-0,3438 x 10-0,266-0,3354-0,0965 0,0985-0,0809 0,0737-0,2286-0,151-0,144 0,8261 1 0,0152-0,1503-0,401-0,4962-0,5103 x 11-0,1817 0,1445 0,0438-0,0568 0,1542 0,0812-0,4165 0,1575-0,0081-0,366 0,0152 1 0,7271-0,2121-0,0056 0,0454 x 12-0,0495 0,1789 0,0363-0,1243 0,1579 0,1353-0,3066 0,2019 0,0677-0,5097-0,1503 0,7271 1 0,0213 0,2142 0,3233 x 13 0,6833 0,6315 0,6036-0,2468 0,5773 0,2397-0,0546 0,3664 0,3764-0,2466-0,401-0,2121 0,0213 1 0,8142 0,6797 x 14 0,7809 0,7761 0,6998-0,1988 0,6981 0,287-0,1928 0,5423 0,5112-0,3842-0,4962-0,0056 0,2142 0,8142 1 0,8026 x 15 0,6551 0,5164 0,4249-0,1597 0,4138 0,1607 0,0093 0,3935 0,341-0,3438-0,5103 0,0454 0,3233 0,6797 0,8026 1 11
Przyjazd_cudz Przyjazd_cudz Przyjazd_cudz Przyjazd_cudz Przyjazd_cudz Przyjazd_cudz Przyjazd_cudz Przyjazd_cudz Następnie przyporządkowuje wyliczony współczynnik korelacji między zmienną objaśnianą, a zmiennymi po wcześniejszej weryfikacji. Zmienna Współczynnik korelacji x 1 Wyk_ob 0,7939 x 2 Wyk_ob_cudz 0,8368 x 4 r_temp 0,7708 x 5 r_opad 0,3774 x 6 Przewozy_og -0,2447 x 7 Il_podr_zagr_Po 0,6779 x 8 Il_podr_kraj_Po 0,6608 x 9 r_kurs_usd -0,0601 x 13 Kon_zakw_gastr 0,6833 x 14 Sp_us_zakw_gast 0,7809 x 15 Og_syt_zakw_gas 0,6551 Ustalam wartośd krytyczną r* na podstawie wzoru: r* = t α 2 t α 2 + N 2 Gdzie: n= 60, α=0,05, Do oszacowania wartosci t α posłużono się pakietem statystycznym Gretl t(58) prawostronne prawdopodobieństwo = 0,025 prawdopodobieństwo dopełnienia = 0,975 dwustronny obszar krytyczny = 0,05 Krytyczna wart. = 2,00172 t α = 2,00172 r*= 0,254 Wyk_ob Wyk_ob_cudz r_opad Przewozy_og Lud_Pol r_temp Il_podr_zagr_Po Il_podr_kraj_Po 12
Przyjazd_cudz Przyjazd_cudz Przyjazd_cudz Przyjazd_cudz Przyjazd_cudz Przyjazd_cudz Przyjazd_cudz r_kurs_usd r_kurs_euro Kon_zakw_gastr Sp_us_zakw_gast Pom_hist UNESCO Wykonujemy badanie istotności współczynnika korelacji dla zmiennych. Og_syt_zakw_gas t(58) prawostronne prawdopodobieństwo = 0,025 prawdopodobieństwo dopełnienia = 0,975 dwustronny obszar krytyczny = 0,05 Krytyczna wart. = 2,00172 Zmienna objaśniana Y, czyli przyjazdy cudzoziemców do Polski z następującymi zmiennymi objaśniającymi: Wyk_ob corr(przyjazd_cudz, Wyk_ob) = 0,79394931 Hipoteza zerowa: R = 0, brak korelacji: t(58) = 9,94523, przy dwustronym obszarze krytycznym p = 0,0000 t= 9,772252 t>tα - otrzymujemy, że nasze t jest większe od tα, w związku z tym istnieją podstawy do odrzucenia hipotezy zerowej o braku korelacji. Wychodzi, że istnieje korelacja między zmienną Y, a zmienną Wyk_ob. Wyk_ob_cudz corr(przyjazd_cudz, Wyk_ob_cudz) = 0,83682188 Hipoteza zerowa: R = 0, brak korelacji: t(58) = 11,6408, przy dwustronym obszarze krytycznym p = 0,0000 t= 11,43833 t>tα - otrzymujemy, że nasze t jest większe od tα, w związku z tym istnieją podstawy do odrzucenia hipotezy zerowej o braku korelacji. Wychodzi, że istnieje korelacja między zmienną Y, a zmienną Wyk_ob_cudz. Lud_pol corr(przyjazd_cudz, Lud_Pol) = -0,12749377 Hipoteza zerowa: R = 0, brak korelacji: t(58) = -0,978952, przy dwustronym obszarze krytycznym p = 0,3317 t= -0,96193 t<tα - otrzymujemy, że nasze t jest mniejsze od tα, w związku z tym nie ma podstaw do odrzucenia hipotezy zerowej. Wychodzi, że nie istnieje korelacja między zmienną Y, a zmienną Lud_pol. r_temp corr(przyjazd_cudz, r_temp) = 0,77076689 Hipoteza zerowa: R = 0, brak korelacji: t(58) = 9,21335, przy dwustronym obszarze krytycznym p = 0,0000 t=9,053108 t>tα - otrzymujemy, że nasze t jest większe od tα, w związku z tym istnieją podstawy do odrzucenia hipotezy zerowej o braku korelacji. Wychodzi, że istnieje korelacja między zmienną Y, a zmienną r_temp. 13
r_opad corr(przyjazd_cudz, r_opad) = 0,37735469 Hipoteza zerowa: R = 0, brak korelacji: t(58) = 3,10328, przy dwustronym obszarze krytycznym p = 0,0030 t=3,049302 t>tα - otrzymujemy, że nasze t jest większe od tα, w związku z tym istnieją podstawy do odrzucenia hipotezy zerowej o braku korelacji. Wychodzi, że istnieje korelacja między zmienną Y, a zmienną r_opad. Przewozy_og corr(przyjazd_cudz, Przewozy_og) = -0,24472027 Hipoteza zerowa: R = 0, brak korelacji: t(58) = -1,92218, przy dwustronym obszarze krytycznym p = 0,0595 t=-1,88875 t<tα - otrzymujemy, że nasze t jest mniejsze od tα, w związku z tym nie ma podstaw do odrzucenia hipotezy zerowej. Wychodzi, że nie istnieje korelacja między zmienną Y, a zmienną Przeowzy_og. Il_podr_zagr_Po corr(przyjazd_cudz, Il_podr_zagr_Po) = 0,67789720 Hipoteza zerowa: R = 0, brak korelacji: t(58) = 7,0226, przy dwustronym obszarze krytycznym p = 0,0000 t=6,900458 t>tα- otrzymujemy, że nasze t jest większe od tα, w związku z tym istnieją podstawy do odrzucenia hipotezy zerowej o braku korelacji. Wychodzi, że istnieje korelacja między zmienną Y, a zmienną Il_podr_zagr_Po. Il_podr_kraj_Po corr(przyjazd_cudz, Il_podr_kraj_Po) = 0,66075548 Hipoteza zerowa: R = 0, brak korelacji: t(58) = 6,70418, przy dwustronym obszarze krytycznym p = 0,0000 t=6,587574 t>tα - otrzymujemy, że nasze t jest większe od tα, w związku z tym istnieją podstawy do odrzucenia hipotezy zerowej o braku korelacji. Wychodzi, że istnieje korelacja między zmienną Y, a zmienną Il_podr_kraj_Po. r_kurs_usd corr(przyjazd_cudz, r_kurs_usd) = -0,06007924 Hipoteza zerowa: R = 0, brak korelacji: t(58) = -0,458378, przy dwustronym obszarze krytycznym p = 0,6484 t=-0,45041 t<tα - otrzymujemy, że nasze t jest mniejsze od tα, w związku z tym nie ma podstaw do odrzucenia hipotezy zerowej. Wychodzi, że nie istnieje korelacja między zmienną Y, a zmienną r_kurs_usd. r_kurs_euro corr(przyjazd_cudz, r_kurs_euro) = -0,26601595 Hipoteza zerowa: R = 0, brak korelacji: t(58) = -2,10164, przy dwustronym obszarze krytycznym p = 0,0399 t=-2,06509 t>tα - otrzymujemy, że nasze t jest większe od tα, w związku z tym istnieją podstawy do odrzucenia hipotezy zerowej o braku korelacji. Wychodzi, że istnieje korelacja między zmienną Y, a zmienną r_kurs_euro. Pom_hist corr(przyjazd_cudz, Pom_hist) = -0,18171546 Hipoteza zerowa: R = 0, brak korelacji: t(58) = -1,40733, przy dwustronym obszarze krytycznym p = 0,1647 t=-1,38286 t<tα - otrzymujemy, że nasze t jest mniejsze od tα, w związku z tym nie ma podstaw do odrzucenia hipotezy zerowej. Wychodzi, że nie istnieje korelacja między zmienną Y, a zmienną Pom_hist. 14
UNESCO corr(przyjazd_cudz, UNESCO) = -0,04951960 Hipoteza zerowa: R = 0, brak korelacji: t(58) = -0,377593, przy dwustronym obszarze krytycznym p = 0,7071 t=-0,37103 t<tα - otrzymujemy, że nasze t jest mniejsze od tα, w związku z tym nie ma podstaw do odrzucenia hipotezy zerowej. Wychodzi, że nie istnieje korelacja między zmienną Y, a zmienną UNESCO. Kon_zakw_gastr corr(przyjazd_cudz, Kon_zakw_gastr) = 0,68328419 Hipoteza zerowa: R = 0, brak korelacji: t(58) = 7,12692, przy dwustronym obszarze krytycznym p = 0,0000 t=7,002962 t>tα - otrzymujemy, że nasze t jest większe od tα, w związku z tym istnieją podstawy do odrzucenia hipotezy zerowej o braku korelacji. Wychodzi, że istnieje korelacja między zmienną Y, a zmienną Kon_zakw_gastr. Sp_us_zakw_gast corr(przyjazd_cudz, Sp_us_zakw_gast) = 0,78085097 Hipoteza zerowa: R = 0, brak korelacji: t(58) = 9,51916, przy dwustronym obszarze krytycznym p = 0,0000 t=9,353596 t>tα - otrzymujemy, że nasze t jest większe od tα, w związku z tym istnieją podstawy do odrzucenia hipotezy zerowej o braku korelacji. Wychodzi, że istnieje korelacja między zmienną Y, a zmienną Sp_us_zakw_gastr. Og_syt_zakw_gas corr(przyjazd_cudz, Og_syt_zakw_gas) = 0,65512094 Hipoteza zerowa: R = 0, brak korelacji: t(58) = 6,6037, przy dwustronym obszarze krytycznym p = 0,0000 t=6,488842 t>tα - otrzymujemy, że nasze t jest większe od tα, w związku z tym istnieją podstawy do odrzucenia hipotezy zerowej o braku korelacji. Wychodzi, że istnieje korelacja między zmienną Y, a zmienną Og_syt_zakw_gastr. Korelacja ze zmienną objaśnianą Przyjazd_cudz występuje tylko z następującymi zmiennymi objaśniającymi: wyk_ob, wyk_ob_cudz, r_temp, r_opad, przewozy_og, il_podr_zagr_po, il_podr_kraj_po, r_euro, kon_zakw_gast, sp_us_zakw_gast, og_syt_zakw_gast. Następnie buduje macierz korelacji dla powyższych zmiennych, które nie zostały odrzucone. x 1 x 2 x 4 x 5 x 7 x 8 x 13 x 14 x 15 x 1 1 0,9356 0,9152 0,3971 0,7603 0,6815 0,6315 0,7761 0,5164 x 2 0,9356 1 0,942 0,4186 0,7556 0,6835 0,6036 0,6998 0,4249 x 4 0,9152 0,942 1 0,3746 0,7439 0,6373 0,5773 0,6981 0,4138 x 5 0,3971 0,4186 0,3746 1 0,5157 0,5459 0,2397 0,287 0,1607 x 7 0,7603 0,7556 0,7439 0,5157 1 0,8357 0,3664 0,5423 0,3935 x 8 0,6815 0,6835 0,6373 0,5459 0,8357 1 0,3764 0,5112 0,341 x 13 0,6315 0,6036 0,5773 0,2397 0,3664 0,3764 1 0,8142 0,6797 x 14 0,7761 0,6998 0,6981 0,287 0,5423 0,5112 0,8142 1 0,8026 x 15 0,5164 0,4249 0,4138 0,1607 0,3935 0,341 0,6797 0,8026 1 W dalszym toku postępowania usuwam zmienne objaśniające, które są za słabo skorelowane ze zmienną objaśnianą. 15
Zmienna Współczynnik korelacji x 1 Wyk_ob 0,7939 x 2 Wyk_ob_cudz 0,8368 x 4 r_temp 0,7708 x 5 r_opad 0,3774 x 6 Przewozy_og -0,2447 x 7 Il_podr_zagr_Po 0,6779 x 8 Il_podr_kraj_Po 0,6608 x 9 r_kurs_usd -0,0601 x 13 Kon_zakw_gastr 0,6833 x 14 Sp_us_zakw_gast 0,7809 x 15 Og_syt_zakw_gas 0,6551 Na podstawie wartości krytycznej odrzucam zmienne, które są słabo skorelowane ze zmienną Y, czyli posiadają mniejsze wartości od wartości r*. W takim wypadku odrzucam zmienne: Przewozy_og i r_kurs_usd. Następnie dokonuje wyboru zmiennej objaśniającej najsilniej skorelowanej ze zmienną objaśnianą Y. Zmienna Współczynnik korelacji x 1 Wyk_ob 0,7939 x 2 Wyk_ob_cudz 0,8368 x 4 r_temp 0,7708 x 5 r_opad 0,3774 x 7 Il_podr_zagr_Po 0,6779 x 8 Il_podr_kraj_Po 0,6608 x 13 Kon_zakw_gastr 0,6833 x 14 Sp_us_zakw_gast 0,7809 x 15 Og_syt_zakw_gas 0,6551 Najlepiej skorelowaną zmienną objaśniającą ze zmienną objaśnianą jest: x 2 Wyk_ob_cudz 0,8368 Po poprzednim kroku usuwamy te zmienne, które powielają informacje. Współczynnik Zmienna korelacji x 1 Wyk_ob 0,9356 x 4 r_temp 0,9420 x 5 r_opad 0,4186 x 7 Il_podr_zagr_Po 0,7556 x 8 Il_podr_kraj_Po 0,6835 x 13 Kon_zakw_gastr 0,6036 x 14 Sp_us_zakw_gast 0,6998 x 15 Og_syt_zakw_gas 0,4249 Ponieważ wartości zmiennych są wyższe od przyjętej wartości krytycznej r*, wychodzi, że odrzucam wszystkie zmienne, czyli: x 1, x 4,x 7,x 8,x 13,x 14,x 15. Do modelu wchodzi zatem tylko zmienna x 2 Wyk_ob_cud. 16
Przyjazd_cudz Postad modelu w oparciu o metodę KMNK wygląda następująco: Model 2: Estymacja KMNK, wykorzystane obserwacje 2005:01-2009:12 (N = 60) Zmienna zależna: Przyjazd_cudz Współczynnik Błąd stand. t-studenta wartość p const 3,35485 0,164842 20,3519 <0,00001 *** Wyk_ob_cudz 5,18145e-06 4,45111e-07 11,6408 <0,00001 *** Średn.aryt.zm.zależnej 5,161417 Odch.stand.zm.zależnej 0,779532 Suma kwadratów reszt 10,74604 Błąd standardowy reszt 0,430438 Wsp. determ. R-kwadrat 0,700271 Skorygowany R-kwadrat 0,695103 F(1, 58) 135,5080 Wartość p dla testu F 8,28e-17 Logarytm wiarygodności -33,54208 Kryt. inform. Akaike'a 71,08417 Kryt. bayes. Schwarza 75,27286 Kryt. Hannana-Quinna 72,72260 Autokorel.reszt - rho1 0,646459 Stat. Durbina-Watsona 0,707486 Ӯ = 3,35 + 0,00000518145 x 2 +e Z tego modelu wynika, że jeżeli: ogólne wykorzystanie obiektów zakwaterowania przez cudzoziemców, będzie wynosid 0, to spowoduje to wzrost przyjazdów turystów zagranicznych o 3,35485. Natomiast wzrost wykorzystania obiektów przez cudzoziemców o jedną jednostkę wpłynie na wzrost przyjazdów turystów zagranicznych o 0,00000518145. Współczynnik determinacji R 2 wyniósł 0,70 co oznacza, że oszacowany model w 70 % opisuje zjawisko zmienności przyjazdów turystów zagranicznych do Polski. Empiryczne i wyrównane warto ci zmiennej: Przyjazd_cudz 7 wyrównane empiryczne 6.5 6 5.5 5 4.5 4 3.5 Do wyboru liniowego modelu strukturalnego w oparciu o przyjazdy turystów zagranicznych do Polski wybieram model pierwszy, w którym zmienne objaśniające zostały wybrane po przez eliminację zmiennych nieistotnych, ponieważ porównując z modelem 2, model 1 charakteryzuje się niższą wartością kryterium informacyjnym Akaike a i wyższym dopasowaniem do danych empirycznych. 17
Weryfikacja najlepszego modelu strukturalnego Model 1: Estymacja KMNK, wykorzystane obserwacje 2005:01-2009:12 (N = 60) Zmienna zależna: Przyjazd_cudz Współczynnik Błąd stand. t-studenta wartość p Wyk_ob_cudz 3,88476e-06 3,88722e-07 9,9937 <0,00001 *** Przewozy_og 2,68565e-05 2,72491e-06 9,8559 <0,00001 *** Il_podr_kraj_Po 0,253412 0,0383851 6,6018 <0,00001 *** r_kurs_usd 0,258934 0,0900319 2,8760 0,00572 *** Og_syt_zakw_gas 0,024884 0,00502946 4,9476 <0,00001 *** Średn.aryt.zm.zależnej 5,161417 Odch.stand.zm.zależnej 0,779532 Suma kwadratów reszt 3,858943 Błąd standardowy reszt 0,264882 Wsp. determ. R-kwadrat 0,997639 Skorygowany R-kwadrat 0,997467 F(5, 55) 4647,509 Wartość p dla testu F 6,67e-71 Logarytm wiarygodności -2,817778 Kryt. inform. Akaike'a 15,63556 Kryt. bayes. Schwarza 26,10728 Kryt. Hannana-Quinna 19,73162 Autokorel.reszt - rho1 0,109607 Stat. Durbina-Watsona 1,732171 a) Badam dokładnośd szacunku w oparciu: - o test F. Snedecora Wartość p dla testu F 6,98e-25 Wartośd p dla testu F jest mniejsza od przyjętego poziomu istotności (α = 0,05), co oznacza, że odrzucamy Ho, a przyjmujemy H 1. Przynajmniej jeden z parametrów modelu jest istotny. - test t-studenta Przy wszystkich parametrach modelu oprócz zmiennej const wartośd p jest mniejsza od przyjętego poziomu istotności α = 0,05. Oznacza to, że wszystkie parametry modelu, oprócz właśnie const, są istotne. b) Błędy standardowe szacunku 3,88722e-07/3,88476e-061,00E-01=0,1 Dla α 1 obliczona wartośd z testu t-studenta wyniosła 0,1. Oznacza to, że wartośd względna błędu szacunku oznacza, że wartośd parametru α 1 różni się od jego oszacowania średnio o 10%. 2,68565e-05/2,72491e-06= 1,01E-01 = 0,101 Dla α 2 obliczona wartośd z testu t-studenta wyniosła 0,101. Oznacza to, że wartośd względna błędu szacunku oznacza, że wartośd parametru α 2 różni się od jego oszacowania średnio o 10%. 0,0383851/ 0,253412= 1,51E-01= 0,151 Dla α 3 obliczona wartośd z testu t-studenta wyniosła 0,151. Oznacza to, że wartośd względna błędu szacunku oznacza, że wartośd parametru α 3 różni się od jego oszacowania średnio o 15%. 0,0900319/ 0,258934= 3,48E-01= 0,348 Dla α 4 obliczona wartośd z testu t-studenta wyniosła 0,348. Oznacza to, że wartośd względna błędu szacunku oznacza, że wartośd parametru α 4 różni się od jego oszacowania średnio o 35%. 0,00502946/ 0,024884= 2,02E-01= 0,202 Dla α 5 obliczona wartośd z testu t-studenta wyniosła 0,202. Oznacza to, że wartośd względna błędu szacunku oznacza, że wartośd parametru α 5 różni się od jego oszacowania średnio o 20%. Najwyższy błąd wyszedł przy oszacowaniu parametru α 3 18
uhat1 uhat1 uhat1 uhat1 uhat1 Przyjazd_cudz Wartośd błędu standardowego reszt S e = 0,264882 mówi, że oszacowana ilośd przyjazdów turystów zagranicznych różni się średnio od jej rzeczywistej wartości, właśnie o 0,264882. c) Ocena dopasowania modelu do danych: Współczynnik determinacji R 2 wynosi: 0,997639. Oszacowany model w 99,8 % opisuje zjawisko przyjazdów cudzoziemców do Polski. Empiryczne i wyrównane warto ci zmiennej: Przyjazd_cudz 7 wyrównane empiryczne 6.5 6 5.5 5 4.5 4 3.5 d) Weryfikacja założeo KMNK - estymatora Hipoteza zerowa: średnia z populacji = 0 Liczebność próby: n = 60 Średnia z próby = 7,53151e-005, odchylenie std. = 0,255746 Statystyka testowa: t(59) = (7,53151e-005-0)/0,0330166 = 0,00228113 Dwustronny obszar krytyczny p = 0,9982 (jednostronny obszar krytyczny = 0,4991) T= 0,00228113 0,00228113 < 1,96, wartośd T jest mniejsza od wartości krytycznej, dlatego też nie ma podstaw do odrzucenia Ho. Średnia wartośd oczekiwana reszt wynosi 0. Założenie dotyczące korelacji reszt z innymi zmiennymi. Na podstawie wykresów rozrzutu pomiędzy resztami a poszczególnymi zmiennymi objaśniającymi przyjętymi do modelu rozpatruję występowanie korelacji pomiędzy nimi. Wyk_ob_cudz Il_podr_kraj_Po r_kurs_usd Z wykresów wynika, że nie ma korelacji reszt ze zmiennymi objaśniającymi pochodzącymi z modelu. 19 Og_syt_zakw_gas Przewozy_og
uhat1 Przeprowadziłem analizę reszt modelu, które dla modelu liniowego z trzema zmiennymi objaśniającymi przedstawia poniższy rysunek. 0.8 0.6 0.4 0.2 0-0.2-0.4-0.6 Losowośd składnika losowego Na podstawie rysunku reszt modelu przeprowadziłem weryfikację losowości składnika losowego. losowości dodatkowo wykonałem test serii. W celu zbadania Test serii Liczba serii (R) dla zmiennej 'uhat1' = 28 Test niezależności oparty na liczbie dodatnich i ujemnych serii. Hipoteza zerowa: próba jest losowa, dla R odpowiednio N(31, 3,84057), test z-score = -0,781133, przy dwustronnym obszarze krytycznym p = 0,434724 Otrzymana wartośd p-value = 0,43 przekracza przyjęty poziom istotności α= 0,05. Oznacza to, że składnik losowy jest losowy. Normalnośd rozkładu Kolejny przeprowadzony test to test normalności rozkładu - Test Shapiro-Wilka. Rozkład częstości dla uhat1, obserwacje 1-60 liczba przedziałów = 7, średnia = -4,58892e-016, odch.std. = 0,26732 Przedziały średnia liczba częstość skumlowana < -0,31722-0,41349 7 11,67% 11,67% **** -0,31722 - -0,12468-0,22095 13 21,67% 33,33% ******* -0,12468-0,067857-0,028412 19 31,67% 65,00% *********** 0,067857-0,26039 0,16412 14 23,33% 88,33% ******** 0,26039-0,45293 0,35666 3 5,00% 93,33% * 0,45293-0,64547 0,54920 3 5,00% 98,33% * >= 0,64547 0,74174 1 1,67% 100,00% Hipoteza zerowa: dystrybuanta empiryczna posiada rozkład normalny. Test Doornika-Hansena (1994)- transformowana skośnośd i kurtoza: Chi-kwadrat(2) = 2,346 z wartością p 0,30948 20
Gêsto æ 1.8 1.6 Test na normalno æ rozk³adu: Chi-kwadrat(2) = 2,346, warto æ p = 0,30948 uhat1 N(-4,5889e-016 0,26732) 1.4 1.2 1 0.8 0.6 0.4 0.2 0-0.8-0.6-0.4-0.2 0 0.2 0.4 0.6 0.8 uhat1 Otrzymana wartośd p równa 0,30948 przekracza przyjęty poziom istotności α = 0,05, co oznacza, że reszty modelu mają rozkład normalny. Homoscedastycznośd składnika losowego Następnym z kolei testem jest test White a na homoscedastycznośd składnika losowego. Test White'a na heteroskedastyczność reszt (zmienność wariancji resztowej) Estymacja KMNK, wykorzystane obserwacje 2005:01-2009:12 (N = 60) Zmienna zależna: uhat^2 współczynnik błąd standardowy t-studenta wartość p ----------------------------------------------------------------------- const 6,05011 4,28609 1,412 0,1660 Wyk_ob_cudz -2,38429e-06 2,88417e-06-0,8267 0,4134 Przewozy_og -0,000115487 6,86547e-05-1,682 0,1005 Il_podr_kraj_Po -0,455513 0,556813-0,8181 0,4183 r_kurs_usd -0,167269 1,07146-0,1561 0,8767 Og_syt_zakw_gas 0,0244506 0,0405067 0,6036 0,5496 sq_wyk_ob_cud -2,03350e-012 2,68284e-012-0,7580 0,4530 X2_X3 1,53347e-011 2,68186e-011 0,5718 0,5707 X2_X4 4,12038e-07 3,64338e-07 1,131 0,2650 X2_X5 4,01982e-07 6,36096e-07 0,6320 0,5311 X2_X6 8,00467e-09 2,73593e-08 0,2926 0,7714 sq_przewozy_o 4,32872e-010 3,07604e-010 1,407 0,1673 X3_X4 4,27082e-06 5,43403e-06 0,7859 0,4367 X3_X5 9,52455e-06 7,54274e-06 1,263 0,2142 X3_X6-1,05605e-07 3,71533e-07-0,2842 0,7777 sq_il_podr_kr -0,0208221 0,0265303-0,7848 0,4373 X4_X5 0,0398131 0,0720628 0,5525 0,5838 X4_X6 0,00114196 0,00508785 0,2244 0,8236 sq_r_kurs_usd -0,143969 0,123598-1,165 0,2512 X5_X6-0,00609187 0,0113269-0,5378 0,5938 sq_og_syt_zak -0,000237228 0,000267105-0,8881 0,3799 Uwaga: macierz danych jest osobliwa! Wsp. determ. R-kwadrat = 0,191117 Statystyka testu: TR^2 = 11,467042, z wartością p = P(Chi-kwadrat(20) > 11,467042) = 0,933200 Obliczona wartośd p równa 0.933200 oznacza, że nie ma podstaw do odrzucenia H 0, czyli składnik losowy jest homoscedastyczny. 21
Przyjazd_cudz Test Breuscha Pagana Kolejnym testem jest test Breuscha-Pagana na heteroskedastycznośd składnika losowego Test Breuscha-Pagana na heteroskedastyczność Estymacja KMNK, wykorzystane obserwacje 2005:01-2009:12 (N = 60) Zmienna zależna: parametr skali uhat^2 współczynnik błąd standardowy t-studenta wartość p ---------------------------------------------------------------------- Wyk_ob_cudz -1,04619e-06 2,14017e-06-0,4888 0,6269 Przewozy_og 1,71697e-06 1,50024e-05 0,1144 0,9093 Il_podr_kraj_Po 0,111646 0,211335 0,5283 0,5994 r_kurs_usd 0,290561 0,495684 0,5862 0,5602 Og_syt_zakw_gas 0,00861525 0,0276905 0,3111 0,7569 Wyjaśniona suma kwadr. = 1,23029 Statystyka testu: LM = 0,615143, z wartością p = P(Chi-kwadrat(4) > 0,615143) = 0,961366 Wartośd p jest większa od przyjętego poziomu istotności alfa=0,05, zatem nie ma podstaw do odrzucenia H0 czyli składnik losowy jest homoscedastyczny. Test Durbina-Watsona Test ten pozwala sprawdzid czy występuje autokorelacja składnika losowego. Statystyka Durbina-Watsona wynosi: 1,732171 Wartości krytyczne dla =0,05 i k= 5, które wynoszą odpowiednio dl=1,41 oraz du= 1,76. Wartośd empiryczna znajduje się w przedziale: [1,41; 1,76]. Jest to tzw. obszar niekonkluzywności. Oznacza to, że nie można jednoznacznie stwierdzid istnienia lub nieistenienia autokorelacji. Otrzymany liniowy model strukturalny postaci: Ӯ = 0,00000388476 x 1 + 0,0000268565 x 2 + 0,253412 x 3 + 0,258934 x 4 + 0,024884 x 5 + e Podsumowując otrzymany model nie spełnia następujących założeo stosowalności KMNK estymatora: - nie jest spełnione założenie, dotyczące autokorelacji składnika losowego Modyfikacje modelu strukturalnego Wykres szeregu czasowego dla zmiennej objaśnianej Przyjazdy cudzoziemców: 7 6.5 6 5.5 5 4.5 4 3.5 22
Wykres zmiennej objaśnianej w czasie wskazuje na możliwośd wprowadzenia do modelu zmiennych sztucznych 0-1 sezonowych, ponieważ badane zjawisko w czasie odznacza się sezonowością. Model 1: Estymacja KMNK, wykorzystane obserwacje 2005:01-2009:12 (N = 60) Zmienna zależna: Przyjazd_cudz Współczynnik Błąd stand. t-studenta wartość p Wyk_ob_cudz 5,24029e-06 1,20803e-06 4,3379 0,00008 *** Przewozy_og 2,41861e-05 5,68939e-06 4,2511 0,00011 *** Il_podr_kraj_Po 0,233595 0,108127 2,1604 0,03623 ** r_kurs_usd 0,197488 0,087465 2,2579 0,02896 ** Og_syt_zakw_gas 0,0217616 0,00463787 4,6922 0,00003 *** q1-0,0940581 0,243896-0,3856 0,70161 q2 0,121363 0,231714 0,5238 0,60307 q3 0,0996118 0,193088 0,5159 0,60852 q4 0,196951 0,152106 1,2948 0,20213 q5-0,354357 0,131524-2,6942 0,00995 *** q6-0,0665862 0,161078-0,4134 0,68134 q7-0,208845 0,460007-0,4540 0,65206 q8-0,249919 0,493018-0,5069 0,61475 q9-0,256531 0,16318-1,5721 0,12310 q10 0,219484 0,151529 1,4485 0,15458 q11 0,141831 0,199715 0,7102 0,48135 Średn.aryt.zm.zależnej 5,161417 Odch.stand.zm.zależnej 0,779532 Suma kwadratów reszt 2,192544 Błąd standardowy reszt 0,223228 Wsp. determ. R-kwadrat 0,998658 Skorygowany R-kwadrat 0,998201 F(16, 44) 2047,030 Wartość p dla testu F 9,94e-58 Logarytm wiarygodności 14,14215 Kryt. inform. Akaike'a 3,715691 Kryt. bayes. Schwarza 37,22520 Kryt. Hannana-Quinna 16,82310 Autokorel.reszt - rho1 0,454027 Stat. Durbina-Watsona 1,059234 Po eliminacji zmiennych z wartością p większą od przyjętego poziomu istotności α = 0,05 otrzymujemy następujący model: Model 10: Estymacja KMNK, wykorzystane obserwacje 2005:01-2009:12 (N = 60) Zmienna zależna: Przyjazd_cudz Współczynnik Błąd stand. t-studenta wartość p Wyk_ob_cudz 5,27324e-06 4,42887e-07 11,9065 <0,00001 *** Przewozy_og 2,67826e-05 2,32694e-06 11,5098 <0,00001 *** Il_podr_kraj_Po 0,161548 0,03879 4,1647 0,00012 *** r_kurs_usd 0,194583 0,07773 2,5033 0,01542 ** Og_syt_zakw_gas 0,0215132 0,00439045 4,9000 <0,00001 *** q5-0,301038 0,0881565-3,4148 0,00123 *** q9-0,226523 0,0956813-2,3675 0,02159 ** Średn.aryt.zm.zależnej 5,161417 Odch.stand.zm.zależnej 0,779532 Suma kwadratów reszt 2,671568 Błąd standardowy reszt 0,224515 Wsp. determ. R-kwadrat 0,998365 Skorygowany R-kwadrat 0,998180 F(7, 53) 4624,064 Wartość p dla testu F 1,82e-71 Logarytm wiarygodności 8,214062 Kryt. inform. Akaike'a -2,428124 Kryt. bayes. Schwarza 12,23229 Kryt. Hannana-Quinna 3,306369 Autokorel.reszt - rho1 0,359358 Stat. Durbina-Watsona 1,276132 23
W tym przypadku postad oszacowanego modelu wygląda następująco: Ӯ = 5,27324e-06 x 1 + 2,67826e-05 x 2 + 0,161548 x 3 + 0,194583 x 4 + 0,0215132x 5-0,301038d 1-0,226523d 2 + e Współczynnik determinacji R 2 wyniósł 0,998365 co oznacza, że oszacowany model w 99,84 % opisuje zmiennośd przyjazdów turystów zagranicznych do Polski. Wykres dopasowania: Empiryczne i wyrównane warto ci zmiennej: Przyjazd_cudz 7 wyrównane empiryczne 6.5 6 5.5 5 4.5 4 3.5 Weryfikacja modelu a) Badam dokładnośd szacunku w oparciu: - o test F. Snedecora Wartość p dla testu F 1,82e-71 Wartośd p dla testu F jest mniejsza od przyjętego poziomu istotności (α = 0,05), co oznacza, że odrzucamy Ho, a przyjmujemy H 1. Przynajmniej jeden z parametrów modelu jest istotny. - test t-studenta Przy wszystkich parametrach modelu, wartośd p jest mniejsza od przyjętego poziomu istotności α = 0,05. Oznacza to, że parametry są istotne. b) Błędy standardowe szacunku 4,42887e-07 : 5,27324e-06 = 0,08399 Dla α 1 obliczona wartośd z testu t-studenta wyniosła 0,08399. Oznacza to, że wartośd względna błędu szacunku oznacza, że wartośd parametru α 1 różni się od jego oszacowania średnio o 8%. 2,32694e-06 : 2,67826e-05 = 0,086883 Dla α 2 obliczona wartośd z testu t-studenta wyniosła 0,086883. Oznacza to, że wartośd względna błędu szacunku oznacza, że wartośd parametru α 2 różni się od jego oszacowania średnio o 9%. 0,03879 : 0,161548 = 0,24011 Dla α 3 obliczona wartośd z testu t-studenta wyniosła 0,24011. Oznacza to, że wartośd względna błędu szacunku oznacza, że wartośd parametru α 3 różni się od jego oszacowania średnio o 24%. 0,07773 : 0,194583 = 0,39947 Dla α 4 obliczona wartośd z testu t-studenta wyniosła 0,39947. Oznacza to, że wartośd względna błędu szacunku oznacza, że wartośd parametru α 4 różni się od jego oszacowania średnio o 40%. 24
uhat10 uhat10 uhat10 uhat10 uhat10 uhat10-1 q9 0 1 0,00439045 : 0,0215132 = 0,20408 Dla α 5 obliczona wartośd z testu t-studenta wyniosła 0,20408. Oznacza to, że wartośd względna błędu szacunku oznacza, że wartośd parametru α 5 różni się od jego oszacowania średnio o 20%. 0,0881565 : -0,301038 = -0,2928 Dla α 6 obliczona wartośd z testu t-studenta wyniosła 0,2928. Oznacza to, że wartośd względna błędu szacunku oznacza, że wartośd parametru α 6 różni się od jego oszacowania średnio o 29%. 0,0956813 : -0,226523 = -0,4224 Dla α 7 obliczona wartośd z testu t-studenta wyniosła 0,4224. Oznacza to, że wartośd względna błędu szacunku oznacza, że wartośd parametru α 7 różni się od jego oszacowania średnio o 42%. Najwyższy błąd wyszedł przy oszacowaniu parametru α 7 i α 4 Wartośd błędu standardowego reszt S e = 0, 224515 mówi, że oszacowana ilośd przyjazdów turystów zagranicznych różni się średnio od jej rzeczywistej wartości, właśnie o 0, 224515. c) Ocena dopasowania modelu do danych: Współczynnik determinacji R 2 wynosi: 0,998365. Oszacowany model w 99,8 % opisuje zjawisko przyjazdów cudzoziemców do Polski. d) Weryfikacja założeo KMNK - estymatora Hipoteza zerowa: średnia z populacji = 0 Liczebność próby: n = 60 Średnia z próby = -0,00195723, odchylenie std. = 0,212784 Statystyka testowa: t(59) = (-0,00195723-0)/0,0274703 = -0,0712492 Dwustronny obszar krytyczny p = 0,9434 (jednostronny obszar krytyczny = 0,4717) T= 0,0712492 0,0712492 < 1,96, wartośd T jest mniejsza od wartości krytycznej, dlatego też nie ma podstaw do odrzucenia Ho. Średnia wartośd oczekiwana reszt wynosi 0. Założenie dotyczące korelacji reszt z innymi zmiennymi. Na podstawie wykresów rozrzutu pomiędzy resztami a poszczególnymi zmiennymi objaśniającymi przyjętymi do modelu rozpatruję występowanie korelacji pomiędzy nimi. 0.5-0.5-0.4-0.2 0 0.2 0.4 0.6 uhat10 Wyk_ob_cudz Przewozy_og Il_podr_kraj_Po Z wykresów wynika, że nie ma korelacji reszt ze zmiennymi objaśniającymi pochodzącymi z modelu. r_kurs_usd Og_syt_zakw_gas q5 25
uhat10 Przeprowadziłem analizę reszt modelu, które dla modelu liniowego z trzema zmiennymi objaśniającymi przedstawia poniższy rysunek. 0.8 0.6 0.4 0.2 0-0.2-0.4-0.6 Losowośd składnika losowego Na podstawie rysunku reszt modelu przeprowadziłem weryfikację losowości składnika losowego. losowości dodatkowo wykonałem test serii. W celu zbadania Test serii Liczba serii (R) dla zmiennej 'uhat10' = 23 Test niezależności oparty na liczbie dodatnich i ujemnych serii. Hipoteza zerowa: próba jest losowa, dla R odpowiednio N(31, 3,84057), test z-score = -2,08302, przy dwustronym obszarze krytycznym p = 0,0372492 Otrzymana wartośd p-value = 0,0372492 jest mniejsza od przyjętego poziom istotności α= 0,05. Oznacza to, że składnik losowy nie jest losowy. Normalnośd rozkładu Kolejny przeprowadzony test to test normalności rozkładu - Test Shapiro-Wilka. Rozkład częstości dla uhat11, obserwacje 1-60 liczba przedziałów = 7, średnia = -0,00195723, odch.std. = 0,224505 Przedziały średnia liczba częstość skumlowana < -0,31245-0,40607 3 5,00% 5,00% * -0,31245 - -0,12519-0,21882 17 28,33% 33,33% ********** -0,12519-0,062057-0,031569 18 30,00% 63,33% ********** 0,062057-0,24931 0,15568 15 25,00% 88,33% ******** 0,24931-0,43656 0,34293 5 8,33% 96,67% *** 0,43656-0,62381 0,53018 1 1,67% 98,33% >= 0,62381 0,71744 1 1,67% 100,00% Hipoteza zerowa: dystrybuanta empiryczna posiada rozkład normalny. Test Doornika-Hansena (1994)- transformowana skośność i kurtoza: Chi-kwadrat(2) = 4,926 z wartością p 0,08518 26
Gêsto æ 1.8 1.6 Test na normalno æ rozk³adu: Chi-kwadrat(2) = 4,926, warto æ p = 0,08518 uhat11 N(-0,0019572 0,22451) 1.4 1.2 1 0.8 0.6 0.4 0.2 0-0.6-0.4-0.2 0 0.2 0.4 0.6 0.8 uhat11 Otrzymana wartośd p równa 0,08518 przekracza przyjęty poziom istotności α = 0,05, co oznacza, że reszty modelu mają rozkład normalny. Homoscedastycznośd składnika losowego Następnym z kolei testem jest test White a na homoscedastycznośd składnika losowego. Test White'a na heteroskedastycznośd reszt (zmiennośd wariancji resztowej) - Hipoteza zerowa: heteroskedastycznośd reszt nie występuje Statystyka testu: LM = 25,3475 z wartością p = P(Chi-Square(26) > 35,3759) = 0,34723 Obliczona wartośd p value jest większa od przyjętego poziomu istotności. Nie ma podstaw do odrzucenia hipotezy zerowej, zatem składnik losowy jest homoscedastyczny. Test Breuscha Pagana Kolejnym testem jest test Breuscha-Pagana na heteroskedastycznośd składnika losowego Test Breuscha-Pagana na heteroskedastyczność Estymacja KMNK, wykorzystane obserwacje 2005:01-2009:12 (N = 60) Zmienna zależna: parametr skali uhat^2 współczynnik błąd standardowy t-studenta wartość p ---------------------------------------------------------------------- Wyk_ob_cudz 2,44886e-06 3,51400e-06 0,6969 0,4889 Przewozy_og -9,42984e-06 1,84627e-05-0,5108 0,6116 Il_podr_kraj_Po -0,203112 0,307771-0,6599 0,5121 r_kurs_usd 0,472416 0,616734 0,7660 0,4471 Og_syt_zakw_gas 0,0230017 0,0348352 0,6603 0,5119 a5-0,0362584 0,699461-0,05184 0,9589 a9-0,553668 0,759165-0,7293 0,4690 Wyjaśniona suma kwadr. = 6,97625 Statystyka testu: LM = 3,488124, z wartością p = P(Chi-kwadrat(6) > 3,488124) = 0,745549 Wartośd p jest większa od przyjętego poziomu istotności alfa=0,05, zatem nie ma podstaw do odrzucenia H0 czyli składnik losowy jest homoscedastyczny. 27
Test Durbina-Watsona Test ten pozwala sprawdzid czy występuje autokorelacja składnika losowego. Statystyka D-W wynosi: 1,276132 Statystyka testu Durbina-Watsona dla 5% poziomu istotności, n = 60, k = 7 Wartości krytyczne dla =0,05 i k= 5, które wynoszą odpowiednio dl=1,3349 oraz du= 1,8505. Wartośd empiryczna nie znajduje się w przedziale: [1,3349; 1,8505]. Oznacza to, że istnieje dodatnia autokorelacja reszt. Model jest bardzo dobrze dopasowany do danych empirycznych, ale nie są spełnione założenia stosowalności estymatora MNK dotyczące losowości reszt, a tym samym braku autokorelacji. Kolejną zaproponowaną modyfikacją modelu strukturalnego jest dołączenie zmiennych opóźnionych dla zmiennej objaśnianej. Dorzucenie zmiennych opóźnionych pozwoli nam na pozbycie się autokorelacji z modelu. Przed wprowadzeniem zmiennych opóźnionych należy określid rząd opóźnieo dla zmiennej objaśnianej. W tym celu wykorzystam korelogram. ACF dla zmiennej Przyjazd_cudz 1 +- 1,96/T^0,5 0.5 0-0.5-1 0 10 20 30 40 50 60 opó¼nienia PACF dla zmiennej Przyjazd_cudz 1 +- 1,96/T^0,5 0.5 0-0.5-1 0 10 20 30 40 50 60 opó¼nienia 28
Funkcja autokorelacji (ACF) i autokorelacji cząstkowej (PACF), test autokorelacji Ljunga-Boxa (Q) dla procesu: Przyjazd_cudz Opóźnienia ACF PACF Ljung-Box Q [wartość p] 1 0,7739 *** 0,7739 *** 37,7655 [0,000] 2 0,5194 *** -0,1984 55,0699 [0,000] 3 0,1967-0,3415 *** 57,5945 [0,000] 4-0,1027-0,2027 58,2950 [0,000] 5-0,3168 ** -0,0610 65,0838 [0,000] 6-0,4556 *** -0,1135 79,3844 [0,000] 7-0,2901 ** 0,5625 *** 85,2918 [0,000] 8-0,0920 0,0755 85,8969 [0,000] 9 0,1567 0,0157 87,6885 [0,000] 10 0,3822 *** 0,0907 98,5559 [0,000] 11 0,5141 *** -0,0066 118,6243 [0,000] 12 0,6033 *** 0,1966 146,8338 [0,000] 13 0,4154 *** -0,2416 * 160,4918 [0,000] 14 0,2088-0,0347 164,0167 [0,000] 15-0,0326 0,0222 164,1045 [0,000] 16-0,2320 * 0,0076 168,6567 [0,000] 17-0,3679 *** -0,1327 180,3632 [0,000] 18-0,4659 *** -0,1423 199,5858 [0,000] 19-0,3511 *** -0,0988 210,7691 [0,000] 20-0,1867 0,1087 214,0120 [0,000] 21 0,0009-0,0297 214,0120 [0,000] 22 0,1663-0,0145 216,7201 [0,000] 23 0,2540 ** -0,1013 223,2048 [0,000] 24 0,2938 ** -0,1449 232,1261 [0,000] 25 0,1450-0,0627 234,3619 [0,000] 26-0,0331-0,0068 234,4815 [0,000] 27-0,2074 0,0539 239,3286 [0,000] 28-0,3410 *** 0,0098 252,8428 [0,000] 29-0,4065 *** -0,0486 272,6756 [0,000] 30-0,4233 *** -0,0094 294,8975 [0,000] 31-0,3274 ** -0,1904 308,6500 [0,000] 32-0,1828-0,0101 313,0899 [0,000] 33-0,0369 0,0922 313,2775 [0,000] 34 0,0863 0,0611 314,3440 [0,000] 35 0,1361-0,0159 317,1005 [0,000] 36 0,1508-0,0413 320,6275 [0,000] 37 0,0875 0,0512 321,8668 [0,000] 38-0,0131 0,0601 321,8958 [0,000] 39-0,1075 0,0256 323,9430 [0,000] 40-0,1944-0,0464 330,9736 [0,000] 41-0,2355 * -0,0217 341,8293 [0,000] 42-0,2282 * 0,1016 352,5945 [0,000] 43-0,1735 0,0167 359,1786 [0,000] 44-0,0753-0,0939 360,4953 [0,000] 45 0,0116-0,0867 360,5285 [0,000] 46 0,0769-0,1502 362,0993 [0,000] 47 0,0891-0,0185 364,3733 [0,000] 48 0,0638 0,0207 365,6346 [0,000] 49 0,0226-0,0323 365,8077 [0,000] 50-0,0302 0,0157 366,1466 [0,000] 51-0,0422 0,1087 366,8832 [0,000] 52-0,0635-0,1035 368,7575 [0,000] 53-0,0416 0,0370 369,6763 [0,000] 54-0,0021-0,0521 369,6790 [0,000] 55 0,0222-0,0088 370,0442 [0,000] 56 0,0464 0,0169 372,0425 [0,000] 57 0,0549 0,1070 375,7820 [0,000] 58 0,0551-0,0735 381,4359 [0,000] 59 0,0247-0,0544 383,7025 [0,000] Analizując funkcję PACF można stwierdzid, że rząd opóźnieo wynosi 7. Wysoki rząd opóźnienia wskazuje, ze w badanym zjawisku istnieje sezonowośd. 29
Model na zmiennych opóźnionych na Y rząd opóźnień 7 Model 15: Estymacja KMNK, wykorzystane obserwacje 2005:03-2009:12 (N = 58) Zmienna zależna: Przyjazd_cudz współczynnik błąd standardowy t-studenta wartość p ---------------------------------------------------------------------- Wyk_ob_cudz 3,84028e-06 3,91082e-07 9,820 1,94e-013 *** Przewozy_og 2,21076e-05 3,61845e-06 6,110 1,29e-07 *** Il_podr_kraj_Po 0,218406 0,0425928 5,128 4,40e-06 *** r_kurs_usd 0,222785 0,0915448 2,434 0,0184 ** Og_syt_zakw_gas 0,0196065 0,00590745 3,319 0,0017 *** Przyjazd_cu_2 0,123366 0,0603376 2,045 0,0460 ** Średn.aryt.zm.zależnej 5,198862 Odch.stand.zm.zależnej 0,765017 Suma kwadratów reszt 3,570459 Błąd standardowy reszt 0,262036 Wsp. determ. R-kwadrat 0,997770 Skorygowany R-kwadrat 0,997555 F(6, 52) 3877,465 Wartość p dla testu F 4,29e-67 Logarytm wiarygodności -1,453718 Kryt. inform. Akaike'a 14,90744 Kryt. bayes. Schwarza 27,27010 Kryt. Hannana-Quinna 19,72294 Autokorel.reszt - rho1 0,125999 Stat. Durbina-Watsona 1,690726 Weryfikacja modelu a) Badam dokładnośd szacunku w oparciu: - o test F. Snedecora Wartość p dla testu F 4,29e-67 Wartośd p dla testu F jest mniejsza od przyjętego poziomu istotności (α = 0,05), co oznacza, że odrzucamy Ho, a przyjmujemy H 1. Przynajmniej jeden z parametrów modelu jest istotny. - test t-studenta Przy wszystkich parametrach modelu, wartośd p jest mniejsza od przyjętego poziomu istotności α = 0,05. Oznacza to, że parametry są istotne. b) Błędy standardowe szacunku 3,91082e-07/3,84028e-06 = 0,10 Dla α 1 obliczona wartośd z testu t-studenta wyniosła 0,10. Oznacza to, że wartośd względna błędu szacunku oznacza, że wartośd parametru α 1 różni się od jego oszacowania średnio o 10%. 3,61845e-06/2,21076e-05 = 0,164 Dla α 2 obliczona wartośd z testu t-studenta wyniosła 0,164. Oznacza to, że wartośd względna błędu szacunku oznacza, że wartośd parametru α 2 różni się od jego oszacowania średnio o 16%. 0,0425928 /0,222785 = 0,1818 Dla α 3 obliczona wartośd z testu t-studenta wyniosła 0,1818. Oznacza to, że wartośd względna błędu szacunku oznacza, że wartośd parametru α 3 różni się od jego oszacowania średnio o 18%. 0,00590745/0,0196065 = 0,263 Dla α 4 obliczona wartośd z testu t-studenta wyniosła 0,263. Oznacza to, że wartośd względna błędu szacunku oznacza, że wartośd parametru α 4 różni się od jego oszacowania średnio o 26%. 0,0603376 /0,123366 = 0,5 Dla β 1 obliczona wartośd z testu t-studenta wyniosła 0,5. Oznacza to, że wartośd względna błędu szacunku oznacza, że wartośd parametru α 5 różni się od jego oszacowania średnio o 50%. Wartośd błędu standardowego reszt S e = 0,262036 mówi, że oszacowana ilośd przyjazdów turystów zagranicznych różni się średnio od jej rzeczywistej wartości, właśnie o 0,262036. 30