Modelowanie Ekonometryczne i Prognozowanie David Ramsey e-mail: david.ramsey@pwr.edu.pl strona domowa: www.ioz.pwr.edu.pl/pracownicy/ramsey 27 lutego 2015 1 / 77
Opis Kursu 1. Podstawy oraz Cele Modelowania Ekonometrycznego i Prognozowania. 2. Regresja. 3. Szeregi Czasowe. 2 / 77
1. Podstawy i Cele Ogólnie mówiąc, chcemy modelować jak pewna zmienna Y (zwana zależna) zależy od grupy zmiennych wyjaśniających X 1, X 2,..., X k. Tutaj używam słowa zależność w sensie matematycznym (czyli jeżeli Y zależy od X i, to nie znaczy koniecznie że istnieje związek przyczniowo-skutkowy między nimi). np. Liczba zachorowań na grypę zależy od sprzedaży lodów (im więcej lodów sprzedano, czyli gdy ogólnie jest ciepło, tym mniej zachorowań). np. Liczba urodzeń na 1000 osób w gminie zależy od liczby bocianów na kilometr kwadratowy (jest więcej urodzeń w gminach wiejskich). 3 / 77
Podstawy i Cele W tym celu, zbieramy obserwacje zmiennej Y, oznaczono Y 1, Y 2,..., Y n oraz odpowiadające im obserwacje zmiennych wyjaśniających. Obserwacje zmiennej X i oznaczono X i,1, X i,2,..., X i,n. Chcemy zbudować model (ekonometryczny), np. Y = f (X 1, X 2,..., X k ) + ɛ, który opisuje jak wartość Y zależy od wartości zmiennych wyjaśniających. Tutaj ɛ jest tak zwanym rezyduum (błędem losowym). Gdy ɛ > 0, Y jest więsze niż przewidujemy z modelu, a gdy ɛ < 0, Y jest mniejsze niż przewidujemy. 4 / 77
Rezydua 5 / 77
Regresja i Szeregi Czasowe Ogólnie, można podzielić modele na dwa rodzaje. 1. Modele regresyjne. 2. Szeregi czasowe. Mamy obserwacje X 1, X 2, X 3,..., X T, gdzie X t jest obserwacją zmiennej X w czasie t. 6 / 77
2. Regresja - 2.1 Wstęp Używamy modeli regresyjnych gdy obserwacje zmiennej Y nie są uporządkowane w czasie (lub możemy założyć że obserwacja zmiennej Y w danym momencie nie zależy od poprzednich obserwacji tej zmiennej). Na przykład, jeżeli popularny, niesezonowy produkt pierwszej potrzeby (np. szampon, makaron) jest na rynku od pewnego czasu, możemy założyć że sprzedaż nie zależy od czasu. 7 / 77
Regresja Chcemy zobaczyć jak sprzedaż tego produktu zależy od wydatków na reklamy a) telewizyjne, b) radiowe, c) na billboardach w danym miesiącu. Możemy zbudować prosty model liniowy Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + ɛ, gdzie Y jest sprzedażą, X 1, X 2 i X 3 wydatkami na reklamy telewizyjne, radiowe i billboardowe, odpowiednio. W ten sposób zbudowaliśmy model sprzedaży zaobserwowanej w przeszłości (jest to pierwszy z celów modelowania). 8 / 77
Regresja i Prognozowanie Drugim celem jest prognozowanie sprzedaży w przyszłości przy danej strategii. W tym przypadku, firma ma kontrolę nad wyborem wartości zmiennych wyjaśniających. Według tego modelu, każda złotówka wydana na np. reklamy telewizyjne powiększy sprzedaż o β 1 złotówkach. Korzystając z takiego podejścia, firma powinna zainwestować w medium odpowiadające największemu współczynnikowi β i. 9 / 77
Reszty i Diagnostyka George Box (1919-2013), który był bardzo ważną postacią w rozwoju modeli ekonometrycznych, powiedział: Każdy model jest błędny, niektóre są przydatne Na przykład, nasz model Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + ɛ jest na pewno błędny, bo zakłada że każda dodatkowa złotówka wydana na pewne medium przynosi ten sam wzrost przychodu. 10 / 77
Reszty i Diagnostyka Ale z powodu nasycenia, po jakimś czasie każda dodatkowa złotówka przynosi coraz mniejsze wzrosty przychodu (z powodu zmeczenia reklamami, przychód może nawet maleć). Z tego powodu, gdy bardzo dużo wydajemy na reklamy telewizyjne, sprzedaż będzie mniejsza niż przewidujemy. To znaczy że duże wydatki na reklamy telewizyjne są związane z ujemnymi rezyduami. 11 / 77
Reszty i Diagnostyka Regresja zakłada że rezydua nie są skorelowane z wartościami zmiennych wyjaśniającymi. Jeżeli rezydua się zmieniają dosyć systematcznie wzgłędem jednej zmiennej wyjaśniającej, jest to znak że model nie jest przydatny. 12 / 77
Wybór Zmiennych Wyjaśniających Mamy n obserwacji zmiennej zależnej Y oraz k zmiennych wyjaśniających. Chcemy żeby n było dużo większe niż k. Uwaga: Możemy DOKŁADNIE opisać n obserwacji zmiennej Y za pomocą obserwacji n 1 DOWOLNYCH zmiennych wyjaśniających, ale jak chcemy przewidzieć przyszłe obserwacje zmiennej Y, model taki jest KOMPLETNIE NIEPRZYDATNY. 13 / 77
Wybór Zmiennych Wyjaśniających Wybieramy zmienne wyjaśniające żeby 1. Zmienne X 1, X 2,..., X k były skorelowane z Y (najlepiej żeby istniał bezpośredni związek między X i a Y ). 2. Zmienne X 1, X 2,..., X k nie powinny być mocno skorelowane z sobą. Uwaga: Jeżeli chcemy modelować sprzedaż lodów, lepiej wziąć temperaturę jako zmienną wyjaśniająca (związek bezpośredni) niż liczbę zachorowań na grypę (związek pośredni poprzez temperaturę). 14 / 77
Problem Mocnych Korelacji między Zmiennymi Wyjaśniającymi Zakładamy że Y = X 1 + ɛ oraz X 1 = 2X 2, czyli istnieje doskonała korelacja między zmiennymi wyjaśniającymi X 1 a X 2. Wtedy, następujące modele regresyjne są RÓWNOWAŻNE. Y =X 1 + ɛ Y =2X 2 + ɛ Y =100X 1 198X 2 + ɛ Y =202X 2 100X 1 + ɛ 15 / 77
Problem Mocnych Korelacji między Zmiennymi Wyjaśniającymi Z pierwszych dwóch modeli, widać że Y jest dodatnio skorelowane z obiema zmiennymi wyjaśniającymi. Natomiast, z trzeciego modelu, wygląda na to, że X 2 jest ujemnie skorelowane z Y. Z ostatniego modelu, wygląda na to, że X 1 jest ujemnie skorelowane z Y. Chociaż wszystkie prognozy z tych modeli byłyby identyczne, ich interpretacje są skrajnie różne. 16 / 77
Problem Mocnych Korelacji między Zmiennymi Wyjaśniającymi Jeden sposób aby unikać tego problemu jest ustalaniem progu ρ 0, takiego że gdy r(x i, X j ) > ρ 0 (gdzie r jest odpowiednim współczynnikiem korelacji), wyrzucamy jedną z tych zmiennych z modelu. Wyrzucamy zmienną, która jest najsłabiej skorelowana z zmienną zależną (według bezwzględnego współczynnika korelacji). Lepszy sposób jest zastosowaniem regresji krokowej (zob. regresję wielokrotną). 17 / 77
Regresja Liniowa z Jedną Ilościową Zmienną Wyjaśniającą Mamy n obserwacji, (Y 1, Y 2,..., Y n ), zmiennej zależnej Y, oraz n obserwacji, (X 1, X 2,..., X n ), zmiennej wyjaśniającej X, gdzie X i Y są zmiennymi ilościowymi. Chcemy tworzyć model regresji postaci Y = β 0 + β 1 X + ɛ. β 0 jest stałą regresji, β 1 jest współczynnikiem regresji odpowiadającym zmiennej X 1, ɛ jest błędem losowym/rezyduum/resztą. 18 / 77
Regresja Liniowa z Jedną Ilościową Zmienną Wyjaśniającą Estymatory parametrów β 0, β 1 minimalizują sumę błędów kwadratowych, czyli n i=1 ɛ i, gdzie ɛ i = Y i β 0 β 1 X i = Y i Ŷ i. Ŷ i = β 0 + β 1 X i jest estymatorem (prognozą) wartości obserwacji zmiennej zależnej Y i w oparciu o wartość obserwacji zmiennej wyjaśniającej X i. Wynika z tego że suma rezyduów równa się zeru, czyli nie ma systematycznego błędu gdy przewidujemy wartość obserwacji Y i w oparciu o losowej wybranej obserwacji X i. Uwaga: Ale nie znaczy to prognoza wartości Y przy danej wartości X nie jest obarczona systematycznym błędem. 19 / 77
Założenia Regresji Liniowej 1. Błędy mają rozkład normalny z średnią 0 i są niezależne. Czyli ɛ N(0, σ 2 ɛ ). 2. Błędy nie zależą od wartości zmiennych wyjaśniających. Czyli reszty mają się zmienić losowo, a nie systematycznie. 20 / 77
Obserwacje Odstające Aby obliczyć standaryzowaną resztę, dzielimy resztę przez odchylenie standardowe reszt. Obserwacja jest odstająca gdy standaryzowana reszta jest większa od 3 (przy założeniach regresji liniowej ok. 1 na 400 obserwacji jest odstająca). Obserwacja odstająca może być błędna, może też być obserwacja w pewnym sensie wyjątkowa (trzeba sprawdzić poszczególne obserwacje odstające). Należy wykonać analizę i z obserwacjami odstającymi i bez nich, aby sprawdzić czy wnioski są odporne na możliwe błędy. 21 / 77
Regresja w Excelu - Ceny Mieszkań Dane dotyczące 1170 mieszkań na sprzedaż we Wrocławiu znajdują się w pliku mieszkania.xls na mojej stronie domowej. Chcemy opisać jak cena mieszkania (w kolumnie E) zależy od jego metrażu (w kolumnie B). Wyznaczamy więc model Y = β 0 + β 1 X + ɛ, gdzie Y jest ceną mieszkania i X jego metrażem. 22 / 77
Regresja w Excelu - Ceny Mieszkań Dzielnice to 1. Stare Miasto. 2. Śródmieście. 3. Krzyki. 4. Fabryczna. 5. Psie Pole. 23 / 77
Regresja w Excelu - Ceny Mieszkań Z menu Dane wybieramy po kolei Analiza Danych i Regresja. Wprowadzamy zakres zmiennej zależnej (e2:e1171). Zaznaczamy poziom ufności (aby wyznaczyć przedziały ufności dla parametrów β 0 i β 1 ). Zacznaczamy standardowe składniki resztowe i rozkład reszt, aby obliczyć standaryzowane reszty oraz rozrzut reszt względem metrażu. 24 / 77
Regresja w Excelu - Ceny Mieszkań Otrzymujemy tabelkę podsumującą jak model pasuje do cen mieszkań Wielokrotność R 0,788006 R kwadrat 0,620953 Dopasowany R kwadrat 0,620628 Błąd standardowy 66259,029 Obserwacje 1170 25 / 77
Regresja w Excelu - Ceny Mieszkań Najważniejsza statystyka w tej tabelce jest R kwadrat (R 2 ). Jest to tak zwany współczynnik determinacji. Opisuje to proporcję wariancji zmiennej zależnej, która jest wyjaśniona przez zmienną wyjaśniającą. W tym przypadku, około 62% wariancji ceny mieszkania jest wyjaśnione jego metrażem (czyli dosyć dużo). Dopasowany R kwadrat uwzględnia karę opartą na liczbie zmiennych wyjaśniających (gdy k nie jest dużo mniejsze niż n, R 2 zawsze będzie duże nawet przy modelu pozbawionym sensu). 26 / 77
Regresja w Excelu - Ceny Mieszkań Następująca tabelka podaje estymatory parametrów tego modelu Współczynniki Błąd standardowy t Stat Wartość-p Dolne 95% Górne 95% Przecięcie 72352,7 6344,15 11,4046 1,22E-28 59905,53 84800,0 Zmienna X1 4755,60 108,718 43,7426 2,68E-248 4542,30 4968,91 27 / 77
Regresja w Excelu - Ceny Mieszkań Kolumna Współczynniki daje estymatory parametrów tego modelu Czyli mamy Y = 72352, 7 + 4755, 6X, gdzie Y jest ceną mieszkania a X jest jego metrażem. Współczynnik zmiennej X określa jak zmienna zależna średnio się zmienia gdy wartość zmiennej X rośnie o jednostkę. Czyli każdy dodatkowy metr kwadratowy średnio kosztuje 4755,60zł. 28 / 77
Regresja w Excelu - Ceny Mieszkań Uwaga: Według tego modelu, cena za metr kwadratowy, Y /X, wyraża się wzorem Y X = 72352, 7 + 4755, 60. X Czyli im większe jest mieszkanie, tym średnio mniejsza cena za metr kwadratowy. 29 / 77
Regresja w Excelu - Ceny Mieszkań Kolumna Wartość-p daje wartości p dla testów typu 1. H 0 : β i = 0 wobec alternatywy 2. H A : β i 0. Dla i > 0, można zinterpretować H 0 jako hipotezę że zmienna wyjaśniająca i nie ma związku z zmienną zależną. Alternatywa mówi że zmienna wyjaśniająca i ma związek z zmienną zależną. 30 / 77
Regresja w Excelu - Ceny Mieszkań Wartość p jest miarą wiarygodności hipotezy zerowej H 0 (że nie ma związku). Gdy wartość p spełnia 1. p > 0, 05 - Nie mamy dowodów przeciwko H 0. 2. 0, 01 < p < 0, 05 - Mamy dowody że H A jest prawidłowe. 3. 0, 001 < p < 0, 01 - Mamy mocne dowody że H A jest prawidłowe. 4. p < 0, 001 - Mamy bardzo mocne dowody że H A jest prawidłowe. 31 / 77
Regresja w Excelu - Ceny Mieszkań Tutaj E-28 oznacza że pierwsza cyfra niezerowa się pojawia w 28-tym miejscu po przecinku. Z tego widać że mamy bardzo mocne dowody że stała regresji się różni od zera (jest dodatnia). Tak samo, mamy bardzo mocne dowody że β 1 0, czyli cena mieszkania zależy od metrażu (cena rośnie względem metrażu, bo ten współczynnik jest dodatni). 32 / 77
Regresja w Excelu - Ceny Mieszkań Kolumny Dolne 95% oraz Górne 95% podają krańce przedziału ufności dla danego parametru. Na przykład przedziałem ufności na poziomie ufności 95% dla kosztu dodatkowego metru kwadratowego we Wrocławiu jest (4542,30; 4968,91). Przedziałem ufności na poziomie ufności 95% dla wartości stałej regresji jest (59905,53; 84800,0). 33 / 77
Regresja w Excelu - Rozkład Reszt W Excelu mamy zmienną wyjaśniającą na osi X, a na osi Y reszty. 34 / 77
Regresja w Excelu - Diagnostyka Chociaż nie są to reszty standaryzowane, widać że jest parę wyraźnie odstających obserwacji. Gdy obserwacja jest odstająca, reszta jest dodatnia, czyli cena jest większa niż oczekujemy przy danym metrażu. Łatwiej znaleźć i wyrzucić takie obserwacje w pakiecie SPSS. Należy znaleźć te obserwacje odstające i poprawić lub zainterpretować (jak odpowiednio). 35 / 77
Regresja w Excelu - Diagnostyka Poza tym rozrzut jest troszkę stożkowaty (czyli średnio bezwzlędna reszta rośnie jak metraż rośnie. Wskazuje na to że model jest błędny (reszty zależą od wartości zmiennej wyjaśniającej). Jeżeli widać że założenia modelu nie są spełnione, wtedy warto się zastanawiać czy inny model byłby bardziej odpowiedni. W tym przypadku, wykres reszt nie obiega strasznie od idealnej chmury i wydaje się sensownie że cena rośnie w miarę liniowo względem metrażu, więc uznaję że model jest błędny, ale przydatny. 36 / 77
Regresja w Excelu - Diagnostyka Gdy mamy przydatny model, możemy prognozować w oparciu o ten model. Na przykład, możemy oszacować średnią cenę mieszkania o metrażu 60m za pomocą równania regresji Ŷ = 72352, 7 + 4755, 6X. Podstawiając X = 60, otrzymujemy Ŷ = 72352, 7 + 4755, 6 60 = 357688, 70zł. Odchylenie standardowe tego estymatora równa się błędowi standardowemu z tabelki Statystyka Regresji czyli 66 259,03zł. Oczywiście cena mieszkania zależy od innych czynników, np. od stanu mieszkania, położenia. Aby to uwzględnić musimy korzystać z regresji wielomiarowej. 37 / 77
Regresja w SPSS - Ceny Mieszkań Można łatwo wczytać plik Excelowski do SPSS. Domyślnie nazwy zmiennych znajdują się w pierwszym wierszu. Aby wykonać regresję, należy wybrać opcję Regresja z menu Analiza. Wybieramy opcję Liniowa 38 / 77
Regresja w SPSS - Ceny Mieszkań Trzeba umieścić zmienną Y w ramce Zmienna zależna. Zmienną X umieścimy w ramce Zmienne niezależne Aby obliczyć przedziały ufności dla parametrów klikniemy na Statystyki i zaznaczamy Przedziały Ufności. 39 / 77
Regresja w SPSS - Analiza reszt Aby narysować rozrzut reszt, klikniemy na wykresy. Na osi X umieścimy *ZPRED - są to standaryzowane wartości zmiennej wyjaśniającej. Na osi Y umieścimy *ZRESID - są to standaryzowane wartości prognozy. Zaznaczamy Histogram aby otrzymać histogram standaryzowanych reszt. Jest to przydatne do sprawdzenia czy reszty pochodzą z rozkładu normalnego. 40 / 77
Rozrzut Reszty w SPSS-ie Uwaga: Należy zanotować że na osi X mamy standaryzowane wartości prognozy. Jeżeli istnieje pozytywny związek między zmiennymi X a Y, duże standaryzowane wartości prognozy odpowiadają dużym wartościom zmiennej wyjaśniającej. W tym przypadku rozrzut reszt wygląda identycznie do tego otrzymanego w Excelu (jest tylko przeskalowany). 41 / 77
Rozrzut Reszty w SPSS-ie Natomiast, jeżeli istnieje negatywny związek między zmiennymi X a Y, duże standaryzowane wartości prognozy odpowiadają małym wartościom zmiennej wyjaśniającej. W tym przypadku rozrzut reszt jest odbiciem wykresu otrzymanego w Excelu (w prostej pionowej przechodzącej przez środek chmury ). W obu przypadkach, reszty mają tworzyć chmurę równoległą do osi X. 42 / 77
Regresja w SPSS - Analiza reszt Klikniemy na OK. Dostajemy te same informacje co w Excelu plus histogram standaryzowanych reszt. Standaryzowane reszty teraz się znajdują w skoroszycie jako zmienna ZRE 1. 43 / 77
Regresja w SPSS - Histogram standaryzowanych reszt 44 / 77
Regresja w SPSS - Histogram standaryzowanych reszt Widać że rozkład reszt nie pasuje do końca z rozkładem normalnyn z średnią 0. 1. Moda rozkładu (gdzie jest największa gęstość) jest raczej ujemna, a nie 0. 2. Rozkład jest prawostronnie skośny. Jest dosyć dużo obserwacji odstających gdzie cena jest dużo wyższa niż cena przewidywana. 45 / 77
Regresja w SPSS - Analiza reszt Aby wyłączyć zmienne odstające z naszej analizy, wybieramy opcję Wybierz obserwacje z menu Dane Zaznaczamy rubrykę Wybierz jeśli spełniony jest warunek. Definiujemy warunek. Tutaj standaryzowana reszta (ZRE 1 ) ma być większa od -3 a mniejsza od 3. Więc wpisujemy warunek ZRE 1 > 3 & ZRE 1 < 3. Obserwacje, które nie spełniają tego warunku, są wyłączone z analizy. 46 / 77
Regresja w SPSS - Analiza Reszt Numery obserwacji wyłączonych z analizy są przekreślone w skoroszycie. Łatwo można sprawdzić że jest 15 obserwacji odstających. Każda z tych obserwacji ma dodatnią resztę (czyli cena jest wyższa niż przewidywana przez model). 47 / 77
Regresja w SPSS - Analiza Reszt Jeżeli hipoteza o normalności reszt jest spełniona 1. Oczekujemy średnio 3 obserwacji odstających (mamy 1170 obserwacji, i średnio 1 na 400 ma być odstająca). 2. Prawdopodobieństwo że obserwacja odstająca odpowiada dodatniej standaryzowanej reszcie wynosi 0,5. 48 / 77
Regresja w SPSS - Analiza Reszt Więc mamy dużo więcej obserwacji odstających niż oczekujemy przy hipotezie o normalności reszt. W dodatku, fakt że każda obserwacja odstająca odpowiada dodatniej standaryzowanej reszcie wskazuje na to, że rozkład reszt jest skośny (czyli nie jest normalny). 49 / 77
Regresja w SPSS - Analiza Reszt Wśród tych obserwacji odstających 1. 10 znajduje się w Starym Mieście. 2. 4 na Krzykach 3. 1 w Śródmieściu 50 / 77
Regresja w SPSS - Analiza Reszt Czyli wszystkie znajdują się w atrakcyjnych dzielnicach. Mając dostęp do źródła tych danych, można sprawdzić że te mieszkania raczej są luksusowymi mieszkaniami w ładnych dzielnicach (czyli raczej nie ma błędów ani w obserwacjach cen, ani w obserwacjach metrażu). 51 / 77
Regresja w SPSS - Wyniki po Wyłączeniu Odstających Obserwacji Po wyłączeniu odstających obserwacji, otrzymujemy następujące wyniki dotyczące modelu regresji. Model - podsumowanie R 0,834 R-kwadrat skorygowane 0,695 R-kwadrat 0,695 Błąd standardowy 54771,1 52 / 77
Regresja w SPSS - Wyniki po Wyłączeniu Odstających Obserwacji Współczynniki Błąd standardowy t Stat Wartość-p Dolne 95% Górne 95% Przecięcie 74206,1 5281,52 14,050 0,000 63843,6 84568,6 Zmienna X1 4648,06 90,715 51,238 0,000 4470,07 4826,04 53 / 77
Regresja w SPSS - Wyniki po Wyłączeniu Odstających Obserwacji Widać z pierwszej tabelki że po wyłączeniu obserwacji odstających, model lepiej pasuje do danych (wyjaśnia prawie 70% wariancji ceny). Z drugiej tabelki, nasz model wyraża się wzorem Y = 74206, 1 + 4648, 06X. Przedziałem ufności dla ceny dodatkowego metra kwadratowego jest (4470,07; 4826,04) Jakościowo, model jest bardzo podobny do oryginalnego (wartości estymatorów są podobne, stała jest trochę większa a estymator ceny dodatkowego metra kwadratowego jest trochę mniejszy). 54 / 77
Regresja w SPSS - Wyniki po Wyłączeniu Odstających Obserwacji Podstawiając X = 60, możemy oszacować cenę zwykłego mieszkania o metrażu 60m 2 Ŷ = 74206, 1 + 4648, 06 60 = 353089, 70zł. Estymator ten jest trochę mniejszy niż estymator otrzymany za pomocą oryginalnego modelu (nic dziwnego, skoro teraz baza danych nie zawiera luksusowych mieszkań). 55 / 77
Przekształcenie Danych gdy Zależność nie jest Liniowa Rozważamy produkt krajowy Polski w latach 1993-2013 w USD. (zob. plik gdppolski.xls - źródło: bank światowy). Rok jest liczbą lat po 1993. W tym przypadku, jest to szereg czasowy i GDP wyraźnie zależy od czasu, więc regresja nie jest najlepszą metodą analizy, ale służy to do ilustracji. Gdy mamy szereg czasowy, najpierw rysujemy wykres. Czas jest na osi X a obserwacje zmiennej X t są na osi Y. 56 / 77
Wykres dla GDP Polski 57 / 77
Wykres dla GDP Polski Wykres sugeruje że GDP rośnie szybciej niż liniowo. Jeżeli średni procentowy wzrost GDP jest stały, wtedy GDP rośnie wykładniczo. Dużo szeregów czasowych (szczególnie ekonomicznych) cechuje się wzrostem wykładniczym 58 / 77
Modele Więc rozważamy 2 modele 1. Liniowy: X t = β 0 + β 1 t. 2. Wykładniczy: X t = α 0 e α 1t. 59 / 77
Model Liniowy - Podsumowanie Podsumowanie modelu (widać że model wyjaśnia więcej niż 97% wariancji GDP). Wielokrotność R 0,986179 R kwadrat 0,972549 Dopasowany R kwadrat 0,971105 Błąd standardowy 888,809495581 Obserwacje 21 60 / 77
Model Liniowy - Parametry Współczynniki Błąd standardowy t Stat Wartość-p Dolne 95% Górne 95% Przecięcie 5150,09 374,451 13,7537 0,0000 4366,35 5933,82 Zmienna X1 831,039 32,0305 25,9453 0,0000 763,998 898,080 61 / 77
Model Liniowy - Parametry Więc model wyraża się wzorem X t = 5150, 09 + 831, 039t. Czyli oszacujemy że GDP rośnie o $831,039 rocznie [95% przedział (763,998; 898,080)]. Skoro model wyjaśnia więcej niż 97% wariancji GDP, wygląda na to że jest to dobra podstawa do prognozowania przyszłych wartości GDP. Ale parę wyników pokazuje że nie jest to prawda. 62 / 77
Model Liniowy - Prognozowanie Stała jest estymatorem GDP w czasie 0 (czyli w roku 1993). 95% przedział ufności (4366,35; 5933,82) nie pokrywa prawdziwego GDP w roku 1993 ($6180). Podstawiając t = 21, otrzymujemy prognozę GDP w roku 2014. ˆX 21 = 5150, 09 + 21 831, 039 = 22601, 91. 63 / 77
Model Liniowy - Prognozowanie Jest to mniejsze niż prawdziwe GDP w roku 2013. Jest to mało wiarygodne, skoro GDP rosło co roku przez 20 lat. Czyli nawet gdy model wyjaśnia więcej niż 97% wariancji zmiennej zależnej, może być kiepskim narzędziem do prognozowania. 64 / 77
Model Wykładniczy Mamy model X t = α 0 e α 1t. Przy takim modelu, α 1 jest średni wzrost (jako proporcja) na jednostkę czasu (tutaj rok). Najpierw, należy wyznaczyć zmienną Z t = f (X t ) taką że Z t zależy od t (zmiennej wyjaśniającej) w sposób liniowy. Weźmiemy funkcję odwrotną do funkcji wykładniczej, czyli Z t = ln X t. W SPSS, aby obliczyć Z t, należy wybrać opcję Oblicz wartości zmiennej z menu Przekształcenia. 65 / 77
Model Wykładniczy Mamy X t = α 0 e α 1t. Z t = ln(x t )=ln(α 0 e α 1t ) =ln(α 0 ) + ln(e α 1t ) =ln(α 0 ) + α 1 t Pierwszy krok korzysta z faktu że ln(ab) = ln(a) + ln(b), drugi krok z faktu że logarytmowanie jest funkcją odwrotną do funkcji wykładniczej. 66 / 77
Model Wykładniczy Więc w Excelu lub SPSS-ie definiujemy trzecią zmienną Z t = ln(x t ), gdzie X t jest GDP w czasie t. Potem wyznaczamy równanie regresji gdzie zmienna zależna jest Z t i zmienna wyjaśniająca jest t. Ze wzoru na poprzednim slajdzie, stała w tym modelu jest ln(α 0 ) a współczynnik zmiennej Z t jest α 1. 67 / 77
Model Wykładniczy - Podsumowanie Podsumowanie modelu (widać że model wyjaśnia więcej niż 99% wariancji Z t (czyli ln(gdp) ). Wielokrotność R 0,996870 R kwadrat 0,993751 Dopasowany R kwadrat 0,993422 Błąd standardowy 0,032351 Obserwacje 21 68 / 77
Model Wykładniczy - Parametry Współczynniki Błąd standardowy t Stat Wartość-p Dolne 95% Górne 95% Przecięcie 8,79268 0,013629 645,136 0,0000 8,76416 8,82121 Zmienna X1 0,064082 0,001166 54,9663 0,0000 0,061642 0,066522 69 / 77
Model Wykładniczy - Parametry Stała 8, 79268 = ln(α 0 ). Więc α 0 = e 8,79268 = 6585, 86. Współczynnik Z t 0, 064082 = α 1. Jest to średni wzrost (jako proporcja) w okresie 1993-2013 (czyli około 6,4%). 70 / 77
Model Wykładniczy - Parametry Więc mamy model X t = α 0 e α 1t = 6585, 86e 0,064082t Podstawiając t = 21, otrzymujemy prognozę produktu krajowego w roku 2014. ˆX 21 = 6585, 86e 0,064082 21 = 25296, 02. Prognoza ta lepiej pasuje do naszych danych, choć nie jest idealna (zob. analiza reszt). 71 / 77
Model Liniowy - Analiza Reszt 72 / 77
Model Liniowy - Analiza Reszt Widać że reszty zmieniają się bardzo systematycznie. Na początku i końcu reszty są dodatnie, a w środku ujemne. Wskazuje na to że wzrost jest szybszy niż liniowy (często w tych przypadkach wzrost jest wyładniczy). 73 / 77
Model Liniowy - Analiza Reszt Zakładamy że okazuje się że na początku i końcu reszty są ujemne, a w środku dodatnie. Wskazuje na to że wzrost jest powolniejszy niż liniowy (np. logarytmatyczny). 74 / 77
Model Wykładniczy - Analiza Reszt Uwaga: Skoro GDP rośnie względem roku, rozrzuty w SPSS-ie wyglądają identycznie. Duże wartości na osi X odpowiadają dużym wartościom zmiennej wyjaśniającej. 75 / 77
Model Wykładniczy - Analiza Reszt W tym przypadku reszty się zmieniają mniej systematycznie, ale widać że sąsiednie reszty mają podobne wartości. Czyli reszty są skorelowane. Wynika to z własności takiego szeregu. Jeśli GDP jest względnie duże (małe) w jednym roku w porównaniu z prognozą, prawdopodobnie będzie względnie duże (odpowiednio, małe) w następnym. Regresja nie uwzględnia tych korelacji, ale analiza szeregów czasowych je uwzględnia. 76 / 77
Model Wykładniczy - Analiza Reszt Z ostatniego wykresu, widać że ostatnie dwie reszty są ujemne (czyli GDP jest względnie małe w porównaniu z prognozą). Czyli w 2014 oczekujemy że GDP będzie małe w porównaniu z prognozą opartą na tym modelu. Więc nasza prognoza ($25296,02) raczej przeszacowuje GDP w roku 2014. Analogicznie, prognoza oparta na model liniowy ($22 601,91) raczej niedoszacowuje GDP w roku 2014 (ostatnie reszty są dodatnie). 77 / 77