Prognozowanie i symulacje w zadaniach
|
|
- Kazimierz Kuczyński
- 7 lat temu
- Przeglądów:
Transkrypt
1 Wykłady ze statystyki i ekonometrii Janusz Górczyński Prognozowanie i symulacje w zadaniach Wyższa Szkoła Zarządzania i Marketingu Sochaczew 2009
2 Publikacja ta jest czwartą pozycją w serii wydawniczej Wykłady ze statystyki i ekonometrii. Dotychczas ukazały się dwa wydania pozycji Podstawy statystyki (wyd. I rok 1999, wyd. II poprawione i uzupełnione rok 2000) oraz Podstawy ekonometrii w 2004 roku. Uzupełnieniem tych pozycji są Wybrane wzory i tablice statystyczne wydane w roku 2000 (wyd. I), 2001 (wyd. II poprawione i uzupełnione) oraz 2006 (wyd. III poprawione i uzupełnione). Wydanie I Materiały do druku zostały w całości przygotowane przez Autora ISBN: Wydawca: Wyższa Szkoła Zarządzania i Marketingu w Sochaczewie Projekt okładki i druk cyfrowy: Poligraphica, Konstantynów Łódzki, ul. Dąbrowska 44 Arkuszy wydawniczych 10,0 Arkuszy drukarskich 10,0
3 3 Spis treści WSTĘP PROGNOZOWANIE POJĘCIA OGÓLNE METODY PROGNOSTYCZNE BŁĄD PROGNOZY REGRESJA LINIOWA ESTYMACJA MODELU BADANIE ISTOTNOŚCI DOKŁADNOŚĆ OCEN PARAMETRÓW MODELU BADANIE ZAŁOŻEŃ MODELU LINIOWEGO Założenie o zerowej wartości oczekiwanej reszt losowych Założenie o normalności składników losowych Założenie o nieskorelowaniu składników losowych PROGNOZOWANIE MODELE LINIOWE PRZYKŁADY Wydajność pracy Wydajność pracy, model potęgowy Czy trend zjawiska jest liniowy? Czy trend zjawiska jest wykładniczy? Problem estymacji funkcji logistycznej REGRESJA WIELOKROTNA ESTYMACJA PARAMETRÓW MODELU BADANIE ISTOTNOŚCI MODELU REGRESJA KROKOWA DOKŁADNOŚĆ OCEN PARAMETRÓW MODELU PROGNOZOWANIE W REGRESJI WIELOKROTNEJ REGRESJA WIELOKROTNA PRZYKŁADY Liniowa funkcja produkcji Potęgowa funkcja produkcji (Cobba-Douglasa) Zmienne dychotomiczne, szereg addytywny Zmienne dychotomiczne, szereg multiplikatywny... 87
4 Model autoregresyjny, cena mleka Modelowanie wielkości skupu mleka. Zmienne dychotomiczne i zmienne opóźnione Kolejny przykład wykorzystania zmiennych dychotomicznych i opóźnionych Modele harmonikowe, prognozowanie liczby bezrobotnych ZAWARTOŚĆ KRĄŻKA CD LITERATURA
5 5 Wstęp Przedmiot Prognozowanie i symulacje realizowany jest na wielu kierunkach studiów sprawiając studentom tych kierunków pewne problemy. Wynikają one między innymi z tego powodu, że przekazywane w ramach przedmiotu treści i oczekiwane umiejętności wymagają z jednej strony dość dużej wiedzy teoretycznej z zakresu statystyki i ekonometrii, a z drugiej strony praktycznej umiejętności wykonywania obliczeń statystycznych. Moim zamiarem jest przedstawienie tych interesujących problemów na wielu przykładach, w tym na przykładach praktycznych. Pierwsza część prezentowanego materiału zawiera teoretyczne wprowadzenie do metod regresyjnych: regresji liniowej, regresji wielokrotnej liniowej, regresji krokowej, regresji krzywoliniowej, badaniu istotności wyestymowanych modeli oraz ich wykorzystania do prognozowania. W zastosowaniach praktycznych niezbędne są jakieś narzędzia obliczeniowe, z uwagi na potencjalnych odbiorców tego skryptu będę korzystać wyłącznie z arkusza kalkulacyjnego Excel. Nic oczywiście nie stoi na przeszkodzie wykorzystywaniu do celów obliczeniowych wyspecjalizowanych pakietów statystycznych (np. Statistica, SPSS, Statgraphics), ale dostęp do nich może być trudniejszy. Dla ułatwienia obliczeń będę korzystać z trzech specjalnie przygotowanych skoroszytów: StatystykaJG.xls Liniowa.xls TestSerii.xls Wszystkie trzy skoroszyty są dostępne w zakładce Download/Prognozowanie na stronie naszej Uczelni. 1 Każdy z tych skoroszytów zawiera mniej lub bardziej zaawansowane makropolecenia VBA 2. Skoroszyt StatystykaJG.xls jest najbardziej rozbudowany, a procedury w nim zawarte pozwalają na wykonanie większości obliczeń statystycznych realizowanych w typowych programach przedmiotów statystyka, ekonometria czy prognozowanie. Procedury dostępne są poprzez menu aplikacji, a obsługa poszczególnych procedur realizowana jest poprzez formularze. Skoroszyty Liniowa.xls oraz TestSerii.xls są znacznie skromniejsze, a ich rola ograniczona jest do dwóch zagadnień: estymacji modelu liniowego oraz wykorzystaniu testu serii. Kolejna różnica związana jest ze sposobem wykonywania obliczeń, w tych dwóch skoroszytach obliczenia wykonywane są (głównie) poprzez jawne formuły zapisane w komórkach arkusza Visual Basic for Applications, język programowania pakietu Office
6 6 Na dołączonym do tej pozycji krążku CD wszystkie te trzy arkusze zostaną umieszczone, będzie tam także wersja PDF tej pracy jak i pliki arkusza z przykładowymi danymi wykorzystywanymi w przedstawionych przykładach. W pracy przyjęto następującą konwencję zapisu: Nazwy skoroszytów i arkuszy są wypisywane czcionką Courier New, Formuły Excela wypisywane są czcionką Courier New, Nazwy poleceń menu, nazwy zakładek i opisy kontrolek formularzy są wypisywane pochyloną czcionką Times New Roman.
7 7 1. Prognozowanie pojęcia ogólne Prognozowanie (lub inaczej predykcja) jest opartym na naukowych podstawach przewidywaniem kształtowania się zjawisk i procesów w przyszłości. Przedmiotem prognozowania jest przebieg zjawisk i procesów przyrodniczych, społecznych, demograficznych, gospodarczych, technicznych itp. Jeżeli prognozowanie dotyczy procesów i zjawisk zachodzących w gospodarce, to mówimy wtedy o prognozowaniu gospodarczym. Z terminem prognozowanie związany jest termin prognozy ( predykcji ). Prognozowanie jest procesem wnioskowania o przewidywanym kształtowaniu się zjawiska czy procesu w przyszłości, a prognoza (predykcja) jest konkretnym wynikiem procesu prognozowania. Prognozowanie gospodarcze (ale nie tylko) jest utrudnione przez specyficzne warunki, w jakich zachodzą procesy gospodarcze, w tym ich uzależnienie od wielu różnorodnych czynników. Czynniki te, z uwagi na sposób oddziaływania obiektu prognozy, można podzielić na: czynniki egzogeniczne (zewnętrzne), czyli takie, na które obiekt prognozy nie ma wpływu, a które powinny być uwzględnione w prognozowaniu z uwagi na ich ograniczający lub stymulujący wpływ na przebieg danego zjawiska (np. kurs walutowy na kształtowanie się obrotów danej firmy, przebieg warunków pogodowych na plonowanie danej rośliny itd.); czynniki endogeniczne (wewnętrzne), czyli takie, na które obiekt prognozy ma wpływ (np. wydajność pracy, wielkość stosowanego nawożenia itd.) Metody prognostyczne W każdym procesie prognozowania można wyróżnić następujące etapy: Zdefiniowanie problemu prognostycznego, Zebranie danych statystycznych i ich wstępna analiza, Wybór metody prognozowania, Zbudowanie prognozy i ocena jej trafności. Istotnym elementem procesu prognozowania jest wybór odpowiedniej metody prognozowania, która determinuje sposób zbudowania prognoz. W zastosowaniach praktycznych najczęściej stosuje się metodę predykcji nieobciążonej, która sprowadza się do wyznaczenia prognozy na poziomie wartości oczekiwanej zmiennej prognozowanej w danym punkcie.
8 8 Prognozowanie metodą predykcji nieobciążonej jest uzasadnione szczególnie wtedy, gdy można oczekiwać, że w punkcie prognozy powtórzą się te warunki, które obserwowano dla danych statystycznych wykorzystanych do zbudowania modelu prognostycznego. Jeżeli oczekiwanie takie nie jest uprawnione, to w miejsce predykcji nieobciążonej można wybrać takie metody prognozowania jak największego prawdopodobieństwa czy też metoda minimalizacji oczekiwanej straty. W pracy tej ograniczono się do wykorzystania metody predykcji nieobciążonej, jako najczęściej stosowanej w praktycznych rozwiązaniach Błąd prognozy Z uwagi na fakt, że zmienna objaśniana jest losowa naturalne jest występowanie różnic między rzeczywistą wartością zmiennej objaśnianej a jej prognozą wyznaczoną dla zadanej wartości zmiennej objaśniającej (lub zadanych wartości zmiennych objaśnianych) 3. Realne jest więc wystąpienie błędu prognozy, częściej będziemy używać pojęcia błąd predykcji. Dwoma podstawowymi rodzajami mierników dokładności i trafności zbudowanych prognoz są: mierniki dokładności ex ante, mierniki dokładności ex post. Mierniki dokładności ex ante służą do oceny oczekiwanych wielkości odchyleń rzeczywistych wartości zmiennej objaśnianej od ustalonej prognozy. Wartości tych mierników podawane są w momencie ustalenia prognozy, a wiec wtedy, gdy nie są jeszcze znane rzeczywiste wartości zmiennej objaśnianej. W przykładach praktycznych będziemy wykorzystywać arkusze kalkulacyjne StatystykaJG.xls oraz Liniowa.xls, w obu arkuszach wyznaczane są średnie błędy predykcji punktowej ex ante, można je symbolicznie oznaczyć jako oznacza, że przy prognozowaniu wartości S P y ˆ S y ˆ. Błąd ten p ŷ popełniamy średnio błąd ± P. Średni błąd predykcji jest liczbą mianowaną, po jego podzieleniu przez prognozę punktową otrzymamy względny średni błąd predykcji ex ante: p ŷ 3 Prognozę tę nazywamy prognozą punktową, symbolicznie oznaczaną jako p ŷ.
9 9 S V = yˆ p yˆ p 100%. Względny błąd prognozy ex ante informuje nas o tym, jaki duży (procentowo) błąd popełniamy przyjmując, że nieznana, prognozowana wartość będzie równa wyznaczonej p prognozie punktowej ŷ. Średni błąd predykcji przedziałowej wg wzoru: S P y ˆ wykorzystujemy także do zbudowania prognozy * p y < yˆ t S ; yˆ + t S > z P = 1 α. α; v P yˆ p α; v P yˆ Wyznaczony przedział liczbowy pokrywa, z prawdopodobieństwem 1 α, nieznaną * wartość zmiennej zależnej y w ustalonym punkcie prognozy. Ocena prawdziwości mierników ex ante może być zweryfikowana dopiero po rzeczywistym zrealizowaniu się zmiennej objaśnianej w punkcie, dla którego była postawiona prognoza. Jeżeli znamy rzeczywistą wartość zmiennej prognozowanej Y w wybranym punkcie, p to błąd predykcji ex post jest równy D = Y yˆ. Wielkość błędu absolutnego prognozy ex post informuje nas o różnicy między rzeczywistą wartością zmiennej prognozowanej w danym punkcie a postawioną prognozą. Podobnie jak w przypadku błędu ex ante możemy wyznaczyć względny błąd prognozy ex post z wzoru: D Y yˆ V = 100% = 100%. Y Y p Jeżeli prognoza była budowana nie dla pojedynczego punktu, lecz dla ich ciągu, to można wyznaczyć średni błąd prognozy ex post (absolutny i względny) z wzorów: 1 D = k k i = 1 p ( Y i yˆ i ) 1 k Yi yˆ i V = k i = 1 Y i p 100% Statystyczną oceną błędu prognozy ex post w takiej sytuacji jest średni kwadratowy błąd prognozy wyznaczony z wzoru:
10 10 S = 1 k p Y k i = i yˆ 1 i ) 2 (. Arkusze kalkulacyjne, które będziemy wykorzystywać w prezentowanych dalej przykładach część z tych mierników dokładności prognoz wyznaczają, ale nie wszystkie. W miarę potrzeby można je samodzielnie doliczyć pisząc stosunkowo prostą formułę Excela.
11 11 2. Regresja liniowa 2.1. Estymacja modelu Rozważmy populację generalną π, w której obserwujemy dwie zmienne: zmienną losową Y i zmienną ustaloną 4 lub losową X. O zmiennej losowej Y zakładamy, że ma rozkład normalny z wartością średnią m będącą funkcją liniową zmiennej X oraz stałym (niezależnym od zmiennej X) odchyleniem standardowym. Założenie to można zapisać następująco: Y N( m( x) = b + b x; σ ). (2.1) ~ 0 1 y x Parametry funkcji liniowej m( x) = b0 + b1 x nie są znane i muszą być oszacowane na podstawie odpowiedniej próby losowej. Oznaczmy element n-elementowej próby losowej jako parę liczb ( y i, xi ). Zgodnie z modelem funkcji liniowej między y i a x i zachodzi związek: y m( x ) = b + b x + e (2.2) i = i 0 1 i i gdzie e i jest niedopasowaniem (różnicą, odchyleniem, resztą) między wartością obserwowaną w próbie y i a wartością teoretyczną b0 + b1 xi. Parametry funkcji liniowej (parametry modelu) ( x) = b + b x musimy tak dobrać, aby dopasowanie funkcji regresji było jak m 0 1 najlepsze. Kryterium to będzie spełnione wtedy, gdy suma kwadratów reszt e i będzie minimalna (suma kwadratów, ponieważ reszty są zarówno dodatnie jak i ujemne). Wychodząc z wzoru (2.2) mamy: n 2 n 2 s = ei = [ yi ( b0 + b1 xi )] = minimum (2.3) i= 1 i= 1 Tak sformułowane kryterium estymacji nieznanych parametrów modelu znane jest w teorii statystyki jako metoda najmniejszych kwadratów MNK. Suma kwadratów odchyleń s zdefiniowana wzorem 2.3 jest funkcją dwóch niewiadomych (zmiennych) - b 0 i b 1, a problem znalezienia jej minimum rozwiążemy poprzez wyznaczenie i przyrównanie do zera pochodnych funkcji s względem b 0 i b 1 : s = 2 b0 s = 2 b1 n i= 1 n i= 1 [ y ( b + b x ] 0 [ y ( b + b x ] i i i i = 0 x i = 0 (2.4) 4 Zmienna ustalona, inaczej nielosowa; taka, która w kolejnych próbach przyjmuje te same wartości.
12 12 Przyrównanie obu pochodnych cząstkowych do zera tworzy tzw. układ równań normalnych, a jego rozwiązanie daje oceny (oszacowania) nieznanych parametrów modelu. Oszacowania te tradycyjnie będziemy oznaczać symbolem daszka umieszczonym nad szacowanym parametrem. Przykładowo, b 0 jest nieznanym parametrem, a ˆb 0 jego estymatorem (oszacowaniem, oceną). Uwaga to wynika z tego, że w dalszych przekształceniach układu równań normalnych używać już będziemy symboli ocen parametrów modelu w miejsce samych parametrów. Przekształcając 2.4 otrzymujemy następujące wzory na oceny parametrów modelu: n n n ( y y x x y x y x i i )( i ) i i i = 1 = 1 i= 1 i 1 = = = n 2 n 2 n ( x x x x x i i ) 1 i 1 i = = i= 1 i bˆ ˆ = y bˆ x b0 1 cov xy var x (2.5) 2.2. Badanie istotności Korzystając z wzoru 2.5 mamy oceny parametrów modelu liniowego, tym samym mamy także ocenę funkcji regresji z próby: ˆ ( x) = bˆ + bˆ x. (2.6) m 0 1 Otwartym pozostaje pytanie, czy prawdziwe jest nasze założenie o tym, że między wartością oczekiwaną zmiennej losowej Y a wartościami zmiennej X istnieje związek linowy postaci: m 0 1 ( x) = b + b x. Związku takiego nie będzie wtedy, gdy parametr b 1 będzie równy zero, tym samym powinniśmy przeprowadzić weryfikację hipotezy zerowej H b 0 wobec 0 : 1 = alternatywy H 1 : b1 0. Tak sformułowaną hipotezę nazywać będziemy hipotezą o nieistotności regresji. Jej odrzucenie oznaczać będzie, że istnieje istotny liniowy związek między zmienną Y a zmienną X oszacowany równaniem 2.6. Z kolei brak podstaw do odrzucenia hipotezy zerowej oznaczać będzie, że takiego związku nie ma (wartość oczekiwana zmiennej losowej Y będzie stała, czyli jej ocena będzie równa średniej tej zmiennej). Hipotezę H 0 : b1 = 0 wobec alternatywy H 1 : b1 0 zweryfikować możemy metodą analizy wariancji lub testem t-studenta. Przed wprowadzeniem analizy wariancji rozważmy dowolną obserwację ( y i, xi ) oraz odpowiadającą im teoretyczną wartość zmiennej losowej Y wyznaczoną dla argumentu
13 13 x i z wyestymowanej funkcji regresji yˆ i = mˆ ( xi ) = b ˆ o + b ˆ 1xi. Różnicę (odchylenie) wartości obserwowanej y i od średniej y można przedstawić jako sumę dwóch różnic: i ( yˆ y) + ( y yˆ ) y y = (2.7) i i i Podnosząc obustronnie równość 2.7 do kwadratu i sumując po wskaźniku i otrzymamy, po odpowiednich przekształceniach, analogiczną równość sum kwadratów odchyleń: n i= 1 i i= 1 i i= 2 n 2 n ( y y) = ( y y) + ( y yˆ ) 1 i i 2 ˆ (2.8) Po lewej stronie równości 2.8 mamy całkowitą sumę kwadratów odchyleń dla zmiennej y, a po prawej stronie sumę kwadratów odchyleń teoretycznych wartości ŷ od wartości średniej y oraz sumę kwadratów odchyleń dla reszt losowych. i = 1 n Składnik ( yˆ i y) 2 reprezentujący sumę kwadratów odchyleń wyjaśnioną modelem funkcji regresji można przedstawić w znacznie wygodniejszej postaci uwzględniając wyestymowane równanie regresji oraz wzór na ocenę parametru ˆb 1 : n ( y y) bˆ ˆi 2 = 1 cov xy (2.9) = i 1 Równość 2.8, przedstawiająca podział całkowitej zmienności zmiennej losowej Y na dwa niezależne składniki: zmienność wyjaśnioną modelem oraz zmienność resztową, jest podstawą wykonania analizy wariancji. Tabela analizy wariancji dla weryfikacji H 0 : b 1 = 0 wobec H 1 : b 1 0 Zmienność Stopnie swobody Suma kwadratów odchyleń Średni kwadrat odchyleń F empiryczne Modelu v R = 1 var R = bˆ 1 cov xy R s var 2 R = sr v R F R = 2 Resztowa v E = n 2 var E = vart var R Całkowita v T = n 1 var y = ( y = i y) n i 1 2 s 2 var E E = v e se Hipotezę H 0 : b 1 = 0 będziemy odrzucać na korzyść H 1 : b 1 0 wtedy, gdy wartość empiryczna statystyki F Fishera-Snedecora będzie większa od wartości krytycznej odczytanej dla ustalonego poziomu istotności α, lub gdy wyliczony krytyczny poziom istotności (tzw. p-value) będzie mniejszy od przyjętego poziomu istotności (najczęściej α = 0,05 lub α = 0,01). W takiej sytuacji będziemy wnioskować, że istnieje istotny,
14 14 liniowy związek między zmienną losową Y a zmienną X opisany wyestymowanym z próby równaniem regresji postaci ˆ ( x) = bˆ + bˆ x. m 0 1 W sytuacji, gdy F empiryczne będzie nie większe od odpowiedniej wartości krytycznej lub p-value większe od przyjętego poziomu istotności α, to nie mamy podstaw do odrzucenia hipotezy H 0 : b 1 = 0. Tym samym nie istnieje liniowa zależność funkcyjna między zmiennymi Y i X, a wyestymowane z próby równanie regresji ma postać m ˆ ( x) = y. Parametry b 0 i b 1 nazywamy odpowiednio stałą regresji i współczynnikiem regresji. Pierwszy z nich nie ma praktycznie żadnej interpretacji merytorycznej, z kolei współczynnik regresji b 1 ma bardzo ładną i przydatną interpretację: mówi nam o tym, o ile średnio zmieni się zmienna y przy wzroście zmiennej x o jednostkę. Średni kwadrat odchyleń dla zmienności resztowej 2 y / x od regresji σ określonej w założeniu 2.1: 2 s E jest oceną wariancji odchyleń ˆ var y b cov ˆ 1 xy σ y / x = S y / x = se =. (2.10) n 2 Hipoteza H 0 : b 1 = 0 przy alternatywie H 1 : b 1 0 może być także weryfikowana przy pomocy statystyki t-studenta. Przy prawdziwości H b 0 statystyka: t emp. 0 : 1 = bˆ bˆ 1 1 = = (2.11) S ˆ S b1 2 y / x var x ma rozkład t-studenta z liczbą stopni swobody v = n 2. Jeżeli temp. > t α, n 2, to H 0 : b 1 = 0 odrzucamy na korzyść hipotezy alternatywnej. Podobnie jak w przypadku analizy wariancji decyzję weryfikacyjną można oprzeć o wyznaczony, dla danego t emp., krytyczny poziom istotności p-value. 0 : 1 = W przypadku odrzucenia hipotezy H b 0 możemy być zainteresowani weryfikacją hipotezy zerowej zakładającej określoną (oznaczaną symbolicznie przez b 10 ), niezerową wartość współczynnika regresji, czyli H 0 : b 1 = b 10. Hipotezę tę, przy dowolnej alternatywie, możemy zweryfikować testem t-studenta, gdzie wartość empiryczna tej statystyki dana jest wzorem:
15 15 t emp. bˆ b bˆ b10 = = (2.12) S ˆ 2 S / b1 y x var x 2.3. Dokładność ocen parametrów modelu Parametry modelu szacujemy na podstawie próby losowej, tym samym mają one charakter losowy, są zmiennymi losowymi. Tym samym ich konkretna wartość wyznaczona z n-elementowej próby obarczona jest pewnym błędem. Znajdując oceny tych błędów i korzystając z rozkładu t-studenta możemy zbudować 1-α procentowe przedziały ufności dla wartości tych parametrów w populacji generalnej. Ocenę błędu współczynnika regresji b 1 możemy znaleźć ze znanego już wzoru: 2 / S y x S = (2.13) bˆ1 var x b1 1 a następnie korzystając z faktu, że zmienna ˆ b t = ma rozkład t-studenta budujemy S przedział ufności dla współczynnika regresji w populacji: b1 < bˆ 1 t ˆ, n 2S ˆ ; b1 + tα, n 2S b1 bˆ 1 > b ˆ 1 α z prawdopodobieństwem P = 1 α.(2.14) Ocenę błędu stałej regresji b0 możemy wyznaczyć z wzoru: 2 / n 2 S y x x i 1 i S = = (2.15) bˆ0 n var x b0 0 a następnie korzystając z faktu, że zmienna ˆ b t = ma rozkład t-studenta budujemy S przedział ufności dla stałej regresji w populacji: b < bˆ t ˆ α S ˆ ; b + tα S ˆ > z prawdopodobieństwem P = 1 α. (2.16) 0 0, n 2 b0 0, n 2 b0 Interpretacja obu przedziałów ufności jest standardowa, w przypadku przedziału ufności dla współczynnika regresji może mieć postać: z prawdopodobieństwem 1 α mamy prawo oczekiwać, że współczynnik regresji w populacji będzie nie mniejszy niż b ˆ t, ale nie większy niż b ˆ + t α. 1 α, n 2S b ˆ 1 1, n 2S b ˆ 1 b ˆ 0
16 Badanie założeń modelu liniowego Model regresji liniowej określony wzorem 2.2 wymaga spełnienia trzech ważnych założeń dotyczących rozkładu reszt losowych. Ee = 0 (2.17) D i 2 e i Ce e i 2 y / x = σ (2.18) j = 0 dla i j (2.19) Założenia te mogą być jeszcze uzupełnione założeniem o normalności reszt losowych, czyli: e N(0; σ ) (2.20) i ~ y / x Założenie o zerowej wartości oczekiwanej reszt losowych. Sprawdzenie założenia o losowości reszt jest równoważne zweryfikowaniu hipotezy o poprawności doboru modelu funkcji regresji. Warunek Ee i = 0 (dla i = 1, 2,..., n) jest spełniony wtedy, gdy wartość oczekiwana zmiennej losowej Y jest opisana zależnością: ( Y ) = mˆ ( x) = bˆ + bˆ x E 0 1 Niespełnienie warunku Ee i = 0 jest sygnałem, że model m ˆ ( x) jest źle określony i musi być zmieniony w zakresie postaci modelu czy doboru zmiennych niezależnych. Badanie losowości reszt jest wykonywane zawsze a posteriori, czyli po wyestymowaniu modelu funkcji regresji. Dla każdej obserwacji empirycznej y i wyznaczamy wartość teoretyczną ŷ i wynikającą z wyestymowanego modelu funkcji regresji. W kolejnym kroku wyznaczamy reszty jako różnice między oryginalną wartością zmiennej losowej Y a wartością teoretyczną tej zmiennej: e = y yˆ (2.21) i i i W uporządkowanym rosnąco według wartości zmiennej niezależnej X ciągu reszt określamy liczbę serii S reszt tych samych znaków. W poprawnie dobranym modelu liczba tych serii powinna należeć do pewnego przedziału liczbowego. Krańce tego przedziału możemy odczytać z tablic rozkładu serii dla ustalonego poziomu istotności α. Rozkład serii nie jest symetryczny, stąd z tablic tego rozkładu będziemy odczytywać dwie wartości
17 17 krytyczne * S 1 i * S 2 uzależnione od poziomu istotności α oraz liczby reszt jednoimiennych n : (dodatnich i ujemnych) n 1 i 2 * S 1 dla 1 2 α oraz * 1 S 2 dla 1 2 α. * * Przedział liczbowy < S 1 ; S2 > wyznacza obszar dopuszczalny dla hipotezy zerowej zakładającej losowość reszt. Tym samym w sytuacji, gdy wyznaczona liczba serii S należy * * do przedziału < S 1 ; S2 >, to możemy uważać, że model funkcji regresji został poprawnie dobrany. * * Jeżeli wyznaczona liczba serii S < S 1 lub S > S 1, to reszty nie są losowe, a to pociąga konieczność zmiany modelu funkcji regresji. Tablice liczby serii są opracowane jedynie dla liczby reszt dodatnich (ujemnych) nie przekraczających 20, co może być problemem przy większych próbach losowych. W takich sytuacjach można przybliżyć rozkład liczby serii S rozkładem normalnym przyjmując, że: 2 n 2 (2 ) ˆ 1 n2 n 1 ˆ 1 n2 n1 n2 n1 n2 ms = + σ S = (2.22) 2 n + n ( n + n ) ( n + n 1) 1 2 Pozwala to na standaryzację rozkładu liczby serii S: z S S 1 2 S mˆ S = (2.23) σˆ i weryfikację równoważnej do H 0 : Ee i = 0 hipotezy zerowej H 0 : z = 0 poprzez sprawdzenie, czy statystyka 2.23 trafia do obszaru krytycznego dla H 0 czy też nie. Oczywiście do weryfikacji H 0 można także wykorzystać krytyczny poziom istotności p-value Założenie o normalności składników losowych Założenie o wariancji reszt losowych w praktyce nie jest sprawdzane z tej przyczyny, że z reguły nie dysponujemy wystarczającą liczbą danych empirycznych. Formalnie dla każdej wartości zmiennej niezależnej X powinniśmy dysponować taką liczbą pomiarów zmiennej zależnej Y, aby można było oszacować wariancję reszt e i (wyznaczanych przy tych samych wartościach zmiennej x). Pewnym rozwiązaniem jest sprawdzenie założenia 2.20 o normalności rozkładu reszt losowych. Jego nieodrzucenie oznacza, że zmienna losowa Y ma, dla każdej wartości zmiennej X, rozkład normalny o tej samej wariancji, co wyczerpuje założenie 2.1.
18 Założenie o nieskorelowaniu składników losowych Kolejnym założeniem klasycznej regresji liniowej, które możemy sprawdzić analizując reszty, jest założenie o nieskorelowaniu kolejnych składników losowych (tzw. brak autokorelacji): Ce e cov( e ; e ) = 0 dla i j (2.24) i j = i j Założenie to jest sprawdzane poprzez weryfikację hipotezy zerowej o tym, że współczynnik autokorelacji rzędu τ (najczęściej pierwszego) jest równy zero. Oceną współczynnika autokorelacji w próbie jest współczynnik korelacji liniowej wyznaczony wg wzoru: n n e je j τ j = τ + 1 ˆ ρ τ = rτ =. (2.25) 2 n 2 e e j j = 1 j j= τ + 1 Hipotezę o braku autokorelacji rzędu τ : H : 0 (2.26) 0 ρ τ = możemy zweryfikować testem d Durbina-Watsona: d = n ( e j = τ + 1 j n 2 e j = 1 j e 2 j τ ) lub klasycznym testem t-studenta wyznaczając wartość empiryczną statystyki z wzoru: t emp. 2 rτ (2.27) rτ = n τ 2. (2.28) 1 Między statystyką d Durbina-Watsona a statystyką t-studenta zachodzi w przybliżeniu związek: d (1 r ) (2.29) 2 τ z którego wynika, że statystyka d przyjmuje swoje wartości z przedziału domkniętego <0; 4>. W przypadku braku autokorelacji rzędu τ ( r τ = 0 ) wartość statystyki d jest równa zero. Rozkład statystyki d przy założeniu, że H 0 : ρ τ = 0 jest prawdziwa, zależy od liczby obserwacji n, liczby zmiennych niezależnych k w modelu funkcji regresji oraz przyjętego poziomu istotności α.
19 19 Rozkład statystyki d Durbina-Watsona został stablicowany przy jednostronnej hipotezie alternatywnej H : 0. W tablicach rozkładu statystyki d, dla ustalonych 1 ρ τ > parametrów n i k oraz przyjętego poziomu istotności α, podane są dwie wartości d 1 i d 2 wyznaczające obszar krytyczny dla hipotezy H : 0. 0 ρ τ = Przy weryfikowaniu H 0 : ρ τ = 0 wobec H 1 : ρ τ > 0 stosujemy następujące kryteria weryfikacji hipotezy zerowej: d d H : 0 odrzucamy na korzyść H : 0, 1 0 ρ τ = 1 ρ τ > d1 < d < d2 nie podejmujemy żadnej decyzji, d d nie mamy podstaw do odrzucenia H : ρ τ = Hipotezę H 0 : ρ τ = 0 możemy także zweryfikować wobec H 1 : ρ τ < 0, ale przy podejmowaniu decyzji stosujemy inne kryteria: d 4 d H : 0 odrzucamy na korzyść H : 0, 1 0 ρ τ = 1 ρ τ < 4 d2 < d < 4 d1 nie podejmujemy żadnej decyzji, d 4 d nie mamy podstaw do odrzucenia H : ρ τ = Procedura wykorzystywana w skoroszycie StatystykaJG.xls do estymacji regresji liniowej dwóch zmiennych weryfikuje hipotezę o nieskorelowaniu składników losowych za pomocą klasycznej statystyki t-studenta wyznaczonej zgodnie z wzorem Problem występowania autokorelacji składników losowych w szczególności dotyczy takich sytuacji, w których wartości zmiennej losowej Y są powtarzane na tych samych jednostkach eksperymentalnych (np. szeregi czasowe). W przypadku stwierdzenia autokorelacji oznacza to, że klasyczna metoda najmniejszych kwadratów nie może być stosowana do estymacji parametrów modelu, daje bowiem obciążone oceny tych parametrów, a nie nieobciążone. Rozwiązaniem jest zastosowanie innej metody estymacji parametrów modelu, np. uogólnionej metody najmniejszych kwadratów. W dalszej części tej pracy zostanie przedstawiona jedna z wersji UMNK polegającej na transformacji danych wyjściowych Prognozowanie Wyestymowany, istotny model funkcji regresji można wykorzystać do wyznaczenia średniej wartości zmiennej losowej y w interesującym nas punkcie x 0 : m ˆ ( x ) = bˆ + bˆ x (2.30) Wyznaczona zgodnie z powyższym wzorem średnia wartość zmiennej y (tzw. wartość regresyjna, także prognoza punktowa) jest oczywiście losowa (ponieważ losowe są parametry modelu). Ocena wariancji wartości regresyjnej jest określona wzorem:
20 20 ( x x) Sm ˆ ( x ) = S / +. 0 y x (2.31) n var x Warto zauważyć, że ocena wariancji wartości regresyjnej jest najmniejsza wtedy, gdy x 0 = x, inaczej mówiąc wtedy, gdy wyznaczamy oczekiwaną wartość zmiennej y w punkcie średnim dla zmiennej niezależnej. Ocena wariancji wartości regresyjnej stosunkowo szybko rośnie w miarę tego, jak punkt x 0 odsuwa się dalej (w obu kierunkach) od wartości średniej zmiennej X. W klasycznym modelu normalnej regresji liniowej estymator m ( x ) określony wzorem 2.30 ma rozkład normalny z wartością średnią m ( x 0 ) i odchyleniem standardowym równym pierwiastkowi kwadratowemu z wyrażenia Korzystając dalej z tego, że statystyka: mˆ ( x ) m( x0 ) t = (2.32) 0 S m ˆ ( x0) ma rozkład t-studenta z liczbą stopni swobody v = n 2 budujemy przedział ufności dla m ( x 0 ) : m x ) < mˆ ( x0) tα, n 2S ˆ ; mˆ ( x0) + tα, n 2S ˆ > z P = 1 α. (2.33) ( 0 m( x0 ) m( x0 ) W klasycznym ujęciu problemu predykcji (prognozowania) chodzi o estymację pojedynczej realizacji zmiennej y przy ustalonej wartości zmiennej X = x0. Zgodnie z modelem liniowym wartość tę wyznaczymy jako: y x b + b x + e = ˆ 0 (2.34) a jej najlepszym estymatorem nieobciążonym jest wartość regresyjna m ˆ ( x ˆ ˆ 0) = b0 + b1 x0. Błąd prognozy pojedynczej realizacji zmiennej y (błąd predykcji) jest sumą nieskorelowanych błędów odchyleń pojedynczych realizacji i błędu wartości regresyjnej: P 1 ( x0 x) S( yx ) = S / S ˆ ( ) S / 1. 0 y x + m x = 0 y x + + (2.35) n var x Podobnie jak w przypadku wartości regresyjnej możemy zbudować przedział ufności dla prawdziwej wartości zmiennej losowej y przy ustalonej wartości zmiennej X = x 0 : y x0 P < m ˆ ( x0 ) tα, n 2S( yx ); mˆ ( x0 ) tα, n 2 S( yx ) > z P = 1 α. (2.36) o 2 P o
21 Modele liniowe przykłady Wydajność pracy Powiedzmy, że interesuje nas problem określenia, czy między wydajnością pracy pracowników a stażem pracy istnieje związek funkcyjny. Dla rozwiązania tego problemu w pewnej firmie pobrano próbę losową pracowników produkcyjnych ustalając dla każdego z nich dwie cechy: wydajność pracy (zmienna objaśniana, zmienna Y) oraz staż pracy (zmienna objaśniająca, zmienna X). Poniżej widok arkusza kalkulacyjnego Excel z wynikami naszej próby. Zakładamy, że modelem dla zmiennej objaśnianej Y może być zmienna losowa normalna o wartości oczekiwanej będącej funkcją zmiennej objaśniającej X i stałej wariancji. Istotnym problemem do rozwiązania jest ustalenie, czy m ( x) = a + bx, czy też musimy wyjść poza klasyczny model liniowy. Ponieważ dane empiryczne zapisane są w Excelu, to w łatwy sposób można przygotować wykres rozrzutu punktów empirycznych w układzie OXY. Dane empiryczne są tak ustawione, że pierwszy wiersz opisuje oś x-ów, dzięki temu kreator wykresów pozwala na przygotowanie wykresu bez specjalnych działań z naszej strony. Wystarczy wybór typu i dalej klik przycisku Zakończ.
22 22 Utworzony wykres wymaga elementarnego formatowania obejmującego usunięcie legendy (nic nowego nie wnosi) oraz zmiana skali opisu osi y-ek. Element wykresu formatujemy po jego wcześniejszym zaznaczeniu, z reguły z pomocniczego menu uruchamianego prawym przyciskiem myszy. Poniżej widok wykresu po formatowaniu, dzięki wprowadzonym zmianom charakter związku między badanymi cechami jest bardziej wyraźny. Wydajnosc ,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 Analiza rozkładu punktów empirycznych sugeruje, że jednym z rozpatrywanych modeli może być klasyczny model liniowy y = a + bx, z kolei biorąc pod uwagę charakter zjawiska dość trudno jest przyjąć założenie, że wydajność pracy będzie rosła w tym samym tempie w całym zakresie możliwych wartości stażu pracy. Być może lepszym modelem do opisu badanej zależności będzie model pierwiastkowy y = a + b x lub logarytmiczny y = a + b ln(x). Cechą charakterystyczną obu modeli jest wykres wypukły, a więc taki, który charakteryzuje funkcję rosnącą coraz wolniej. Reasumując powinniśmy sprawdzić, który z trzech poniższych modeli najlepiej opisuje zależność wydajności pracy od staży pracy pracownika:
23 23 1. y = a + bx 2. y = a + b x 3. y = a + b ln(x) Do estymacji tych modeli jak i weryfikacji założeń metody najmniejszych kwadratów można wykorzystać dowolne narzędzie, między innymi można wykorzystać procedury statystyczne dostarczane przez skoroszyt StatystykaJG.xls. Przy otwieraniu tego skoroszytu obowiązkowo musimy wybrać opcję Włącz makra, jest to niezbędne, jeżeli chcemy korzystać z procedur statystycznych tego skoroszytu. Procedury tego skoroszytu wymagają, aby dane do obliczeń były ustawione pionowo, stąd przed wywołaniem procedury Liniowa z menu Regresja dane zostały tak ustawione zaczynając od komórki A1. W pokazanej sytuacji w obszarze A1:B21 mamy dane empiryczne pozwalające na estymację modelu liniowego y = a + bx.
24 24 Po wywołaniu polecenia Liniowa z menu Regresja wprowadzamy informacje o położeniu danych wyjściowych oraz miejscu zwrócenia wyników (zakładka Dane wejściowe). Po przejściu do zakładki Grafika i badanie założeń uaktywniamy te pola wyboru, które odpowiadają oczekiwanym przez nas wykresom oraz badaniom założeń. W poniższej sytuacji wybrane zostały wszystkie oferowane wykresy oraz zlecenie przeprowadzenia trzech testów dotyczących poprawności modelu, braku autokorelacji oraz normalności reszt losowych.
25 25 Po kliku przycisku OK procedura zwraca wyniki estymacji modelu oraz wykresy i wyniki weryfikacji założeń, jeżeli takie były zadysponowane. Poniżej pokazany fragment arkusza z wynikami estymacji obejmujący weryfikację trzech założeń. W obszarze J1:M6 mamy wyniki weryfikacji hipotezy zerowej zakładającej, że zależność między wydajnością pracy a stażem pracy pracowników może być opisana modelem liniowym. Do weryfikacji wykorzystano test serii, wniosek końcowy jest taki, że nie mamy podstaw do odrzucenia hipotezy zerowej. Oznacza to, że badana zależność może być opisana modelem liniowym. W obszarze J10:M14 mamy wyniki weryfikacji hipotezy zerowej zakładającej, że reszty losowe są normalne ze średnią 0 i odchyleniem 5,17 wobec alternatywy, że to nie jest taki rozkład. Wyniki weryfikacji testem W Shapiro-Wilka są takie, że hipotezę zerową musimy odrzucić, tym samym nie jest spełnione jedno z ważnych założeń metody najmniejszych kwadratów. Odrzucenie tej hipotezy (o normalności reszt losowych) może wynikać z wielu przyczyn, jedną z nich może być problem doboru modelu. Wprawdzie testem serii potwierdziliśmy, że model liniowy jest poprawny, ale to nie oznacza, że nie istnieje lepszy model, zwłaszcza wtedy, gdy nie jest spełnione założenie o normalności reszt. Proszę zwrócić uwagę, że weryfikowana była hipoteza zerowa o tym, że reszty są losowe ze średnią 0 i odchyleniem standardowym 5,17, być może one są losowe, ale z innym odchyleniem? Jeżeli istnieje lepszy model (niż liniowy), dokładniej opisujący badaną
26 26 zależność, to będziemy uzyskiwać mniejszą ocenę odchylenia standardowego od modelu, tym samym zmieni się postać hipotezy zerowej zakładającej normalność reszt. Za taką sugestią przemawia wykres rozkładu reszt pokazany poniżej. Dość wyraźnie widać, że w modelu pominięto jakiś składnik krzywoliniowy. Reszty nie są rozłożone losowo wokół prostej y = 0, lecz są funkcją (wypukłą) stażu pracy. Wykres reszt w funkcji x-a Reasumując, model liniowy nie może być wykorzystany do poprawnego opisu badanej przez nas zależności, pozostaje nam sprawdzenie poprawności dwóch kolejnych modeli. Czy może to być model y = a + b x? Przed estymacją tego modelu musimy zauważyć, że nie jest to model liniowy, stąd przed estymacją musimy dokonać jego linearyzacji 5. Wprowadzając nową zmienną (formalnie) modelu liniowego postaci z = x sprowadzamy model y = a + b x do y = a + bz. Przed wywołaniem procedury Liniowa musimy przygotować dane empiryczne pozwalające na estymację modelu y = a + bz, w naszym przypadku będziemy musieli dodać nową kolumnę danych odpowiadającą podstawieniu z = x. Do arkusza DanePierwiastkowe zostały przekopiowane dane wyjściowe, a następnie w C1 wpisana etykieta SQR(x), a w C2 formuła =PIERWIASTEK(A2). Formuła z C2 została następnie skopiowana na obszar C3:C21. Kolejny zrzut ekranowy pokazuje arkusz DanePierwiastkowe z tak przygotowanymi danymi, tym razem po wywołaniu procedury Liniowa jako obszar danych dla zmiennej X wskażemy C1:C21, a jako obszar danych dla zmiennej Y-ek zakres komórek B1:B21. 5 Sprowadzenie modelu krzywoliniowego do modelu liniowego
27 27 z = x. Wskazanie obszarów danych wyjściowych dla estymacji modelu y = a + bz, gdzie Podobnie jak w przypadku estymacji modelu liniowego w zakładce Grafika i badanie założeń zaznaczamy oba wykresy i weryfikację trzech założeń. Klik przycisku OK uruchamia działanie procedury, a wyniki estymacji zostają zwrócone do nowego arkusza (później nazwanego WynikiPierwiastkowy). Poniższy zrzut ekranowy tego arkusza pokazuje wyniki weryfikacji założeń, jak widzimy model pierwiastkowy nie może być wykorzystany do opisu badanej zależności.
28 28 Spośród trzech badanych założeń nie jest spełnione założenie o poprawności doboru modelu, niejako jego konsekwencją jest także odrzucenie hipotezy o normalności reszt losowych. Pozostaje nam sprawdzenie, czy do opisu badanej zależności można wykorzystać model logarytmiczny. Czy może to być model y = a + bln(x)? Podobnie jak w modelu pierwiastkowym wprowadzamy podstawienie z = ln(x), co y = a + bz, a jego parametry może- formalnie sprowadza model logarytmiczny do postaci my już estymować metodą najmniejszych kwadratów. Przed wywołaniem procedury Liniowa musimy przygotować dane empiryczne pozwalające na estymację modelu y = a + bz, w naszym przypadku będziemy musieli dodać nową kolumnę danych odpowiadającą podstawieniu ) ln(x z =. Zostało to zrobione w arkuszu o nazwie DaneLogarytmiczny, gdzie przekopiowano dane oryginalne, a następnie dodano etykietę Ln(x) w komórce C1 i formułę =LN(A2) w komórce C2. Formuła z C2 została następnie skopiowana na obszar C3:C21.
29 29 Mając przygotowane dane możemy wywołać procedurę Liniowa z menu Regresja wskazując odpowiednie obszary danych. Podobnie jak w poprzednich estymacjach w zakładce Grafika i badanie założeń zaznaczamy oba wykresy i weryfikację założeń o poprawności doboru modelu i normalności reszt losowych. Klik przycisku OK uruchamia działanie procedury, a wyniki estymacji zostają zwrócone do nowego arkusza (nazwanego WynikiLogarytmiczny). Analizując wyniki weryfikacji założeń z obszaru J1:M6 oraz J10:M14 widzimy, że wybór modelu logarytmicznego jest uzasadniony statystycznie, Widzimy także, że reszty losowe mają rozkład normalny. Reasumując, model logarytmiczny może być dalej wykorzystywany do wyznaczania teoretycznej wydajności pracy przy zadanym stażu pracy.
30 30 Przed wykonaniem prognozy powinniśmy przeanalizować wyniki estymacji parametrów modelu logarytmicznego procedura Liniowa zwróciła te wyniki zaczynając od komórki A1. W obszarze A2:E4 mamy oceny parametrów modelu i błędy standardowe tych ocen oraz dolne i górne granice przedziałów ufności dla prawdziwych wartości tych parametrów w populacji generalnej. Ocena stałej regresji jest równa 83,08 i jest wyznaczona z błędem ± 2,27, podobnie ocena współczynnika regresji jest równa 14,07 i jest wyznaczona z błędem ± 1,30 (jeżeli przyjmiemy, że prawdziwa wartość parametru b jest równa 14,07, to popełnimy błąd rzędu ± 1,30). Dla obu parametrów oszacowane są dolne i górne granice 95% przedziałów ufności, przykładowo dla współczynnika regresji mamy przedział b < 11,34; 16, 80 >, który możemy zinterpretować następująco: z p-stwem 0,95 mamy prawo oczekiwać, że współczynnik regresji jest nie mniejszy niż 11,34, ale nie większy niż 16,80. Jak wiemy współczynnik regresji ma następującą interpretację merytoryczną: jeżeli logarytm stażu pracy wzrośnie o jedną jednostkę, to wydajność pracy średnio wzrośnie o 14,07 jednostek. Do interpretacji możemy wykorzystać także przedział ufności dla współczynnika regresji: z p-stwem 0,95 mamy prawo oczekiwać, że przy wzroście logarytmu stażu pracy o jedną jednostkę wydajność średnio wzrośnie nie mniej niż o 11,34 jednostek, ale nie więcej niż o 16,8 jednostek. Przedział ufności dla współczynnika regresji (parametru b w modelu y = a + bx) 0 = pozwala także na weryfikację hipotezy o nieistotności regresji H : b 0 wobec alternatywy H 1 : b 0. Gdyby do wyznaczonego przedziału ufności należało zero, to wtedy nie mamy podstaw do odrzucenia hipotezy zerowej, w innym przypadku hipotezę zerową odrzucamy na założonym poziomie istotności. Dokładnie taką sytuację mamy w naszym
31 31 przykładzie, przedział <11,34; 16,80> nie zawiera zera, tym samym odrzucamy H 0 : b = 0 na korzyść H 1 : b 0. Inaczej mówiąc statystycznie wykazaliśmy, że istnieje istotny związek funkcyjny między wydajnością pracy a logarytmem stażu pracy. Hipoteza o nieistotności regresji H 0 : b = 0, może być także weryfikowana testem F Fishera-Snedecora, stosowne wyniki mamy w obszarze A6:E8. Jak widzimy wartość empiryczna statystyki F jest bardzo duża, z kolei p-value jest mniejsze od domyślnego α = 0,05, tym samym hipotezę zerową odrzucamy na korzyść alternatywy H 1 : b 0. W tych sytuacjach, gdy (liniowy) model regresji będzie zawierał więcej niż jedną zmienną objaśniającą test F będzie jedynym testem, który możemy wykorzystać do weryfikacji hipotezy o nieistotności regresji. 2 W komórce B11 mamy zwróconą wartość współczynnika determinacji R, w naszym przypadku jest to 86,7% - liczbie tej możemy nadać następującą interpretację: zmienność wydajności pracy w 86,7% jest wyjaśniona logarytmem naturalnym stażu pracy. W komórce E11 została wypisana wartość odchylenia standardowego reszt losowych. Wynik ten mówi o przeciętnym odchyleniu wartości empirycznych i teoretycznych wydajności pracy. Model y = a + bz, gdzie z = ln(x) jest istotny statystycznie i są spełnione dwa istotne założenia MNK, tym samym możemy wykorzystać wyestymowany model do estymacji teoretycznych wartości wydajności pracy dla ustalonych wartości stażu pracy. Powiedzmy, że będziemy chcieli wyznaczyć te wartości dla x 01=10 oraz dla x 02 = 12. Do wykonania tej prognozy będziemy mogli skorzystać z procedur skoroszytu StatystykaJG.xls, ale wcześniej musimy przygotować potrzebne dane. Poniżej widok skoroszytu obliczeniowego (WydajnoscPracy) przy otwartym oknie dialogowym polecenia Prognozowanie z menu Regresja.
32 32 W obszarze B45:B47 mamy wpisaną etykietę zmiennych niezależnych (x0), oraz obie interesujące nas wartości stażu pracy. Z uwagi na postać modelu (logarytmiczny, a nie liniowy) w obszarze C45:C47 wprowadzono etykietę i wartości zmiennej z = ln(x). Obszar ten został wskazany w polu kontrolki Wskaż obszar zmiennych niezależnych okna dialogowego procedury Prognozowanie. Wcześniejsze trzy kontrolki wymagały wskazania: - obszaru oszacowań parametrów modelu (B2:B4); - obszaru stopni swobody i średniego kwadratu odchyleń (A8:C8); - obszaru macierzy odwrotnej do V 0 (A13:B15). Po kliknięciu przycisku OK na prawo od obszaru C45:C47 zwracane są wyniki prognozy. Kolejno mamy wyznaczoną wartość regresyjną (dla x=10 jest to 115,46), wynik ten można zinterpretować następująco: średnia wydajność pracowników z dziesięcioletnim stażem pracy będzie równa 115,46 jednostek. Wniosek ten obarczony jest błędem ± 1,48. W obszarze F46:G46 mamy dolny i górny przedział ufności dla wartości regresyjnej wyznaczony przy α = 0, 05, możemy nadać mu następującą interpretację: z p-stwem 0,95 mamy prawo oczekiwać, że średnia wydajność pracy pracowników z 10-letnim stażem będzie nie mniejsza niż 112,35 jednostek, ale nie większa niż jednostek. A jakiej wydajności można spodziewać się po zatrudnieniu konkretnego pracownika z dziesięcioletnim stażem? Okazuje się, że najlepszą oceną oczekiwanej wydajności będzie wartość regresyjna, czyli 115,46 jednostek, ale błąd tej oceny jest znacznie większy i wynosi ± 5,09. W obszarze I46:J46 mamy wyznaczoną dolną i górną granicę przedziału ufności dla prawdziwej (w populacji) wydajności pracy przy stażu 10-letnim (są to tzw. granice predykcji). Przedział ten można zinterpretować następująco: z p-stem 0,95 mamy prawo oczekiwać, że wydajność pracy pracownika z 10-cio letnim stażem pracy będzie nie mniejsza niż 104,77 jednostek, ale nie większa niż 126,16 jednostek. Ostatnia kolumna zawiera względne wartości błędów prognozy ex ante. W przypadku prognozowania wydajności pracy dla x = 10 błąd ten jest równy 4,41% i określa jak duży błąd popełniamy przyjmując, że prognozowana wydajność pracy będzie równa prognozie punktowej, czyli 115,46. Procedura Linowa może także przygotować dwa interesujące wykresy. Pierwszy z nich pokazuje rozrzut punktów empirycznych w funkcji zmiennej niezależnej, wartości
33 33 teoretyczne wynikające z modelu, dolne i górne granice przedziałów ufności dla wartości regresyjnej (średniej) oraz dolne i górne granice przedziałów predykcji (dla realizacji pojedynczych wartości zmiennej losowej y-ek) Yi Yi (teor.) dolny p.u górny p.u dolny p.p górny p.p 60-0,7-0,1 0,6 1,2 1,9 2,5 Kolejny wykres pokazuje rozkład reszt w funkcji zmiennej niezależnej, wykres ten jest uzupełnieniem do weryfikacji hipotezy o poprawności doboru modelu funkcji regresji. 11 Wykres reszt w funkcji x-a 7 3-0,7-2 -0,1 0,6 1,2 1,9 2, Szczegółowa analiza rozkładu reszt losowych modelu y = a + b ln(x) sugeruje, że być może znajdziemy jeszcze inny model opisujący badane zjawisko równie dobrze, a może nawet lepiej niż model logarytmiczny.
34 Wydajność pracy, model potęgowy W poprzednim rozdziale zostało zasugerowane, że być może istnieje inny jeszcze model niż logarytmiczny do opisania zależności między wydajnością pracy a stażem pracy pracownika. Wydaje się, że możemy rozważyć zastosowanie modelu potęgowego postaci b y = ax, którego wykres spełnia nasze oczekiwania (wypukły, a więc funkcja będzie rosła coraz wolniej). Estymacja tego modelu wymaga jego wcześniejszej linearyzacji polegającej na obustronnym logarytmowaniu. Mamy: b ln( y) = ln( a) + ln( x ) = ln( a) + b ln( x). Model ten możemy formalnie zapisać jako liniowy: W = A + bz, gdzie W = ln(y), a Z = ln(x). Przed wykorzystaniem procedury Liniowa musimy przygotować dane, które wykorzystamy do estymacji modelu. W naszym przypadku zostało to zrobione w arkuszu DanePotegowy skoroszytu WydajnoscPracy, gdzie w C1 i D1 wpisano etykiety nowych zmiennych, a w C2 formułę =LN(A2), która została skopiowana najpierw do D2, a następnie formuły z C2:D2 na obszar C2:D21. Po przygotowaniu danych możemy już uruchomić procedurę Liniowa z menu Regresja skoroszytu StatystykaJG.xls, jako obszar danych dla zmiennej x wskażemy tym razem C1:C21, a jako obszar dla zmiennej y-ek odpowiednio D1:D21. Podobnie jak przy wcześniejszych estymacjach w zakładce Grafika i badanie założeń zaznaczamy wszystkie pola wyboru. Po kliknięciu przycisku OK procedura zwraca wyniki estymacji do nowego arkusza, po zakończeniu jej pracy nazwa tego arkusza została zmieniona na WynikiPotegowy.
35 35 Poniżej widok fragmentu arkusza WynikiPotegowy, jak widzimy wszystkie założenia MNK są spełnione. Analiza wyników estymacji z obszaru A1:F11 pokazuje, że ocena współczynnika regresji jest równa 0,14 i jest wyznaczona z błędem ± 0,01, z uwagi na wprowadzoną transformację (obu zmiennych) wielkości tej można nadać następującą interpretację: jeżeli logarytm naturalny stażu pracy wzrośnie o jedną jednostkę, to logarytm naturalny wydajności pracy średnio wzrośnie o 0,14 jednostek. Z faktu, że obie granice przedziału ufności dla współczynnika regresji są tego samego znaku wnioskujemy, że hipotezę o nieistotności regresji H : b 0 musimy odrzucić 0 =
36 36 na korzyść alternatywy H 1 : b 0, co oznacza, że istnieje istotny związek liniowy między logarytmem wydajności pracy a logarytmem stażu pracy. Warto jeszcze zwrócić uwagę na wielkość współczynnika determinacji (komórka B11). Uzyskany wynik ma taką interpretację: zmienność logarytmu naturalnego wydajności pracy jest w 88,1% wyjaśniona wpływem logarytmu stażu pracy. Prognozowanie Przed uruchomieniem procedury Prognozowanie z menu Regresja musimy odpowiednio przygotować obszar argumentów, dla których chcemy wykonać prognozę. W pokazanej sytuacji argumenty te zostały wpisane w obszarze B43:B45, ale do wykonania prognozy musimy je przekształcić wg formuły z 0 = ln( x 0 ), co zostało zrobione w obszarze C43:C45. Poniżej widok okna dialogowego procedury Prognozowanie z zaznaczonymi obszarami danych wykorzystywanymi do prognozy.
37 37 Klik przycisku OK zwraca wyniki prognozy na prawo od obszaru C43:C45, tak jak to pokazano poniżej. Musimy jednak pamiętać, że zwrócone dane nie odnoszą się do wydajności pracy, lecz do jej logarytmu naturalnego! Jeżeli chcemy wiedzieć, jakiej teoretycznie wydajności pracy możemy oczekiwać dla zadanego stażu, to musimy dokonać retransformacji t uzyskanych wartości wg wzoru: Y = EXP( W ). Stosowne formuły musimy wpisać sami, w efekcie uzyskamy wyniki takie, jak pokazane niżej (obszar B48:K50). Błąd standardowy oraz błąd predykcji nie mogą być retransformowane wg tej samej formuły, w pokazanym niżej przykładzie retransformowane błędy predykcji zostały wyznaczone z definicji przedziału ufności wg formuły zapisanej w komórce H49 (liczba 2,1 widoczna w tej formule to wartość testu t-studenta dla 18 stopni swobody i alfa = 0,05). Retransformowany błąd predykcji był potrzebny dla wyznaczenia względnego błędu prognozy ex ante. t Wyniki te interpretujemy analogicznie, jak w poprzednich przykładach. Na zakończenie jeszcze wykres reszt badanego modelu, ich rozkład potwierdza wyniki weryfikacji założeń modelu potęgowego. Wykres reszt w funkcji x-a 0,2 0,1 0,1 0,0-0,7 0,0-0,1 0,6 1,2 1,9 2,5-0,1
38 Czy trend zjawiska jest liniowy? Na przestrzeni lat obserwowano średnie plony jabłek deserowych (w tonach/ha). Zebrane dane tworzą szereg czasowy, interesuje nas odpowiedź na pytanie, czy trend tego zjawiska może być opisany linową funkcją czasu. Poniżej widok zgromadzonych danych, na potrzeby tej publikacji dane zostały zestawione w trzech grupach lat. Bez utraty informacji możemy wprowadzić zmienną czas o wartościach dyskretnych 1, 2, 3 itd., możemy także dane zapisać w postaci trzech kolumn (rok, czas, plon), co ułatwi wykonywanie dalszych obliczeń. Kolejny zrzut ekranowy pokazuje tak przygotowane dane, jest tam także sporządzony wykres typu XY ilustrujący rozrzut plonu w funkcji czasu.
39 39 Interesuje nas odpowiedź na pytanie, czy trend badanego zjawiska może być opisany modelem liniowym postaci y = a + b t? Z wcześniejszych przykładów wiemy, że odpowiedź na tak postawione pytanie jest stosunkowo prosta, pod warunkiem, że dysponujemy takim narzędziem statystycznym, jak np. procedura Liniowa ze skoroszytu StatystykaJG.xls. Procedura ta korzysta z testu serii do weryfikacji hipotezy o poprawności doboru modelu, wystarczy jedynie zaznaczyć wykonanie takiego badania. Co jednak możemy zrobić, jeżeli nie mamy dostępu do tego typu procedur? Rozwiązanie jest proste, jeżeli potrafimy zweryfikować hipotezę o nieistotności regresji: H 0 : b = 0 wobec H 1 : b 0. Taką możliwość daje np. skoroszyt Liniowa.xls, który zawiera zaszyte formuły weryfikujące taką właśnie hipotezę. Warto jednak zauważyć, że weryfikacja H : b 0 nie przesądza, czy jest to model 0 = liniowy (odrzucenie H0 nie jest równoważne z tym, że związek między y-kiem a czasem jest liniowy)! W przypadku funkcji liniowej mamy jednak taką własność, że przy jednostkowym wzroście argumentu wartość funkcji zmienia się o stałą wielkość równą współczynnikowi kierunkowemu prostej. Niech y = f ( x) = a + bx, dla x 0 mamy f ( x0) = a + bx0, a dla x 1 = x0 + 1 mamy f x ) = f ( x + 1) = a + b( x + 1) = a + bx + b = f ( x ) + b ( Jak widzimy dla dowolnej wartości x 0 różnica stała (niezależna od wartości zmiennej x). f ( x1 = x0 + 1) f ( x0) = b, czyli jest Jeżeli więc w szeregu czasowym uda nam się wykazać, że przyrosty absolutne zmiennej y-ek są stałe, to tym samym wykażemy, że między zmienną y-ek a zmienną niezależną x istnieje związek liniowy. Przyrosty absolutne zmiennej y-ek definiujemy jako różnicę między wartością badanej cechy w punkcie t, a wartością tej cechy w punkcie t-1: y = y y dla t > 1. t t t 1 Po wyznaczeniu przyrostów absolutnych estymujemy model y = A + B t, a następnie weryfikujemy hipotezę H : B 0 wobec alternatywy H : B 0. 0 = 1 Jeżeli nie będziemy mieli podstaw do odrzucenia hipotezy zerowej, to oznacza to, że przyrosty absolutne są stałe (nie są funkcją czasu). Automatycznie oznacza to, że do opisania trendu możemy użyć modelu liniowego. Z kolei odrzucenie H 0 : B = 0 prowadzi do wniosku, że przyrosty absolutne są funkcją czasu, tym samym do opisania trendu nie możemy użyć modelu liniowego.
40 40 Poniżej pokazany jest widok arkusza SzeregCzasowyPlonu z dodaną kolumną Delta(y) z formułą (w D2) postaci =C3-D2, którą następnie skopiowano na pozostałe wiersze obszaru danych. Do estymacji modelu y = A + B t przy pomocy skoroszytu Liniowa.xls wykorzystamy dane z obszarów B1; B3:B57; D1; D3:D57, które musimy skopiować do schowka. Wskazane obszary są rozłączne, stąd przy ich zaznaczaniu musimy wykorzystać klawisz Ctrl (zaznaczamy pierwszy obszar, wciskamy klawisz Ctrl i zaznaczamy pozostałe obszary). Przed zaznaczeniem tych obszarów musimy otworzyć skoroszyt Liniowa.xls, zobaczymy sytuację taką jak pokazana niżej. Arkusz ten wymaga, aby w kolumnie A były dane odpowiadające zmiennej niezależnej, a w kolumnie B zmiennej zależnej, przy czym komórki A1 i B1 muszą zawierać etykiety danych. Po przejściu do skoroszytu zawierającego przyrosty absolutne zaznaczamy potrzebne obszary danych i wywołujemy polecenie Kopiuj, a następnie przechodzimy do skoroszytu Liniowa.xls. Ustawiamy wskaźnik myszy w komórce A1 i wywołujemy polecenia Wklej specjalnie/wartości, po wklejeniu danych wszystkie obliczenia związane z estymacją modelu i weryfikacją hipotezy o nieistotności regresji są już zrobione.
41 41 Poniżej widok skoroszytu Liniowa.xls po wklejeniu danych, interesujący nas obszar wyników został pogrubiony. W komórce H17 mamy wyznaczoną wartość krytycznego poziomu istotności dla hipotezy zerowej H 0 : B = 0 przy alternatywie H 1 : B 0 (p-value). Jak widzimy jest to wartość większa od umownego α = 0, 05, tym samym nie mamy podstaw do odrzucenia hipotezy zerowej. Upoważnia nas to do opisania trendu badanej cechy za pomocą liniowej funkcji czasu. Do estymacji modelu y = a + bt wykorzystamy oryginalne dane z obszaru B1:C57 arkusza SzeregCzasowyPlonu, które skopiujemy do skoroszytu Liniowa.xls zaczynając od A1.
42 42 Po wklejeniu danych mamy wykonane wszystkie potrzebne obliczenia, pozostaje jedynie dokonanie interpretacji wyników estymacji modelu y = a + bt. W obszarze E17:E18 mamy oceny modelu, a w obszarze F17:F18 błędy standardowe tych ocen. Ocena współczynnika regresji jest równa 0,2562 i możemy nadać jej następującą interpretację: średniorocznie plony jabłek wzrastają o 0,2562 t/ha. W komórce G17 wyznaczona jest wartość empiryczna statystyki t-studenta dla weryfikacji hipotezy o nieistotności regresji H 0 : b = 0 przy alternatywie H 1 : b 0. Wartość tej statystyki jest bardzo duża, ale do podjęcia decyzji weryfikacyjnej potrzebna jest znajomość wartości krytycznej wyznaczonej przy danych poziomie istotności alfa i liczbie stopni swobody n-2, gdzie n jest liczebnością próby (w naszym przykładzie n=57). Decyzja weryfikacyjna może być także podjęta na podstawie wyznaczonego krytycznego poziomu istotności dla danej hipotezy (p-value), wystarczy tylko sprawdzić, czy p-value jest mniejsze od ustalonego alfa. W naszym przypadku jest taka właśnie sytuacja, tym samym odrzucamy hipotezę H 0 : b = 0 na rzecz alternatywy H 1 : b 0. Merytorycznie oznacza to, że istnieje istotny statystycznie trend liniowy opisany równaniem mˆ ( t) = 0, , 2562t. Hipoteza o nieistotności regresji jest także weryfikowana testem F w metodzie analizy wariancji, ale decyzja weryfikacyjna jest oczywiście taka sama. W komórce F31 mamy wyznaczoną wartość współczynnika determinacji, można nadać jej następującą interpretację: zmienność średniego plonu jabłek jest w 82,6 % wyjaśniona wpływem czasu. Dokładniej jest to wpływ tych wszystkich czynników, które są reprezentowane przez zmienną czas: będą to takie elementy jak nowe odmiany, nowe nasadzenia, poziom kultury sadowniczej, poziom ochrony i nawożenia.
43 43 Pozostaje wyznaczenie przewidywanych średnich plonów jabłek w 2006 i 2007 roku. Skoroszyt Liniowa.xls pozwala na wykonanie prognozy niejako automatycznie, wystarczy do obszaru zaczynającego się od komórki D42 wpisać wartości tych argumentów, dla których chcemy wykonać prognozę. W naszym przypadku do D42 została wpisana wartość 57 jako odpowiednik roku 2006, a do D43 liczba 58 (to jest wartość zmiennej czas dla roku 2007). Jeżeli zachodzi potrzeba, to formuły z obszaru E42:K42 kopiujemy w dół i mamy wykonaną prognozę. Wyniki prognozy z obszaru E42:K42 możemy zinterpretować następująco: gdyby rok 2006 (czas = 57) mógł się powtórzyć nieskończenie wiele razy, to średni plon jabłek byłby równy 13,64 t/ha z błędem ± 0,52 t/ha. Wykorzystując przedział ufności dla wartości regresyjnej możemy powiedzieć, że z p-stwem 0,95 mamy prawo oczekiwać, że ten średni plon będzie nie mniejszy niż 12,59 t/ha, ale nie większy niż 14,69 t/ha. Oczywiście rok 2006 może być tylko raz, a wtedy z p-stwem 0,95 mamy prawo oczekiwać, że plon jabłek będzie nie mniejszy niż 9,62 t/ha, ale nie większy niż 17,66 t/ha. Podobnie można zinterpretować wyniki prognozy dla roku 2007 (czas = 58). Wykorzystanie testu serii Przypuszczenie, że trend zjawiska może być opisany liniową funkcją czasu możemy także zweryfikować za pomocą testu serii dostępnego w skoroszycie o tej samej nazwie, czyli TestSerii.xls. Procedura VBA zaszyta w tym skoroszycie weryfikuje hipotezę o poprawności doboru modelu na podstawie wektora reszt losowych. W naszym przypadku wystarczy wykorzystać wbudowane funkcje Excela i do wykresu szeregu czasowego dodać liniową funkcję trendu z opcją pokazania równania oraz wartości współczynnika determinacji. Dla weryfikacji przypuszczenia, że trend plonu jabłek jest liniowy musimy wykonać następujące kroki: 1. W nowym arkuszu lub innym obszarze przygotować dwie kolumny danych empirycznych, pierwsza zawiera zmienną czas, druga obserwowane średnie plony jabłek w danym punkcie czasowym. W naszym przypadku dane te
44 44 zostały przygotowane w obszarze A1:B57 arkusza DoTestuSerii skoroszytu PlonyJablek.xls. 2. Po zaznaczeniu obszaru danych (A1:B57) wykonujemy wykres typu XY z podtypem tylko punkty empiryczne. Wskazując jeden z punktów prawym przyciskiem myszy dodajemy trend liniowy z pokazaniem równania i R W komórce C1 wpisujemy etykietę wartości teoretycznych, np. yt, a w D1 etykietę reszt losowych, np. et. W komórce C2 wpisujemy formułę wyznaczającą teoretyczną wartość plonu jabłek wg równania z wykresu, czyli =0,2562*A2-0,9648. W D2 wpisujemy formułę wyliczającą reszty losowe =B2-C2. Po zaznaczeniu obszaru C2:D2 kopiujemy obie formuły do wiersza 57 (na cały obszar danych). 4. Jeżeli skoroszyt TestSerii nie był otwarty, to otwieramy go pamiętając o włączeniu makropoleceń. 5. Wracamy do arkusza DoTestuSerii po reszty losowe, zaczynamy od zaznaczenia obszaru D1:D57, a następnie kopiujemy dane do schowka Windows. 6. Przechodzimy do skoroszytu TestSerii, ustawiamy kursor w komórce A1 i wywołujemy polecenia Wklej specjalnie i dalej Wartości. 7. Klik przycisku Oblicz uruchamia procedurę weryfikującą losowość reszt przy pomocy testu serii, w przypadku, gdy nie są dostępne krytyczne liczby serii procedura przechodzi na rozkład normalny standardowy. Po wykonaniu tych siedmiu kroków widzimy taki efekt, jak na pokazanym niżej zrzucie ekranowym. W kolumnie A mamy wklejone wartości reszt losowych, w kolumnie B procedura wstawiła liczbę 1 dla reszty dodatniej lub liczbę 0 dla reszty ujemnej, a w kolumnie C została policzona liczba serii.
45 Końcowe wyniki mamy podane w obszarze E2:F4, wiemy ile było serii, ile było reszt dodatnich, a ile reszt ujemnych. Niestety, w dostępnych tablicach nie ma wartości krytycznych testu serii, stąd normalizacja liczby serii. Wartość empiryczna standardowej zmiennej normalnej jest równa -1,61081, co nie przeczy hipotezie o losowości reszt. Inaczej mówiąc model liniowy może być zastosowany do estymacji trendu badanego zjawiska. 45
46 Czy trend zjawiska jest wykładniczy? Interesuje nas dynamika średniej ceny pszenicy obserwowana na rynkach w okresie styczeń 2004 do wrzesień Chcemy ustalić, czy trend tego zjawiska może być opisany funkcją wykładniczą. Poniżej widok arkusza PszenicaDane w skoroszycie Pszenica.xls z danymi szeregu czasowego opisującego zmianę ceny pszenicy w kolejnych miesiącach. Sporządzony wykres rozrzutu punktów empirycznych nie wyklucza, że do opisania trendu `1 można użyć modelu wykładniczego postaci y = b 0 e = b 0 exp( b 1 t). b t Podobnie jak w poprzednim przykładzie możemy dokonać linearyzacji modelu wykładniczego poprzez obustronne logarytmowanie logarytmem naturalnym: ln( y) = ln( b0) + b1t otrzymując formalnie model liniowy. Estymację parametrów tego modelu możemy wykonać przy pomocy procedury Liniowa ze skoroszytu StatystykaJG z jednoczesnym badaniem poprawności modelu (liniowego po logarytmowaniu, a nie wykładniczego), Odpowiedz pozytywna oznacza, że model liniowy (a więc i wykładniczy) jest właściwy do opisania trendu badanego zjawiska. Co jednak zrobić, jeżeli nie dysponujemy procedurą Liniowa (lub podobną do niej)? Warto zauważyć, że wartości zmiennej niezależnej (czasu) zmieniają się o stałą wartość, co pozwala nam na skorzystanie ze znanej własności funkcji wykładniczej. Załóżmy, że między zmiennymi y i x istnieje związek funkcyjny opisany zależnością y = b 0 exp( b 1 x). Wartość tej funkcji w dowolnie wybranym punkcie x 0 jest równa f x ) = b exp( b ), a w punkcie x = x 1 odpowiednio: ( 0 0 1x f x = x + 1) = b exp( b ( x + 1)) = b exp( b x + b ) = b exp( b x )exp( ). ( ` b1
47 47 Przyrost względny zmiennej zależnej y w punkcie x względem punktu x 0 definiujemy jako: y δ x0 + 1 f ( x0 + 1) f ( x0 ) =. f ( x + 1) 0 W przypadku, gdy funkcja f jest wykładnicza przyrost względny jest równy: δ b exp( b1 x0 )exp( b1 ) b0 exp( b1 x0) b0 exp( b1 x0)(exp( b1 ) 1) exp( b1 ) 1 = = b exp( b x )exp( b ) b exp( b x )exp( b ) exp( ) 0 y x = b 1 co oznacza, że przyrosty względne są stałe (nie są funkcją zmiennej niezależnej x). Własność powyższą możemy w naszym przykładzie wykorzystać następująco: 1. Wyznaczymy przyrosty względne ceny pszenicy tworząc nowa zmienną yt yt 1 dy(t) wg formuły dyt = dla t > 1. Poniżej widok arkusza yt z formułą wyliczającą przyrost względny (kolumna D). 2. Wykorzystując utworzoną zmienną (dane z obszaru B3, B5:B24; D3 i D5:D24) i skoroszyt Liniowa.xls wyestymujemy parametry modelu dy ( t) = a + bt, co pozwoli nam na weryfikację hipotezy zerowej H : b 0 wobec alternatywy H : b = 3. Brak możliwości odrzucenia H 0 : b = 0 oznacza, że przyrosty względne są stałe, co jak wiemy ma miejsce wtedy, gdy zmienna y jest związana ze zmienną x funkcją wykładniczą.
48 48 4. Odrzucenie H 0 : b = 0 na rzecz H 1 : b 0 oznacza, że przyrosty względne zmiennej y są funkcją x, tym samym zmienne y i x nie mogą być związane funkcją wykładniczą. Poniżej widok skoroszytu Liniowa.xls z wklejonymi danymi odpowiadającymi wartościom przyrostów względnych ceny pszenicy. Kursor wskazuje komórkę H17 zawierającą krytyczny poziom istotności dla hipotezy H 0 : b = 0 wobec H 1 : b 0, jak widzimy jest to bardzo duże p-stwo, tym samym nie mamy podstaw do odrzucenia hipotezy zerowej. Merytorycznie oznacza to, że przyrosty względne ceny pszenicy są stałe (w czasie), tym samym do opisania trendu możemy wykorzystać funkcję wykładniczą. Model y = b 0 exp( b 1 x) nie może być (bezpośrednio) estymowany metodą najmniejszych kwadratów, wcześniej musimy przeprowadzić jego linearyzację poprzez obustronne logarytmowanie przy podstawie naturalnej otrzymując model postaci ln( ) = ln( b + b x. y 0 ) 1 z Wprowadzając podstawienia z = ln(y) oraz B 0 = ln( b 0 ) mamy formalnie model liniowy = B b x, którego parametry możemy oszacować MNK. Wymaga to wstępnego przygotowania danych empirycznych poprzez wprowadzenie zmiennej z = ln(y), na kolejnym zrzucie ekranowym zostało to zrobione w kolumnie E. W komórce E3 została wpisana etykieta nowej zmiennej zależnej, a w komórce E4 formuła =LN(C4), która została następnie skopiowana na obszar E4:E24. Dane z obszaru (rozłącznego) B3:B24; E3:E24 zostaną wykorzystane do estymacji parametrów modelu z = B0 + b1 x jak i weryfikacji hipotezy o nieistotności regresji, a po wyestymowaniu modelu zostanie wykonana prognoza ceny pszenicy (dokładniej logarytmu
49 49 naturalnego ceny pszenicy) w kolejnym punkcie czasowym, czyli w październiku 2005 roku. Poniżej widok arkusza Liniowa.xls z wklejonymi od komórki A1 danymi (wklejenie poprzez polecenie Wklej specjalnie/wartości z uwagi na formuły opisujące wartości zmiennej zależnej). Model jest oczywiście istotny (oczywiście, bo wiemy o tym z badania, czy może to być model wykładniczy), jego współczynnik regresji jest równy 0,0527 (z dokładnością do 4 miejsc). Z uwagi na estymowany model można mu nadać taką interpretację: średniomiesięcznie logarytm naturalny ceny pszenicy wzrasta o 0,0527 jednostek.
50 50 Mając wyestymowany model postaci z = B0 + b1 x możemy przejść do wykonania prognozy w punkcie t=22 (październik 2005), z uwagi jednak na zamiar przygotowania wykresu pokazującego ceny empiryczne, ceny teoretyczne oraz przedziały ufności dla wartości regresyjnej i predykcji wyznaczymy prognozę dla wartości czasu od t=1 do t=22. Poniżej widok skoroszytu Liniowa.xls z wpisanymi od komórki D42 wartościami czasu i skopiowanymi formułami z obszaru E42:K42. Dane te opisują prognozę logarytmu naturalnego ceny pszenicy w kolejnych punktach czasu (w kolejnych miesiącach). Dla wykonania wykresu cen empirycznych, cen teoretycznych wynikających z modelu wykładniczego oraz dolnych i górnych granic przedziałów ufności dla wartości regresyjnej i dla predykcji musimy retransformować wyniki prognozy wg formuły = EXP(zˆ) gdzie ẑ jest prognozą uzyskaną z modelu zˆ = 5, , t. W naszym przypadku taką retransformację najwygodniej będzie wykonać w nowym arkuszu WynikiEstymacji skoroszytu Pszenica.xls, ponieważ w skoroszycie Liniowa.xls nie możemy wstawić (wykonać) wykresu z powodu zablokowania arkusza. Do tego arkusza wkleimy wyniki estymacji z arkusza Liniowa, z tym, że musimy korzystać z polecenie Wklej specjalnie/wartości. W naszym przypadku wyniki prognozy zostały wklejone od komórki L39, wyniki estymacji modelu od H4, a dane oryginalne od A3. Retransformacji poddamy dane z kolumny M (teoretyczne wartości logarytmu naturalnego ceny pszenicy) oraz kolumn P do S (kolejno dolna i górna granica przedziału ufności dla wartości regresyjnej, dolna i górna granica przedziału predykcji).
51 51 Poniżej widok arkusza WynikiEstymacji z obszarem zawierającym wyniki retransformacji prognoz dla kolejnych wartości zmiennej czasowej. W kolumnie B wpisano wartości czasu, ostatnia wartość odpowiada październikowi 2005 roku. W wierszu 39 wpisano etykiety poszczególnych kolumn, a w C40 formułę pokazaną na zrzucie ekranowym. W komórce D30 wpisujemy =EXP(P40) i po zatwierdzeniu kopiujemy na obszar D40:G40. W kolejnym kroku zaznaczamy (selekcjonujemy) obszar C40:G40 i kopiujemy na obszar C41:G61. W kolumnie H wstawiamy empiryczne ceny pszenicy, wystarczy w H30 wpisać formułę =C4 i skopiować ją na obszar H40:H60. W wierszu 61 na pokazanym wyżej fragmencie arkusza WynikiEstymacji mamy wynik prognozy dla miesiąca października w 2005 roku. Wykorzystując granice przedziału ufności dla predykcji możemy powiedzieć, że z p-stwem 0,95 mamy prawo oczekiwać, że przeciętna cena 1 tony pszenicy w październiku 2005 będzie nie mniejsza niż 613,8 zł, ale nie większa niż 832,7 zł. Pozostaje nam już tylko przygotowanie wykresu typu XY w oparciu o dane obszaru B39:H61. Poniżej pokazany jest gotowy wykres, punkty pokazują empiryczne ceny pszenicy, środkowa linia (yt) pokazuje teoretyczne wartości ceny, dwie wewnętrzne linie pokazują dolną (dgu) i górną (ggu) granicę ufności dla wartości regresyjnej (średniej). Dwie zewnętrzne linie (dgp) i (ggp) pokazują dolną i górną granicę przedziału ufności dla realizacji pojedynczej wartości zmiennej losowej (predykcji).
52 yt dgu ggu dgp ggp y Problem estymacji funkcji logistycznej Interesuje nas zbudowanie modelu opisującego dynamikę wyposażenia pracowniczych gospodarstw domowych w telewizory kolorowe w latach Dane empiryczne w sztukach/100 gospodarstw zostały zapisane w arkuszu Dane skoroszytu PrzykladLogisyczny.xls. Rozrzut punktów empirycznych jak i charakter badanego zjawiska sugerują, że dynamika liczby telewizorów może być opisana funkcją logistyczną postaci: a a yt = =. cx 1+ b e 1+ b exp( ct) 6 Przykład zaczerpnięty z książki Edwarda Nowaka Prognozowanie gospodarcze
53 53 Cechą charakterystyczną funkcji logistycznej jest występowanie asymptoty poziomej o równaniu y = a, jej istnienie jest równoznaczne z wystąpieniem stanu nasycenia danym dobrem w miarę upływu czasu. Funkcja logistyczna nie jest linearyzowalna, stąd do oszacowania jej parametrów będziemy stosować metodę Hotellinga wykorzystującą stopę wzrostu funkcji logistycznej określoną wzorem: dy dt c a 1 = c y. y W praktyce odbywa się to tak, że mając dane szeregu czasowego { t, y t } dla t = 1, 2,..., n wyznaczamy dla pierwszych n-1 obserwacji przyrosty względne zmiennej y wg wzoru: yt +1 yt S y ( t) =. y t W kolejnym kroku estymujemy parametry modelu liniowego S y 0 1 ( t) = b + b y, a następnie wykorzystując wzór na stopę wzrostu funkcji logistycznej wyznaczamy parametry a oraz c ze związku: ˆ cˆ ˆ c ˆ 0 = b0, ˆ cˆ b = b 1 aˆ = = aˆ bˆ b ˆ. 1 1 Ocenę wartości parametru b funkcji logistycznej znajdujemy jako średnią arytmetyczną z wartości tego parametru odpowiadającym poszczególnym obserwacjom: bˆ = n 1 ct ˆ aˆ e ( 1 ) n yt t = 1 Prześledzimy teraz kolejne kroki metody Hotellinga, zaczniemy od wyznaczenia przyrostów względnych badanej cechy.
54 54 Wykorzystując zaznaczony obszar danych estymujemy (np. przy pomocy skoroszytu Liniowa) parametry modelu ( t) = b + b y uzyskując: S y 0 1 0, = 0, Stąd c ˆ = 0, oraz a ˆ = 116, Pozostaje wyznaczenie oceny parametru b jako średniej z indywidualnych wartości tego parametru dla kolejnych obserwacji. Wykorzystując dane z obszaru E2:E13 oraz formułę =ŚREDNIA(E2:E13) uzyskujemy: b ˆ = 5,
55 55 Ostatecznie został wyestymowany model logistyczny postaci: 116,8816 y =. 0, t 1+ 5,937433e Poniżej pokazany jest widok arkusza Obliczenia, gdzie w kolumnie F wpisano formułę wyliczającą teoretyczną liczbę telewizorów kolorowych w kolejnych latach wynikającą z wyestymowanego modelu. Wykres pokazuje obserwowane i teoretyczne wartości liczby telewizorów w kolejnych latach, myślę, że wyestymowany model logistyczny dobrze oddaje charakter badanego zjawiska. Dla wsparcia tego wniosku możemy wykorzystać test serii do zbadania, czy reszty są losowe. Stosowne dane zostały wyliczone w kolumnie G wg formuły =C2-F2, która została skopiowana do wiersza 13. Dane z obszaru G1:G13 możemy teraz skopiować (poprzez polecenie Wklej specjalnie/wartości) do skoroszytu TestSerii w celu weryfikacji hipotezy o tym, że reszty w modelu mają charakter losowy. Nieodrzucenie tak sformułowanej hipotezy będzie równoważne z tym, że model logistyczny poprawnie opisuje badane zjawisko. Poniżej widok fragmentu skoroszytu TestSerii z wykonaną weryfikacją tej hipotezy.
56 56 Jak widzimy obserwowana liczba serii mieści się między obu krytycznymi liczbami serii, stąd wniosek o poprawnie dobranym modelu. Na zakończenie tego przykładu jeszcze wykres zależności obserwowanych i teoretycznych wartości badanej cechy wraz z wartością współczynnika determinacji. Duża wartość tego współczynnika potwierdza dobre dopasowanie modelu logistycznego. w zajema zależność y i yt R 2 = 0,
57 57 3. Regresja wielokrotna W rozdziale 2 została przedstawiona sytuacja, w której w populacji generalnej π rozważane były tylko dwie zmienne: zmienna losową Y i zmienna losowa lub ustalona X. Obecny rozdział poświęcony jest takiej sytuacji, w której w populacji generalnej π obserwować będziemy zmienną losową Y i k zmiennych losowych lub ustalonych X ( i = 1, 2,..., k). O zmiennej losowej Y założymy, że jest to zmienna losowa normalna: ( m( x, x,..., ); ). Y σ (3.1) ~ N 1 2 x k y / x1, x2,..., xk O wartości oczekiwanej zmiennej losowej Y założymy dalej, że jest funkcją liniową zmiennych X postaci: i k ( x1, x2,..., xk ) = b0 + b1 x1 + b2x bk xk = b + bi xi. (3.2) m 0 Wariancja σ 2 y / x1, x2,..., xk kombinacji wartości zmiennych losowych odchyleń od modelu funkcji regresji jest stała dla dowolnej X i Estymacja parametrów modelu Parametry modelu 3.2 nie są znane i muszą być estymowane na podstawie odpowiedniej próby losowej. Oznaczmy elementy tej próby losowej jako y, x,..., x ), i ( j 1 j kj gdzie j = 1, 2,..., n jest wskaźnikiem powtórzeń (replikacji). Zgodnie z modelem 3.2 dowolną obserwację empiryczną możemy przedstawić jako: y = b + b x + b x b x + e j Symbol teoretyczną e j j 2 2 j k kj j dla 1, 2,..., n. j = (3.3) e j oznacza resztę, różnicę między wartością obserwowaną ŷ j wynikającą z modelu: j ( b + b x + b x b x ) = y yˆ j 2 2 j k kj j j y j a wartością = y (3.4) Kryterium estymacji nieznanych parametrów modelu możemy sformułować tak: chcemy tak dobrać parametry modelu, aby różnice między wartościami obserwowanymi a teoretycznymi były jak najmniejsze. W sensie matematycznym warunek ten sprowadza się do zminimalizowania funkcji s: n j = 1 j = 1 n 2 s = e j = 2 [ y ( b + b x + b x + + b x )] = minimum j j 2 2 j... (3.5) k kj i
58 58 Wyznaczenie minimum funkcji s określonej wzorem 3.5 wymaga rozwiązania układu k + 1 równań. Problem można trochę uprościć przekształcając równość 3.3 w taki sposób, aby wyeliminować stałą regresji b 0 : gdzie j 1 ( x1 j x1) + b2 ( x2 j x2 ) bk ( xkj xk e j (3.6) y y = b ) + k ( b1 x1 + b2 x2 + + bk xk ) = y i = b0 = y... bi xi. (3.7 Uwzględniając wzór 3.6 kryterium estymacji można zapisać następująco: 1 2 [ y y ( b x x ) b ( x x )] = minimum n 2 n s = e = j= j j= 1 j 1( 1 1 j 1 k kj k (3.8) Znalezienie minimum funkcji s określonej wzorem 3.8 wymaga wyznaczenia k pochodnych cząstkowych funkcji s względem parametrów b i (gdzie i = 1, 2,..., k), a następnie przyrównania ich do zera i rozwiązanie powstałego w ten sposób układu równań (tzw. normalnych). s b i = 2 n j = 1 [ y ( b ( x x ) b ( x x )]( x x ) 0 j 1 1 j 1 k kj k ij i = (3.9) Otrzymany w wyniku zastosowania wzoru 3.9 układ równań normalnych możemy zapisać w postaci: bˆ + bˆ x x + + bˆ 1 var1 2 cov k cov x1xk bˆ x x + bˆ x + + bˆ 1 cov var 2... k cov x2x : : : b ˆ cov xk x + bˆ cov xk x bˆ k var x k k = = : = cov x y cov x : 1 2 cov x k y y (3.10) W układzie równań określonym wzorem 3.10 w miejsce parametrów modelu w populacji generalnej bi wprowadzono już ich oceny z próby bˆ i. Układ równań normalnych przedstawiony wzorem 3.10 wygodniej jest zapisać w notacji macierzowej: gdzie V B ˆ = C (3.11) var x1 cov x1x 2... cov x1x k = cov x2x1 var x2... cov x2xk V (3.12) k x k) : :... : cov xk x1 cov xk x2... var xk (
59 59 ( k bˆ cov x y 1 1 b ˆ ˆ = cov x y 2 2 B = C (3.13) x1) : ( k x1) : bˆ cov xk y k Macierz V, macierz współczynników przy niewiadomych, jest macierzą kwadratową stopnia k, jest to macierz symetryczna zawierająca na głównej przekątnej sumy kwadratów odchyleń zmiennych niezależnych X i, a poza główną przekątną sumy iloczynów odchyleń tych zmiennych. Jeżeli macierz V jest macierzą nieosobliwą (czyli jej wyznacznik jest 1 różny od zera), to istnieje macierz odwrotna do macierzy V oznaczana symbolem V. Mnożąc równanie 3.11 lewostronnie przez macierz odwrotną do V otrzymujemy: VBˆ C V 1 1 V VBˆ V C IBˆ V C B ˆ = = = = V C (3.14) Po wyestymowaniu parametrów bˆ i (dla ocenę parametru b 0 z wzoru: k i = 1, 2,..., k ) z równania 3.7 wyznaczamy b ˆ = y b ˆ 0 i = i x 1 i. (3.15) Ostatecznie ocena funkcji regresji z próby ma postać: k mˆ ( x1, x2,..., xk ) = bˆ 0 + bˆ i = i x 1 i. (3.16) Parametr b 0 będziemy nazywać, podobnie jak w regresji liniowej, stałą regresji. Parametry b 1, b2,..., bk będziemy nazywać cząstkowymi współczynnikami regresji Badanie istotności modelu Po wyestymowaniu funkcji regresji z próby musimy sobie odpowiedzieć na pytanie, czy nasze założenie o tym, że wartość oczekiwana zmiennej losowej Y jest funkcją liniową zmiennych X jest prawdziwe. i Nie będzie takiej zależności wtedy, gdy wszystkie cząstkowe współczynniki regresji będą jednocześnie równe zero. Tym samym hipotezie o nieistotności regresji wielokrotnej liniowej możemy nadać postać: H : 0 (dla i = 1, 2,..., k ) (3.17) 0 b i = i Weryfikację tak sformułowanej hipotezy zerowej wobec alternatywy H : 0 przeprowadzamy testem F Fishera w analizie wariancji. 1 b i i
60 60 Tabela analizy wariancji dla weryfikacji hipotezy o istotności regresji wielokrotnej. Zmienność Stopnie swobody Suma kwadratów odchyleń Średni kwadrat odchyleń F empiryczne Modelu v R = k var R k = i = bˆ cov x y 1 i i s 2 var R R = v R F R = 2 sr 2 se Resztowa v E = n k 1 var E = vart var R s 2 var E E = v e Całkowita v T = n 1 var y = ( y = i y) n j 1 2 Hipotezę H : 0 będziemy odrzucać na korzyść H : 0 wtedy, gdy 0 b i = i 1 b i i wartość empiryczna statystyki F Fishera będzie większa od odpowiedniej wartości krytycznej > F lub krytyczny poziom istotności (p-value) będzie mniejszy od F emp. α, v R, v E przyjętego poziomu istotności alfa. Merytorycznie sformułujemy wniosek, że istnieje istotna liniowa zależność między zmienną losową Y a zmiennymi niezależnymi X i (co najmniej jedną z nich). Jeżeli wartość empiryczna statystyki F Fishera jest niewiększa od odpowiedniej wartości krytycznej lub p-value jest większe od przyjętego alfa, to nie mamy podstaw do odrzucenia H 0. Merytorycznie oznacza to, że nie istnieje liniowy związek między zmienną losową Y a zmiennymi X i. W tej sytuacji wartość oczekiwana zmiennej losowej Y jest stała i równa wartości średniej. Wróćmy jednak do sytuacji, gdy hipotezę H 0 odrzucimy. Proszę zwrócić uwagę, że odrzucenie hipotezy zerowej daje stosunkowo mało informacji. Jedynie co wiemy, to to, że co najmniej jeden cząstkowy współczynnik regresji jest różny od zera. Podobnie jak w przypadku szczegółowych porównań w analizie wariancji musimy przeprowadzić dalsze szczegółowe badania zmierzające do ustalenia, które cząstkowe współczynniki regresji są różne od zera. Teoretycznie sprawa jest stosunkowo prosta: wystarczy zweryfikować serię k hipotez zerowych o istotności cząstkowych współczynników regresji postaci: H : 0 wobec H : 0 dla i = 1, 2,..., k. (3.18) 0 i b i = 1i b i Hipotezy te weryfikujemy testem t-studenta, gdzie funkcja testowa określona jest wzorem: bˆ i ti = = S bˆ i S bˆ 2 y / x1, x2,... xk i v ii. (3.19)
61 61 Błąd standardowy oceny i-tego, cząstkowego współczynnika regresji, wyznaczamy jako pierwiastek kwadratowy iloczynu średniego kwadratu odchyleń od modelu regresji pomnożonego przez element diagonalny macierzy odwrotnej do macierzy V: S 2 bˆ = S y / x, x,..., x i 1 2 k v ii (3.20) Statystyka określona wzorem 3.19 ma, przy prawdziwości hipotezy zerowej, rozkład t-studenta z liczbą stopni swobody = n k 1. W sytuacji, gdy wartość empiryczna v E statystyki t znajduje się w obszarze krytycznym dla H 0, to hipotezę odrzucamy. Tym samym i-ta zmienna niezależna powinna pozostać w modelu funkcji regresji. W sytuacji odwrotnej (wartość empiryczna statystyki t znajduje się w obszarze dopuszczalnym dla H 0 ) nie mamy podstaw do jej odrzucenia, co powinno być równoważne z tym, że i-ta zmienna niezależna x i może być usunięta z modelu funkcji regresji. Problem określenia, które zmienne niezależne powinny pozostać w modelu funkcji regresji powinien być prosty. W praktyce jest jednak zupełnie inaczej, a cała trudność wynika z faktu, że oceny z próby poszczególnych cząstkowych współczynników regresji nie są niezależne. Tym samym również statystyki t zdefiniowane wzorem 3.19 nie są niezależne, co w konsekwencji może prowadzić do zupełnie (pozornie) niezrozumiałych rozstrzygnięć. Może tak się zdarzyć, że testem F Fishera odrzucimy hipotezę o istotności regresji, czyli co najmniej jedna zmienna niezależna powinna pozostać w modelu funkcji regresji. Weryfikując jednak serię hipotez o istotności kolejnych cząstkowych współczynników regresji możemy nie być w stanie odrzucić żadnej z nich, co powinno sugerować, że wszystkie zmienne powinny być usunięte z modelu funkcji regresji. Może tak się dziać wtedy, gdy zmienne niezależne są silnie wzajemnie z sobą powiązane (co można stwierdzić wyznaczając choćby współczynniki korelacji liniowych między parami zmiennych). W takiej sytuacji decydowanie o tym, które zmienne mają pozostać w modelu w oparciu o weryfikację serii hipotez określonych wzorem 3.18 nie wchodzi w rachubę. Działanie takie, jak przedstawione powyżej jest poprawne wtedy tylko, gdy zmienne niezależne (objaśniające) X są wzajemnie niezależne, czyli wtedy, gdy macierz V jest macierzą diagonalną. W każdej innej sytuacji (a tak jest najczęściej) musimy szukać innej metody pozwalającej na optymalne dobranie zmiennych w modelu. Przed jej wprowadzeniem przedstawię jeszcze miary dobroci dopasowania modelu. Podobnie jak w przypadku regresji liniowej jednej zmiennej niezależnej możemy 2 wprowadzić współczynnik determinacji R określający stopień dopasowania modelu funkcji regresji do empirycznych wartości zmiennej losowej Y: k bˆ x y i i cov 2 i R = =1. (3.21) var y
62 62 2 Współczynnik determinacji R informuje nas o tym, jaka część zmienności całkowitej zmiennej losowej Y jest wyjaśniona przez zmienne niezależne uwzględnione w modelu funkcji regresji. 2 Współczynnik determinacji R przyjmuje swoje wartości z przedziału < 0 ; 1 >, z tym, że najczęściej wyrażamy go w procentach <0%; 100%>. Kolejną miarą dobroci dopasowania modelu jest współczynnik korelacji wielokrotnej R definiowany jako pierwiastek kwadratowy ze współczynnika determinacji: k bˆ x y i i cov 2 i R = R = =1 (3.22) var y Współczynnik korelacji wielokrotnej R przyjmuje swoje wartości z przedziału < 0 ; 1 >, im model jest lepiej dopasowany, tym R jest bliższe wartości 1. Istotnym parametrem określającym dobroć dopasowania modelu jest średni kwadrat odchyleń wartości obserwowanych i teoretycznych (reszt) kwadrat odchyleń jest mniejszy, tym model jest lepiej dopasowany. Wielkość S 2 y / x1, x2,..., xk błąd wartości regresyjnej i błąd predykcji Regresja krokowa S 2 y / x1, x2,..., xk. Im ten średni wpływa także na błędy estymacji parametrów modelu oraz Konsekwencją tego, że zmienne niezależne są skorelowane jest niemożność określenia w jednym kroku, w wyniku zweryfikowania serii hipotez o istotności cząstkowych współczynników regresji, zestawu tych zmiennych niezależnych, które powinny pozostać w modelu funkcji regresji. Oznacza to konieczność wypracowania innej metody pozwalającej na określenie najlepszego zestawu zmiennych niezależnych. Jedną z takich metod jest regresja krokowa. W teorii statystyki znane są dwie wersje tej metody: jedna z nich polega na dodawaniu zmiennych niezależnych, a druga na usuwaniu zmiennych (regresja krokowa wsteczna). Ja zaproponuję Czytelnikom tego skryptu regresję krokową wsteczną. Metodę doboru modelu funkcji regresji metodą regresji krokowej wstecznej można przedstawić w kilku punktach: 1. Określamy wyjściowy, maksymalny zestaw zmiennych niezależnych w modelu funkcji regresji i estymujemy ten model (krok 1). 2. Z modelu funkcji regresji eliminujemy tę zmienną niezależną, dla której wartość bezwzględna statystyki t-studenta dla weryfikacji hipotez o istotności
63 63 cząstkowych współczynników regresji jest najmniejsza (tym samym krytyczny poziom istotności jest największy). 3. Ponownie estymujemy model funkcji regresji i przechodzimy do p Krok 2 i 3 trwają tak długo, dopóki w modelu funkcji regresji nie pozostaną tylko istotne zmienne niezależne. W trakcie wykonywania regresji krokowej powinniśmy obserwować zmianę średniego kwadratu odchyleń od modelu funkcji regresji - determinacji 2 R. s 2 y / x 1 ;...; x2 oraz współczynnika W regresji krokowej wstecznej w każdym kroku zmniejszamy liczbę zmiennych w modelu, co w konsekwencji musi zmniejszać wartość współczynnika determinacji. W sytuacji, gdy z modelu usuwamy zmienną nieistotną, to zmniejszenie współczynnika determinacji jest minimalne (nieznaczące). Usunięcie nieistotnej zmiennej niezależnej z modelu funkcji regresji powoduje zwiększenie o jeden liczby stopni swobody dla zmienności resztowej, co w połączeniu z faktem, że nastąpiło nieznaczne zwiększenie sumy kwadratów odchyleń dla zmienności resztowej powoduje zmniejszenie średniego kwadratu odchyleń od modelu funkcji regresji, a o to także chodzi w regresji krokowej. Reasumując, celem regresji krokowej jest pozostawienie w modelu funkcji regresji minimalnego zestawu zmiennych niezależnych przy jednoczesnej maksymalizacji współczynnika determinacji i minimalizacji średniego kwadratu odchyleń od modelu regresji Dokładność ocen parametrów modelu Parametry modelu 3.3 są szacowane z próby losowej, tym samym ich oceny obarczone są pewnym błędem. Ocenę błędu standardowego cząstkowego, i-tego współczynnika regresji znajdziemy z wzoru: S 2 bˆ = S y / x, x,..., x i 1 2 k v ii dla i = 1, 2,..., k (3.23) co pozwala w konsekwencji na zbudowanie przedziału ufności dla prawdziwej wartości tego współczynnika w populacji generalnej: bi < bˆ i t n k S bˆ α, 1 ˆ ; i + tα, n k 1S ˆ > z P = 1 α. (3.24) bi b i Wyznaczenie oceny błędu standardowego stałej regresji jest trochę bardziej skomplikowane: S 2 ˆ S b y / x1, x2,..., x 0 k = A (3.25) 0
64 64 gdzie wielkość A 0 wyznaczana jest z wzoru: 1 T 1 [ + D V ] 1 0 = 1 1 D n n 1 A. (3.26) T Wektor D1 występujący we wzorze 3.26 jest wektorem sum zmiennych niezależnych wyznaczonych na podstawie n-elementowej próby losowej: T n n n D = = = 1 x j j x j j x j = 1 kj. (3.27) Przedział ufności dla stałej regresji w populacji generalnej znajdziemy z wzoru: b0 < bˆ 0 t ˆ α, n k 1S ˆ ; b0 + tα, n k 1S ˆ > z P = 1 α. (3.28) b0 b0 Interpretacja zbudowanych zgodnie ze wzorami 3.24 i 3.28 przedziałów ufności dla cząstkowych współczynników regresji i stałej regresji jest standardowa: zbudowany przedział liczbowy pokrywa nieznany parametr z prawdopodobieństwem 1 α Prognozowanie w regresji wielokrotnej Podobnie jak w przypadku regresji liniowej jednej zmiennej niezależnej wyestymowany model funkcji regresji można wykorzystać do wyznaczenia teoretycznej wartości zmiennej losowej Y dla ustalonego wektora wartości zmiennych niezależnych X. Zgodnie z przyjętym modelem średnią wartość zmiennej losowej Y dla ustalonych x 0 = x10 x20... xk0 znajdziemy z wzoru: wartości zmiennych niezależnych [ ] bˆ k mˆ 0 ( x 0) = [ 1 x ] = + i b ˆ 0 0 b ˆ = i x 1 i0. (3.29) ˆ B Wyznaczona zgodnie z powyższym wzorem wartość regresyjna jest oczywiście losowa, bo losowe są oceny parametrów modelu. Standardowy błąd estymacji wartości regresyjnej możemy wyznaczyć z wzoru: 1 [ 1 x ] V [ x ] T 2 Smˆ ( x ) sy / x ;...; xk gdzie macierz V = (3.30) V0 1 jest macierzą blokową postaci: A D D = T 1 2 V. (3.31) Wyrażenie (liczba) A 0 zostało już wcześniej określone wzorem 3.26, a wektor D 2 znajdziemy z wzoru: i
65 65 D 2 1 n = D V 1 1 (3.32) gdzie wektor D 1 był już określony wzorem 3.27 jako wektor sum obserwacji dla zmiennych niezależnych. Wykorzystując wartość regresyjną określoną wzorem 3.29 oraz błąd standardowy tej oceny dany wzorem 3.30 budujemy przedział ufności dla wartości regresyjnej: m x ) < mˆ ( x0) tα, n k 1Smˆ ( x ); mˆ ( x0) + tα, n k 1Smˆ ( ) > z P = 1 α. (3.33) ( 0 0 x 0 Przejdziemy teraz do prognozowania nie wartości średniej zmiennej losowej Y, lecz do prognozowania pojedynczej realizacji tej zmiennej, a to jest właśnie przedmiotem klasycznej predykcji. Zgodnie z modelem liniowym wartość tę wyznaczymy z wzoru: b y x = B 0 [ 1 x ] e ˆ 0 a jej najlepszym estymatorem jest wartość regresyjna m ( x ). (3.34) Błąd prognozy pojedynczej realizacji zmiennej losowej Y (błąd predykcji) jest sumą nieskorelowanych błędów odchyleń od modelu funkcji regresji i błędu estymacji wartości regresyjnej: 1 [ 1+ [ 1 x ] [ ] ] T 0 V0 x P 2 S( yx ) sy / x ;...; x k 0 = (3.35) Podobnie jak w przypadku wartości regresyjnej możemy wyznaczyć przedział ufności dla prawdziwej wartości zmiennej losowej Y przy ustalonych wartościach x 0 zmiennych niezależnych: y P x0 0, n k 1 0 0, n k 1 < mˆ ( x ) tα S( yx ); mˆ ( x ) + tα S( yx ) > z P = 1 α. (3.36) P 0
66 Regresja wielokrotna przykłady Liniowa funkcja produkcji Interesuje nas opisanie zależności między wielkością zbioru zbóż w tys. ton (zmienna objaśniana y) a takimi czynnikami produkcji jak: x - liczba pracujących w rolnictwie w tys. osób; 1 x - wielkość użytków rolnych w tys. hektarów; 2 x - liczba ciągników w tys. sztuk; 3 x - średnie zużycie nawożenia NPK w kg/ha. 4 Dane empiryczne (z rocznika GUS z pewnego roku opisujące wartość tych cech w dawnych województwach) zebrano w arkuszu Dane skoroszytu AnalizaProdukcji. Fragment tych danych pokazany jest poniżej. Jednym z najprostszych modeli opisujących zależność między zmienną y a zmiennymi charakteryzującymi czynniki produkcji może być funkcja liniowa postaci: y = f ( x = b + b x + b x + b x + b x. 1, x2, x3, x4) Estymację parametrów tego modelu jak i badanie wszystkich niezbędnych założeń możemy przeprowadzić przy pomocy procedury Regresja wielokrotna z menu Regresja udostępnianej przez skoroszyt StatystykaJG.xls. Po wywołaniu tej procedury zostanie wyświetlone jej okno dialogowe, w kolejnych zakładkach informujemy procedurę o: 3 3 obszarze arkusza zawierającym dane empiryczne, miejscu zwrócenia wyników estymacji, zamiarze wykonania predykcji, dokładności wydruku danych oraz założonym poziomie ufności zakładka Dane wejściowe; rodzaju wykresów, które mają być wykonane zakładka Grafika; 4 4
67 67 weryfikacji założeń, które mają być wykonane zakładka Badanie założeń. Poniżej widok tych trzech zakładek w odniesieniu do naszego przykładu.
68 68 Po zatwierdzeniu wprowadzonych informacji przyciskiem OK procedura wyświetla kolejne okno dialogowe, w oknie tym musimy określić rolę poszczególnych zmiennych w naszym problemie. Klik przycisku OK uruchamia proces estymacji parametrów modelu metodą regresji krokowej, poniżej widok formularza zwracającego wyniki pierwszego kroku tej metody. W górnej części formularza wyświetlone są wyniki weryfikacji hipotezy o istotności regresji H : b 0 wobec H : b 0, gdzie j = 1, 2,..., k jest wskaźnikiem zmiennej 0 j = j 1 j j niezależnej. W tym pierwszym kroku estymowany był model zawierający cztery zmienne niezależne, jak widzimy hipotezę H0 musimy odrzucić (p-value mniejsze od α = 0, 05 ) na korzyść alternatywy, co oznacza, że co najmniej jeden z cząstkowych współczynników regresji jest różny od zera. W lewym dolnym narożniku wyświetlane są wyniki estymacji hipotez zerowych o tym, że konkretny, j-ty współczynnik regresji jest równy zero: H : 0 wobec 0 j b j = alternatywy H : 0. Kolejno podane są nazwy zmiennych, oceny cząstkowych 1 j b j
69 69 współczynników regresji, wartości empiryczne statystyki t-studenta dla H 0 oraz krytyczne poziomy istotności. W naszym przykładzie widzimy, że wszystkie cztery zmienne niezależne muszą pozostać w modelu, ponieważ w każdym przypadku musimy odrzucić hipotezę zerową na korzyść alternatywy. Oznacza to, że dobór modelu jest zakończony i poprzez klik przycisku Model jest dobrany możemy uruchomić proces zwracania wyników estymacji. Gdyby było inaczej (czyli nie mielibyśmy podstaw do odrzucenia co najmniej jednej hipotezy szczegółowej), to wiersz odpowiadający największemu p-value byłby podświetlony, a przycisk Usuń zmienną i przelicz model byłby aktywny. Jego klik spowodowałby usunięcie z modelu wskazanej zmiennej i ponowną estymację modelu. Postępowanie takie trwałoby tak długo, dopóki w modelu nie pozostałyby tylko te zmienne, które istotnie wpływają na kształtowanie zmiennej objaśnianej. Jeżeli w zakładce Grafika została zaznaczona opcja Wartości obserwowanych zmiennej zależnej względem wybranych zmiennych niezależnych, to kolejno będą wyświetlane okna dialogowe z prośbą o podjęcie decyzji co do wykonania lub nie takiego wykresu. Analogicznie, jeżeli było zaznaczone pole wyboru Wartości reszt losowych względem wybranych zmiennych niezależnych, to wyświetlane są okienka dialogowe z prośbą o decyzję. Jeżeli w zakładce Badanie założeń została zaznaczona opcja Losowości reszt losowych wobec wybranej zmiennej niezależnej, to także będą wyświetlane okienka z prośbą o podjęcie decyzji co do wykonania takiego badania dla tych wszystkich zmiennych, które pozostały w modelu. W naszym rozwiązaniu wyniki estymacji zostały zwrócone do nowego arkusza, na potrzeby tej publikacji nazwanego ModelLiniowy. Poniżej widok fragmentu tego
70 70 arkusza pokazujący wyniki badania założeń (dane z kolumn R-U oryginalnie były ustawione w kolumnach M-P). Jak widzimy spośród pięciu badanych założeń zastrzeżenia są wobec sposobu uwzględnienia zmiennej x 1 w modelu funkcji regresji. Test serii wskazuje, że powinniśmy poszukać innej postaci tej zmiennej niż liniowa. Na dalszym etapie zobaczymy, czy będzie to możliwe. W obszarze A3:G9 mamy oceny parametrów modelu i błędy standardowe tych ocen oraz 95% przedziały ufności dla prawdziwych wartości tych parametrów. Zgodnie z tym, co już wiemy (z przebiegu regresji krokowej) wszystkie cztery cząstkowe współczynniki regresji są różne od zera.
71 71 W obszarze A11:E14 mamy wyniki weryfikacji hipotezy o nieistotności regresji, jak widzimy hipotezę tę musimy odrzucić na korzyść alternatywy, co oznacza, że istnieje istotny związek funkcyjny między wielkością zbioru zbóż a czterema zmiennymi objaśniającymi. Warto zwrócić uwagę na komórkę C14, jest tam podany średni kwadrat odchyleń od modelu i jest to wartość bardzo duża, niestety. Jest to ocena odchylenia standardowego pojedynczego wyniku próby (wielkości zbioru zbóż) od wartości teoretycznej wyznaczonej z wyestymowanego modelu. Wartościowo wynik 107,2454 tys. ton jest bardzo duży i stawia pod znakiem zapytania przydatność wyestymowanego modelu do wykonania prognozy. Potwierdzeniem tych obaw jest także wielkość współczynnika determinacji wynik 82,3 % nie jest zbyt duży. Poniższy wykres rozrzutu obserwowanych i teoretycznych wielkości zbioru zbóż jest kolejnym potwierdzeniem naszych obaw co do przydatności modelu (liniowego) do prognozowania. Wartości teoretyczne i obserwowane zmiennej zależnej Jedną z możliwych przyczyn takiej sytuacji jest fakt, że uwzględnienie w modelu zmiennej x 1 w pierwszej potędze nie jest najlepszym rozwiązaniem. Wcześniej widzieliśmy, że test serii w odniesieniu do tej zmiennej sugerował zmianę modelu, jednak bez żadnej sugestii jak ta zmienna powinna być uwzględniona w modelu funkcji regresji. Pomocne mogą być dwa pokazane niżej wykresy. Wartości zmiennej y względem zmiennej x
72 72 Wartości reszt względem zmiennej x Pierwszy z nich pokazuje rozrzut obserwowanych wielkości zbioru zbóż względem wartości zmiennej x 1, drugi pokazuje rozrzut reszt losowych względem tej zmiennej. Niestety, żaden z tych dwóch wykresów nie dostarcza jednoznacznych informacji odnośnie sposobu reprezentowania zmiennej x1 w modelu funkcji regresji. Wydaje się, że wpływ tej zmiennej na kształtowanie wielkości zbioru zbóż jest znacznie bardziej skomplikowany niż wpływ liniowy, logarytmiczny czy pierwiastkowy. Tak jak napisaliśmy wyżej wykorzystanie wyestymowanej funkcji linowej do wykonania prognozy jest możliwe, ale będzie obarczone dość dużym błędem. Dla zilustrowania tej sytuacji powiedzmy, że chcemy dokonać analizy funkcji produkcji w punkcie o współrzędnych: x 1 = 80 (liczba zatrudnionych w rolnictwie w tys. osób); x 2 = 380 (użytki rolne w tys. hektarów); x 3 = 27 (liczba ciągników w tys. sztuk); x 4 = 78 (kg NPK na 1 hektar użytków rolnych). Zgodnie z wyestymowanym modelem mamy: yˆ = mˆ (80, = 536,92 380, 27, 78) = 121,14 3, , , ,93 78 = Jeżeli chcemy znać błąd standardowy tak oszacowanej wielkości zbioru zbóż, to musimy skorzystać z procedury Prognozowanie z menu Regresja skoroszytu StatystykaJG. Poniżej widok arkusza WynikiLiniowy z wyznaczoną prognozą w podanym x = x x x x punkcie [ ] [ ] =
73 73 W komórce M86 wyliczono względny błąd predykcji ex ante. Jak widzimy jest to bardzo duży błąd, a jego sens jest taki, że nasza prognoza obarczona jest ponad 20-to procentowym błędem. W kolejnym przykładzie spróbujemy zaproponować trochę inny model funkcji produkcji, być może będzie on bardziej dokładny niż klasyczny model liniowy Potęgowa funkcja produkcji (Cobba-Douglasa) W poprzednim przykładzie estymowaliśmy liniową funkcję produkcji opisującą wielkość produkcji zbóż od czterech czynników produkcji. Efekt estymacji był niezadawalający, co mogło być spowodowane złą konstrukcją modelu. W tym przykładzie zmienimy model z liniowego na model potęgowy postaci: b1 b2 b3 b4 0x1 x2 x3 x4 y = b. Model ten znany jest w literaturze przedmiotu pod nazwą funkcji produkcji Cobba- Douglasa. Estymacja tego modelu wymaga jego linearyzacji, logarytmując obustronnie przy podstawie naturalnej otrzymujemy formalny model liniowy: ln( y ) = ln( b0 ) + b1 ln( x1 ) + b2 ln( x2) + b3 ln( x3) + b4 ln( x4) którego parametry możemy już szacować metodą najmniejszych kwadratów. Przeprowadzimy taką estymację, a w przypadku uzyskania lepiej dopasowanego modelu niż w przypadku liniowej funkcji produkcji przeprowadzimy jej analizę w punkcie x = x x x x [ ] [ ] = Prace nad estymacją zaczynamy od transformacji danych wyjściowych tak, aby otrzymać ich logarytmy naturalne. Poniżej widok arkusza DaneCobba, do którego skopiowano dane oryginalne, a następnie w obszarze kolumn H-L wpisane zostały formuły transformujące dane wyjściowe wg logarytmu, aktywna komórka pokazuję tę formułę dla transformacji cechy y-ek.
74 74 Po dokonaniu transformacji możemy już wywołać procedurę Regresja wielokrotna z menu Regresja dostępną po otwarciu skoroszytu StatystykaJG.xls. W polu Obszar danych wejściowych wskazujemy obszar H2:L51. W zakładkach Grafika oraz Badanie założeń zaznaczamy te same opcje, co w poprzednim przykładzie i przechodzimy do określenia roli zmiennych w modelu funkcji regresji. Po wskazaniu zmiennej lny jako zależnej, a pozostałych jako zmiennych niezależnych uruchamiamy estymację parametrów modelu wykonując pierwszy krok regresji krokowej poprzez klik przycisku OK. Okazuje się, że pierwszy krok regresji krokowej jest także krokiem ostatnim model mamy dobrany, wszystkie zmienne są potrzebne w modelu. Warto zauważyć, że model potęgowy jest dość dobrze dopasowany, współczynnik determinacji jest rzędu 88,7%, czyli znacznie lepiej niż wtedy, gdy rozpatrywaliśmy liniową funkcję produkcji.
75 75 Klik przycisku Model jest dobrany zwraca wyniki estymacji do nowego arkusza (później jego nazwa została zmieniona na WynikiCobbaDouglasa). Jak widzimy wszystkie założenia z wyjątkiem tego, który dotyczył poprawnego doboru modelu dla zmiennej ln( x 1 ) są spełnione. W przypadku zmiennej ln( x 1 ) test serii sugeruje zmianę modelu, podobnie jak w przypadku liniowej funkcji produkcji może to być dość trudne. Ilustracją tych trudności może być pokazany niżej wykres rozrzutu wartości zmiennej lny jako funkcji zmiennej ln( x 1 ).
76 76 Wartości zmiennej lny względem zmiennej lnx1 7,3 6,8 6,3 5,8 5,3 4,8 3,0 3,5 4,0 4,4 4,9 5,4 Zarówno wykres powyższy jak i pokazany niżej wykres reszt modelu względem zmiennej ln( x 1 ) nie dają prostej odpowiedzi na pytanie, jak zmienna ln( x 1 ) powinna być uwzględniona w modelu funkcji regresji. 0,4 Wartości reszt względem zmiennej lnx1 0,2 0,0 3,0 3,5 4,0 4,4 4,9 5,4-0,1-0,3-0,5 Jak wspomniano wcześniej model potęgowy funkcji produkcji jest znacznie lepiej dopasowany niż model liniowy. Potwierdza to poniższy wykres pokazujący obserwowane i teoretyczne wielkości zbioru zbóż. Wartości teoretyczne i obserwowane zmiennej zależnej 7,0 6,6 6,1 5,7 5,2 4,8 4,8 5,3 5,8 6,3 6,8 7,3
77 77 W obszarze A1:G17 procedura zwróciła pozostałe wyniki estymacji modelu potęgowego, znajdziemy tu oszacowania poszczególnych parametrów modelu i ich błędy, dolne i górne granice przedziałów ufności dla prawdziwych wartości tych parametrów oraz wartości empiryczne testu t-studenta i krytyczne poziomy istotności dla weryfikacji hipotez zerowych o tym, że dany parametr jest równy zero. W wierszach mamy wyniki weryfikacji hipotezy o istotności regresji, w połączeniu z danymi z obszaru G5:G9 możemy stwierdzić, że istnieje istotny, liniowy związek funkcyjny między logarytmem naturalnym wielkości zbioru zbóż a uwzględnionymi w modelu logarytmami naturalnymi czterech czynników produkcji. W komórce F14 zostało doliczone odchylenie standardowe reszt, można je zinterpretować następująco: średnie odchylenie między obserwowanymi wartościami zmiennej zależnej a ich odpowiednikami teoretycznymi w badanej próbie jest rzędu 0,17984 jednostek (pamiętajmy o tym, że zmienna zależna to logarytm naturalny wielkości produkcji zbóż). W komórce B17 mamy wyznaczony współczynnik determinacji, można podać taką jego interpretację: zmienność logarytmu naturalnego wielkości zbioru zbóż jest w 88,7% wyjaśniona wpływem badanych zmiennych niezależnych (logarytmów czynników produkcji). Pierwszym krokiem analizy funkcji produkcji w punkcie x 0 jest wyznaczenie teoretycznej wartości zmiennej zależnej w tym punkcie. My wykorzystamy procedurę Prognozowanie, co da nam nie tylko wartość teoretyczną (średnią), lecz także błędy prognozy. Punkt x 0, w którym dokonamy analizy ma współrzędne x 0 = [ ], musimy więc w arkuszu WynikiCobbaDouglasa przygotować odpowiedni obszar danych. W obszarze B84:E85 wpisane zostały oryginalne współrzędne punktu 0 x, ale z uwagi na postać estymowanego modelu będą nam potrzebne logarytmy naturalne tych liczb. W obszarze B87:E88 zostały wpisane stosowne etykiety oraz formuły wyliczające logarytmy z komórek obszaru B85:E85.
78 78 Można już wywołać procedurę Prognozowanie i wskazać wszystkie potrzebne obszary danych, tak jak jest to pokazane niżej. Klik przycisku OK wyprowadza wyniki prognozy na prawo od obszaru zmiennych, dla których ta prognoza jest ustalana. Musimy pamiętać, że procedura zwraca wyniki prognozy dla takiej zmiennej zależnej, jaka była uwzględniona w modelu. W naszym przypadku to jest logarytm naturalny wielkości zbioru zbóż, a nie sama wielkość zbioru zbóż! Jeżeli chcemy mieć oryginalne wartości zmiennej zależnej, to musimy retransformować dane, w tym wypadku będziemy korzystać z funkcji EXP arkusza. Poniżej widok arkusza z wynikami prognozy (obszar F87:M88). Przy retransformacji musimy uważać na poprawność retransformacji błędów standardowych, wynik podany wyżej w komórce J92 nie powstał w wyniku retransformacji błędu predykcji z J88, ale został wyliczony z przedziału ufności dla predykcji. Z wyznaczonej prognozy wynika, że średnia wielkość zbioru zbóż w zadanym punkcie x 0 jest równa 507,24 tys. ton, tę wielkość możemy dalej wykorzystać do analizy funkcji produkcji.
79 Zmienne dychotomiczne, szereg addytywny W przykładzie tym zajmiemy się zbudowaniem modelu regresyjnego opisującego wielkość połowów ryb obserwowanych w kwartałach lat w pewnym przedsiębiorstwie rybackim. Uzyskane dane empiryczne zapisane są w arkuszu Dane skoroszytu PolowyRyb. Poniżej widok fragmentu tego arkusza, w kolumnie C dodano zmienną dyskretną t=czas, w rezultacie dane z obszaru C8:D24 tworzą szereg czasowy (chronologiczny). Szereg ten został także pokazany graficznie na wykresie typu XY, gdzie punkty empiryczne połączono prostymi. Analizując przebieg badanego zjawiska widzimy, że poza trendem zjawiska (zapewne liniowym) obserwujemy jeszcze regularne wahania kwartalne, tym samym możemy przyjąć, że składniki tego szeregu sumują się, inaczej mówiąc jest to szereg addytywny. Schematycznie można go zapisać jak niżej: Y = T + W + R gdzie Y to obserwowana wielkość połowów, T to trend zjawiska, W oznacza wahania okresowe, a R jest symbolem reszt losowych. Jako trend zjawiska będziemy rozpatrywali jakąś funkcję czasu, najczęściej będzie to funkcja liniowa ( T 0 1 ( t) = b + b t ) lub jakaś funkcja krzywoliniowa (np. = b b t ). T Oddzielnym problem jest takie zdefiniowanie symbolu W, aby reprezentował wpływ poszczególnych podokresów cyklu wahań okresowych. W przypadku szeregu addytywnego można zdefiniować wartości symbolu W jako 0 lub 1 wg zasady: 1 jest wtedy, gdy dana obserwacja dotyczy danego podokresu, a 0 w pozostałych przypadkach. Tak określone zmienne noszą nazwę zmiennych dychotomicznych. Warto zauważyć, że w szeregu addytywnym suma wartości zmiennych dychotomicznych dla danej obserwacji jest zawsze równa 1, tym samym wartości jednej z tych zmiennych są liniową kombinacją pozostałych. Z tego powodu w modelu funkcji regresji
80 80 nie możemy wykorzystać kompletu zmiennych dychotomicznych, lecz zawsze o jedną mniej (inaczej nie istnieje jednoznaczne rozwiązanie układu równań normalnych). Na pokazanym wyżej fragmencie arkusza Dane w obszarze E8:G24 utworzono pierwsze trzy zmienne dychotomiczne opisujące wpływ poszczególnych kwartałów. W przypadku korzystania z procedur skoroszytu StatystykaJG ręczne tworzenie zmiennych dychotomicznych nie jest konieczne, procedura Regresja wielokrotna może takie zmienne utworzyć automatycznie. Ostatecznie będziemy estymować model postaci: y ( t) = b + b t + b D + b D + b D gdzie D1, D2, D3 oznaczają kolejne zmienne dychotomiczne. Odejście od oznaczeń K1, K2 i K3 wynika jedynie z tego, że zmienne dychotomiczne utworzymy automatycznie w procedurze Regresja wielokrotna, a takie właśnie oznaczenia tych zmiennych są tworzone w tej procedurze. Po wyestymowaniu modelu wykorzystamy go do wyznaczenia prognozowanych wielkości połowów ryb w kwartałach kolejnego roku. Oczywiście prognoza będzie wykonana jedynie wtedy, jeżeli uzyskamy dobre dopasowanie modelu i spełnione będą trzy główne założenia wymagane przez metodę najmniejszych kwadratów. Przygotujemy także stosowne wykresy pokazujące szereg oryginalny i teoretyczny, a także dokładny wykres prognozowanych wielkości połowów w kolejnym roku wraz z granicami 95% przedziałów predykcji. Na zakończenie oszacujemy względne błędy prognozy. Poniżej widok zakładki Dane wejściowe okna dialogowego Regresja wielokrotna liniowa (krokowa), w kontrolce Obszar danych wejściowych został wskazany obszar C8:D24 (bez wcześniej wprowadzonych zmiennych dychotomicznych). Dla
81 81 automatycznego utworzenia zmiennych dychotomicznych musimy uaktywnić pole wyboru Tak/Nie w grupie Zmienne dychotomiczne, a następnie ustawić odpowiednią liczbę podokresów w cyklu wahań za pomocą kontrolki przewijaka w polu tekstowym Liczba podokresów. W pozostałych dwóch zakładkach włączamy wszystkie opcje w zakładce Badanie założeń oraz pierwszą opcję w zakładce Grafika, a następnie poprzez klik przycisku OK przechodzimy do kolejnego okna dialogowego. W oknie Wybór zmiennych określamy rolę poszczególnych zmiennych w modelu, proszę zauważyć, że obszar danych został powiększony o zmienne dychotomiczne (o czym świadczą etykiety tych zmiennych). Po uruchomieniu estymacji modelu w kolejnym oknie dialogowym mamy wyświetlone rezultaty pierwszego kroku regresji krokowej. Jak widzimy cały model jest istotny statystycznie, współczynnik determinacji jest stosunkowo wysoki, ale zmienna dychotomiczna D(1) jest wskazana jako ta, która powinna być usunięta z zestawu zmiennych objaśniających.
82 82 Po kliknięciu przycisku Usuń zmienną i przelicz model zmienna D(1) jest usuwana z modelu i następuje ponowna estymacja parametrów. Poniżej rezultaty drugiego kroku regresji krokowej. Jak widzimy model jest istotny, a wszystkie zmienne pozostają w modelu. Klik przycisku Model jest dobrany uruchamia proces zwracania wyników estymacji. Ponieważ zaznaczona była opcja weryfikacji hipotez o poprawności doboru modelu względem poszczególnych zmiennych, to będą wyświetlane takie okna, jak pokazane niżej. W przypadku zmiennej czas takie badanie powinno być wykonane, ponieważ na etapie konstrukcji modelu nie mamy pewności co do tego, że trend zjawiska można opisać funkcją liniową czasu. W przypadku zmiennych dychotomicznych weryfikacja hipotez o poprawności doboru modelu nie ma sensu z prostego powodu: jest to zmienna dwuwartościowa (0 lub
83 83 1), żadna funkcja poza liniową nie wchodzi w rachubę, a o tym, czy dana zmienna jest potrzebna czy nie decyduje regresja krokowa. Procedura regresji krokowej nie wie jednak, że chodzi o zmienną dychotomiczną, stąd okienko jak niżej. Odpowiadamy oczywiście Nie dla tej i pozostałych zmiennych dychotomicznych. Po zakończeniu odpytywania użytkownika o to, czy dane badanie (lub wykres) robić czy nie, procedura wyprowadza wyniki estymacji albo do nowego arkusza, albo od wskazanej komórki. W omawianym przykładzie wyniki estymacji wyprowadzane są do nowego arkusza, którego nazwa została później zmieniona na ModelTendencji. Poniżej fragment tego arkusza z wynikami weryfikacji założeń oraz z wykresem pokazującym rozrzut wartości obserwowanych i teoretycznych wynikających z wyestymowanego modelu. Wykres ten jest graficzną ilustracją dobroci dopasowania modelu do danych empirycznych. W idealnej sytuacji punkty te powinny się ułożyć na przekątnej wykresu. Jak widzimy, nie jest to sytuacja idealna (niemożliwa w praktyce), ale widać dość dobre dopasowanie modelu. Od kolumny M zostały zwrócone wyniki badania założeń, jak widzimy spełnione są wszystkie trzy badane założenia: trend jest liniowy, reszty losowe są normalne oraz autokorelacja I rzędu jest nieistotna. Oznacza to, że oceny parametrów modelu uzyskane metodą najmniejszych kwadratów są nieobciążone, tym samym mamy prawo wykorzystać wyestymowany model do prognozowania. Poniżej fragment arkusza ModelTendencji pokazujący oszacowania parametrów modelu (B4:B8), błędy tych ocen (C4:C8), dolne i górne granice przedziałów ufności dla
84 84 prawdziwych wartości tych parametrów (D4:E8), wartości empiryczne statystyki t-studenta dla hipotez zerowych o tym, że dany parametr jest zerowy (F4:F8) oraz krytyczne poziomy istotności dla tych hipotez (G4:G8). Proszę zauważyć, że z uwagi na powiązanie zmiennej czas i zmiennych dychotomicznych nie jest możliwa interpretacja ocen parametrów tych zmiennych. W klasycznej regresji wielokrotnej mówimy, że cząstkowy współczynnik regresji bˆ j mówi nam o tym, o ile średnio zmieni się zmienna objaśniana przy wzroście j-tej zmiennej x o jednostkę pod warunkiem, że pozostałe zmienne niezależne nie ulegną zmianie. W naszym przypadku nie ma takiej możliwości, aby zmienna np. czas wzrosła o jednostkę, a jednocześnie zmienne dychotomiczne nie uległy zmianie! Podobnie, zmiana wartości dowolnej zmiennej dychotomicznej pociąga zmianę pozostałych zmiennych jak i czasu. Przykładowo omówimy wyniki estymacji współczynnika ˆb 1 stojącego przy zmiennej czas: ocena tego parametru jest równa 1,19, a błąd tej oceny jest równy ± 0,14. Korzystając z przedziału ufności dla prawdziwej wartości tego parametru mamy: z prawdopodobieństwem 0,95 mamy prawo oczekiwać, że prawdziwa wartość tego parametru jest nie mniejsza niż 0,88, ale nie większa niż 1,50. Weryfikowana jest hipoteza H 0 : b 1 = 0 wobec alternatywy H 1 : b 1 0, weryfikacja bˆ 1 1,19 przy pomocy statystyki t-studenta, gdzie t emp( b 8, 40 1 ) = =. Ponieważ krytyczny S 0,14 poziom istotności dla weryfikowanej hipotezy jest mniejszy od α = 0, 05, to hipoteza zerowa musi być odrzucona na korzyść alternatywy. Oznacza to, że czas (linowo) istotnie wpływa na wielkość połowów. W obszarze A10:E13 mamy wyniki weryfikacji hipotezy o nieistotności modelu regresji, a w obszarze A15:B16 wartości współczynników korelacji (wielokrotnej) i determinacji. Temu ostatniemu współczynnikowi można nadać taką interpretację: zmienność wielkości połowu ryb w 95,5% jest wyjaśniona zmiennymi uwzględnionymi w modelu. bˆ 1
85 85 Pozostaje nam wykonanie prognozy, a ten etap pracy zaczniemy od umieszczenia w arkuszu ModelTendencji macierzy zmiennych niezależnych występujących w modelu. W pokazanej niżej sytuacji w obszarze E51:G71 zostały umieszczone wartości zmiennej czas oraz wartości zmiennych dychotomicznych D(2) i D(3) dla wartości t od 1 do 20. Ostatnie cztery wiersze (t=17 do t=20) odpowiadają temu okresowi, dla którego chcemy szacować przyszłe wartości połowów ryb. Wartości zmiennych niezależnych od t=1 do t=16 wykorzystamy do wyznaczenia teoretycznych wielkości połowów ryb w okresie czasu, w którym dysponujemy rzeczywistymi wielkościami połowów. Dane te będą nam potrzebne do pokazania teoretycznych i obserwowanych wartości zmiennej objaśnianej w funkcji czasu. Poniżej widok okna dialogowego procedury Prognozowanie ze wskazanymi obszarami arkusza ModelTendencji zawierającymi informacje niezbędne dla wyznaczenia prognoz. Kolejno jest to obszar ocen współczynników regresji (B4:B8), obszar zawierający stopnie swobody i średni kwadrat odchyleń od modelu (A13:C13), obszar macierzy odwrotnej do V 0 (A18:D22) oraz obszar zmiennych niezależnych (E51:G71). Procedura wymaga, aby na początku każdego z tych obszarów była stosowna etykieta (stąd np. B4:B8 a nie B5:B8, podobnie A13:C13 a nie B13:C13 itd.). Klik przycisku OK powoduje wyznaczenie prognoz dla zadanych wartości zmiennych niezależnych. Poniżej widok fragmentu arkusza ModelTendencji z wynikami prognoz dla kolejnych czterech kwartałów 1999 roku. W kolumnie H mamy zwróconą wartość średnią zmiennej obserwowanej (tzw. wartość regresyjna), w kolumnie I błąd standardowy tej wartości, a w kolumnach J i K dolny i górny kraniec 95% przedziału ufności dla wartości regresyjnej. Kolumny L-N zawierają błąd standardowy oraz przedział ufności dla pojedynczej realizacji zmiennej objaśnianej. Wykorzystując dane z obszaru M68:N68 możemy powiedzieć, że z prawdopodobieństwem 0,95 mamy prawo oczekiwać,
86 86 że wielkość połowów ryb w I kwartale 1999 roku będzie nie mniejsza niż 38,43 jednostek, ale nie większa niż 51,61 jednostek. Błędy standardowe wartości regresyjnej (kolumna I) jak i predykcji (kolumna L) są oceną absolutną dokładności prognozy typu ex ante (bez znajomości rzeczywistej wartości zmiennej prognozowanej). W obszarze O68:O71 zostały wyprowadzone względne błędy prognozy ex ante. Błędy te informują nas o tym, że nasza prognoza może być obarczona błędem rzędu ca 4,8-6,8% w interesującym nas okresie czasu. Poniżej wykres teoretycznych i obserwowanych wielkości połowów ryb w okresie od t=1 do t=20. Wykres ten pokazuje dość dobre dopasowanie modelu dla pierwszych 16 punktów czasowych, a ostatnie cztery punkty (predykcja) powtarzają schemat zachowania się zmiennej objaśnianej w poszczególnych kwartałach. 80,00 70,00 Y teor. y(t) 60,00 50,00 40,00 30,00 20, Kolejny wykres pokazuje wyniki predykcji dla kolejnych kwartałów 1999 roku. Środkowa linia pokazuje najbardziej prawdopodobną, teoretyczną wielkość połowów ryb w badanym okresie, a dwie linie skrajne pokazują dolny i górny kraniec 95% przedziałów ufności dla spodziewanej wielkości połowów.
87 87 80,00 70,00 60,00 50,00 Y teor. Dgpred. Ggpred. 40,00 30, Zmienne dychotomiczne, szereg multiplikatywny W przykładzie tym zajmiemy się zbudowaniem modelu regresyjnego opisującego wielkość obrotów pewnej firmy w kolejnych miesiącach lat Uzyskane dane empiryczne zapisane są w arkuszu Dane skoroszytu ObrotyFirmy. Poniżej widok fragmentu tego arkusza, w kolumnie C dodano zmienną dyskretną t=czas, w rezultacie dane z obszaru C1:D61 tworzą szereg czasowy (chronologiczny). Szereg ten został także pokazany graficznie na wykresie typu XY, gdzie punkty empiryczne połączono prostymi. Analizując przebieg badanego zjawiska widzimy, że poza trendem zjawiska (liniowym lub krzywoliniowym) obserwujemy jeszcze wahania kwartalne, których skala jest proporcjonalna do wielkości badanego zjawiska. Z uwagi na tę cechę możemy przyjąć, że składniki tego szeregu nakładają się na siebie mnożnikowo, inaczej mówiąc jest to szereg multiplikatywny. Schematycznie można go zapisać jak niżej: Y = T W R
88 88 gdzie Y to obserwowana wielkość obrotów, T to trend zjawiska, W oznacza wahania okresowe, a R jest symbolem reszt losowych. Oddzielnym problem jest takie zdefiniowanie symbolu W, aby reprezentował wpływ poszczególnych podokresów cyklu wahań okresowych. W przypadku szeregu multiplikatywnego można zdefiniować wartości symbolu W jako liczba e lub 1 wg zasady: e jest wtedy, gdy dana obserwacja dotyczy danego podokresu, a 1 w pozostałych przypadkach. Wybór liczby e oraz 1 dla pozostałych podokresów wynika bezpośrednio z modelu multiplikatywnego postaci: b1 b2 b3 b y( t) = b t D D D d d gdzie y (t) oznacza wielkość obrotów w momencie t, b t opisuje trend zjawiska, D przedstawia zmienną dychotomiczną dla j-tego podokresu, a d jest liczbą podokresów. Warto zauważyć, że przyjęcie przez zmienną dychotomiczną wartości 1 jest w tym przypadku (szeregu multiplikatywnego) neutralne dla wartości y (t). Proszę także zauważyć, że estymacja parametrów powyższego modelu wymaga jego linearyzacji poprzez obustronne logarytmowanie. Z uwagi na wcześniejszy wybór liczby e będziemy logarytmować przy takiej właśnie podstawie. Otrzymamy model postaci jak niżej: ln y ( t) = ln b0 + b1 ln t + b2 ln D1 + b3 ln D b d ln Dd 1 który przedstawia klasyczny model regresji wielokrotnej liniowej. Warto zauważyć, że model ten jest analogiczny do modelu z poprzedniego przykładu: logarytm zmiennych dychotomicznych jest równy 1, jeżeli obserwacja dotyczy danego podokresu lub 0 w pozostałych podokresach. W dotychczasowych przykładach nie mieliśmy możliwości, z uwagi na stosunkowo małą liczebność próby, na wyznaczenie mierników dokładności zbudowanych prognoz typu ex post, a więc poprzez porównanie prognozowanych wielkości z ich rzeczywiście obserwowanymi wynikami. Na taki eksperyment możemy sobie pozwolić w tym przykładzie, ponieważ dysponujemy wynikami empirycznymi z 60-ciu punktów czasowych. Pierwsze 48 pomiarów (lata ) wykorzystamy do estymacji modelu i do wykonania prognozy obrotów w 2003 roku. Uzyskane prognozy będziemy mogli porównać z rzeczywistymi obrotami w tym roku, co pozwoli nam na ocenę dokładności prognoz ex post. Pracę nad estymacją modelu zaczynamy od wprowadzenia dwóch nowych zmiennych: ln( czas ) oraz ln( obroty ). Zmienne te wynikają bezpośrednio z linearyzacji modelu potęgowego. b 0 b j+ j
89 89 Po otwarciu skoroszytu StatystykaJG będziemy mogli wykonać estymację modelu (liniowego ze zmiennymi dychotomicznymi) wykorzystując procedurę Regresja wielokrotna oraz dane z obszaru E1:F49. W zakładce Grafika zaznaczmy pierwsze pole wyboru (wykres obserwowanych i teoretycznych wartości zmiennej zależnej), a w zakładce Badanie założeń wszystkie trzy pola wyboru. W kolejnym oknie określamy role zmiennych w naszym problemie, a następnie uruchamiamy regresję krokową.
90 90 Ostatecznie, po usunięciu dwóch zmiennych dochodzimy do modelu, który jest istotny statystycznie, ale jego dopasowanie do danych nie jest zbyt dobre (współczynnik determinacji niecałe 71%). Po wyprowadzeniu wyników estymacji modelu okazuje się, że nie są spełnione dwa z trzech założeń. Jak widzimy uwzględnienie w modelu linowym zmiennej ln( czas) nie jest poprawne, a autokorelacja I stopnia jest istotna statystycznie. Mamy do rozwiązania poważny problem: jak zwiększyć dopasowanie modelu? Jeżeli nam się to uda, to być może zniknie także część lub wszystkie zastrzeżenia do założeń metody najmniejszych kwadratów. Wyjściowy model postaci b1 b2 b3 bd y( t) b0 t D1 D2... Dd 1 = powinniśmy uzupełnić o dodatkowe zmienne, które mogą wpływać na zachowanie zmiennej y (t). W praktyce
91 91 jedyne co możemy zrobić to wykorzystać wartości opóźnione zmiennej zależnej. W przypadku takiej cechy jak wielkość obrotów (podobnie cena jakiegoś produktu), na wartość takiej cechy w momencie czasu t mogą wpływać wartości tej cechy w momentach wcześniejszych, np. opóźnionych o jeden, dwa czy większą liczbę okresów. Prawdopodobnie z taką właśnie sytuacją mamy do czynienia i w naszym przypadku, o czym może świadczyć duża wartość współczynnika autokorelacji I stopnia. Reasumując możemy podjąć próbę estymacji modelu postaci: b1 b2 b3 bd bd bd bd r y t b t D D Dd y t ( ) = ( 1) y( t 2)... y( t r) gdzie r jest wielkością opóźnienia. Poniżej widok arkusza DaneInaczej, arkusz ten zawiera dotychczasowe dane uzupełnione jedynie o jedną zmienną opóźnioną: ln( y( t 1)). Z uwagi na to, że tracimy pierwszy wiersze danych został wstawiony nowy wiersz (trzeci na pokazanym niżej fragmencie), do którego skopiowano etykiety danych. Dane z obszaru E3:R50 zostaną teraz wykorzystane do estymacji modelu (po linearyzacji) postaci: ln y( t) = ln b + b ln t + b ln D + b ln D b ln D + b ln( y( t 1)) d d 1 d + 1 W trakcie pracy regresji krokowej pojawi się propozycja usunięcia zmiennej ) ln(t, ponieważ istotność tej zmiennej jest prawie na granicy umownego alfa; ze względów merytorycznych możemy tę zmienną jednak pozostawić w modelu.
92 92 Estymacja powyższego modelu metodą regresji krokowej doprowadza do usunięcia w kolejnych krokach dwóch zmiennych. Wpływ usuniętych zmiennych na własności estymowanego modelu pokazany jest niżej. Uzyskany ostatecznie model jest istotny statystycznie i dość dobrze dopasowany do danych empirycznych współczynnik determinacji jest wysoki, ponad 90%. Spełnione są także wszystkie założenia klasycznej metody najmniejszych kwadratów, zarówno odnośnie zmiennych opóźnionych, jak i normalności reszt losowych oraz braku autokorelacji. Pozostaje nam już tylko wykonanie prognozy dla kolejnych miesięcy 2003 roku. Przed wywołaniem odpowiedniej procedury musimy przygotować zestaw zmiennych objaśniających dla czasu od t=49 do t=60. Obszar ten musi zawierać wartości tych zmiennych niezależnych, które występują w wyestymowanym modelu. Na pokazanym niżej fragmencie arkusza WynikiModel48 dane te zostały przygotowane w obszarze E101:O113, proszę zwrócić uwagę, że w kolumnie O (zmienna opóźniona ln( y( t 1)) ) można było wpisać wartość jedynie w komórce O102, jest tam bowiem wpisany logarytm naturalny obrotów dla momentu czasu t=48. Pozostałe komórki w tej kolumnie są puste, będą mogły być wypełniane sukcesywnie w momencie wykonania prognozy dla kolejnych punktów czasowych.
93 93 Po przygotowaniu danych wywołujemy procedurę Prognozowanie i w oknie dialogowym tej procedury wskazujemy potrzebne obszary. Proszę zwrócić uwagę na pole wyboru Zmienne opóźnione, pole to zostało uaktywnione po to, aby procedura sukcesywnie uzupełniała wartości zmiennej opóźnionej. Po uruchomieniu obliczeń zostanie wyświetlone okno dialogowe z pytaniem, o ile okresów jest opóźniona zmienna ln( y( t 1)). Po udzieleniu odpowiedzi procedura wyprowadza wyniki prognozy na prawo od obszaru zmiennych niezależnych. Przed wyznaczeniem mierników dokładności prognozy ex post musimy retransformować wartości regresyjne (średnie). Poniżej fragment arkusza WynikiInaczej z retransformacją prognozy (kolumna P), wyznaczonym błędem absolutnym prognozy (jako
94 94 różnica między wartością obserwowaną a prognozowaną, kolumna Q) oraz błędem względnym prognozy (iloraz błędu absolutnego przez wartość obserwowaną zmiennej objaśnianej, kolumna R). W wierszach 130 i 131 doliczono średnie błędy prognozy (za 12 miesięcy) oraz średni kwadratowy błąd prognozy. Dane z obszaru A115:C127 zostały przedstawione graficznie na pokazanym niżej rysunku, widać bardzo mały błąd prognozy w pierwszych trzech miesiącach i od czerwca do września. Pozostałe miesiące to niestety dość duży błąd, szczególnie w maju. Sądzimy, że można zaryzykować wniosek, że model tego typu może być w miarę spokojnie stosowany na pierwsze trzy miesiące kolejnego roku (z uwagi na zmienną opóźnioną i konieczność sukcesywnej prognozy). Estymacja modelu z wykorzystaniem wszystkich danych. Wykorzystamy teraz wszystkie dane empiryczne (także rok 2003) do ponownego wyestymowania potęgowego modelu tendencji rozwojowej z jedną zmienną opóźnioną (o jeden okres cyklu wahań). Wyestymowany model wykorzystamy do zbudowania prognozy na miesiące 2004 roku wraz z miernikami dokładności prognozy ex ante. Dane do estymacji mamy w arkuszu DaneInaczej w obszarze C3:P62, estymację wykonujemy procedurą Regresja wielokrotna z włączoną opcją weryfikacji założeń o poprawności doboru zmiennych w modelu, normalności reszt losowych oraz braku autokorelacji. W trakcie doboru modelu metodą regresji krokowej zostają usunięte z modelu dwie zmienne dychotomiczne (D3 oraz D10), uzyskany model cechuje się dobrym dopasowaniem do danych empirycznych (współczynnik determinacji 91,7%). Niestety, w trakcie weryfikacji założeń okazuje się, że istotna jest autokorelacja I stopnia, przy czym ten związek sąsiednich obserwacji nie jest zbyt silny. Z tego powodu usunięcie tej autokorelacji poprzez modyfikację modelu (można próbować zwiększać liczbę zmiennych opóźnionych) może nie być skuteczne.
95 95 Inną możliwością jest wykorzystanie transformacji Cochrana-Orcutta, będącej jedną z wersji uogólnionej metody najmniejszych kwadratów. Jej sens polega na przekształceniu danych wykorzystanych do estymacji modelu klasyczną metodą najmniejszych kwadratów wg następującego wzoru rekurencyjnego: y y * 1 * i = y 1 = y i 1 r r y 2 i 1 * 1 j x x ij x = x = x 1 j ij 1 r r x 2, i 1, j gdzie r jest współczynnikiem autokorelacji. gdzie j = 1, dla i > 1 2,..., Po przekształceniu danych wg podanych wzorów ponownie estymujemy model KMNK 7, transformację powtarzamy w miarę potrzeby wielokrotnie. W obszarze T3:AG62 taka transformacja została wykonana z wykorzystaniem wartości współczynnika korelacji r z komórki S1 oraz k 2 1 r z komórki S2. Formuły transformacji danych wykorzystują nazwy komórek S1 i S3. 7 klasyczną metodą najmniejszych kwadratów
96 96 Estymacja modelu wykorzystuje dane transformowane, z tym że w zbiorze zmiennych objaśniających nie ma zmiennych D(3) i D(10). Na etapie określania roli zmiennych w modelu najpierw wybieramy zmienną zależną, następnie dodajemy do modelu wszystkie zmienne, a po ich przeniesieniu do prawej listy selekcjonujemy zmienną D(3) i przyciskiem Usuń< usuwamy ją z modelu. Tak samo usuwamy zmienną D(10). Zmienne D(3) i D(10) nie mogą wchodzić do modelu z tego powodu, że zostały usunięte przy doborze modelu w poprzednim kroku, a więc nie mogą być brane pod uwagę przy estymacji modelu po retransformacji danych. W trakcie doboru modelu metodą regresji krokowej zostaniemy poinformowani o tym, że zmienna reprezentująca jawnie czas, czyli ln(czas), powinna być usunięta z modelu. Proszę pamiętać, że u podstaw takiej sugestii leżą tylko względy statystyczne, a nie merytoryczne. Jeżeli uznamy, że zmienna ln(czas) powinna pozostać w modelu, to jej po prostu nie usuwamy. Tak też postąpiliśmy w tym przykładzie. Klik przycisku Model jest dobrany wyprowadza wyniki estymacji modelu do nowego arkusza, którego nazwa została później (po wyprowadzeniu wyników) zmieniona
97 97 na NowyModel60Orcutta. Poniżej fragment tego arkusza pokazujący wyniki weryfikacji założeń (arkusz lekko sformatowany na potrzeby publikacji). Jak widzimy wszystkie założenia są spełnione. Model jest istotny statystycznie, a jego dopasowanie do danych jest bardzo dobre (współczynnik determinacji 98,3%). Możemy przejść teraz do wyznaczenia prognozy obrotów w kolejnym, 2004 roku. Z uwagi na zastosowaną transformację Cochrana-Orcutta musimy tę prognozę wykonać dla wartości czasu od t=2 do t=72, jest to konieczne dla przeprowadzenia retransformacji danych.
98 98 Poniżej widok arkusza NowyModel60Orcutta z wartościami zmiennych objaśniających, górna część tego obszaru pokazuje dane od t=2, a dolna od t=59 do t=72. Proszę zwrócić uwagę, że w kolumnie M zmienna ln(t-1) jest określona jedynie do momentu, gdy czas osiągnie wartość 61 (komórka M170). Pozostałe komórki w tej kolumnie muszą pozostać puste, jest to wymóg procedury Prognozowanie konieczny dla wykonania prognozowania sekwencyjnego. Poniżej widok okna dialogowego procedury Prognozowanie, wskazane są wszystkie potrzebne obszary oraz zaznaczone jest pole wyboru Zmienne opóźnione. Po kliku przycisku OK procedura zapyta nas jeszcze o wielkość opóźnienia zmiennej ln( y( t 1)), a następnie wyprowadzi wyniki prognoz dla zadanych wartości zmiennych objaśniających. Uzyskane wyniki prognoz dotyczą danych transformowanych, musimy więc przeprowadzić retransformację uzyskanych wyników. Będziemy korzystać z poniższych wzorów (retransformacja dotyczy tylko y): * y1 * y1 =, yi = yi + r yi 1 ( dla i > 1). 2 1 r
99 99 Poniżej widok obszaru zawierającego wyniki prognoz, retransformacji danych oraz wyznaczonego błędu względnego predykcji ex ante. Obszar ekranu jest podzielony na dwa fragmenty, dolny pokazuje wyniki predykcji dla czasu od t=61 do t=72. W kolumnie U przeprowadzona jest retransformacja wartości regresyjnych z transformacji Cochrana-Orcutta na logarytm naturalny wielkości obrotów. Podobnej retransformacji poddano dolny i górny kraniec przedziału predykcji (kolumny V i W). W kolumnie X wyznaczony jest błąd standardowy predykcji w takich już jednostkach, w jakich występowały obroty w danych wyjściowych. Błąd ten wyznaczony został z półprzedziału ufności dla predykcji wg formuły: =((EXP(W111)-EXP(V111))/2)/Y$108 wpisanej w komórce X111, a następnie skopiowanej w dół. Formuła ta odwołuje się do komórki Y108, która zawiera wartość testu t-studenta dla alfa=0,05 i 47 stopni swobody. W kolumnie Y wyznaczono względne błędy predykcji wg formuły: =X111/EXP(U111) wpisanej do komórki Y111, sformatowanej na procenty i skopiowanej w dół na cały obszar prognozy. Analizując dane z obszaru Y170:Y181 widzimy, że błąd predykcji oszacowany został na poziomie 6-7%, co można przyjąć za dopuszczalne ryzyko błędu. Na zakończenie tego przykładu przygotujemy jeszcze wykres obserwowanych i teoretycznych wielkości obrotów w funkcji czasu od t=2 do t=72 (dane oryginalne do t=72).
100 Y(t) Yteor(t) Model autoregresyjny, cena mleka W skoroszycie Mleko.xls w arkuszu DaneWyjsciowe zawarte są miesięczne średnie ceny 1 hektolitra mleka oraz miesięczne wielkości skupu mleka w mln. litrów obserwowane na przestrzeni lat Poniżej pokazany jest fragment tego arkusza wraz z wykresem szeregu czasowego cen mleka. Wykorzystamy fakt, że mamy do dyspozycji szereg o dużej liczbie wyrazów (n=144) do zbudowania modelu tendencji z wykorzystaniem pierwszych 132 obserwacji, a pozostałe wyrazy (od t=133 do t=144) posłużą nam do wyznaczenia mierników błędu prognozy typu ex post.
101 101 Warto zauważyć, że w rozważanym szeregu czasowym występują trend liniowy oraz nieregularne wahania o trudnym do ustalenia okresie. Brak regularnych wahań okresowych wyklucza użycie zmiennych dychotomicznych, pozostaje nam możliwość rozszerzenia zbioru zmiennych objaśniających o zmienne opóźnione ceny mleka. Będziemy więc estymować model postaci: y( t) = b0 + b1t + b2 y( t 1) + b3( t 2) br + 1y( t r) gdzie y( t 1), y( t 2), y( t r) oznaczają ceny mleka opóźnione o 1, 2 czy ogólnie r miesięcy względem momentu czasu t. Wielkość opóźnienia r jest arbitralną decyzją osoby wykonującej estymację wynikającą z charakteru badanego zjawiska. Estymacja powyższego modelu przy pomocy procedury Regresja wielokrotna ze skoroszytu StatystykaJG wymaga przygotowania danych wejściowych do estymacji. W arkuszu CenaDaneOpoznione wyznaczone zostały wartości opóźnione ceny mleka dla r = 12. Po utworzeniu zmiennych opóźnionych wstawiony został dodatkowy wiersz po wierszu 13 (t=12) w celu skopiowania wiersza pierwszego z etykietami nazw zmiennych. Obszar A14:N134 zostanie wykorzystany do estymacji modelu funkcji regresji formułowanego wcześniej w tym przykładzie. Estymację modelu zaczynamy od otwarcia skoroszytu StatystykaJG pamiętając o włączeniu makropoleceń. Po otwarciu tego pliku przechodzimy poprzez pasek zadań do skoroszytu z danymi wyjściowymi do estymacji modelu (może to być np. skoroszyt Mleko omawiany w tym przykładzie). Z menu Regresja wywołujemy polecenie Regresja wielokrotna, w zakładce Dane wejściowe wskazujemy obszar A14:N134. Pozostawiamy jako miejsce zwrócenia wyników estymacji opcję nowego arkusza uaktywniając jednocześnie pole wyboru Predykcja.
102 102 W zakładce Grafika włączamy pierwsze pole wyboru, dzięki czemu będzie wykonany wykres wartości obserwowanych i teoretycznych cen mleka. W zakładce Badanie założeń uaktywniamy wszystkie trzy pola wyboru (badanie poprawności doboru poszczególnych zmiennych, badanie normalności reszt losowych, badanie braku autokorelacji I stopnia). Po dokonaniu tych ustawień przyciskiem OK przechodzimy do kolejnego okna dialogowego. W oknie wyboru zmiennych wybieramy jako zmienną zależną (objaśnianą) cenę mleka w momencie czasu t, czyli y (t). Pozostałe zmienne przenosimy do prawej listy jako zmienne niezależne (objaśniające). Uaktywniamy jeszcze pole wyboru Zapamiętaj historię doboru modelu i przyciskiem OK uruchamiamy pierwszy krok regresji wielokrotnej krokowej. Wyniki pierwszego kroku regresji krokowej pokazują, że zaproponowany model funkcji regresji jest istotny statystycznie z bardzo dobrym dopasowaniem do danych empirycznych współczynnik determinacji jest równy 99,69%. Jednocześnie testy szczegółowe dotyczące istotności poszczególnych zmiennych niezależnych pokazują, że
103 103 część z nich może być z modelu usunięta jako niewiele wnosząca do wyjaśniania zachowania się zmiennej objaśnianej. W pokazanej sytuacji procedura regresji krokowej wskazała jako pierwszą do usunięcia zmienną opóźnioną y ( t 8), krytyczny poziom istotności dla weryfikacji hipotezy o istotności tej zmiennej jest największy spośród wszystkich innych, stąd wybór tej zmiennej do usunięcia. W dalszych krokach usuwamy jeszcze siedem innych zmiennych dochodząc ostatecznie, w dziewiątym kroku, do sytuacji pokazanej poniżej. Jak widzimy w modelu pozostało jedynie pięć zmiennych, model jest oczywiście istotny statystycznie, a wszystkie zmienne są w nim niezbędne. Zauważmy także, że współczynnik determinacji zmniejszył się bardzo nieznacznie (z 99,69% na 99,68%), zmalał także średni kwadrat odchyleń dla zmienności resztowej (z 0,855 na 0,826).
104 104 Klik przycisku Model jest dobrany uruchamia proces wyprowadzania wyników estymacji, w jego trakcie będziemy dopytywani o wykonanie pewnych badań. Poniżej widok pierwszego z pytań tego typu, oczywiście odpowiadamy Tak, jeżeli chcemy, aby badanie, czy trend zjawiska może być opisany modelem liniowym zostało wykonane. W przypadku zmiennych opóźnionych również odpowiadamy pozytywnie, po udzieleniu ostatniej z nich procedura wyprowadza komplet wyników estymacji do nowego arkusza. Poniżej widok fragmentu tego arkusza (nazwanego później CenaModel132) pokazującego wyniki badania założeń (po lekkim formatowaniu na potrzeby tej publikacji). Jak widzimy wszystkie założenia są spełnione, dotyczy to zarówno poprawności doboru modelu odnośnie wszystkich pięciu zmiennych, normalności reszt losowych jak
105 105 i braku autokorelacji. Oznacza to, że oceny parametrów modelu są nieobciążone, a sam model może być wykorzystany do wykonania prognoz. Poniżej inny fragment arkusza CenaModel132, pokazane są wyniki estymacji parametrów modelu, błędy standardowe ocen parametrów, 95% przedziały ufności dla prawdziwych wartości tych parametrów, wartości empiryczne testu t-studenta dla weryfikacji hipotez zerowych o tym, że dany parametr jest zerowy oraz krytyczne poziomy istotności dla tych hipotez. Po wyestymowaniu modelu możemy przejść do wyznaczenia prognozowanych cen mleka w 2004 roku, czyli dla czasu od t=133 do t=144. Dodatkowo wyznaczymy także teoretyczne ceny mleka dla czasu od t=13 do t=132, wykorzystamy wyznaczone wartości dla przygotowania wykresu cen obserwowanych i teoretycznych w funkcji czasu. Zaczynamy od przygotowania w arkuszu CenaModel132 spójnego obszaru zawierającego dla wszystkich punktów czasu (od t=13 do t=144) wartości zmiennych objaśnianych, jeżeli takie istnieją (chodzi o zmienne opóźnione). Obok pokazany jest fragment tego arkusza z tak przygotowanymi danymi (D170:H302) Proszę zauważyć, że zmienna opóźniona y ( t 1) ma tylko jedną obserwację dla okresu prognozy (dla t=133), zmienna y ( i 2) dwie, a zmienna y ( t 11) jedenaście obserwacji.
106 106 Brakujące obserwacje tych zmiennych będą sukcesywnie uzupełniane w trakcie wyznaczania prognoz dla kolejnych punktów czasowych. Poniżej widok okna dialogowego procedury Prognozowanie, wskazane są wszystkie potrzebne obszary danych oraz zaznaczone jest pole wyboru Zmienne opóźnione. Po uruchomieniu procedury zostaniemy dopytani o wielkość opóźnienia poszczególnych zmiennych opóźnionych (z wyjątkiem zmiennej y ( t 12) ), a następnie procedura wyprowadzi wyniki prognoz na prawo od obszaru zmiennych objaśniających. Poniżej widok tego obszaru uzupełniony o absolutne (kolumna Q) i względne (kolumna R) błędy prognoz typu ex post, oraz o względne błędy predykcji typu ex ante (kolumna P). Jak widzimy za pierwsze sześć miesięcy różnice między prognozowaną ceną mleka a rzeczywiście obserwowaną są bardzo małe, rzędu do 5%. W dalszych miesiącach błędy te rosną do prawie 7,2%. Warto także porównać względne błędy prognoz typu ex post i ex ante, za pierwsze 5-6 miesięcy błędy ex post są niewiele większe od błędów szacunkowych ex ante.
107 ,00 100,00 y(t) Y teor. 80,00 60,00 40,00 20,00 0, Modelowanie wielkości skupu mleka. Zmienne dychotomiczne i zmienne opóźnione W skoroszycie Mleko.xls w arkuszu DaneWyjsciowe zawarte są miesięczne średnie ceny 1 hektolitra mleka oraz miesięczne wielkości skupu mleka w mln. litrów obserwowane na przestrzeni lat Poniżej pokazany jest fragment tego arkusza wraz z wykresem szeregu czasowego skupu mleka. Z wykresu szeregu czasowego skupu mleka wynika, że poza trendem (liniowym lub krzywoliniowym) szereg zawiera wahania roczne z miesięcznymi podokresami cyklu
108 108 wahań. Na tej podstawie można zaproponować tradycyjny model z trendem liniowym i zmiennymi dychotomicznymi postaci: b1t + b1 + jd( j) j= 1 y ( t) = b. Podobnie jak w poprzednim przykładzie do estymacji powyższego modelu wykorzystamy dane empiryczne z lat pozostawiając dane z roku 2004 do oceny błędów prognozy ex post. Estymacja modelu napotyka jednak na zasadnicze kłopoty wynikające z niespełnienia założeń o poprawności doboru modelu względem czasu oraz z istotnej autokorelacji I rzędu. Poniżej widok fragmentu arkusza z wynikami badania założeń. Poza niespełnieniem założeń estymowany model nie jest dość dobrze dopasowany do danych empirycznych, na co wskazuje pokazany wyżej wykres obserwowanych i teoretycznych wielkości skupu mleka. Potwierdzeniem powyższego jest także uzyskany współczynnik determinacji (pozornie duży, bo 91,1%) oraz stosunkowo duży błąd standardowy odchyleń od modelu (komórka H20).
109 109 Tak duża (względnie) wartość błędu standardowego odchyleń jest zapowiedzią dużych wartości błędów prognozy, co wyklucza przydatność proponowanego modelu do prognozowania przyszłych wielkości skupu mleka. Uwagi powyższe są trochę niepotrzebne, musimy bowiem pamiętać o tym, że autokorelacja I rzędu jest istotna i w pierwszej kolejności musimy zająć się tym problemem. Fakt stwierdzenia tak silnej autokorelacji I rzędu, w połączeniu z niezbyt wystarczającym dopasowaniem modelu do danych empirycznych sugeruje potrzebę rozszerzenia modelu o zmienne opóźnione: 11 y( t) = b0 + b1t + b1 + jd( j) + b12 + i y( t i) j = 1 r i= 1 gdzie r jest maksymalną wielkością opóźnienia. W arkuszu SkupDaneDoModelu w obszarze C15:AA134 przygotowano dane do estymacji parametrów powyższego modelu przy uwzględnieniu zmiennych opóźnionych maksymalnie o 12 podokresów ( r = 12). Fragment tego arkusza pokazany jest poniżej, wiersz czternasty Excela jest kopią wiersza nagłówkowego (pierwszego) zawierającego etykiety (nazwy) zmiennych, dodanie tego wiersza było niezbędne z uwagi na wymagania procedury Regresja wielokrotna. Po otwarciu skoroszytu StatystykaJG.xls wracamy do skoroszytu z danymi wejściowymi do estymowanego modelu (np. Mleko.xls) i wywołujemy procedurę Regresja wielokrotna z menu Regresja. W zakładce Dane wejściowe wskazujemy C15:AA134 jako obszar danych wejściowych, zaznaczamy pole wyboru Predykcja i pozostawiamy wybór nowego arkusza jako miejsce zwrócenia wyników estymacji modelu.
110 110 W zakładce Grafika zaznaczamy pierwsze pole wyboru, a w zakładce Badanie założeń zaznaczamy wszystkie trzy pola wyboru. Poniżej widok zakładki Dane wejściowe okna dialogowego procedury Regresja wielokrotna. Klik przycisku OK wyświetla okno dialogowe wyboru zmiennych, jako zmienną zależną wybieramy y (t), pozostałe zmienne przenosimy do listy Zmienne niezależne w modelu poprzez klik przycisku Dodaj wszystkie >>. Zaznaczamy także pole wyboru Zapamiętaj historię doboru modelu. Klik przycisku OK uruchamia proces estymacji parametrów modelu metodą regresji krokowej. W kolejnych krokach eliminujemy tę zmienną niezależną, której wpływ (w danym kroku) na wyjaśnianie zachowania zmiennej zależnej y (t) był najmniejszy. Poniżej widok okna dialogowego po wykonaniu pierwszego i ostatniego (czternastego) kroku regresji krokowej. W jej trakcie z wyjściowego modelu zawierającego 24 zmienne niezależne usunięto 13 zmiennych, współczynnik determinacji zmniejszył się z 97,99% do 97,57%, a więc bardzo nieznacznie.
111 111 Poniżej wykres ilustrujący zmianę współczynnika determinacji oraz średniego kwadratu odchyleń od modelu w trakcie kolejnych kroków regresji krokowej. 98,05% 98,00% 97,95% 97,90% 97,85% 97,80% 97,75% 97,70% 97,65% 97,60% 97,55% 97,50% Wsp. deter. Śr. kw. błędu
112 112 Klik przycisku Model jest dobrany uruchamia proces wyprowadzania wyników estymacji modelu. Poniżej fragment arkusza pokazujący wyniki weryfikacji założeń metody najmniejszych kwadratów, Jak widzimy prawie wszystkie założenia są spełnione, pewien problem mamy jedynie ze sposobem uwzględnienia w modelu zmiennej opóźnionej y ( t 5). Niespełnienie tego założenia oznacza, że ta zmienna powinna być uwzględniona inaczej niż liniowo, ale znalezienie właściwej postaci tej zmiennej nie jest proste. Poniżej widok fragmentu arkusza z ocenami parametrów modelu, weryfikacją hipotezy o istotności modelu oraz wartościami współczynnika korelacji i determinacji. Dodatkowo wyznaczono (poza procedurą) wartość błędu standardowego odchyleń (komórka H21).
113 113 Dla wyznaczenia prognozowanych wielkości skupu mleka w 2004 roku musimy w arkuszu, do którego zostały zwrócone wyniki estymacji modelu, przygotować odpowiedni obszar zawierający wartości zmiennych objaśnianych. W omawianym przykładzie jest to arkusz SkupModel132 i obszar D304:N316. Obszar ten zawiera dane skopiowane z arkusza SkupDaneDoModelu i wklejone metodą Excela Wklej specjalnie/wartości do arkusza SkupModel132. Wklejenie wartości było niezbędne z uwagi na formuły wyznaczające wartości zmiennych opóźnionych. Po wklejeniu dane zostały dostosowane do tych, które ostatecznie zostały wykorzystane w modelu (niepotrzebne kolumny danych zostały usunięte). Po przygotowaniu obszaru danych wywołujemy procedurę Prognozowanie z menu Regresja, a następnie wskazujemy potrzebne obszary danych. Po zaznaczeniu pola wyboru Zmienne opóźnione i kliku przycisku OK procedura zapyta nas o wielkość opóźnienia zmiennej y ( t 1).
114 114 Analogicznie zostaniemy zapytani o wielkość opóźnienia pozostałych zmiennych opóźnionych y( t 5) i y ( t 8). Poniżej widok arkusza z wynikami prognozowanej wielkości skupu mleka w 2004 roku (od t=133 do t=144). Ostatnie trzy kolumny zawierają względny błąd prognozy ex ante (kolumna V) oraz doliczone błędy dokładności wykonanej prognozy ex post. Kolumna W zawiera absolutny błąd prognozy wykorzystujący rzeczywistą wielkość skupu w kolejnych miesiącach 2004 roku i wielkość teoretyczną wynikającą z uzyskanego modelu. W kolumnie X wyznaczono względne błędy prognozy ex post. Jak widzimy błędy prognozy ex post są stosunkowo niewielkie (poniżej 5% w pierwszych dziesięciu miesiącach), co potwierdza przydatność wyestymowanego modelu do wykonania prognozy przyszłych wielkości skupu mleka. W ostatnich dwóch wierszach doliczono średnie błędy prognozy ex post (absolutny i względny) oraz średni kwadrat błędu prognozy ex post. Ich wielkość potwierdza poprawność doboru modelu i jego przydatność do prognozowania wielkości skupu mleka. Poniżej wykres ilustrujący rzeczywiste y(t) oraz prognozowane yteor(t) wielkości skupu mleka w 2004 roku y(t) yteor(t)
115 Kolejny przykład wykorzystania zmiennych dychotomicznych i opóźnionych W skoroszycie TendencjaSklep.xls zapisano dane empiryczne wielkości dziennych obrotów pewnego sklepu obserwowane na przestrzeni 10 tygodni. Zadanie nasze polega na zbudowaniu takiego modelu tendencji rozwojowej, który pozwoli nam na wyznaczenie prognozowanej wielkości obrotów w kolejnym, jedenastym tygodniu. Prace nad modelem musimy zacząć od zestawienia danych w taki sposób, aby w pierwszej kolumnie była zmienna reprezentująca czas, a w drugiej wartości obrotów w poszczególnych momentach czasu. Poniżej pokazany jest początkowy i końcowy fragment takiego zestawienia utworzonego w obszarze C15:D85. Zestawienie to zostało wykonane przy pomocy klasycznych operacji Kopiuj/Wklej dostępnych w środowisku Windows. Dane z obszaru C15:D85 możemy teraz wykorzystać do sporządzenia wykresu szeregu czasowego, co ułatwi nam konstrukcję modelu.
116 ,0 Obroty=y(t) 2500,0 2000,0 1500,0 1000,0 500,0 0, Wykres szeregu wyraźnie wskazuje na występowanie regularnych wahań tygodniowych, co sugeruje wprowadzenie do modelu zmiennych dychotomicznych, ich zadaniem będzie wyrażenie wpływu poszczególnych dni tygodnia na kształtowanie się wielkości obrotów. Kolejny wniosek dotyczy wpływu czasu, ale opisanie jego roli nie jest takie proste. Wydaje się, że poza zbadaniem liniowego wpływu czasu powinniśmy w modelu umieścić jeszcze czas w takiej postaci, która pozwoli na otrzymanie wklęsłej funkcji trendu. Będzie można taki efekt osiągnąć poprzez wprowadzenie do modelu drugiej i trzeciej potęgi czasu. Ostatecznie możemy spróbować wyestymować model postaci: y ( t) = b b1t + b2t + b3t + b3+ id( i) i= 1 gdzie D ( i) i = 1, 2,..., 6 oznaczają zmienne dychotomiczne wyrażające wpływ dni tygodnia. Estymacja powyższego modelu wymaga ręcznego poszerzenia obszaru danych o zmienne reprezentujące drugą i trzecią potęgę czasu. Wystarczy w tym celu wpisać odpowiednie formuły Excela w obszarze E16:F16, a następnie skopiować je na pozostałe wiersze obszaru danych.
117 117 Do estymacji zaproponowanego modelu wykorzystamy procedurę Regresja wielokrotna ze skoroszytu StatystykaJG.xls, dlatego zmienne dychotomiczne utworzymy automatycznie w tej procedurze. Poniżej widok zakładki Dane wejściowe okna procedury Regresja wielokrotna z zaznaczonym obszarem danych, aktywnym polem wyboru Precyzja oraz uaktywnieniem zmiennych dychotomicznych z liczbą podokresów odpowiadającą liczbie dni tygodni uwzględnionych w danych wejściowych. W zakładkach Grafika włączamy pierwsze pole wyboru, a w zakładce Badanie założeń wszystkie trzy pola wyboru. Kolejny zrzut ekranowy pokazuje okno dialogowe wyboru zmiennych, tu określamy rolę poszczególnych zmiennych w naszym rozwiązaniu. Proszę zauważyć, że zmienne dychotomiczne zostały już utworzone (jako efekt kliku przycisku OK w poprzednim oknie).
118 118 Po uruchomieniu estymacji modelu zostaje wykonany pierwszy krok regresji krokowej, a jego wyniki zaprezentowane w oknie dialogowym. Okazuje się, że dobór modelu został zakończony na tym pierwszym kroku wszystkie zmienne uwzględnione w modelu muszą w nim pozostać. Model jest dobrze dopasowany do danych, o czym świadczy bardzo wysoka determinacja (ponad 90%). Jeżeli będą spełnione założenia MNK, to mamy dobrze dobrany model. Klik przycisku Model jest dobrany uruchamia proces wyprowadzania wyników estymacji do nowego arkusza. W trakcie wyprowadzania wyników odpowiadamy Tak na pytania o wykonanie badania poprawności doboru zmiennych związanych z czasem. W przypadku zmiennych dychotomicznych odpowiadamy Nie na pytania o wykonanie badania poprawności doboru modelu.
119 119 Wyniki estymacji zostały zwrócone do arkusza, którego nazwa została później zmieniona na WynikiModelu1. Poniżej (przeformatowany na potrzeby publikacji) fragment tego arkusza pokazujący wyniki badania założeń. Jak widzimy wyniki badania założeń są bardzo niekorzystne. Zarówno liniowe uwzględnienie czasu, jak i druga oraz trzecia potęga czasu jest niepoprawna. W każdym z tych trzech przypadków test serii wskazuje na konieczność zmiany modelu. Widzimy także, że istotna jest autokorelacja, ale może to wynikać ze złego doboru modelu. Oznacza to, że nie możemy zastosować metody transformacji Orcutta do usunięcia autokorelacji, w pierwszym rzędzie musimy zmodyfikować model tak, aby wszystkie zmienne były poprawnie użyte. Model możemy próbować skorygować poprzez modyfikację zestawu zmiennych objaśniających, problem polega na tym, że nie mamy do dyspozycji żadnych innych zmiennych z wyjątkiem wykorzystania zmiennych opóźnionych. Spróbujemy wyestymować model postaci: y ( t) = b b1t + b1 + id( i) + b7 + j y( t j) i= 1 j= 1 w którym zmienna y( t j) jest zmienną opóźnioną o j = 1, 2,..., 7 okresów (dni).
120 120 W modelu tym zrezygnowaliśmy z drugiej i trzeciej potęgi czasu na rzecz zmiennych opóźnionych. Estymacja przedstawionego modelu wymaga ponownego przygotowania obszaru danych do jego estymacji. W pokazanej niżej sytuacji oryginalne dane skopiowano do nowego arkusza (od A1), dodano zmienne dychotomiczne, a następnie na prawo od ostatniej zmiennej dychotomicznej wprowadzono etykiety i formuły zmiennych opóźnionych. Przed wywołaniem procedury Regresja wielokrotna musimy jeszcze wstawić nowy wiersz na miejsce wiersza 9 po to, aby skopiować w to miejsce etykiety zmiennych. Poniżej widok arkusza DaneZmienneOpoznione z tak przygotowanym zestawem danych. Dane z obszaru A9:O72 wykorzystamy teraz do estymacji zmodyfikowanego modelu. Poniżej widok zakładki Dane wejściowe okna dialogowego Regresja wielokrotna ze wskazaniem obszaru danych wejściowych i zaznaczonym polem wyboru Predykcja. W zakładkach Grafika i Badanie założeń zostały zaznaczone te same pozycje co przy poprzedniej estymacji.
121 121 Po uruchomieniu obliczeń przyciskiem OK w oknie Wybór zmiennych określamy rolę poszczególnych zmiennych w rozwiązaniu. Jako zmienną zależną wybieramy Obroty, a pozostałe zmienne przyciskiem Dodaj wszystkie>> ustawiamy w roli zmiennych niezależnych (objaśniających). Po zaznaczeniu pola wyboru Zapamiętaj historię doboru modelu klikiem przycisku OK uruchamiamy dobór modelu metodą regresji krokowej. Poniżej okno dialogowe wyników pierwszego kroku regresji krokowej. Estymowano model zawierający 14 zmiennych niezależnych, model ten okazał się istotny statystycznie z bardzo wysokim współczynnikiem determinacji (99,44%). Weryfikacja 14 hipotez zerowych o istotności poszczególnych zmiennych niezależnych pokazuje jednak, że nie wszystkie z nich są w modelu potrzebne. Procedura zaznaczyła zmienną opóźnioną y ( t 5) jako tę, którą powinniśmy usunąć w pierwszej kolejności. Wybór tej właśnie zmiennej wynika z tego, że odpowiada jej największa wartość krytycznego poziomu istotności (p-value). Po jej usunięciu przyciskiem Usuń zmienną i przelicz model procedura regresji krokowej estymuje model z 13 zmiennymi prezentując wyniki w kolejnym oknie dialo-
122 122 gowym. Proces ten trwa tak długo, dopóki w modelu nie pozostaną tylko te zmienne, które są w nim istotnie potrzebne. Poniżej widok okna dialogowego regresji krokowej po wykonaniu siódmego kroku, w którym w modelu pozostało 8 zmiennych i każda z nich jest niezbędna (krytyczne poziomy istotności dla weryfikacji hipotez zerowych o tym, że ich współczynniki regresji są równe zero są mniejsze od umownego poziomu istotności α = 0, 05 ). Proszę także zauważyć, jak nieznacznie zmniejszył się współczynnik determinacji (z 99,44% na 99,39%). Poprzez klik przycisku Model jest dobrany możemy uruchomić proces wyprowadzania wyników estymacji ustalonego w tym momencie modelu. Wyniki te będą wyprowadzone do nowego arkusza, którego nazwa została zmieniona w późniejszym etapie na WynikiModel2. Poniżej fragment tego arkusza prezentujący wyniki weryfikacji założeń metody najmniejszych kwadratów (arkusz został dostosowany do tej publikacji).
123 123 Jak widzimy wprowadzenie do modelu zmiennych opóźnionych radykalnie zmieniło sytuację: wszystkie założenia są spełnione, wyestymowany model jest dobrze dopasowany do danych empirycznych (wsp. determinacji = 99,39%), tym samym możemy go wykorzystać do wyznaczenia prognozowanych wielkości obrotów w 11 tygodniu. Prace nad wyznaczeniem prognozy zaczynamy od przygotowania w arkuszu z wynikami estymacji modelu (u nas jest to WynikiModelu2) obszaru zmiennych niezależnych na okres prognozy (od t = 71 do t = 77 ). Z uwagi na zamiar wykonania wykresu pokazującego teoretyczne i obserwowane wartości obrotów w funkcji czasu obszar ten można przesunąć w górę o odpowiednią liczbę podokresów (w pokazanej niżej sytuacji o pełny tydzień). Po wywołaniu procedury Prognozowanie wskazujemy stosowne obszary zawierające: Obszar ocen parametrów modelu, czyli B4:B13; Obszar stopni swobody i średniego kwadratu odchyleń, czyli A18:C18; Obszar macierzy odwrotnej do V0, czyli A23:I32; Obszar zmiennych niezależnych, czyli D113:K127. Poniżej okno dialogowe tej procedury z wprowadzonymi zakresami obszarów, oraz z zaznaczonym polem wyboru Zmienne opóźnione. Jest to niezbędne z uwagi na zmienne y ( t 1) oraz y ( t 3), dla których nie istnieją (bo nie mogą) wartości dla 6 punktów w przypadku pierwszej z nich i dla 4 punktów w przypadku drugiej z nich. W obszarze zmiennych niezależnych musimy zadbać o to, aby komórki odpowiadające tym brakującym oberwacjom pozostały puste (zobacz I122:I127 oraz J124:J127).
124 124 Klik przycisku OK uruchamia obliczenia prognoz, procedura zapyta nas o wielkość opóźnienia zmiennej y ( t 1) oraz zmiennej y ( t 3). Pytanie te są spowodowane tym, że w obszarze zmiennych niezależnych nie ma dla tych zmiennych kompletu danych. W przypadku zmiennej opóźnionej y ( t 7) pytanie o wielkość opóźnienia nie będzie pokazane wynika to z faktu, że dla tej zmiennej jest komplet wyników (w obszarze wartości zmiennych niezależnych). Poniżej widok fragmentu arkusza z wynikami prognozowanych wielkości obrotów. W kolumnie R procedura wyprowadziła wartości procentowe względnego błędu prognozy ex ante. Jak widzimy błędy te są stosunkowo niskie, co potwierdza przydatność wyestymowanego modelu do prognozowania.
125 125 Na zakończenie tego punktu pokażemy jeszcze wykres obserwowanych i teoretycznych wielkości obrotów w okresie od t = 64 do t = Obroty=y(t) Y teor
126 Modele harmonikowe, prognozowanie liczby bezrobotnych W skoroszycie HarmonikiBezrobocie.xls zostały zamieszczone dane empiryczne opisujące kształtowanie się liczby bezrobotnych (w mln. osób) w kolejnych miesiącach 1996 i 1997 roku. 8 Poniżej widok arkusza Dane z wyjściowymi danymi w obszarze A1:M7, w obszarze O1:P25 są te same dane zestawione w szereg czasowy, przygotowany jest także wykres szeregu pokazujący dynamikę badanego zjawiska. Zadaniem naszym będzie zaproponowanie takiego modelu opisującego zmianę liczby bezrobotnych, który będzie mógł być wykorzystany do wyznaczenia prognozowanej liczby bezrobotnych w miesiącach kolejnego roku. Przy budowie modelu z uwagi na nieregularne wahania miesięczne nie możemy zastosować zmiennych dychotomicznych, z kolei z uwagi na stosunkowo niewielką liczbę obserwacji nie możemy także wykorzystać zmiennych opóźnionych. W takiej sytuacji możemy do konstrukcji modelu regresji wykorzystać harmoniki, czyli ciąg funkcji sinusoidalnych i cosinusoidalnych o zmiennym okresie nałożonych na funkcję trendu badanego zjawiska. Maksymalna liczba harmonik jest równa 2 n, gdzie n jest liczbą obserwacji w próbie. Pierwsza harmonika ma okres n, kolejna 2 n, następna 3 n itd., 8 Przykład zaczerpnięty z podręcznika Prognozowanie gospodarcze. Metody, modele, zastosowania, przykłady pod redakcją Edwarda Nowaka
127 127 y( t) = f ( t) + 1 n 2 t = 1 2π 2π α i sin it + βi cos it n n gdzie i =, 2,...,, a f (t) jest funkcją trendu. n 1 2 W praktyce nie jest możliwe wykorzystanie wszystkich harmonik (ponieważ brakłoby stopni swobody przy estymacji powyższego modelu), wykorzystuje się te z nich, które najsilniej są skorelowane ze zmienną zależną. Harmoniki są tak skonstruowane, że są wzajemnie nieskorelowane (niezależne), co znakomicie ułatwia estymację parametrów α i oraz β i, ale jedynie wtedy, gdy model zawiera wyłącznie harmoniki. Jeżeli w modelu występują jeszcze inne zmienne (np. opisujące trend zjawiska), to estymacja parametrów musi przebiegać metodą NK. Pracę nad estymacją modelu zawierającego trend liniowy oraz harmoniki zaczniemy od przygotowania zmiennych (harmonik). Wykorzystamy w tym celu dedykowaną procedurę Zbudowanie zmiennych harmonikowych z menu Regresja skoroszytu StatystykaJG. W arkuszu NoweDane skoroszytu HarmonikiBezrobocie w obszarze A2:B25 wklejone zostały dane szeregu czasowego. Poniżej widok tego arkusza z wywołanym oknem dialogowym procedury, której zadaniem jest utworzenie formuł wyliczających kolejne harmoniki. Istotne jest, aby nad obszarem danych był co najmniej jeden wolny wiersz procedura wykorzysta go do wpisania wartości zmiennej i wykorzystywanej w definicji harmonik. Po zaznaczeniu obszaru danych i kliku przycisku Zbuduj zmienne procedura tworzy formuły poszczególnych harmonik, dodaje etykiety zmiennych, oblicza współczynniki
128 128 determinacji zmiennej zależnej z harmonikami i zapisuje je poniżej obszaru zmiennych. Na zakończenie swojej pracy procedura sortuje obszar harmonik kolumnami malejąco wg wartości wyznaczonych współczynników determinacji. Dzięki temu na prawo od wyjściowego obszaru danych mamy ustawione harmoniki wg malejącego skorelowania ze zmienną zależną. Poniżej widok utworzonych harmonik (po sortowaniu), w pasku formuł widoczna jest utworzona przez procedurę formuła wyliczająca składową sinusową pierwszej z harmonik. Dzięki temu, że procedura utworzyła formuły będziemy mogli w łatwy sposób wyznaczyć wartości harmonik dla obszaru prognozy (czyli dla nowych wartości czasu). Do estymacji modelu wykorzystamy dane z obszaru A2:V26, ostatnich dwóch harmonik nie możemy wykorzystać z tego powodu, że braknie nam stopni swobody. Poniżej widok zakładki Dane wejściowe procedury Regresja wielokrotna z zaznaczonym obszarem danych i wybranym polem Predykcja. W zakładkach Grafika i Badanie założeń zostały zaznaczone te same opcje, co i w poprzednich przykładach.
129 129 Poniżej okno dialogowe wyboru zmiennych, jako zmienna zależna wskazana jest zmienna y (t), pozostałe zmienne odegrają rolę zmiennych niezależnych. Klik przycisku OK uruchomił regresję krokową, poniżej pierwszy i ostatni jej krok.
130 130 W trakcie kolejnych kroków z modelu usunięto jedenaście zmiennych, przy czym współczynnik determinacji zmniejszył się minimalnie. Klik przycisku Model jest dobrany uruchamia proces wyprowadzania wyników estymacji. W jego trakcie wyświetlane są okna dialogowe z pytaniem o weryfikację poprawności doboru modelu dla kolejnych zmiennych. Poniżej dla przykładu pierwsze dwa zapytania tego typu. Wyniki estymacji zostały wyprowadzone do nowego arkusza, jego nazwa po zakończeniu wyprowadzania wyników została zmieniona na NoweWyniki. Poniżej fragment tego arkusza pokazujący część wyników badania założeń metody najmniejszych kwadratów. Wynika z nich, że pokazane poniżej zmienne niezależne zostały poprawnie wyrażone (uwzględnione) w modelu funkcji regresji.
131 131 Poniżej kolejny fragment tego samego arkusza z pozostałymi wynikami badania założeń. Wynika z nich, że wszystkie formalne założenia MNK są spełnione. Poniżej kolejny fragment arkusza NoweWyniki z ocenami parametrów modelu i wynikiem badania jego istotności. Model jest oczywiście istotny i bardzo dobrze dopasowany do danych empirycznych (bardzo duży współczynnik determinacji).
132 132 Potwierdzeniem bardzo dobrego dopasowania modelu jest poniższy wykres teoretycznych i obserwowanych wartości zmiennej zależnej. Praktycznie punkty reprezentujące obie zmienne ułożyły się na przekątnej tego wykresu (na prostej). 2,78 Wartości teoretyczne i obserw ow ane zmiennej zależnej 2,58 2,38 2,18 1,98 1,78 1,77 1,97 2,17 2,36 2,56 2,76 Pozostaje nam wykorzystanie wyestymowanego modelu do wyznaczenia prognozowanej liczby bezrobotnych w kolejnych miesiącach 1997 roku. Zaczniemy od wyznaczenia wartości harmonik dla czasu od t = 25 do t = 36. Poniżej widok arkusza NoweDane, w obszarze A25:A38 wpisano kolejne wartości zmiennej t, a następnie zaznaczono obszar C26:X26 zawierający formuły harmonik, które zostały skopiowane do wiersza 38. Wartości zmiennych z obszaru A2:X36 zostały następnie skopiowane do schowka Windows po to, aby je wykorzystać w arkuszu NoweWyniki do przygotowania obszaru zmiennych niezależnych wykorzystywanego przy prognozowaniu.
133 133 Poniżej fragment arkusza NoweWyniki, skopiowane do schowka dane zostały wklejone od komórki B116 techniką Wklej specjalnie/wartości, było to konieczne z uwagi na to, że skopiowany obszar zawierał formuły harmonik a nie ich wartości. Kolejna czynność to wybranie ze skopiowanych danych tych kolumn, które odpowiadają zmiennym niezależnym występującym w modelu. Dla ułatwienia tego zadania nazwy zmiennych z obszaru A6:A15 zostały skopiowane i wklejone techniką Wklej specjalnie/transpozycja od komórki B114. Korzystając z takich technik jak zaznaczanie odpowiedniego obszaru skopiowanych zmiennych niezależnych i wywołanie operacji Usuń z przesunięciem komórek (najczęściej w lewo) doprowadzamy do pokazanej niżej sytuacji. Dane z obszaru B116:K152 zostaną wykorzystane w procedurze Prognozowanie. Po wywołaniu procedury Prognozowanie wskazujemy potrzebne obszary dla jej uruchomienia.
134 134 Poniżej wyniki prognozowania wg wyestymowanego modelu. W kolumnie T od wiersza 141 wpisano formuły wyliczające względny błąd prognozy ex ante. Uzyskanie wyniki wskazują na poprawne zbudowanie prognozy. Poniżej pokazano dwa wykresy, pierwszy obrazuje obserwowane i teoretyczne wielkości bezrobocia w okresie 36 miesięcy, drugi pokazuje prognozowane wielkości bezrobocia wraz z przedziałami ufności dla predykcji. 2,90 2,70 2,50 2,30 2,10 1,90 1,70 Y teor. y(t) 1, ,20 2,00 1,80 1,60 Y teor. Dgpred. Ggpred. 1,40 1,
Janusz Górczyński. Moduł 3. Estymacja modeli krzywoliniowych dwóch zmiennych
Materiały pomocnicze do e-learningu Prognozowanie i symulacje Janusz Górczyński Moduł 3. Estymacja modeli krzywoliniowych dwóch zmiennych Wyższa Szkoła Zarządzania i Marketingu Sochaczew 2012 2 Od Autora
Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.
tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Rozdział 8. Regresja. Definiowanie modelu
Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność
166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego
Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego Ze względu na jakość uzyskiwanych ocen parametrów strukturalnych modelu oraz weryfikację modelu, metoda najmniejszych
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Testowanie hipotez statystycznych. Wnioskowanie statystyczne
Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy
Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )
Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału
( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:
ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Janusz Górczyński. Moduł 4. Badanie, czy trend zjawiska jest liniowy lub wykładniczy.
Materiały pomocnicze do e-learningu Prognozowanie i symulacje Janusz Górczyński Moduł 4. Badanie, czy trend zjawiska jest liniowy lub wykładniczy. Wyższa Szkoła Zarządzania i Marketingu Sochaczew 2012
Testowanie hipotez statystycznych.
Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie
PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.
Sprawdzian 2. Zadanie 1. Za pomocą KMNK oszacowano następującą funkcję produkcji: Gdzie: P wartość produkcji, w tys. jp (jednostek pieniężnych) K wartość kapitału zaangażowanego w proces produkcji, w tys.
parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,
诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów
3. Modele tendencji czasowej w prognozowaniu
II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28
Statystyka #5 Testowanie hipotez statystycznych Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik rok akademicki 2016/2017 1 / 28 Testowanie hipotez statystycznych 2 / 28 Testowanie hipotez statystycznych
Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007
Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja
Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ
Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,
Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa
Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie
Analiza wariancji. dr Janusz Górczyński
Analiza wariancji dr Janusz Górczyński Wprowadzenie Powiedzmy, że badamy pewną populację π, w której cecha Y ma rozkład N o średniej m i odchyleniu standardowym σ. Powiedzmy dalej, że istnieje pewien czynnik
Ekonometria. Zajęcia
Ekonometria Zajęcia 16.05.2018 Wstęp hipoteza itp. Model gęstości zaludnienia ( model gradientu gęstości ) zakłada, że gęstość zaludnienia zależy od odległości od okręgu centralnego: y t = Ae βx t (1)
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31
Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Analiza regresji - weryfikacja założeń
Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.
Wykład 3 Hipotezy statystyczne
Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza
VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15
VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady
WYKŁAD 8 ANALIZA REGRESJI
WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej
Metody Ilościowe w Socjologii
Metody Ilościowe w Socjologii wykład 2 i 3 EKONOMETRIA dr inż. Maciej Wolny AGENDA I. Ekonometria podstawowe definicje II. Etapy budowy modelu ekonometrycznego III. Wybrane metody doboru zmiennych do modelu
KORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem
Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka
Wnioskowanie statystyczne Weryfikacja hipotez Statystyka Co nazywamy hipotezą Każde stwierdzenie o parametrach rozkładu lub rozkładzie zmiennej losowej w populacji nazywać będziemy hipotezą statystyczną
Stanisław Cichocki. Natalia Nehrebecka. Wykład 9
Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności
Statystyka matematyczna dla leśników
Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje
Przykład 2. Stopa bezrobocia
Przykład 2 Stopa bezrobocia Stopa bezrobocia. Komentarz: model ekonometryczny stopy bezrobocia w Polsce jest modelem nieliniowym autoregresyjnym. Podobnie jak model podaŝy pieniądza zbudowany został w
Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
Prognozowanie na podstawie modelu ekonometrycznego
Prognozowanie na podstawie modelu ekonometrycznego Przykład. Firma usługowa świadcząca usługi doradcze w ostatnich kwartałach (t) odnotowała wynik finansowy (yt - tys. zł), obsługując liczbę klientów (x1t)
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
Wnioskowanie statystyczne i weryfikacja hipotez statystycznych
Wnioskowanie statystyczne i weryfikacja hipotez statystycznych Wnioskowanie statystyczne Wnioskowanie statystyczne obejmuje następujące czynności: Sformułowanie hipotezy zerowej i hipotezy alternatywnej.
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji
Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji
Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.
Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Hipotezy i Testy statystyczne Każde
Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2017/2018
Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2017/2018 Nr indeksu... Imię i Nazwisko... Nr grupy ćwiczeniowej... Imię i Nazwisko prowadzącego... 1. Specyfikacja modelu
Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2014/2015
Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2014/2015 Nr indeksu... Imię i Nazwisko... Nr grupy ćwiczeniowej... Imię i Nazwisko prowadzącego... 1. Specyfikacja modelu
Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu
Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)
Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
Ekonometria. Weryfikacja modelu. Paweł Cibis 12 maja 2007
Weryfikacja modelu Paweł Cibis pawel@cibis.pl 12 maja 2007 1 Badanie normalności rozkładu elementu losowego Test Hellwiga dla małej próby Test Kołmogorowa dla dużej próby 2 Testy Pakiet Analiza Danych
Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34
Statystyka Wykład 9 Magdalena Alama-Bućko 24 kwietnia 2017 Magdalena Alama-Bućko Statystyka 24 kwietnia 2017 1 / 34 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
7.4 Automatyczne stawianie prognoz
szeregów czasowych za pomocą pakietu SPSS Następnie korzystamy z menu DANE WYBIERZ OBSERWACJE i wybieramy opcję WSZYSTKIE OBSERWACJE (wówczas wszystkie obserwacje są aktywne). Wreszcie wybieramy z menu
Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).
Statystyka i opracowanie danych Ćwiczenia 12 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA WIELORAKA Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych
Estymacja punktowa i przedziałowa
Temat: Estymacja punktowa i przedziałowa Kody znaków: żółte wyróżnienie nowe pojęcie czerwony uwaga kursywa komentarz 1 Zagadnienia 1. Statystyczny opis próby. Idea estymacji punktowej pojęcie estymatora
Testowanie hipotez statystycznych
Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom
Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej
Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Paweł Cibis pawel@cibis.pl 23 lutego 2007 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa
Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13
Stanisław Cichocki Natalia Neherbecka Zajęcia 13 1 1. Kryteria informacyjne 2. Testowanie autokorelacji 3. Modele dynamiczne: modele o rozłożonych opóźnieniach (DL) modele autoregresyjne o rozłożonych
4. Średnia i autoregresja zmiennej prognozowanej
4. Średnia i autoregresja zmiennej prognozowanej 1. Średnia w próbie uczącej Własności: y = y = 1 N y = y t = 1, 2, T s = s = 1 N 1 y y R = 0 v = s 1 +, 2. Przykład. Miesięczna sprzedaż żelazek (szt.)
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.
TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012
b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:
ROZWIĄZANIA I ODPOWIEDZI Zadanie A1. Można założyć, że przy losowaniu trzech kul jednocześnie kolejność ich wylosowania nie jest istotna. A więc: Ω = 20 3. a) Niech: - wśród trzech wylosowanych opakowań
Analiza autokorelacji
Analiza autokorelacji Oblicza się wartości współczynników korelacji między y t oraz y t-i (dla i=1,2,...,k), czyli współczynniki autokorelacji różnych rzędów. Bada się statystyczną istotność tych współczynników.
Analiza Statystyczna
Lekcja 5. Strona 1 z 12 Analiza Statystyczna Do analizy statystycznej wykorzystać można wbudowany w MS Excel pakiet Analysis Toolpak. Jest on instalowany w programie Excel jako pakiet dodatkowy. Oznacza
Egzamin z ekonometrii wersja IiE, MSEMAT
Egzamin z ekonometrii wersja IiE, MSEMAT 04-02-2016 Pytania teoretyczne 1. Za pomocą jakiego testu weryfikowana jest normalność składnika losowego? Jakiemu założeniu KMRL odpowiada w tym teście? Jakie
Ćwiczenia IV
Ćwiczenia IV - 17.10.2007 1. Spośród podanych macierzy X wskaż te, których nie można wykorzystać do estymacji MNK parametrów modelu ekonometrycznego postaci y = β 0 + β 1 x 1 + β 2 x 2 + ε 2. Na podstawie
Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych
Statystyka matematyczna. Wykład IV. e-mail:e.kozlovski@pollub.pl Spis treści 1 2 3 Definicja 1 Hipoteza statystyczna jest to przypuszczenie dotyczące rozkładu (wielkości parametru lub rodzaju) zmiennej
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss
Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski
Narzędzia statystyczne i ekonometryczne Wykład 1 dr Paweł Baranowski Informacje organizacyjne Wydział Ek-Soc, pok. B-109 pawel@baranowski.edu.pl Strona: baranowski.edu.pl (w tym materiały) Konsultacje:
STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.
STATYSTYKA MATEMATYCZNA WYKŁAD 4 WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. Wysuwamy hipotezy: zerową (podstawową H ( θ = θ i alternatywną H, która ma jedną z
Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r
Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów
Korelacja krzywoliniowa i współzależność cech niemierzalnych
Korelacja krzywoliniowa i współzależność cech niemierzalnych Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej
Zawartość. Zawartość
Opr. dr inż. Grzegorz Biesok. Wer. 2.05 2011 Zawartość Zawartość 1. Rozkład normalny... 3 2. Rozkład normalny standardowy... 5 3. Obliczanie prawdopodobieństw dla zmiennych o rozkładzie norm. z parametrami
5. Model sezonowości i autoregresji zmiennej prognozowanej
5. Model sezonowości i autoregresji zmiennej prognozowanej 1. Model Sezonowości kwartalnej i autoregresji zmiennej prognozowanej (rząd istotnej autokorelacji K = 1) Szacowana postać: y = c Q + ρ y, t =
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych
Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna
Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować
Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna
Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna Badanie współzależności zmiennych Uwzględniając ilość zmiennych otrzymamy 4 odmiany zależności: Zmienna zależna jednowymiarowa oraz jedna
Estymacja parametrów w modelu normalnym
Estymacja parametrów w modelu normalnym dr Mariusz Grządziel 6 kwietnia 2009 Model normalny Przez model normalny będziemy rozumieć rodzine rozkładów normalnych N(µ, σ), µ R, σ > 0. Z Centralnego Twierdzenia
POLITECHNIKA OPOLSKA
POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres
Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;
LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny
Stanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1. Testy diagnostyczne 2. Testowanie prawidłowości formy funkcyjnej modelu 3. Testowanie normalności składników losowych 4. Testowanie stabilności parametrów 5. Testowanie
Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8
Stanisław Cichocki Natalia Nehrebecka Zajęcia 8 1. Testy diagnostyczne 2. Testowanie prawidłowości formy funkcyjnej modelu 3. Testowanie normalności składników losowych 4. Testowanie stabilności parametrów
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej
7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach
Analiza zależności cech ilościowych regresja liniowa (Wykład 13)
Analiza zależności cech ilościowych regresja liniowa (Wykład 13) dr Mariusz Grządziel semestr letni 2012 Przykład wprowadzajacy W zbiorze danych homedata (z pakietu R-owskiego UsingR) można znaleźć ceny
Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 4 Prognozowanie, stabilność 1 / 17 Agenda
Regresja linearyzowalna
1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia:
Zadania ze statystyki, cz.6
Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z
... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).
Egzamin ze Statystyki Matematycznej, WNE UW, wrzesień 016, zestaw B Odpowiedzi i szkice rozwiązań 1. Zbadano koszt 7 noclegów dla 4-osobowej rodziny (kwatery) nad morzem w sezonie letnim 014 i 015. Wylosowano
Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych
Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych 3.1. Estymacja parametrów i ocena dopasowania modeli z jedną zmienną 23. Właściciel komisu w celu zbadania
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
RÓWNOWAŻNOŚĆ METOD BADAWCZYCH
RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych
2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona
Sprawdzanie założeń przyjętych o modelu (etap IIIC przyjętego schematu modelowania regresyjnego) 1. Szum 2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona
Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW
Założenia do analizy wariancji dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW anna_rajfura@sggw.pl Zagadnienia 1. Normalność rozkładu cechy Testy: chi-kwadrat zgodności, Shapiro-Wilka, Kołmogorowa-Smirnowa
STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2
STATYSTYKA I DOŚWIADCZALNICTWO Wykład Parametry przedziałowe rozkładów ciągłych określane na podstawie próby (przedziały ufności) Przedział ufności dla średniej s X t( α;n 1),X + t( α;n 1) n s n t (α;
Testowanie hipotez statystycznych.
Bioinformatyka Wykład 4 Wrocław, 17 października 2011 Temat. Weryfikacja hipotez statystycznych dotyczących wartości oczekiwanej w dwóch populacjach o rozkładach normalnych. Model 3. Porównanie średnich