3. Regresja liiowa 3.. Założeia dotyczące modelu regresji liiowej Aby moża było wykorzystać model regresji liiowej, muszą być spełioe astępujące założeia:. Relacja pomiędzy zmieą objaśiaą a zmieymi objaśiającymi musi być iezmieicza ze względu a obserwacje, tz. jeśli istieje fukcji opisujących te relacje, y f (,,...,, ε),,,...,, to f f f f. Model jest liiowy względem parametrów, tz. przy zmieych objaśiających jego postać jest daa wzorem y f(,,..., k 0, ε ) α + α + α +... + α + ε 3. Zmiea objaśiająca jest ielosowa, a jej wartości są ustaloymi liczbami rzeczywistymi. Ozacza to, że a) wartość oczekiwaa zmieej objaśiaej, E(y), ie jest warukowa względem zmieej objaśiającej, b) wariacja zmieej objaśiaej, D (y), ie jest warukowa względem zmieej objaśiającej. 4. Składik losowy ma rozkład ormaly 5. Występujące zakłóceia, które reprezetuje składik losowy ε, mają tedecje do wzajemej redukcji: E(ε)0, (wartość oczekiwaa jest rówa zero). 6. Iformacje zawarte w próbie są jedyymi, a podstawie których dokouje się estymacji parametrów modelu. 7. Poszczególe wartości składika losowego ie zależą wzajemie od siebie. Założeia te azywae są założeiami schematu Gaussa-Markowa i defiiują tzw. stadardowy model liiowy. k 3.
3.. Estymacja modelu liiowego - metoda ajmiejszych kwadratów Model liiowy postaci y α + α + α +... + α + ε 0 moża zapisać, wykorzystując zapis zmieych oraz składika losowego (elemetów zakłóceia) w postaci macierzowej: α + α + α +... + α + ε 0 gdzie - przy obserwacjach - zmiee i składik losowy maja postać y y M y Wprowadzając macierze, k M k k k, ε ε ε M ε α0 α α M α ( + ), ( + ) parametry strukturale układu możemy zapisać model liiowy w zwartej postaci, a miaowicie: α + ε umer obserwacji to dla wszystkich macierzy (oprócz α) umery wierszy. Dla macierzy α liczba wierszy określoa jest jako +, co wyika z tego, ze wszystkie (poza pierwszym) elemety tej macierzy są współczyikami przy zmieych objaśiających, a pierwszy jest wyrazem wolym. Składik losowy (macierz zakłóceia) to macierz różic pomiędzy elemetami rzeczywistymi a przewidywaymi przez model: ε α 3.
3.3. Metoda ajmiejszych kwadratów Oczywiste jest, że model będzie tym lepiej opisywał zmieą objaśiaa im miejsze będą zakłóceia, opisywae przez macierz kolumową ε. aką macierz moża utożsamić z wektorem o współrzędych. wadrat długości tego wektora zapiszemy w postaci φ ε ε ε ε [ ] ε ε ε ε + ε + + ε gdzie - zgodie ze wzorem M ε ε α ε i wprowadzoymi ozaczeiami - ( α + α + α + α ) ε y + 0 wadrat długości wektora ε moża zatem zapisać jako φ ε ε ( y ( α + α + α + + α )) φ( α, α,, α ) 0 czyli jako fukcję + zmieych, którymi są parametry strukturale modelu α α,, α. Warukiem koieczym osiągięcia miimum przez tę fukcję jest zerowaie się wszystkich pochodych cząstkowych względem parametrów strukturalych. Prowadzi to do układu rówań: 0 φ α k ( y ( α + α + α + + α )) k,,..., 0 k gdzie 0,,,...,. e układ rówań moża po podzieleiu przez zapisać w zwartej, macierzowej postaci: ( α ) 0 Jest to tzw. układ rówań ormalych. 3.3
Układ rówań ormalych ( ) 0 α moża zapisać w postaci α Jeśli macierz jest ieosobliwa (czyli istieje macierz do iej odwrota), to możąc lewostroie powyższe rówaie przez ( ) - otrzymujemy wektor parametrów strukturalych w postaci: α ( ) Moża sprawdzić bezpośredim rachukiem, że dla tak wyzaczoych parametrów strukturalych macierz φ αk 0 α, α z czego wyika, że fukcja φ ( α, ) jest dodatio określoa,, osiąga dla ich miimum. o ozacza, że dla tak wyzaczoej macierzy α składik losowy (macierz zakłóceia) jest rzeczywiście zmiimalizoway. ym samym zamy postać modelu liiowego z dokładością do zmiimalizowaych zakłóceń: y α + α + α +... + α + ε 0 Przykład abela przedstawia dae dotyczące liczby ludości oraz liczby ucziów szkół podstawowych y w powiatach województwa świętokrzyskiego w 00 roku (bez powiatu grodzkiego ielce): B J W ie o Op Ost P Sa S- Star Stasz Wło 76 55 9 35 37 67 96 58 87 747 59 38 75 43 69 85 858 83 97 98 59 78 09 48 3 5 993 7 473 3 0 9 078 7 00 4 934 8 89 3 57 7 07 5 887 7 839 6 83 4 338 Wyzaczyć liiową postać modelu ekoometryczego opisującego liczbę ucziów w zależości od liczby ludości w powiatach. 3.4
Rozwiązaie: Poieważ jest jeda zmiea objaśiająca, zatem szukamy fukcji α + α 0 W tym przykładzie (jeda zmiea objaśiająca) oraz 3 (trzyaście powiatów). Odpowiedie macierze są astępujące: 5993 7473 30 9078 700 4934 889, 357 707 5887 7839 683 4338 7655 935 3767 9658 87747 5938 75, 4369 85858 8397 9859 7809 483 α α 0 α ajpierw obliczymy : 3 09345 09345 479799869 - jak widać, jest oa symetrycza. Jej wyzaczik det( ) 6776477 0. Zatem istieje macierz odwrota: 438665 00000438547 ( ) 00000438547 00000000004967 3.5
Obliczeie iloczyu prowadzi do wyiku skąd α 973 9757079 75509 ( ) 0 09558863 co ozacza, że α 0-075 oraz α 09558863. Zatem model ekoometryczy zależości pomiędzy liczbą ludości w powiecie województwa świętokrzyskiego a liczbą ucziów szkół podstawowych wyraża się wzorem: y -075 + 09558863 Porówajmy, jak wygląda obliczoa liczba ucziów w powiatach w porówaiu z liczbą faktycza: powiat Bus Jęd a W ie o Op Ost Piń Sa S- Star Stasz Wło dae 5 993 7 473 3 0 9 078 7 00 4 934 8 89 3 57 7 07 5 887 7 839 6 83 4 338 obl 6 88 7 706 495 7 685 7 87 4 55 0 534 3 076 7 06 6 9 8 38 6 364 3 499 d - o -95-33 56 393-85 38-705 44-89 -034-479 449 839 błąd % -3,6-3, 7,4 7,30-4,07 7,74-9,3,55 -,7-7,56-6,0 6,59 9,33 Jak widać z tabeli, w iektórych powiatach występuje zacze odstępstwo wartości obliczoych od faktyczych. Przykład cd Wyzaczyć liiową postać modelu ekoometryczego opisującego produkcję firmy w mld zł (y) przy astępujących zmieych objaśiających (umeracja jak w części ): wartość środków trwałych (mld zł), 3 czas przestoju maszy (di). Podae w tym przykładzie dwie zmiee objaśiające zostały wybrae arbitralie spośród trzech kadydatek. Aby uikąć ieporozumień co do umeracji, wprowadzoo ozaczeia I II 3 3.6
Rozwiązaie Poieważ mamy tu dwie zmiee objaśiające, więc szukamy fukcji α + α + α 0 I II W tym przykładzie (dwie zmiee objaśiające) oraz 0 (dae z dziesięciu lat). Odpowiedie macierze mają postać: 0 0 6 6, 4 0 0 0 8 8 8 8 4 6 6 8 4 4 8 8 8, 8 4 4 6 6 α 0 α α α ajpierw obliczymy : 0 0 00 0 576 548 00 548 49 Jak widać, jest to macierz symetrycza. Jej wyzaczik det( ) 4080. Stąd macierz odwrota: ( ), 760 559 43 559 0456 035 43 035 033 3.7
Obliczeie iloczyu prowadzi do wyiku skąd α ( ) 60 068 3376 406464 567376 488897 co ozacza, że α 0-406464, α 567376 oraz α 488897. Zatem model ekoometryczy zależości pomiędzy produkcją firmy w mld zł (y) a wartością środków trwałych (mld zł) i czasem przestoju maszy (di) wyraża się wzorem: y - 406464 + 567376 I +488897 II Porówajmy, jak wygląda obliczoa wartość produkcji firmy w mld zł w porówaiu z wartością faktyczą: ata 7 7 73 74 75 76 77 78 79 80 dae 0 0 6 6 4 0 0 0 obl 85 85 5,034 5,034,783,783 9,057 83,48,74 d - ob. ε 85 85-966 -966 783 -,7-943 83,48 74 błąd % 8,5 8,5-6,04-6,04 6,53-8,69-4,7 9 5,74,4 Jak widać z tabeli, występuje tu iezacze odstępstwo wartości obliczoych od faktyczych. a koiec wypiszmy własości wektora α : I α + ε, 3.8 obl α obl ( ) ε 0 ε I ( α ) 0 ( α ) ε α 0 ε α ε ε α