3. Regresja liniowa Założenia dotyczące modelu regresji liniowej

Podobne dokumenty
Trzeba pokazać, że dla każdego c 0 c Mc 0. ) = oraz det( ) det( ) det( ) jest macierzą idempotentną? Proszę odpowiedzieć w

EKONOMETRIA. Liniowy model ekonometryczny (regresji) z jedną zmienną objaśniającą

METODY NUMERYCZNE dr inż. Mirosław Dziewoński

Parametryzacja rozwiązań układu równań

Ćwiczenia nr 5. TEMATYKA: Regresja liniowa dla prostej i płaszczyzny

Definicja interpolacji

Twierdzenie Cayleya-Hamiltona

Elementy rach. macierzowego Materiały pomocnicze do MES Strona 1 z 7. Elementy rachunku macierzowego

KADD Metoda najmniejszych kwadratów

Podprzestrzenie macierzowe

Charakterystyki liczbowe zmiennych losowych: wartość oczekiwana i wariancja

Podprzestrzenie macierzowe

MACIERZE STOCHASTYCZNE

Niezależność zmiennych, funkcje i charakterystyki wektora losowego, centralne twierdzenia graniczne

Wokół testu Studenta 1. Wprowadzenie Rozkłady prawdopodobieństwa występujące w testowaniu hipotez dotyczących rozkładów normalnych

Modele tendencji rozwojowej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

O pewnych zastosowaniach rachunku różniczkowego funkcji dwóch zmiennych w ekonomii

8. Udowodnić, że: a) macierz X X jest macierzą symetryczną; b) jeśli M jest macierzą idempotentną, o wyznaczniku różnym od 0, to M = I;

ANALIZA KORELACJI IREGRESJILINIOWEJ

Metody numeryczne Laboratorium 5 Info

Twierdzenia graniczne:

Matematyka ubezpieczeń majątkowych r. Zadanie 1. Rozważamy proces nadwyżki ubezpieczyciela z czasem dyskretnym postaci: n

θx θ 1, dla 0 < x < 1, 0, poza tym,

1 Twierdzenia o granicznym przejściu pod znakiem całki

UKŁADY RÓWNAŃ LINOWYCH

P = 27, 8 27, 9 27 ). Przechodząc do granicy otrzymamy lim P(Y n > Y n+1 ) = P(Z 1 0 > Z 2 X 2 X 1 = 0)π 0 + P(Z 1 1 > Z 2 X 2 X 1 = 1)π 1 +

Przykładowe zadania dla poziomu rozszerzonego

Jarosław Wróblewski Analiza Matematyczna 1, zima 2016/17

z przedziału 0,1. Rozważmy trzy zmienne losowe:..., gdzie X

ma rozkład złożony Poissona z oczekiwaną liczbą szkód równą λ i rozkładem wartości pojedynczej szkody takim, że Pr( Y

oznaczają łączne wartości szkód odpowiednio dla k-tego kontraktu w t-tym roku. O składnikach naszych zmiennych zakładamy, że:

Wykład 11. a, b G a b = b a,

Prawdopodobieństwo i statystyka r.

Ekonometria Mirosław Wójciak

Korelacja i regresja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 12

Estymacja przedziałowa

są niezależnymi zmiennymi losowymi o jednakowym rozkładzie Poissona z wartością oczekiwaną λ równą 10. Obliczyć v = var( X

Metrologia: miary dokładności. dr inż. Paweł Zalewski Akademia Morska w Szczecinie

Relacje rekurencyjne. będzie następująco zdefiniowanym ciągiem:

Prawdopodobieństwo i statystyka

POLITECHNIKA OPOLSKA

Zadanie 2 Niech,,, będą niezależnymi zmiennymi losowymi o identycznym rozkładzie,.

( ) WŁASNOŚCI MACIERZY

Statystyka matematyczna. Wykład II. Estymacja punktowa

Matematyka ubezpieczeń majątkowych r.

X i. X = 1 n. i=1. wartość tej statystyki nazywana jest wartością średnią empiryczną i oznaczamy ją symbolem x, przy czym x = 1. (X i X) 2.

ALGEBRA LINIOWA Informatyka 2015/2016 Kazimierz Jezuita. ZADANIA - Seria 1. Znaleźć wzór na ogólny wyraz ciągu opisanego relacją rekurencyjną: x

Pierwiastki z liczby zespolonej. Autorzy: Agnieszka Kowalik

STATYSTYKA I ANALIZA DANYCH

Planowanie doświadczeń - DPLD LMO Materiały pomocnicze

ZADANIA - ZESTAW 2. Zadanie 2.1. Wyznaczyć m (n)

Zmienna losowa N ma rozkład ujemny dwumianowy z parametrami (, q) = 7,

Statystyka opisowa. () Statystyka opisowa 24 maja / 8

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH

ZAGADNIENIE ESTYMACJI. ESTYMACJA PUNKTOWA I PRZEDZIAŁOWA

1 Przedziały ufności. ). Obliczamy. gdzie S pochodzi z rozkładu B(n, 1 2. P(2 S n 2) = 1 P(S 2) P(S n 2) = 1 2( 2 n +n2 n +2 n ) = 1 (n 2 +n+2)2 n.

STATYSTYKA OPISOWA WYKŁAD 1 i 2

będą niezależnymi zmiennymi losowymi z rozkładu jednostajnego na przedziale ( 0,

1 Układy równań liniowych

STATYSTKA I ANALIZA DANYCH LAB II

Kurs Prawdopodobieństwo Wzory

MATEMATYKA (poziom podstawowy) przykładowy arkusz maturalny wraz ze schematem oceniania dla klasy II Liceum

Wyższe momenty zmiennej losowej

n k n k ( ) k ) P r s r s m n m n r s r s x y x y M. Przybycień Rachunek prawdopodobieństwa i statystyka

Wprowadzenie. metody elementów skończonych

D. Miszczyńska, M.Miszczyński KBO UŁ, Badania operacyjne (wykład 6 _ZP) [1] ZAGADNIENIE PRZYDZIAŁU (ZP) (Assignment Problem)

A A A A11 A12 A1. m m mn

Model ciągły wyceny opcji Blacka Scholesa - Mertona. Wzór Blacka - Scholesa na wycenę opcji europejskiej.

Podstawowe rozkłady zmiennych losowych typu dyskretnego

3. Tworzenie próby, błąd przypadkowy (próbkowania) 5. Błąd standardowy średniej arytmetycznej

Lista 6. Estymacja punktowa

I kolokwium z Analizy Matematycznej

Wprowadzenie do laboratorium 1

Egzamin maturalny z matematyki CZERWIEC 2011

STATYSTYKA OPISOWA PODSTAWOWE WZORY

0.1 ROZKŁADY WYBRANYCH STATYSTYK

Ćwiczenie nr 14. Porównanie doświadczalnego rozkładu liczby zliczeń w zadanym przedziale czasu z rozkładem Poissona

I. Podzielność liczb całkowitych

Jarosław Wróblewski Analiza Matematyczna 1A, zima 2012/13. Ciągi.

Analiza wyników symulacji i rzeczywistego pomiaru zmian napięcia ładowanego kondensatora

Miary rozproszenia. Miary położenia. Wariancja. Średnia. Dla danych indywidualnych: Dla danych indywidualnych: s 2 = 1 n. (x i x) 2. x i.

Identyfikacja i modelowanie struktur i procesów biologicznych

Zdarzenia losowe, definicja prawdopodobieństwa, zmienne losowe

Miary położenia. Miary rozproszenia. Średnia. Wariancja. Dla danych indywidualnych: Dla danych indywidualnych: s 2 = 1 n. (x i x) 2. x i.

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych

Znajdowanie pozostałych pierwiastków liczby zespolonej, gdy znany jest jeden pierwiastek

8. Optymalizacja decyzji inwestycyjnych

STATYSTYKA MATEMATYCZNA

Szereg geometryczny. 5. b) b n = 4n 2 (b 1 = 2, r = 4) lub b n = 10 (b 1 = 10, r = 0). 2. jest równa 1 x dla x = 1+ Zad. 3:

Arkusz ćwiczeniowy z matematyki Poziom podstawowy ZADANIA ZAMKNIĘTE. W zadaniach od 1. do 21. wybierz i zaznacz poprawną odpowiedź. 1 C. 3 D.

Zeszyty naukowe nr 9

Jarosław Wróblewski Analiza Matematyczna 1A, zima 2014/15. n = Rozwiązanie: Stosując wzór na wartość współczynnika dwumianowego otrzymujemy

zadań z pierwszej klasówki, 10 listopada 2016 r. zestaw A 2a n 9 = 3(a n 2) 2a n 9 = 3 (a n ) jest i ograniczony. Jest wiec a n 12 2a n 9 = g 12

3. Wykład III: Warunki optymalności dla zadań bez ograniczeń

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych (w zakresie materiału przedstawionego na wykładzie organizacyjnym)

Wykład 13: Zbieżność według rozkładu. Centralne twierdzenie graniczne.

Elementy statystyki opisowej Izolda Gorgol wyciąg z prezentacji (wykład I)

MINIMALIZACJA PUSTYCH PRZEBIEGÓW PRZEZ ŚRODKI TRANSPORTU

Stwierdzenie 1. Jeżeli ciąg ma granicę, to jest ona określona jednoznacznie (żaden ciąg nie może mieć dwóch różnych granic).

Estymacja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 7

Transkrypt:

3. Regresja liiowa 3.. Założeia dotyczące modelu regresji liiowej Aby moża było wykorzystać model regresji liiowej, muszą być spełioe astępujące założeia:. Relacja pomiędzy zmieą objaśiaą a zmieymi objaśiającymi musi być iezmieicza ze względu a obserwacje, tz. jeśli istieje fukcji opisujących te relacje, y f (,,...,, ε),,,...,, to f f f f. Model jest liiowy względem parametrów, tz. przy zmieych objaśiających jego postać jest daa wzorem y f(,,..., k 0, ε ) α + α + α +... + α + ε 3. Zmiea objaśiająca jest ielosowa, a jej wartości są ustaloymi liczbami rzeczywistymi. Ozacza to, że a) wartość oczekiwaa zmieej objaśiaej, E(y), ie jest warukowa względem zmieej objaśiającej, b) wariacja zmieej objaśiaej, D (y), ie jest warukowa względem zmieej objaśiającej. 4. Składik losowy ma rozkład ormaly 5. Występujące zakłóceia, które reprezetuje składik losowy ε, mają tedecje do wzajemej redukcji: E(ε)0, (wartość oczekiwaa jest rówa zero). 6. Iformacje zawarte w próbie są jedyymi, a podstawie których dokouje się estymacji parametrów modelu. 7. Poszczególe wartości składika losowego ie zależą wzajemie od siebie. Założeia te azywae są założeiami schematu Gaussa-Markowa i defiiują tzw. stadardowy model liiowy. k 3.

3.. Estymacja modelu liiowego - metoda ajmiejszych kwadratów Model liiowy postaci y α + α + α +... + α + ε 0 moża zapisać, wykorzystując zapis zmieych oraz składika losowego (elemetów zakłóceia) w postaci macierzowej: α + α + α +... + α + ε 0 gdzie - przy obserwacjach - zmiee i składik losowy maja postać y y M y Wprowadzając macierze, k M k k k, ε ε ε M ε α0 α α M α ( + ), ( + ) parametry strukturale układu możemy zapisać model liiowy w zwartej postaci, a miaowicie: α + ε umer obserwacji to dla wszystkich macierzy (oprócz α) umery wierszy. Dla macierzy α liczba wierszy określoa jest jako +, co wyika z tego, ze wszystkie (poza pierwszym) elemety tej macierzy są współczyikami przy zmieych objaśiających, a pierwszy jest wyrazem wolym. Składik losowy (macierz zakłóceia) to macierz różic pomiędzy elemetami rzeczywistymi a przewidywaymi przez model: ε α 3.

3.3. Metoda ajmiejszych kwadratów Oczywiste jest, że model będzie tym lepiej opisywał zmieą objaśiaa im miejsze będą zakłóceia, opisywae przez macierz kolumową ε. aką macierz moża utożsamić z wektorem o współrzędych. wadrat długości tego wektora zapiszemy w postaci φ ε ε ε ε [ ] ε ε ε ε + ε + + ε gdzie - zgodie ze wzorem M ε ε α ε i wprowadzoymi ozaczeiami - ( α + α + α + α ) ε y + 0 wadrat długości wektora ε moża zatem zapisać jako φ ε ε ( y ( α + α + α + + α )) φ( α, α,, α ) 0 czyli jako fukcję + zmieych, którymi są parametry strukturale modelu α α,, α. Warukiem koieczym osiągięcia miimum przez tę fukcję jest zerowaie się wszystkich pochodych cząstkowych względem parametrów strukturalych. Prowadzi to do układu rówań: 0 φ α k ( y ( α + α + α + + α )) k,,..., 0 k gdzie 0,,,...,. e układ rówań moża po podzieleiu przez zapisać w zwartej, macierzowej postaci: ( α ) 0 Jest to tzw. układ rówań ormalych. 3.3

Układ rówań ormalych ( ) 0 α moża zapisać w postaci α Jeśli macierz jest ieosobliwa (czyli istieje macierz do iej odwrota), to możąc lewostroie powyższe rówaie przez ( ) - otrzymujemy wektor parametrów strukturalych w postaci: α ( ) Moża sprawdzić bezpośredim rachukiem, że dla tak wyzaczoych parametrów strukturalych macierz φ αk 0 α, α z czego wyika, że fukcja φ ( α, ) jest dodatio określoa,, osiąga dla ich miimum. o ozacza, że dla tak wyzaczoej macierzy α składik losowy (macierz zakłóceia) jest rzeczywiście zmiimalizoway. ym samym zamy postać modelu liiowego z dokładością do zmiimalizowaych zakłóceń: y α + α + α +... + α + ε 0 Przykład abela przedstawia dae dotyczące liczby ludości oraz liczby ucziów szkół podstawowych y w powiatach województwa świętokrzyskiego w 00 roku (bez powiatu grodzkiego ielce): B J W ie o Op Ost P Sa S- Star Stasz Wło 76 55 9 35 37 67 96 58 87 747 59 38 75 43 69 85 858 83 97 98 59 78 09 48 3 5 993 7 473 3 0 9 078 7 00 4 934 8 89 3 57 7 07 5 887 7 839 6 83 4 338 Wyzaczyć liiową postać modelu ekoometryczego opisującego liczbę ucziów w zależości od liczby ludości w powiatach. 3.4

Rozwiązaie: Poieważ jest jeda zmiea objaśiająca, zatem szukamy fukcji α + α 0 W tym przykładzie (jeda zmiea objaśiająca) oraz 3 (trzyaście powiatów). Odpowiedie macierze są astępujące: 5993 7473 30 9078 700 4934 889, 357 707 5887 7839 683 4338 7655 935 3767 9658 87747 5938 75, 4369 85858 8397 9859 7809 483 α α 0 α ajpierw obliczymy : 3 09345 09345 479799869 - jak widać, jest oa symetrycza. Jej wyzaczik det( ) 6776477 0. Zatem istieje macierz odwrota: 438665 00000438547 ( ) 00000438547 00000000004967 3.5

Obliczeie iloczyu prowadzi do wyiku skąd α 973 9757079 75509 ( ) 0 09558863 co ozacza, że α 0-075 oraz α 09558863. Zatem model ekoometryczy zależości pomiędzy liczbą ludości w powiecie województwa świętokrzyskiego a liczbą ucziów szkół podstawowych wyraża się wzorem: y -075 + 09558863 Porówajmy, jak wygląda obliczoa liczba ucziów w powiatach w porówaiu z liczbą faktycza: powiat Bus Jęd a W ie o Op Ost Piń Sa S- Star Stasz Wło dae 5 993 7 473 3 0 9 078 7 00 4 934 8 89 3 57 7 07 5 887 7 839 6 83 4 338 obl 6 88 7 706 495 7 685 7 87 4 55 0 534 3 076 7 06 6 9 8 38 6 364 3 499 d - o -95-33 56 393-85 38-705 44-89 -034-479 449 839 błąd % -3,6-3, 7,4 7,30-4,07 7,74-9,3,55 -,7-7,56-6,0 6,59 9,33 Jak widać z tabeli, w iektórych powiatach występuje zacze odstępstwo wartości obliczoych od faktyczych. Przykład cd Wyzaczyć liiową postać modelu ekoometryczego opisującego produkcję firmy w mld zł (y) przy astępujących zmieych objaśiających (umeracja jak w części ): wartość środków trwałych (mld zł), 3 czas przestoju maszy (di). Podae w tym przykładzie dwie zmiee objaśiające zostały wybrae arbitralie spośród trzech kadydatek. Aby uikąć ieporozumień co do umeracji, wprowadzoo ozaczeia I II 3 3.6

Rozwiązaie Poieważ mamy tu dwie zmiee objaśiające, więc szukamy fukcji α + α + α 0 I II W tym przykładzie (dwie zmiee objaśiające) oraz 0 (dae z dziesięciu lat). Odpowiedie macierze mają postać: 0 0 6 6, 4 0 0 0 8 8 8 8 4 6 6 8 4 4 8 8 8, 8 4 4 6 6 α 0 α α α ajpierw obliczymy : 0 0 00 0 576 548 00 548 49 Jak widać, jest to macierz symetrycza. Jej wyzaczik det( ) 4080. Stąd macierz odwrota: ( ), 760 559 43 559 0456 035 43 035 033 3.7

Obliczeie iloczyu prowadzi do wyiku skąd α ( ) 60 068 3376 406464 567376 488897 co ozacza, że α 0-406464, α 567376 oraz α 488897. Zatem model ekoometryczy zależości pomiędzy produkcją firmy w mld zł (y) a wartością środków trwałych (mld zł) i czasem przestoju maszy (di) wyraża się wzorem: y - 406464 + 567376 I +488897 II Porówajmy, jak wygląda obliczoa wartość produkcji firmy w mld zł w porówaiu z wartością faktyczą: ata 7 7 73 74 75 76 77 78 79 80 dae 0 0 6 6 4 0 0 0 obl 85 85 5,034 5,034,783,783 9,057 83,48,74 d - ob. ε 85 85-966 -966 783 -,7-943 83,48 74 błąd % 8,5 8,5-6,04-6,04 6,53-8,69-4,7 9 5,74,4 Jak widać z tabeli, występuje tu iezacze odstępstwo wartości obliczoych od faktyczych. a koiec wypiszmy własości wektora α : I α + ε, 3.8 obl α obl ( ) ε 0 ε I ( α ) 0 ( α ) ε α 0 ε α ε ε α