MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze odzwierciedla tę zależność. Takiego badania dokonujemy na podstawie przeprowadzenia doświadczeń i analizy ich wyników. Przykłady: zależność wydajności ziemi od różnych nawozów mineralnych; zależność poziomu zysku banku od liczby klientów, wysokości inwestycji, wielkości wydanych kredytów itd. Warto zaznaczyć, że słowo regresja w tłumaczeniu z łaciny oznacza cofanie. Stosowanie w nazwie tej dziedziny słowa regresja jest historyczne i raczej niefortunne. Nazwa ta została, prawdopodobnie, po raz pierwszy użyta w 1885 r. przez angielskiego naukowca Sir F. Galtona (ucznia K. Darwina) pod czas badania zależności wzrostu potomstwa od wzrostu rodziców. Wykazał on bowiem, że niezwykle wysocy rodzice (znacznie wyżsi od przeciętności), mają dzieci niższego wzrostu, natomiast rodzice o wzroście znacznie niższym, niż przeciętny, mają dzieci wyższe od nich. Galton nazwał to zjawisko cofaniem w kierunku przeciętności. Ale w 1
istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy francuscy (szczególnie P.-S. Laplace) w XVIII wieku przeprowadzały analizy, które nazwalibyśmy regresją. Niech więc interesuje nas zależność zmiennej Y od zmiennych X (1),..., X (m), m 1. Zmienna Y jest nazywana zmienną zależną, zaś zmienne X (1),..., X (m) zmiennymi niezależnymi. Pytanie, na które chcielibyśmy dostać odpowiedź, to: czy ta zależność istnieje, i jeżeli tak, to chcielibyśmy wyrazić ją za pomocą pewnego modelu (równania). Warto zaznaczyć, iż zmienne mogą być powiązane między sobą zależnością funkcyjną lub statystyczną. Związek funkcyjny Y = f(x (1),..., X (m) ) odznacza się tym, że każdemu naboru wartości zmiennych X (1),..., X (m) odpowiada tylko jedna, jednoznacznie określona wartość zmiennej Y (np. pole kwadratu jest funkcją jego boku). Bardzo rzadko jednak mamy do czynienia z danymi, które dokładnie opisują się podobną zależnością. Częściej mamy do czynienia z tzw. zależnością statystyczną. Związek statystyczny polega na tym, że określonemu naboru wartości zmiennych X (1),..., X (m) odpowiadają ściśle określone średnie wartości zmien- 2
nej Y. W przypadku zależności statystycznej naturalnie jest zakładać, że wartości zmiennej zależnej są losowe, wartości zaś zmiennych niezależnych są nielosowe. Załóżmy, że możemy przeprowadzić n pomiarów wartości zmiennej Y w zależności od pewnych wartości zmiennych X (1),..., X (m). Wartości powyższych zmiennych, uzyskane w trakcie doświadczeń, będziemy oznaczać odpowiednimi malymi literami. Więc punktem wyjścia w naszych rozumowaniach będą obserwacje (x 1) i,..., x(m) i, y i ), i = 1,..., n. Przykład. Rozpatrzmy rezultaty kolokwium (skala od 0 do 25 punktów) i egzaminu koncowego (skala od 0 do 50 punktów) ze statystyki matematycznej. W kolokwium i egzaminie brało udział 19 studentów pewnej szkoły technicznej. Wyniki kolokwium i egzaminu: Numer stud. 1 2 3 4 5 6 7 8 9 10 11 Kolokwium 7 11 12 14 17 15 21 22 19 13 5 Egzamin 20 24 25 30 35 30 43 42 41 24 14 Numer stud. 12 13 14 15 16 17 18 19 Kolokwium 12 16 14 21 20 17 10 17 Egzamin 27 35 28 42 40 34 23 40 Zależność pomiędzy wynikiem egzaminu końcowego (zmienna zależna) a kolokwium (zmienna niezależna) przed- 3
40 35 30 25 20 15 0 5 10 15 20 kolokwium Rysunek 1: Wykres rozrzutu. stawiono na Rysunku 1. Rysunek taki nazywa się wykresem rozrzutu i jest użytecznym graficznym przedstawieniem zależności między zmiennymi. Tworzy się on za pomocą par punktów (x i, y i ), i = 1,..., 19. Zaznaczmy, że w przypadku, gdy mamy do czynienia z jedną zmienną niezależną, zagadnienie konstrukcji modelu należy zawsze zaczynać od sporządzenia wykresu rozrzutu. Widzimy, że istotnie mamy tutaj do czynienia z zależnością statystyczna, a nie funkcyjną, bowiem mamy studentów, których wynik kolokwium jest taki sam, ale wynik egzaminu różni się (np. studenci o numerach 5, 17 i 19 mają ten sam wynik kolokwium - 17 punktów, lecz różny wynik egzaminu - odpowiednio 35, 34 i 40 punktów). Wykres rozrzutu sugeruje istnienie prostej, wokół której koncentrują się obserwacje. 4
Ogólnie proces konstrukcji modelu przebiega następujące etapy. Etap 1. Specyfikacja modelu. Dokonujemy wybór typu modelu (liniowy, wielomianowy, nieliniowy itd), który będziemy rozważać. Wyboru tego dokonujemy na podstawie wykresu rozrzutu, bądź jakiejś wiedzy o możliwym charakterze zależności. Możemy też sugerować się poszukiwaniem rozwiązania jak najprostszego. Etap 2. Estymacja modelu. Stosując odpowiednie metody statystyczne i w oparciu o dane, które posiadamy, dokonujemy estymacji parametrów modelu, czyli wyboru takiej funkcji wśród rozważanych, która najlepiej pasuje do danych. Etap 3. Weryfikacja modelu. Sprawdzamy, czy skonstruowany na poprzednim etapie model dobrze pasuje do posiadanych danych oraz czy spełnione są założenia modelu. Jeśli model nie spełnia stawianych mu wymagań, formułujemy nowy model i wracamy do poprzedniego etapu. Etap 4. Używanie modelu. Jeżeli stworzony model uznajemy za poprawny, to możemy wykorzystać go, np. dla prognozowania wartości zmiennej zależnej w przypadku innych, aniżeli uzyskane dotychczas, wartości zmiennych niezależnych, lub do sterowania - czyli wyznaczenia wartości zmiennych niezależnych dla uzyskania od- 5
powiedniej wartości zmiennej zależnej. Zgodnie z etapem 1, zawężamy krąg rozważanych funkcji, opisujących zależność, do pewnej parametrycznej klasy funkcji H, tzn. zakładamy, że model opisuje się funkcją z klasy H = {h(x, θ), θ Θ R k, x = (x (1),..., x (m) ) R m }, gdzie h : R m R k R jest zadaną funkcją ciągłą. Funkcja h jest nazywana funkcją regresji. W tej sytuacji problem poszukiwania dobrego modelu opisującego zależność sprowadza się do poszukiwania (szacowania) wektora parametrów θ. Jeśli funkcja h jest liniowa względem θ, to regresja (i odpowiedni model) nazywa się liniową, w przeciwnym przypadku - nieliniową. Ogólna postać funkcji regresji liniowej, to: h(x, θ) = k j=1 θ jf j (x), gdzie f j : R m R są zadanymi funkcjami ciągłymi, j = 1,..., k. Rozważmy najprostszą sytuację, gdy mamy jedną zmienną niezależną, a funkcją regresji jest postaci h(x, θ 0, θ 1 ) = θ 0 + θ 1 x. Przy poszukiwaniu odpowiednich ( najlepszych ) wartości parametrów θ 0, θ 1 zazwyczaj stosujemy tzw. metodę najmniejszych kwadratów (MNK), wprowadzoną jeszcze na początku XIX wieku przez A.-M. Legendre a i C. F. Gaussa. Polega ona na tym, 6
5 4 y 3 2 1 2 4 6 8 10 x Rysunek 2: Metoda najmniejszych kwadratów. że mając obserwacje (x i, y i ), i = 1,..., n, rozwiązujemy następujący problem matematyczny: (y i (θ 0 + θ 1 x i )) 2 min. θ 0,θ 1 Wartości θ 0, θ 1, które określają rozwiązanie tego problemu, uważamy za poszukiwane. Powyższy problem jest równoważny do problemu: θ 2 1 x 2 i +2θ 1 θ 0 x i +nθ0 2θ 2 1 y i x i 2θ 0 Przyrównujemy do zera pochodne po θ 1 i θ 0 : θ n 1 x2 i + θ n 0 x i = n y ix i θ 1 n x i + nθ 0 = n y i 7 y i min θ 0,θ 1.
skąd, rozwiązując ten układ równań liniowych, dostajemy: n θ 1 = (x i x)(y i ȳ) n (x, i x) 2 θ0 = ȳ θ 1 x. Rozwiązanie to jest jednoznaczne pod warunkiem, że nie wszystkie {x i } są jednakowe. 8