Statystyczna analiza danych 1

Statystyczna analiza danych 1 Regresja liniowa 1 Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski Ewa Szczurek Regresja liniowa 1 1 / 41

Dane: wpływ reklam produktu na sprzedaż w 200 sklepach Sales 5 10 15 20 25 Sales 5 10 15 20 25 Sales 5 10 15 20 25 0 50 100 200 300 TV 0 10 20 30 40 50 Radio 0 20 40 60 80 100 Newspaper Oś X: nakłady na reklamę w danym medium w tysiącach $ Oś Y: liczba sprzedanych jednostek produktu (w tysiącach) Ewa Szczurek Regresja liniowa 1 2 / 41

Przykładowe pytania Czy jest związek pomiędzy wielkością reklamowego budżetu a wielkością sprzedaży? Jak silny jest ten związek, np. czy umiemy przewidzieć wielkość sprzedaży w zależności od wysokości budżetu? Które media mają największy wpływ na wysokość sprzedaży? Jak dokładnie umiemy przewidzieć, dla każdego z mediów, wysokość sprzedaży w zależności od wysokości budżetu reklamowego? Jak dokładnie umiemy przewidzieć wysokość sprzedaży w przyszłości? Czy zależność jest liniowa? Czy istnieje synergia pomiędzy mediami? Ewa Szczurek Regresja liniowa 1 3 / 41

Prosta regresja liniowa z jedną zmienną objaśniającą Y = β 0 + β 1 X + ɛ gdzie X to zmienna objaśniająca, Y to zmienna objaśniana, ɛ to błąd, E(ɛ) = 0. Na przykład: sales β 0 + β 1 (TV ), gdzie β 0, β 1 to (nieznane) parametry. Ewa Szczurek Regresja liniowa 1 4 / 41

Prosta regresja liniowa z jedną zmienną objaśniającą Mamy n obserwacji (dane treningowe): (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ), Nasz model zakłada, że y i = β 0 + β 1 x i + ɛ i, oraz, że Wartości wejściowe x i deterministyczne (nie losowe) obserwowane Zmienne ɛ i niezależne o identycznym rozkładzie E[ɛ i ] = 0 Var[ɛ i ] = σ 2 < 0 dla każdego i = 1,..., n. Ewa Szczurek Regresja liniowa 1 5 / 41

Predykcja w regresji liniowej z jedną zmienną objaśniającą Mając estymacje ˆβ 0 oraz ˆβ 1 obliczamy predykcję wartości dla Y na podstawie wartości X = x jako ŷ = ˆβ 0 + ˆβ 1 x. Ewa Szczurek Regresja liniowa 1 6 / 41

Estymacja parametrów (jedna zmienna objaśniająca) Przy zadanych estymacjach parametrów ˆβ 0, ˆβ 1, błąd RSS (resztowa suma kwadratów, ang. residual sum of squres): RSS = n (y i ˆβ 0 ˆβ 1 x i ) 2. i=1 Minimalizacja tego błędu prowadzi do estymatorów najmniejszych kwadratów dla współczynników: ˆβ 1 = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 ˆβ 0 = ȳ ˆβ 1 x, gdzie x = (1/n) n i=1 x i oraz ȳ = (1/n) n i=1 y i. Ewa Szczurek Regresja liniowa 1 7 / 41

Błąd RSS w zależności od β 0, β 1 RSS β 1 β 0 Ewa Szczurek Regresja liniowa 1 8 / 41

Optymalne parametry: ˆβ0 = 7.03, ˆβ 1 = 0.0475 3 3 2.5 β 1 0.03 0.04 0.05 0.06 3 2.15 2.2 2.3 3 5 6 7 8 9 β 0 Dołożenie $1000 na reklamę w TV powoduje zwiększenie sprzedaży o 47.5 jednostek produktu. Ewa Szczurek Regresja liniowa 1 9 / 41

Dopasowanie dla danych TV przy pomocy liniowej regresji Sales 5 10 15 20 25 0 50 100 150 200 250 300 TV Optymalne dopasowanie: szare odcinki reprezentują błąd dopasowania dla poszczególnych obserwacji. Ewa Szczurek Regresja liniowa 1 10 / 41

Regresja liniowa z wieloma zmiennymi objaśniającymi Model regresji: Y = β 0 + β 1 X 1 +... + β p X p + ε, gdzie X 1,..., X p są zmiennymi objaśniającymi. Dla modelu sprzedaży mamy: sales = β 0 + β 1 (TV ) + β 2 (radio) + β 3 (newspaper) + ε Ewa Szczurek Regresja liniowa 1 11 / 41

Regresja liniowa dla danych o dwóch predyktorach daje płaszczyznę regresji (zamiast prostej) Y X 2 X 1 Ewa Szczurek Regresja liniowa 1 12 / 41

Regresja liniowa z wieloma zmiennymi objaśniającymi Dla danych (x 1, y 1 ),..., (x n, y n ), gdzie każdy x i = (x i,1, x i,2,..., x i,p ) T jest wektorem wejściowych wartości p zmiennych objaśniających model regresji ma postać y i = β 0 + β 1 x i,1 +... + β p x i,p + ε i, Weźmy n p macierz o wejściach x i,j w wierszu i i kolumnie j (każdy wiersz i odpowiada x T i ) Niech X będzie n (p + 1) macierzą, otrzymaną z tej macierzy przez dołożenie jako pierwszej kolumny z wartościami 1 Niech y = (y 1,..., y n ) T R n będzie wektorem wartości zmiennej objaśnianej Model w postaci macierzowej: y = Xβ + ɛ Ewa Szczurek Regresja liniowa 1 13 / 41

Liniowa regresja z wieloma zmiennymi objaśniającymi Dla modelu w postaci macierzowej założenia są postaci y = Xβ + ɛ Wartości macierzy X deterministyczne (nie losowe) obserwowane ɛ wektor losowy niezależnych zmiennych losowych o identycznym rozkładzie E[ɛ] = 0 Var[ɛ] = σ 2 I n, σ 2 < 0 Dodatkowo założymy, że X ma pełny rząd, rank(x) = p Ewa Szczurek Regresja liniowa 1 14 / 41

Estymacja parametrów dla regresji z wieloma zmiennymi objaśniającymi Zauważmy, że E[y] = E[Xβ + ɛ] = Xβ + E[ɛ] = Xβ. Szukamy (metodą najmniejszych kwadratów) wartości ˆβ 0, ˆβ 1,..., ˆβ p, które minimalizują wyrażenie n RSS = (y i ˆβ 0 ˆβ 1 x i,1 ˆβ 2 x i,2... ˆβ p x i,p ) 2 = i=1 n (y i ˆβ 0 i=1 p ˆβ j x i,j ) 2 j=1 = (y Xβ) T (y Xβ) = y Xβ 2 RSS jest kwadratową funkcją parametrów β. Ewa Szczurek Regresja liniowa 1 15 / 41

Estymacja parametrów dla regresji z wieloma zmiennymi objaśniającymi Różniczkując po β mamy δrss δβ = 2X T (y Xβ) δ 2 RSS δβδβ T = 2X T X Dla macierzy X pełnego rzędu p mamy X T X dodatnio określoną i istnieje dokładnie jedno minimum RSS, które wyznaczamy przez X T (y Xβ) = 0 otrzymując ˆβ = (X T X) 1 X T y. Ewa Szczurek Regresja liniowa 1 16 / 41

Predykcja dla regresji liniowej z wieloma zmiennymi objaśniającymi Dla danych treningowych ŷ = X ˆβ = X(X T X) 1 X T y Macierz H = X(X T X) 1 X T nazywamy macierzą daszkową (bo zakłada daszek na y). Dla danej nowej obserwacji testowej x 0 ŷ 0 = (1 : x 0 ) T ˆβ Ewa Szczurek Regresja liniowa 1 17 / 41

Interpretacja geometryczna Niech x 0, x 1,..., x p wektory odpowiadające kolumnom macierzy X, gdzie x 0 = 1 Wektory x i rozpinają podprzestrzeń R n (lin(x), przestrzeń kolumn X) Minimalizując RSS = y Xβ 2, wybieramy taki ˆβ, dla którego wektor y ŷ jest ortogonalny do lin(x). Widać to z tego równania X T (y Xβ) = 0 ŷ jest rzutem ortogonalnym y na lin(x). Ewa Szczurek Regresja liniowa 1 18 / 41

Regresja liniowa w n wymiarach Ewa Szczurek Regresja liniowa 1 19 / 41

Własności estymatorów ˆβ Wartość oczekiwana E[ ˆβ] = E[(X T X) 1 X T y] = (X T X) 1 X T E[y] = (X T X) 1 X T X β = β Stąd, ˆβ jest nieobciążony. Macierz wariancji Var[ ˆβ] = E[( ˆβ β)( ˆβ β) T ] = (X T X) 1 σ 2 Nieobciążony estymator σ 2 ˆσ 2 = 1 n p 1 n (y i ŷ i ) 2 = RSS/(n p 1). i=1 Ewa Szczurek Regresja liniowa 1 20 / 41

ˆβ jest BLUE BLUE-Best Linear Unbiased Estimator Twierdzenie Gaussa-Markowa Estymator ˆβ jest liniowym, nieobciążonym estymatorem o najmniejszej wariancji parametru β. Ewa Szczurek Regresja liniowa 1 21 / 41

Testowanie istotności danego predyktora Przy dodatkowym założeniu, że ɛ N(0, σ 2 ) mamy ˆβ N(β, (X T X) 1 σ 2 ) Aby przetestować H 0 : β i = 0 dla i-tego współczynnika korzystamy ze statystyki z i = ˆβ i ˆσ, v i gdzie v i to i-ty element na diagonali macierzy (X T X) 1 Przy założeniu hipotezy zerowej z i ma rozkład t(n p 1) Dla hipotezy H 1 : β i 0 obszar krytyczny na poziomie istotności α: W = (, t(1 α/2, n p 1)] [t(1 α/2, n p 1), ) Przy zastąpieniu ˆσ znanym σ, rozkład N(0, 1) Dla dużych prób n mamy dobre przybliżenie rozkładu t rozkładem standardowym normalnym i korzysta się z kwantyli tego rozkładu Ewa Szczurek Regresja liniowa 1 22 / 41

Przedział ufności dla estymatora ˆβ i Na poziomie ufności 1 α przedział ufności dla ˆβ i ( ˆβ i z(1 α/2) v i ˆσ, ˆβ i + z(1 α/2) v i ˆσ), gdzie z(1 α/2) kwantyl rzędu 1 α/2 rozkładu standardowego normalnego. Ponieważ z(1 0.025) = 1.96 dla przedziału ufności na poziomie 95% korzysta się często z przybliżenia ( ˆβ i 2SE( ˆβ), ˆβ + 2SE( ˆβ i )), gdzie SE( ˆβ i ) = v i ˆσ nazywane jest błędem standardowym. Ewa Szczurek Regresja liniowa 1 23 / 41

Przykład cd: model sales w zależności od TV Współczynnik Std. błąd t-statystyka p-wartość Intercept ˆβ 0 = 7.0325 0.4578 15.36 < 0.0001 TV ˆβ1 = 0.0475 0.0027 17.67 < 0.0001 Według testu t, zmienna TV wygląda na istotny predyktor sales. Przedziały ufości na poziomie 95%: dla ˆβ 0 : [6.130, 7.935], dla ˆβ 1 : [0.042, 0.053]. Oznacza to, że z prawdopodobieństwem 95% bez żadnych nakładów na reklamę sprzedaż wyniesie pomiędzy 6130 a 7935 jednostek, z każdym wydanym $1000 na reklamę, wzrost sprzedaży wyniesie pomiędzy 42 a 53 jednostek. Ewa Szczurek Regresja liniowa 1 24 / 41

Testowanie istotności kilku predyktorów Chcemy przetestować istotność kilku predyktorów naraz Korzystamy ze statystyki gdzie F = (RSS 0 RSS 1 )/(p 1 p 0 ), RSS 1 /(n p 1 1) RSS 1 to resztowa suma kwadratów modelu większego, o p 1 + 1 parametrach, RSS 0 to resztowa suma kwadratów dla mniejszego, zagnieżdżonego modelu o p 0 + 1 parametrach, w kótrym p 1 p 0 parametrów wyzerowano. Przy założeniu ɛ N(0, σ 2 ) i hipotezy zerowej, że mniejszy model jest prawdziwy i p 1 p 0 parametrów równa się 0, statystyka F ma rozkład Snedecora-Fishera F (p 1 p 0, n p 1 1) Ewa Szczurek Regresja liniowa 1 25 / 41

F-test dla wszystkich predyktorów (ang. overall F -test) Chcemy przetestować istotność zależności od conajmniej jednego z predyktorów Korzystamy ze statystyki gdzie F = (TSS RSS)/p RSS/(n p 1), TSS = (y i ȳ) 2 (ang. total sum of squares). RSS dla modelu, w którym współczynniki wszystkich predyktorów są wyzerowane. RSS = (y i ŷ i ) 2 dla modelu ze wszystkimi predyktorami Zatem jeśli F -statystyka daje wartość bliską 1, to nie możemy odrzucić hipotezy zerowej. Natomiast, gdy F -statystyka daje wartość istotnie większą od 1, to możemy H 0 odrzucić. Ewa Szczurek Regresja liniowa 1 26 / 41

Ocena dokładności modelu odchylenie standardowe składnika resztowego n RSS RSE = ˆσ = n p 1 = i=1 (y i ŷ i ) 2 n p 1 RSE mierzy poziom niedopasowania modelem regresji do danych. Małe RSE oznacza, że model liniowy dobrze pasuje do danych. Ewa Szczurek Regresja liniowa 1 27 / 41

Ocena dokładności modelu statystyka R 2 Współczynnik determinacji: R 2 = TSS RSS TSS = 1 RSS TSS, dla TSS = n i=1 (y i ȳ) 2 mierzącego całkowitą wariancję wartości zmiennej objaśnianej y. Natomiast n RSS = (y i ŷ i ) 2 mierzy ilość tej zmienności, która pozostała niewyjaśniona po wykonaniu operacji regresji. i=1 Ewa Szczurek Regresja liniowa 1 28 / 41

Ocena dokładności modelu statystyka R 2 Zatem łącznie statystyka R 2 mierzy proporcję zmienności Y, którą można wyjaśnić używając Ŷ. Wartości otrzymane ze statystyki R 2 mieszczą się w przedziale [0,1]. Wartość statystyki R 2 bliska 1 sugeruje, że duża część zmienności zmiennej Y zostaje wyjaśniona operacją regresji. Można pokazać, że R 2 zadane jest korelacją Pearsona R 2 = r 2 = Cor(Y, Ŷ ) a dla prostej regresji z jednym predyktorem X R 2 = r 2 = Cor(Y, X ). Ewa Szczurek Regresja liniowa 1 29 / 41

Przykład cd: model sales w zależności od TV Oznacza to, że Miara Wartość RSE 3.26 R 2 0.612 F 312.1 Ponieważ RSE = 3.26, to prawdziwe dane o sprzedaży w każdym sklepie mogą się różnić od prawdziwych średnio o 3260 jednostek. Ponieważ średnia wysokość sprzedaży ze wszystkich 200 sklepów wynosi 14000, to błąd procentowy wynosi 3200/14000 = 23%. 0.612 wariancji w sales wytłumaczone jest przez regresję na TV. Ewa Szczurek Regresja liniowa 1 30 / 41

Zależność sales od pozostałych predyktorów Współczynnik Std. błąd t-statystyka p-wartość Intercept ˆβ 0 = 9.312 0.563 16.54 < 0.0001 radio ˆβ1 = 0.203 0.020 9.92 < 0.0001 Współczynnik Std. błąd t-statystyka p-wartość Intercept ˆβ0 = 12.351 0.621 19.88 < 0.0001 newspaper ˆβ 1 = 0.055 0.017 3.30 < 0.0001 Ewa Szczurek Regresja liniowa 1 31 / 41

Estymacja parametrów dla regresji wielokrotnej Współczynnik Std. błąd t-statystyka p-wartość Intercept ˆβ0 = 2.939 0.3119 9.42 < 0.0001 TV ˆβ 1 =0.046 0.0014 32.81 < 0.0001 radio ˆβ2 =0.189 0.0086 21.89 < 0.0001 newspaper ˆβ3 =-0.001 0.0059-0.18 0.8599 wpływ newspaper na sprzedaż jest nieistotny, gdy rozważane są wszystkie trzy predyktory regresja liniowa dla każdego predyktora z osobna pokazuje, że wpływ tego predyktora na sprzedaż jest istotna istnieje duża korelacja (0.3541) pomiędzy zmiennymi radio i newspaper przeprowadzając regresję liniową dla tylko jednego predyktora newspaper wykrywamy wpływ na wysokość sprzedaży pochodzący od niewidocznego predyktora jakim jest radio Ewa Szczurek Regresja liniowa 1 32 / 41

Przykład cd: dyskusja dopasowania modelu Dla pełnego modelu F -statystyka=570. p-wartość jest praktycznie równa 0, co oznacza, że co najmniej jeden predyktor ma wpływ na wysokość sprzedaży. Predyktory w modelu R 2 TV, radio, newspaper 0.8972 TV, radio 0.89719 TV 0.61 R 2 na danych treningowych zawsze wzrasta wraz z liczbą predyktorów Mały wzrost i p-wartość w teście t sugerują, że newspaper może zostać usunięty z modelu. Zatrzymanie go może powodować problemy z przeuczeniem. Wg wzrostu R 2 i p-wartości dodanie predyktora radio istotnie poprawia dopasowanie. Ewa Szczurek Regresja liniowa 1 33 / 41

Przykład cd: dyskusja dopasowania modelu Predyktory w modelu RSE TV, radio, newspaper 1.686 TV, radio 1.681 TV 3.26 Model oparty na wszystkich predyktorach ma większy błąd RSE niż model oparty tylko na TV i radio Nie warto mieć newspaper w modelu Duży błąd modelu opartego tylko na TV Warto dodać radio do modelu Dodanie predyktora do modelu zawsze powoduje zmniejszenie RSS. Ponieważ RSE = RSS/(n p 1), dodanie jednego predyktora powoduje, że maleją zarówno licznik i mianownik. Zwiększenie wartości RSE jest możliwe, jeśli spadek wartości RSS jest dostatecznie mały. Ewa Szczurek Regresja liniowa 1 34 / 41

Przykład cd: Wizualizacja dopasowania Sales TV Radio Model przeszacowuje sprzedaż w sytuacjach gdy wiekszość nakładów jest głównie skierowana na reklamę w TV lub głównie w radiu. Nieliniowość w danych. Model niedoszacowuje sprzedaż w sytuacjach, gdy reklama jest dzielona pomiędzy TV i radio. Efekt synergii. Ewa Szczurek Regresja liniowa 1 35 / 41

Które predyktory mają istotny wpływ na zmienną objaśnianą? Problem wyboru zmiennych. Podstawowe techniki Przeszukiwanie wyczerpujące (ang. exhaustive search) Wyszukiwanie zachłanne (ang. forward search) Wyszukiwanie wsteczne (ang. backward search) Wyszukiwanie mieszane Ewa Szczurek Regresja liniowa 1 36 / 41

Przeszukiwanie wyczerpujące Dla każdego podzbioru predyktorów (z 2 p ) budujemy model metodą regresji liniowej w oparciu o ten zbiór predyktorów Stosując jedną z kilku znanych metod oceniania (np. RSE) wybieramy model najlepszy. To daje wybrany zbiór predyktorów. To podejście jest możliwe tylko dla bardzo małej liczby p predyktorów. Ewa Szczurek Regresja liniowa 1 37 / 41

Wyszukiwanie zachłanne Zaczynamy z pustym zbiorem predyktorów. Dla każdego z p predyktorów wykonujemy liniową regresję w oparciu o ten jeden predyktor. Wybieramy ten predyktor, dla którego resztowa suma kwadratów (RSS) jest najmniejsza. Następnie do niego dobieramy drugi predyktor tak, aby RSS dla modelu z dwoma predyktorami było najmniejsze. Powtarzamy tę procedurę aż do momentu spełnienia jakiegoś warunku stopu. Ewa Szczurek Regresja liniowa 1 38 / 41

Wyszukiwanie wsteczne Zaczynamy budowę modelu z wszystkimi predyktorami i usuwamy tę zmienną, dla której p-wartość jest największa. Budujemy model dla tak zmniejszonego zbioru zmiennych i usuwamy tę zmienną, dla której p-wartość jest największa. Powtarzamy tę procedurę aż do momentu spełnienia jakiegoś warunku stopu, np. wszystkie p wartości pozostających w grze predyktorów są poniżej pewnego progu. Ewa Szczurek Regresja liniowa 1 39 / 41

Wyszukiwanie mieszane Kombinacja zachłannego wyszukiwania z wstecznym. Startujemy z pustym zbiorem predyktorów. Dodajemy zmienne jak w podejściu zachłannym. W procesie dodawania zmiennych p-wartości dla pewnych zmiennych mogą wzrosnąć. Na każdym kroku sprawdzamy te p-wartości. Jeśli dla pewnego predyktora, jego p-wartość wzrosła powyżej pewnego progu, to usuwamy ten predyktor z modelu. Kontynuujemy tę procedurę do momentu aż wszystkie predyktory w modelu mają p-wartości poniżej pewnego progu, a wszystkie predyktory poza modelem otrzymałyby p-wartość powyżej progu, w przypadku dodania tego predyktora do modelu. Ewa Szczurek Regresja liniowa 1 40 / 41

Literatura G. James, D. Witten, T. Hastie and R. Tibshirani An Introduction to Statistical Learning, with applications in R, Springer Verlag, 2015. T. Hastie, R. Tibshirani and J. Friedman The Elements of Statistical Learning. Data Mining, Inference and Prediction, Springer Verlag, Second Edition, 2013. Więcej: http: //mst.mimuw.edu.pl/lecture.php?lecture=st2&part=ch8 Ewa Szczurek Regresja liniowa 1 41 / 41