Statystyczna analiza danych 1

Podobne dokumenty
Stosowana Analiza Regresji

Metoda najmniejszych kwadratów

Rozdział 8. Regresja. Definiowanie modelu

Statystyczna analiza danych

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Stosowana Analiza Regresji

Statystyczna analiza danych (molekularnych) modele liniowe

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Weryfikacja hipotez statystycznych

Własności statystyczne regresji liniowej. Wykład 4

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Metody Ekonometryczne

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

1.1 Klasyczny Model Regresji Liniowej

KORELACJE I REGRESJA LINIOWA

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Testowanie hipotez statystycznych

PDF created with FinePrint pdffactory Pro trial version

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Matematyczne metody w naukach biomedycznych: regresja i analiza wariancji.

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Statystyka Matematyczna Anna Janicka

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Kolokwium ze statystyki matematycznej

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Ekonometria. Zajęcia

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

STATYSTYKA MATEMATYCZNA

Natalia Neherbecka. 11 czerwca 2010

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

1.9 Czasowy wymiar danych

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Testowanie hipotez statystycznych

Czasowy wymiar danych

Testowanie hipotez statystycznych

Quick Launch Manual:

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Wprowadzenie do analizy korelacji i regresji

Ekonometria. Własności składnika losowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Stosowana Analiza Regresji

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Regresja liniowa wprowadzenie

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Ekonometria egzamin 07/03/2018

WYKŁAD 8 ANALIZA REGRESJI

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Analiza wariancji i kowariancji

STATYSTYKA MATEMATYCZNA

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Testowanie hipotez statystycznych.

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Testy post-hoc. Wrocław, 6 czerwca 2016

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Zmienne zależne i niezależne

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Przykład 2. Stopa bezrobocia

Regresja liniowa w R Piotr J. Sobczyk

Hipotezy statystyczne

Metoda najmniejszych kwadratów

Hipotezy statystyczne

STATYSTYKA

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Analiza składowych głównych. Wprowadzenie

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Transkrypt:

Statystyczna analiza danych 1 Regresja liniowa 1 Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski Ewa Szczurek Regresja liniowa 1 1 / 41

Dane: wpływ reklam produktu na sprzedaż w 200 sklepach Sales 5 10 15 20 25 Sales 5 10 15 20 25 Sales 5 10 15 20 25 0 50 100 200 300 TV 0 10 20 30 40 50 Radio 0 20 40 60 80 100 Newspaper Oś X: nakłady na reklamę w danym medium w tysiącach $ Oś Y: liczba sprzedanych jednostek produktu (w tysiącach) Ewa Szczurek Regresja liniowa 1 2 / 41

Przykładowe pytania Czy jest związek pomiędzy wielkością reklamowego budżetu a wielkością sprzedaży? Jak silny jest ten związek, np. czy umiemy przewidzieć wielkość sprzedaży w zależności od wysokości budżetu? Które media mają największy wpływ na wysokość sprzedaży? Jak dokładnie umiemy przewidzieć, dla każdego z mediów, wysokość sprzedaży w zależności od wysokości budżetu reklamowego? Jak dokładnie umiemy przewidzieć wysokość sprzedaży w przyszłości? Czy zależność jest liniowa? Czy istnieje synergia pomiędzy mediami? Ewa Szczurek Regresja liniowa 1 3 / 41

Prosta regresja liniowa z jedną zmienną objaśniającą Y = β 0 + β 1 X + ɛ gdzie X to zmienna objaśniająca, Y to zmienna objaśniana, ɛ to błąd, E(ɛ) = 0. Na przykład: sales β 0 + β 1 (TV ), gdzie β 0, β 1 to (nieznane) parametry. Ewa Szczurek Regresja liniowa 1 4 / 41

Prosta regresja liniowa z jedną zmienną objaśniającą Mamy n obserwacji (dane treningowe): (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ), Nasz model zakłada, że y i = β 0 + β 1 x i + ɛ i, oraz, że Wartości wejściowe x i deterministyczne (nie losowe) obserwowane Zmienne ɛ i niezależne o identycznym rozkładzie E[ɛ i ] = 0 Var[ɛ i ] = σ 2 < 0 dla każdego i = 1,..., n. Ewa Szczurek Regresja liniowa 1 5 / 41

Predykcja w regresji liniowej z jedną zmienną objaśniającą Mając estymacje ˆβ 0 oraz ˆβ 1 obliczamy predykcję wartości dla Y na podstawie wartości X = x jako ŷ = ˆβ 0 + ˆβ 1 x. Ewa Szczurek Regresja liniowa 1 6 / 41

Estymacja parametrów (jedna zmienna objaśniająca) Przy zadanych estymacjach parametrów ˆβ 0, ˆβ 1, błąd RSS (resztowa suma kwadratów, ang. residual sum of squres): RSS = n (y i ˆβ 0 ˆβ 1 x i ) 2. i=1 Minimalizacja tego błędu prowadzi do estymatorów najmniejszych kwadratów dla współczynników: ˆβ 1 = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 ˆβ 0 = ȳ ˆβ 1 x, gdzie x = (1/n) n i=1 x i oraz ȳ = (1/n) n i=1 y i. Ewa Szczurek Regresja liniowa 1 7 / 41

Błąd RSS w zależności od β 0, β 1 RSS β 1 β 0 Ewa Szczurek Regresja liniowa 1 8 / 41

Optymalne parametry: ˆβ0 = 7.03, ˆβ 1 = 0.0475 3 3 2.5 β 1 0.03 0.04 0.05 0.06 3 2.15 2.2 2.3 3 5 6 7 8 9 β 0 Dołożenie $1000 na reklamę w TV powoduje zwiększenie sprzedaży o 47.5 jednostek produktu. Ewa Szczurek Regresja liniowa 1 9 / 41

Dopasowanie dla danych TV przy pomocy liniowej regresji Sales 5 10 15 20 25 0 50 100 150 200 250 300 TV Optymalne dopasowanie: szare odcinki reprezentują błąd dopasowania dla poszczególnych obserwacji. Ewa Szczurek Regresja liniowa 1 10 / 41

Regresja liniowa z wieloma zmiennymi objaśniającymi Model regresji: Y = β 0 + β 1 X 1 +... + β p X p + ε, gdzie X 1,..., X p są zmiennymi objaśniającymi. Dla modelu sprzedaży mamy: sales = β 0 + β 1 (TV ) + β 2 (radio) + β 3 (newspaper) + ε Ewa Szczurek Regresja liniowa 1 11 / 41

Regresja liniowa dla danych o dwóch predyktorach daje płaszczyznę regresji (zamiast prostej) Y X 2 X 1 Ewa Szczurek Regresja liniowa 1 12 / 41

Regresja liniowa z wieloma zmiennymi objaśniającymi Dla danych (x 1, y 1 ),..., (x n, y n ), gdzie każdy x i = (x i,1, x i,2,..., x i,p ) T jest wektorem wejściowych wartości p zmiennych objaśniających model regresji ma postać y i = β 0 + β 1 x i,1 +... + β p x i,p + ε i, Weźmy n p macierz o wejściach x i,j w wierszu i i kolumnie j (każdy wiersz i odpowiada x T i ) Niech X będzie n (p + 1) macierzą, otrzymaną z tej macierzy przez dołożenie jako pierwszej kolumny z wartościami 1 Niech y = (y 1,..., y n ) T R n będzie wektorem wartości zmiennej objaśnianej Model w postaci macierzowej: y = Xβ + ɛ Ewa Szczurek Regresja liniowa 1 13 / 41

Liniowa regresja z wieloma zmiennymi objaśniającymi Dla modelu w postaci macierzowej założenia są postaci y = Xβ + ɛ Wartości macierzy X deterministyczne (nie losowe) obserwowane ɛ wektor losowy niezależnych zmiennych losowych o identycznym rozkładzie E[ɛ] = 0 Var[ɛ] = σ 2 I n, σ 2 < 0 Dodatkowo założymy, że X ma pełny rząd, rank(x) = p Ewa Szczurek Regresja liniowa 1 14 / 41

Estymacja parametrów dla regresji z wieloma zmiennymi objaśniającymi Zauważmy, że E[y] = E[Xβ + ɛ] = Xβ + E[ɛ] = Xβ. Szukamy (metodą najmniejszych kwadratów) wartości ˆβ 0, ˆβ 1,..., ˆβ p, które minimalizują wyrażenie n RSS = (y i ˆβ 0 ˆβ 1 x i,1 ˆβ 2 x i,2... ˆβ p x i,p ) 2 = i=1 n (y i ˆβ 0 i=1 p ˆβ j x i,j ) 2 j=1 = (y Xβ) T (y Xβ) = y Xβ 2 RSS jest kwadratową funkcją parametrów β. Ewa Szczurek Regresja liniowa 1 15 / 41

Estymacja parametrów dla regresji z wieloma zmiennymi objaśniającymi Różniczkując po β mamy δrss δβ = 2X T (y Xβ) δ 2 RSS δβδβ T = 2X T X Dla macierzy X pełnego rzędu p mamy X T X dodatnio określoną i istnieje dokładnie jedno minimum RSS, które wyznaczamy przez X T (y Xβ) = 0 otrzymując ˆβ = (X T X) 1 X T y. Ewa Szczurek Regresja liniowa 1 16 / 41

Predykcja dla regresji liniowej z wieloma zmiennymi objaśniającymi Dla danych treningowych ŷ = X ˆβ = X(X T X) 1 X T y Macierz H = X(X T X) 1 X T nazywamy macierzą daszkową (bo zakłada daszek na y). Dla danej nowej obserwacji testowej x 0 ŷ 0 = (1 : x 0 ) T ˆβ Ewa Szczurek Regresja liniowa 1 17 / 41

Interpretacja geometryczna Niech x 0, x 1,..., x p wektory odpowiadające kolumnom macierzy X, gdzie x 0 = 1 Wektory x i rozpinają podprzestrzeń R n (lin(x), przestrzeń kolumn X) Minimalizując RSS = y Xβ 2, wybieramy taki ˆβ, dla którego wektor y ŷ jest ortogonalny do lin(x). Widać to z tego równania X T (y Xβ) = 0 ŷ jest rzutem ortogonalnym y na lin(x). Ewa Szczurek Regresja liniowa 1 18 / 41

Regresja liniowa w n wymiarach Ewa Szczurek Regresja liniowa 1 19 / 41

Własności estymatorów ˆβ Wartość oczekiwana E[ ˆβ] = E[(X T X) 1 X T y] = (X T X) 1 X T E[y] = (X T X) 1 X T X β = β Stąd, ˆβ jest nieobciążony. Macierz wariancji Var[ ˆβ] = E[( ˆβ β)( ˆβ β) T ] = (X T X) 1 σ 2 Nieobciążony estymator σ 2 ˆσ 2 = 1 n p 1 n (y i ŷ i ) 2 = RSS/(n p 1). i=1 Ewa Szczurek Regresja liniowa 1 20 / 41

ˆβ jest BLUE BLUE-Best Linear Unbiased Estimator Twierdzenie Gaussa-Markowa Estymator ˆβ jest liniowym, nieobciążonym estymatorem o najmniejszej wariancji parametru β. Ewa Szczurek Regresja liniowa 1 21 / 41

Testowanie istotności danego predyktora Przy dodatkowym założeniu, że ɛ N(0, σ 2 ) mamy ˆβ N(β, (X T X) 1 σ 2 ) Aby przetestować H 0 : β i = 0 dla i-tego współczynnika korzystamy ze statystyki z i = ˆβ i ˆσ, v i gdzie v i to i-ty element na diagonali macierzy (X T X) 1 Przy założeniu hipotezy zerowej z i ma rozkład t(n p 1) Dla hipotezy H 1 : β i 0 obszar krytyczny na poziomie istotności α: W = (, t(1 α/2, n p 1)] [t(1 α/2, n p 1), ) Przy zastąpieniu ˆσ znanym σ, rozkład N(0, 1) Dla dużych prób n mamy dobre przybliżenie rozkładu t rozkładem standardowym normalnym i korzysta się z kwantyli tego rozkładu Ewa Szczurek Regresja liniowa 1 22 / 41

Przedział ufności dla estymatora ˆβ i Na poziomie ufności 1 α przedział ufności dla ˆβ i ( ˆβ i z(1 α/2) v i ˆσ, ˆβ i + z(1 α/2) v i ˆσ), gdzie z(1 α/2) kwantyl rzędu 1 α/2 rozkładu standardowego normalnego. Ponieważ z(1 0.025) = 1.96 dla przedziału ufności na poziomie 95% korzysta się często z przybliżenia ( ˆβ i 2SE( ˆβ), ˆβ + 2SE( ˆβ i )), gdzie SE( ˆβ i ) = v i ˆσ nazywane jest błędem standardowym. Ewa Szczurek Regresja liniowa 1 23 / 41

Przykład cd: model sales w zależności od TV Współczynnik Std. błąd t-statystyka p-wartość Intercept ˆβ 0 = 7.0325 0.4578 15.36 < 0.0001 TV ˆβ1 = 0.0475 0.0027 17.67 < 0.0001 Według testu t, zmienna TV wygląda na istotny predyktor sales. Przedziały ufości na poziomie 95%: dla ˆβ 0 : [6.130, 7.935], dla ˆβ 1 : [0.042, 0.053]. Oznacza to, że z prawdopodobieństwem 95% bez żadnych nakładów na reklamę sprzedaż wyniesie pomiędzy 6130 a 7935 jednostek, z każdym wydanym $1000 na reklamę, wzrost sprzedaży wyniesie pomiędzy 42 a 53 jednostek. Ewa Szczurek Regresja liniowa 1 24 / 41

Testowanie istotności kilku predyktorów Chcemy przetestować istotność kilku predyktorów naraz Korzystamy ze statystyki gdzie F = (RSS 0 RSS 1 )/(p 1 p 0 ), RSS 1 /(n p 1 1) RSS 1 to resztowa suma kwadratów modelu większego, o p 1 + 1 parametrach, RSS 0 to resztowa suma kwadratów dla mniejszego, zagnieżdżonego modelu o p 0 + 1 parametrach, w kótrym p 1 p 0 parametrów wyzerowano. Przy założeniu ɛ N(0, σ 2 ) i hipotezy zerowej, że mniejszy model jest prawdziwy i p 1 p 0 parametrów równa się 0, statystyka F ma rozkład Snedecora-Fishera F (p 1 p 0, n p 1 1) Ewa Szczurek Regresja liniowa 1 25 / 41

F-test dla wszystkich predyktorów (ang. overall F -test) Chcemy przetestować istotność zależności od conajmniej jednego z predyktorów Korzystamy ze statystyki gdzie F = (TSS RSS)/p RSS/(n p 1), TSS = (y i ȳ) 2 (ang. total sum of squares). RSS dla modelu, w którym współczynniki wszystkich predyktorów są wyzerowane. RSS = (y i ŷ i ) 2 dla modelu ze wszystkimi predyktorami Zatem jeśli F -statystyka daje wartość bliską 1, to nie możemy odrzucić hipotezy zerowej. Natomiast, gdy F -statystyka daje wartość istotnie większą od 1, to możemy H 0 odrzucić. Ewa Szczurek Regresja liniowa 1 26 / 41

Ocena dokładności modelu odchylenie standardowe składnika resztowego n RSS RSE = ˆσ = n p 1 = i=1 (y i ŷ i ) 2 n p 1 RSE mierzy poziom niedopasowania modelem regresji do danych. Małe RSE oznacza, że model liniowy dobrze pasuje do danych. Ewa Szczurek Regresja liniowa 1 27 / 41

Ocena dokładności modelu statystyka R 2 Współczynnik determinacji: R 2 = TSS RSS TSS = 1 RSS TSS, dla TSS = n i=1 (y i ȳ) 2 mierzącego całkowitą wariancję wartości zmiennej objaśnianej y. Natomiast n RSS = (y i ŷ i ) 2 mierzy ilość tej zmienności, która pozostała niewyjaśniona po wykonaniu operacji regresji. i=1 Ewa Szczurek Regresja liniowa 1 28 / 41

Ocena dokładności modelu statystyka R 2 Zatem łącznie statystyka R 2 mierzy proporcję zmienności Y, którą można wyjaśnić używając Ŷ. Wartości otrzymane ze statystyki R 2 mieszczą się w przedziale [0,1]. Wartość statystyki R 2 bliska 1 sugeruje, że duża część zmienności zmiennej Y zostaje wyjaśniona operacją regresji. Można pokazać, że R 2 zadane jest korelacją Pearsona R 2 = r 2 = Cor(Y, Ŷ ) a dla prostej regresji z jednym predyktorem X R 2 = r 2 = Cor(Y, X ). Ewa Szczurek Regresja liniowa 1 29 / 41

Przykład cd: model sales w zależności od TV Oznacza to, że Miara Wartość RSE 3.26 R 2 0.612 F 312.1 Ponieważ RSE = 3.26, to prawdziwe dane o sprzedaży w każdym sklepie mogą się różnić od prawdziwych średnio o 3260 jednostek. Ponieważ średnia wysokość sprzedaży ze wszystkich 200 sklepów wynosi 14000, to błąd procentowy wynosi 3200/14000 = 23%. 0.612 wariancji w sales wytłumaczone jest przez regresję na TV. Ewa Szczurek Regresja liniowa 1 30 / 41

Zależność sales od pozostałych predyktorów Współczynnik Std. błąd t-statystyka p-wartość Intercept ˆβ 0 = 9.312 0.563 16.54 < 0.0001 radio ˆβ1 = 0.203 0.020 9.92 < 0.0001 Współczynnik Std. błąd t-statystyka p-wartość Intercept ˆβ0 = 12.351 0.621 19.88 < 0.0001 newspaper ˆβ 1 = 0.055 0.017 3.30 < 0.0001 Ewa Szczurek Regresja liniowa 1 31 / 41

Estymacja parametrów dla regresji wielokrotnej Współczynnik Std. błąd t-statystyka p-wartość Intercept ˆβ0 = 2.939 0.3119 9.42 < 0.0001 TV ˆβ 1 =0.046 0.0014 32.81 < 0.0001 radio ˆβ2 =0.189 0.0086 21.89 < 0.0001 newspaper ˆβ3 =-0.001 0.0059-0.18 0.8599 wpływ newspaper na sprzedaż jest nieistotny, gdy rozważane są wszystkie trzy predyktory regresja liniowa dla każdego predyktora z osobna pokazuje, że wpływ tego predyktora na sprzedaż jest istotna istnieje duża korelacja (0.3541) pomiędzy zmiennymi radio i newspaper przeprowadzając regresję liniową dla tylko jednego predyktora newspaper wykrywamy wpływ na wysokość sprzedaży pochodzący od niewidocznego predyktora jakim jest radio Ewa Szczurek Regresja liniowa 1 32 / 41

Przykład cd: dyskusja dopasowania modelu Dla pełnego modelu F -statystyka=570. p-wartość jest praktycznie równa 0, co oznacza, że co najmniej jeden predyktor ma wpływ na wysokość sprzedaży. Predyktory w modelu R 2 TV, radio, newspaper 0.8972 TV, radio 0.89719 TV 0.61 R 2 na danych treningowych zawsze wzrasta wraz z liczbą predyktorów Mały wzrost i p-wartość w teście t sugerują, że newspaper może zostać usunięty z modelu. Zatrzymanie go może powodować problemy z przeuczeniem. Wg wzrostu R 2 i p-wartości dodanie predyktora radio istotnie poprawia dopasowanie. Ewa Szczurek Regresja liniowa 1 33 / 41

Przykład cd: dyskusja dopasowania modelu Predyktory w modelu RSE TV, radio, newspaper 1.686 TV, radio 1.681 TV 3.26 Model oparty na wszystkich predyktorach ma większy błąd RSE niż model oparty tylko na TV i radio Nie warto mieć newspaper w modelu Duży błąd modelu opartego tylko na TV Warto dodać radio do modelu Dodanie predyktora do modelu zawsze powoduje zmniejszenie RSS. Ponieważ RSE = RSS/(n p 1), dodanie jednego predyktora powoduje, że maleją zarówno licznik i mianownik. Zwiększenie wartości RSE jest możliwe, jeśli spadek wartości RSS jest dostatecznie mały. Ewa Szczurek Regresja liniowa 1 34 / 41

Przykład cd: Wizualizacja dopasowania Sales TV Radio Model przeszacowuje sprzedaż w sytuacjach gdy wiekszość nakładów jest głównie skierowana na reklamę w TV lub głównie w radiu. Nieliniowość w danych. Model niedoszacowuje sprzedaż w sytuacjach, gdy reklama jest dzielona pomiędzy TV i radio. Efekt synergii. Ewa Szczurek Regresja liniowa 1 35 / 41

Które predyktory mają istotny wpływ na zmienną objaśnianą? Problem wyboru zmiennych. Podstawowe techniki Przeszukiwanie wyczerpujące (ang. exhaustive search) Wyszukiwanie zachłanne (ang. forward search) Wyszukiwanie wsteczne (ang. backward search) Wyszukiwanie mieszane Ewa Szczurek Regresja liniowa 1 36 / 41

Przeszukiwanie wyczerpujące Dla każdego podzbioru predyktorów (z 2 p ) budujemy model metodą regresji liniowej w oparciu o ten zbiór predyktorów Stosując jedną z kilku znanych metod oceniania (np. RSE) wybieramy model najlepszy. To daje wybrany zbiór predyktorów. To podejście jest możliwe tylko dla bardzo małej liczby p predyktorów. Ewa Szczurek Regresja liniowa 1 37 / 41

Wyszukiwanie zachłanne Zaczynamy z pustym zbiorem predyktorów. Dla każdego z p predyktorów wykonujemy liniową regresję w oparciu o ten jeden predyktor. Wybieramy ten predyktor, dla którego resztowa suma kwadratów (RSS) jest najmniejsza. Następnie do niego dobieramy drugi predyktor tak, aby RSS dla modelu z dwoma predyktorami było najmniejsze. Powtarzamy tę procedurę aż do momentu spełnienia jakiegoś warunku stopu. Ewa Szczurek Regresja liniowa 1 38 / 41

Wyszukiwanie wsteczne Zaczynamy budowę modelu z wszystkimi predyktorami i usuwamy tę zmienną, dla której p-wartość jest największa. Budujemy model dla tak zmniejszonego zbioru zmiennych i usuwamy tę zmienną, dla której p-wartość jest największa. Powtarzamy tę procedurę aż do momentu spełnienia jakiegoś warunku stopu, np. wszystkie p wartości pozostających w grze predyktorów są poniżej pewnego progu. Ewa Szczurek Regresja liniowa 1 39 / 41

Wyszukiwanie mieszane Kombinacja zachłannego wyszukiwania z wstecznym. Startujemy z pustym zbiorem predyktorów. Dodajemy zmienne jak w podejściu zachłannym. W procesie dodawania zmiennych p-wartości dla pewnych zmiennych mogą wzrosnąć. Na każdym kroku sprawdzamy te p-wartości. Jeśli dla pewnego predyktora, jego p-wartość wzrosła powyżej pewnego progu, to usuwamy ten predyktor z modelu. Kontynuujemy tę procedurę do momentu aż wszystkie predyktory w modelu mają p-wartości poniżej pewnego progu, a wszystkie predyktory poza modelem otrzymałyby p-wartość powyżej progu, w przypadku dodania tego predyktora do modelu. Ewa Szczurek Regresja liniowa 1 40 / 41

Literatura G. James, D. Witten, T. Hastie and R. Tibshirani An Introduction to Statistical Learning, with applications in R, Springer Verlag, 2015. T. Hastie, R. Tibshirani and J. Friedman The Elements of Statistical Learning. Data Mining, Inference and Prediction, Springer Verlag, Second Edition, 2013. Więcej: http: //mst.mimuw.edu.pl/lecture.php?lecture=st2&part=ch8 Ewa Szczurek Regresja liniowa 1 41 / 41