Regresja liniowa oraz regresja wielokrotna w zastosowaniu zadania predykcji danych. Agnieszka Nowak Brzezińska Wykład III-VI

Transkrypt

1 Regresja liniowa oraz regresja wielokrotna w zastosowaniu zadania predykcji danych. Agnieszka Nowak Brzezińska Wykład III-VI

2

3 Analiza regresji Analiza regresji jest bardzo popularną i chętnie stosowaną techniką statystyczną pozwalającą opisywać związki zachodzące pomiędzy zmiennymi wejściowymi (objaśniającymi) a wyjściowymi (objaśnianymi). Innymi słowy dokonujemy estymacji jednych danych korzystając z innych. Istnieje wiele różnych technik regresji.

4 Linia regresji zapisana w postaci: nazywana jest równaniem regresji lub oszacowanym równaniem regresji, gdzie: y b 0 b 1 b 0,b 1 Szacowana wartość zmiennej objaśnianej Punkt przecięcia linii regresji z osią y Nachylenie linii regresji Współczynniki regresji y b0 b1 x

5 Regresja liniowa Metoda zakłada, że pomiędzy zmiennymi objaśniającymi i objaśnianymi istnieje mniej lub bardziej wyrazista zależność liniowa. Mając zatem zbiór danych do analizy, informacje opisujące te dane możemy podzielić na objaśniane i objaśniające. Wtedy też wartości tych pierwszych będziemy mogli zgadywać znając wartości tych drugich. Oczywiście tak się dzieje tylko w sytuacji, gdy faktycznie między tymi zmiennymi istnieje zależność liniowa. Przewidywanie wartości zmiennych objaśnianych (y) na podstawie wartości zmiennych objaśniających (x) jest możliwe dzięki znalezieniu tzw. modelu regresji. W praktyce polega to na podaniu równania prostej, zwanej prostą regresji o postaci: y = b0 + b1 x gdzie: y - jest zmienną objaśnianą, zaś x - objaśniającą. W równaniu tym bardzo istotną rolę odgrywają współczynniki b0 i b1, gdzie b1 jest nachyleniem linii regresji, zaś b0 punktem przecięcia linii regresji z osią x (wyrazem wolnym) a więc przewidywaną wartością zmiennej objaśnianej gdy zmienna objaśniająca jest równa 0.

6

7

8 Cereals.data Name nazwa płatków Manuf wytwórca płatków Type typ płatków ( na ciepło (hot), na zimno (cold)) Calories kalorie w porcji Protein 0 białko (w gramach) Fat tłuszcz (w gramach) Sodium sód Fiber błonnik Carbo węglowodany Sugars cukry Potass potas ( w miligramach) Vitamins procent zalecanego dziennego spożycia witamin (0%, 25 %, 100%) Shelf położenie półki (1=dolna, 2=środkowa, 3 = górna) Weight waga porcji Cups liczba łyżek na porcję Rating wartość odżywcza, obliczona przez Customer Reports

9

10 Wartość odżywcza Kalorie Kalorie Białko tłuszcz Sód Błonnik Węglowodany Cukry Potas Białko Tłuszcz Sód Błonnik Węglowodany Cukry Potas Witaminy Szukamy zmiennej o największej korelacji ze zmienną wartość odżywcza płatków. Największą korelację znajdujemy dla zmiennej cukry

11 Wartość odżywcza Kalorie Kalorie Białko tłuszcz Sód Błonnik Węglowodany Cukry Potas Białko Tłuszcz Sód Błonnik Węglowodany Cukry Potas Witaminy Szukamy zmiennej o największej korelacji ze zmienną wartość odżywcza płatków. Największą korelację znajdujemy dla zmiennej cukry Jest to korelacja ujemna, wynosi Oznacza, że w miarę wzrostu wartości cukrów w płatkach, wartość odżywcza takich płatków maleje.

12

13

14

15 A więc najpierw zajmiemy się zależnościami między dwiema zmiennymi: objaśnianą (wartość odżywcza płatków, rating) oraz objaśniającą (cukry, sugars). Analiza regresji pozwoli nam oszacować wartości odżywcze (rating) różnych typów płatków śniadaniowych, mając dane zawartości cukrów (sugars).

16 rating sugars sugars

17 rating sugars Liniowy (sugars) sugars

18 To wykres rozrzutu wartości odżywczych względem zawartości cukrów dla 77 rodzajów płatków śniadaniowych, razem z linią regresji najmniejszych kwadratów. Jest to linia regresji otrzymana za pomocą metody najmniejszych kwadratów. Linia regresji jest zapisana w postaci równania y b, które 0 b1 x nazywa się równaniem regresji lub oszacowanym równaniem regresji, przy czym: y Szacowana wartość zmiennej objaśnianej b 0 b 1 b 0,b 1 Punkt przecięcia linii regresji z osią y Nachylenie linii regresji Współczynniki regresji

19

20

21

22

23

24

25 Regresja liniowa w Rattle dla R a

26 Regresja liniowa w środowisku R W środowisku R procedura znajdowania równania regresji dla podanego zbioru danych możliwa jest dzięki wykorzystaniu funkcji lm. Komenda R postaci lm(y ~ x) mówi, że chcemy znaleźć model regresji liniowej dla zmiennej y w zależności od zmiennej x.

27 Wariant z 1 zmienną objaśniającą rating = -2.4 * sugars+ 59.3

28 rating * sugars więc b b Estymowane równanie regresji może być interpretowane jako oszacowana wartość płatków jest równa 59,4 2,42 * masa cukru w gramach Linia regresji i y (oszacowane równanie regresji) są używane jako liniowe przybliżenie relacji pomiędzy zmiennymi x (wartością objaśniającą) a y (objaśnianą), tj. między zawartości cukru a wartością odżywczą.

29 y b0 b1 x rating * sugars A więc: b b Jak to czytać? Oszacowana wartość odżywcza płatków (rating) jest równa 59.4 i 2.42 razy waga cukrów (sugars) w gramach Czyli linia regresji jest liniowym przybliżeniem relacji między zmiennymi x (objaśniającymi, niezależnymi) a y (objaśnianą, zależną) w tym przypadku między zawartością cukrów a wartością odżywczą. Możemy zatem dzięki regresji: SZACOWAĆ, PRZEWIDYWAĆ

30 Po co przewidywać? Gdy np. chcemy oszacować wartości odżywcze nowego rodzaju płatków (nieuwzględnionych dotąd w tej próbie 77 różnym badanych płatków śniadaniowych), które zawierają x=1 gram cukrów. Wówczas za pomocą oszacowanego równania regresji możemy wyestymować wartość odżywczą płatków śniadaniowych zawierającym 1 gram cukrów: y *

31 Po co przewidywać? Gdy np. chcemy oszacować wartości odżywcze nowego rodzaju płatków (nieuwzględnionych dotąd w tej próbie 77 różnym badanych płatków śniadaniowych), które zawierają x=5 gram cukrów. Wówczas za pomocą oszacowanego równania regresji możemy wyestymować wartość odżywczą płatków śniadaniowych zawierającym 5 gram cukrów: y *5 47.3

32 Jak widać, niestety oszacowanie zgodne z równaniem regresji jest nie do końca zgodne z rzeczywistą wartością odżywczą płatków.

33 Wyraz wolny b0 jest miejscem na osi y gdzie linia regresji przecina tę oś, czyli jest to przewidywana wartość zmiennej objaśnianej, gdy zmienna objaśniająca jest równa 0. W wielu przypadkach zerowa wartość nie ma tu sensu. Przypuśćmy np. że chcielibyśmy przewidzieć wagę ucznia szkoły podstawowej (y) na podstawie jego wzrostu (x). Wartość zerowa wzrostu jest niejasna, a więcej interpretacji znaczenia wyrazu wolnego nie ma sensu w tym przypadku. Jednak dla naszego zbioru danych zerowa wartość cukrów w płatkach jak najbardziej ma sens, ponieważ istnieją płatki niezawierające cukrów. Zatem w naszym zbiorze danych wyraz wolny b0=59.4 reprezentuje przewidywaną wartość odżywczą płatków z zerową zawartością cukrów. Ale w naszym zbiorze nie mamy płatków o zerowej zawartości cukru które mają oszacowaną wartość odżywczą równą dokładnie Właściwe wartości odżywcze razem z błędami oszacowania przedstawiono poniżej.

34 Wszystkie przewidywane wartości są takie same. Bo wszystkie wymienione płatki mają identyczną wartość zmiennej objaśniającej (x=0). Współczynnik kierunkowy prostej regresji oznacza oszacowaną zmianę wartości y dla jednostkowego wzrostu x. Wartość b1 = 2.42 interpretujemy jako: Jeżeli zawartość cukrów wzrośnie o 1 gram, to wartość odżywcza zmniejszy się o 2.42 punktu.

35 Płatki o zerowej wartości SUGARS Proszę sprawdzić ile z tych płatków które faktycznie miały 0 wartość cukrów (sugars) miały wartość odżywczą (rating) równą 59.4? Odp: żadne Co sugeruje, że nasz model regresji nie do końca dobrze przewiduje w tym przypadku wartość odżywczą płatków.

36 Załóżmy np. że jesteśmy zainteresowani szacowaniem wartości odżywczych nowych płatków (nie zawartych w początkowych danych), które zawierają x=1 gram cukru. Za pomocą oszacowanego równania regresji możemy znaleźć oszacowaną wartość płatków zawierających 1 gram cukru jako * 1 = Zauważmy, że ta oszacowana wartość dla wartości odżywczej leży bezpośrednio na linii regresji, w punkcie (x=1, y = 56.98). W rzeczywistości dla każdej danej wartości x (sugars) oszacowana wartość y (rating) będzie znajdować się dokładnie na linii regresji. W naszych zbiorze są płatki Cheerios, w których zawartość cukru jest równa 1 gram. Jednak ich wartość odżywcza to a nie jak oszacowaliśmy powyżej dla nowych płatków zawierających 1 gram cukru. Na wykresie rozrzutu punkt płatków Cheerios jest umiejscowiony w (x=1, y = ) wewnątrz owalu. Górna strzałka wskazuje na położenie na linii regresji dokładnie powyżej punktu dla płatków Cheerios. Jest to punkt który przewidziała linia regresji dla wartości odżywczych, jeżeli zawartość cukru wynosi 1 gram. Wartość szacowana była zbyt duża o = co jest odległością w pionie punktu reprezentującego płatki Cheerios od linii regresji. Ta pionowa odległość równa w ogólności ( y y) jest nazywana np. błędem predykcji, błędem szacowania lub resztą.

37 Czyli każde płatki mające 1 gram cukru powinny mieć wartość odżywczą równą 56,98 ale jak widać tak nie jest. Płatki Cheerios mają wartość odżywczą równą 50,765. Czyli nastąpiło PRZESACOWANIE wartości odżywczej płatków o 6,215. Graficznie tę odległość widzimy jako odległość punktu reprezentującego te płatki od jego rzutu pionowego na linię regresji.

38

39 Co wówczas? Odległość tą mierzoną jako: ( y y) Nazywać będziemy błędem predykcji (błędem oszacowania, wartością resztową, rezyduum). Oczywiście powinno się dążyć do minimalizacji błędu oszacowania. Służy do tego metoda zwana metodą najmniejszych kwadratów. Metoda polega na tym, że wybieramy linię regresji która będzie minimalizować sumę kwadratów reszt dla wszystkich punktów danych.

40 Które residua (suma kwadratów) są najmniejsza? Proste sumowanie: I =0; II =0; III MNK: I =38; II: 1+4+1=6; III 4+4=8

41 Metoda MNK Metoda MNK pozwala nam jednoznacznie wybrać linię regresji, która minimalizuje sumę kwadratów reszt dla wszystkich punktów danych. y x 0 1 Jeśli mamy n obserwacji z modelu danego równaniem powyżej, wówczas i 1,2,...,n y x i 0 1 i Linia NK jest linią, która minimalizuje sumę kwadratów błędów dla populacji () SSE p n i1 i n i1 ( y x i 0 i 1 i ) 2

42 Czy to równanie będzie spełnione dla innych płatków niż te z badanego zbioru? Odpowiedź: pewnie NIE. Prawdziwą liniową zależność między wartością odżywczą a zawartością cukrów dla WSZYSTKICH rodzajów płatków reprezentuje równanie: y x Losowy błąd

43 Dla n obserwacji y x i 0 1 i i i=1,,n Linia najmniejszych kwadratów minimalizuje sumę kwadratów błędów SSE (population sum of squared errors): SSE p n R i n i1 i1 ( y x ) i 0 1 i 2

44 1. Różniczkujemy to równanie by oszacować Co dalej? 0 1 i ) ( * i n i i p x y SSE ) ( * i n i i i p x y x SSE 2. Przyrównujemy wynik do zera: 0 ) ( i n i i x b b y 0 ) ( i n i i i x b b y x

45 3. Rozbijamy sumę: Co dalej? 4. Powstaje n i i n i i x b nb y n i i n i i n i i i x b x b y x n i i n i x i y b nb n i i i n i i n i i y x x b x b

46 Co dalej? 5. Rozwiązując te równania otrzymujemy: x i yi ( xi )( yi ) / n b1 2 2 x ( x ) / n b0 y b1 x n liczba obserwacji x y A sumy są od i=1 do n. b i 1 0 i - Średnia wartość zmiennej objaśniającej - Średnia wartość zmiennej objaśnianej b i -estymatory najmniejszych kwadratów dla 0i 1 Czyli wartości które minimalizują sumę kwadratów błędów.

47 Jak znaleźć w Excelu wartości b 0 =59.4 i b 1 =-2.42 z tych równań? 1. Obliczamy wartości x i,y i,x i y i,x i 2

48 1. Obliczamy wartości: x i =534 y i = x i y i = x i2 = Podstawiamy do wzorów: b * / / b0 y b1 x *

49 Wnioski Wyraz wolny b0 jest miejscem na osi y gdzie linia regresji przecina tę oś czyli jest to przewidywana wartość zmiennej objaśnianej gdy objaśniająca równa się zeru. Współczynnik kierunkowy prostej regresji oznacza szacowaną zmianę wartość y dla jednostkowego wzrostu x wartość b 1 =-2.42 mówi, że jeśli zawartość cukrów wzrośnie o 1 gram to wartość odżywcza płatków zmniejszy się o 2.42 punktu. Czyli płatki A których zawartość cukrów jest o 5 większa niż w płatkach B powinny mieć oszacowaną wartość odżywczą o 5 razy 2.42 = 12.1 punktów mniejszą niż płatki typu B.

50 Interpretacja Widać z nich, że między zmienną objaśniającą sugars a zmienną objaśnianą rating istnieje pewna zależność (w miarę wzrostu wartości sugars spada wartość rating). Z kolei analizując rozrzut obserwacji ze względu na wartości zmiennej objaśniającej fiber oraz objaśnianej rating już tak silnej zależności nie dostrzegamy. Sprawdźmy jak będzie się zachowywać rozrzut wartości zmiennych objaśnianych w oparciu o te dwie zmienne objaśniające razem.

51 Regresja wielokrotna Omawiając regresję liniową (prostą) rozpatrywaliśmy dotąd jedynie takie przypadki zależności między zmiennymi objaśniającymi a objaśnianymi gdzie zmienna objaśniana była zależna tylko od jednej konkretnej zmiennej objaśniającej. Jednak w praktyce niezwykle często zmienna objaśniana zależna jest nie od jednej ale od kilku (wielu) zmiennych objaśniających. Będziemy zatem rozważać ogólne równanie regresji postaci: y b 0 b x 1 1 b 2 x 2... gdzie m oznacza liczbę (najczęściej kilku) zmiennych objaśniających. b m x m

52 Wykres rozrzutu dla zmiennej sugars

53 Wykres rozrzutu dla zmiennej fiber

54 Wariant z 2 zmiennymi objaśniającymi rating = * sugars * fiber

55 Aby zinterpretować współczynnik nachylenia prostej regresji: Rating = * sugars * fiber b 1 = wartość odżywcza maleje o 2.18 punktu, jeśli zawartość cukru rośnie o jedną jednostkę. Zakładamy przy tym, że zawartość błonnika (fiber) jest stała. b 2 = 2.86 wartość odżywcza rośnie o 2.86 punktu, jeśli zawartość błonnika rośnie o jedną jednostkę a zawartość cukru (sugars) jest stała. Uogólniając będziemy mówić, że dla m zmiennych objaśniających zachodzi reguła, zgodnie z którą: oszacowana zmiana wartości zmiennej odpowiedzi to b i, jeśli wartość zmiennej x i rośnie o jednostkę i zakładając, że wszystkie pozostałe wartości zmiennych są stałe.

56 Teraz możemy przewidywać, że gdy poziom cukrów wynosi np 1 to wartość odżywcza płatków będzie wynosić 56.9 zaś gdy poziom cukrów będzie wynosił 10 wówczas wartość odżywcza zmaleje do wartości 35.3 (patrz poniżej). > predict(model,data.frame(sugars=10), level = 0.9, interval = "confidence") fit lwr upr > predict(model,data.frame(sugars=1), level = 0.9, interval = "confidence") fit lwr upr

57 Błędy predykcji są mierzone przy użyciu reszt Uwaga: w prostej regresji liniowej reszty reprezentują odległość (mierzoną wzdłuż osi pionowej) pomiędzy właściwym punktem danych a linią regresji, zaś w regresji wielokrotnej, reszta jest reprezentowana jako odległość między właściwym punktem danych a płaszczyzną lub hiperpłaszczyzną regresji. Przykładowo płatki Spoon Size Shredded Wheat zawierają x 1 =0 gramów cukru i x 2 = 3 gramy błonnika, a ich wartość odżywcza jest równa podczas gdy wartość oszacowana, podana za pomocą równania regresji: > predict(model, data.frame(sugars=0,fiber=3),level=0.95, interval="confidence") fit lwr upr y y Zatem dla tych konkretnych płatków reszta jest równa = Zwróćmy uwagę na to, że wyniki, które tutaj zwraca funkcja R: predict są bardzo istotne. Mianowicie, oprócz podanej (oszacowanej, przewidywanej) wartości zmiennej objaśniającej, otrzymujemy również przedział ufności na zadanym poziomie ufności równym 0.95, który to przedział mieści się między wartością (lwr) a (upr).

58 Wariant z wieloma zmiennymi objaśniającymi Rating = *calories +2.9*protein+1.03*carbo- 0.84*sugars-2.00*fat- 0.05*vitamins+2.54*fiber- 0.05*sodium

59 Rating = *calories +2.9*protein+1.03*carbo-0.84*sugars- 2.00*fat-0.05*vitamins+2.54*fiber-0.05*sodium Załóżmy np., że jest dostępny nowy rodzaj płatków śniadaniowych, których porcja ma 80 kalorii, 2 gramy białka, nie ma tłuszczu i sodu, ma 3 gramy błonnika, 16 gramów węglowodanów, nie ma cukrów i pokrywa 0% dziennego zapotrzebowania na witaminy (podobnie jak Shredded Wheat). Wtedy przewidywana wartości odżywcza to * * *0-0.05*0+2.54* * *0-0.05*0 = 68.49

60 To przewidywanie jest niezwykle bliskie właściwej wartości odżywczej płatków Shredded Wheat równej zatem błąd szacowania = = Oczywiście szacowanie punktu ma wady analogiczne do tych w przypadku prostej regresji liniowej, zatem również możemy znaleźć przedziały ufności dla średniej wartości odżywczej wszystkich takich płatków (o właściwościach podobnych do Shredded Wheat: 80 kalorii, 2 gramy białka) na poziomie ufności 95 % to (66.475,70.764). Jak poprzednio, przedział ufności dla losowo wybranego rodzaju płatków jest większy niż dla średniej wartości. Następnie omówimy dalsze wyniki regresji wielokrotnej. Wartość R2 równa 99.5 % jest niezwykle duża, prawie równa maksymalnej wartości równej 100%. To pokazuje, że nasz model regresji wielokrotnej przedstawia prawie całą zmienność wartości odżywczej. Błąd standardowy szacowania s jest równo około 1, co oznacza, ze typowy błąd przewidywania wynosi około jednego punktu w skali wartości odżywczej, a blisko 95% (na podstawie rozkładu normalnego błędów) przewidywań będzie w obrębie dwóch punktów od aktualnej wartości. Porównajmy to z wartością s równą około 9 dla modelu prostej regresji liniowej. Użycie większej liczby atrybutów w naszym modelu regresji pozwoliło nam na zredukowanie błędu przewidywania o czynnik równy 9.

61 Czy wybrana metoda regresji jest przydatna? Można znaleźć taką linię regresji MNK, która modeluje zależność pomiędzy dwoma dowolnymi ciągłymi zmiennymi. Jednak nie ma nigdy gwarancji, że taka regresja będzie przydatna. W jaki sposób można stwierdzić, czy oszacowane równanie regresji jest przydatne do przewidywania? Jedną z miar jest współczynnik determinacji R 2, będący miarą dopasowania regresji. Określa on stopień, w jakim linia regresji NK wyjaśnia zmienność obserwowanych danych.

62 SSE Nr Czas, x Odległość, y Oszacowana wielkość y y 6 2x Błąd oszacowania y y (Błąd oszacowania)2 ( y y)

63 Pokazano odległość przebytą przez 10 zawodników biegu na orientację oraz czas trwania biegu każdego zawodnika. Pierwszy zawodnik przebył 10 km w 2 godziny. Na podstawie danych z tej tabeli oszacowane równanie regresji przyjmuje postać: y 6 2x.A więc estymowana odległość jest równa 6 km plus 2 razy liczba godzin. Oszacowane równanie regresji może być użyte do przewidywania przebytej odległości przez zawodnika, o ile znamy czas trwania biegu tego zawodnika. Estymowane wartości y znajdują się w kolumnie 3 tabeli można zatem obliczyć błąd oszacowania oraz jego kwadrat. Suma kwadratów błędu oszacowania lub suma kwadratów błędów reprezentuje całkowitą wartość błędu oszacowania w przypadku użycia równania regresji. Tutaj mamy wartość SSE = 12. Nie jesteśmy jeszcze teraz w stanie stwierdzić czy to wartość duża, bo w tym miejscu nie mamy żadnej innej miary.

64 Jeśli teraz chcemy oszacować przebytą odległość bez znajomości liczby godzin, a nie mamy dostępu do informacji o wartości zmiennej x, którą moglibyśmy wykorzystać do oszacowania wartości zmiennej y, nasze oszacowania przebytej odległości będą oczywiście mało wartościowe, gdyż mniejsza ilość dostępnym informacji zwykle skutkuje mniejszą dokładnością szacowań. Skoro nie mamy dostępu do informacji o zmiennych objaśniających, to najlepszym oszacowaniem dla y będzie po prostu średnia przebyta odległość. W takim przypadku, oszacowaniem przebytej odległości dla każdego zawodnika, niezależnie od jego czasu, byłaby wartość średnia = 16. Szacowania przebytej odległości, gdy ignorowana jest informacja o czasie, pokazuje pozioma linia średniej = 16.

65 Rysunek, strona 43.

66 Przewidywana przebyta odległość średnia y = 16, niezależnie od tego czy wędrowali tylko 2 czy 3 godziny, czy też nie było ich cały dzień. Czyli nie uwzględniając czasu. Jest to rzecz jasna rozwiązanie nieoptymalne. Punkty danych na rysunku jak widzimy skupiają się wokół oszacowanej linii regresji, a nie wokół tej linii y=16.to sugeruje, że błędy przewidywania są mniejsze, kiedy uwzględniamy informację o zmiennej x, aniżeli wtedy, gdy tej informacji nie wykorzystujemy. Weźmy przykład zawodnika nr 10. Przebył odległość y=25 km w ciągu x=9 godzin. Jeżeli zignorowalibyśmy informację o wartości zmiennej objaśniającej x, błąd szacowania byłby równy y y = = 9 km. Ten błąd przewidywania jest reprezentowany przez pionową linię pomiędzy punktem danych dla tego zawodnika, a poziomą linią, co oznacza odległość pomiędzy obserwowaną wartością y i jej rzutem pionowych na prostą o równaniu na średnią y = 16, która przecież określa wartość estymowaną. Chcemy teraz znaleźć y y dla każdego rekordu w zbiorze danych, a następnie sumę kwadratów tych miar, tak jak zrobiliśmy to dla,kiedy obliczaliśmy sumę kwadratów błędów. y y Otrzymujemy w ten sposób całkowitą sumę kwadratów SST.

67 Współczynnik determinacji r 2 Pozwala stwierdzić czy oszacowane równanie regresji jest przydatne do przewidywania. Określa stopień w jakim linia regresji najmniejszych kwadratów wyjaśnia zmienność obserwowanych danych. x y y y y 2 ( y y)

68 Na ile dobra jest regresja? Współczynnik determinacji jest opisową miarą siły liniowego związku między zmiennymi, czyli miarą dopasowania linii regresji do danych współczynnik determinacji ---przyjmuje wartości z przedziału [0,1] i wskazuje jaka część zmienności zmiennej y jest wyjaśniana przez znaleziony model. Na przykład dla R2=0.619 znaleziony model wyjaśnia około 62% zmienności y.

69 Współczynnik determinacji Oczywiście zawsze można znaleźć taką linię regresji metodą najmniejszych kwadratów, która modeluje zależność pomiędzy dwoma dowolnymi ciągłymi zmiennymi. Jednak nie ma gwarancji, że taka regresja będzie przydatna. Zatem powstaje pytanie, w jaki sposób możemy stwierdzić, czy oszacowane równanie regresji jest przydatne do przewidywania. Jedną z miar dopasowania regresji jest współczynnik determinacji R 2. Określa on stopień, w jakim linia regresji najmniejszych kwadratów wyjaśnia zmienność obserwowanych danych. Przypomnijmy, że y oznacza estymowaną wartość zmiennej objaśnianej, a lub resztą. y y jest błędem oszacowania

70 Suma kwadratów błędu oszacowania lub suma kwadratów błędów reprezentuje całkowitą wartość błędu oszacowania w przypadku użycia równania regresji. Jeśli nie znamy wartości zmiennej objaśniającej do oszacowania wartości zmiennej objaśnianej- nasze oszacowania będą oczywiście mało wartościowe. Lepszym oszacowaniem dla y będzie po prostu średnia(y). To zazwyczaj prezentuje pozioma linia na wykresie. Punkty danych jednak koncentrują się bardziej wokół oszacowanej linii regresji a nie wokół tej linii poziomej, co sugeruje, że błędy przewidywania są mniejsze, kiedy uwzględniamy informację o zmiennej x, aniżeli wtedy, gdy tej informacji nie wykorzystujemy. Jeśli liczymy różnice x średnia(x) dla każdego rekordu, a następnie sumę kwadratów tych miar, tak jak przy oszacowanej wartości y (), y y kiedy obliczaliśmy sumę kwadratów błędów otrzymujemy całkowitą sumę n n kwadratów SST (sum of squares total): 2 2 SST ( y i y) SST yi y) ( n 1) Var ( y) ( i1 i1 Stanowi ona miarę całkowitej zmienności wartości samej zmiennej objaśnianej bez odniesienia do zmiennej objaśniającej. Zauważmy, że SST jest funkcją wariancji zmiennej y, gdzie wariancja jest kwadratem odchylenia standardowego. 2 ( n 1) y

71 Wszystkie trzy miary: SST, wariancja oraz odchylenie standardowe są jednowymiarowymi miarami zmienności tylko dla y. Czy powinniśmy oczekiwać, że SST jest większe czy też mniejsze od SSE? Wykorzystując obliczenia mamy SST dużo większe niż SSE. Mamy więc teraz z czym porównać SSE. Wartość SSE jest dużo mniejsza od SST, co wskazuje, że uwzględnienie informacji ze zmiennej objaśniającej w regresji skutkuje dużo dokładniejszą estymacją niż gdybyśmy zignorowali tę informację. Sumy kwadratów są błędami przewidywań, zatem im ich wartość jest mniejsza tym lepiej. Innymi słowy, zastosowanie regresji poprawia nasze szacowania zmiennej objaśnianej. Jeśli chcemy określić, jak bardzo oszacowane równanie regresji poprawia estymację, obliczymy teraz sumę kwadratów y y Otrzymamy w ten sposób regresyjną sumę kwadratów (SSR, sum of squares regression) miarę całkowitej poprawy dokładności przewidywań w przypadku stosowania regresji w porównaniu do przypadku, gdy informacja zmiennej objaśniającej jest ignorowana: SSR n i1 ( y y) 2

72 Odległość dzielimy na dwie części: y y y y y y ) ( ) ( y y y y y y ) ( ) ( ) ( y y y y y y SSE SSR SST

73 SST mierzy całkowitą zmienność zmiennej objaśnianej, zatem o SSR możemy myśleć jak o części zmienności zmiennej objaśniającej, która jest wyjaśniona przez regresję (SSR). Innymi słowy, SSR mierzy tę część zmienności zmiennej objaśniającej, która jest wyjaśniana przez liniową zależność między zmienną objaśniającą a objaśnianą. Ponieważ nie wszystkie punkty danych leżą dokładnie na linii regresji, więc pozostaje jeszcze pewna część zmienności zmiennej y, która nie została wyjaśniona przez regresję (tej części odpowiada wartość SSE). Możemy tu SSE traktować jako miarę całej zmienności y ze wszystkich źródeł, łącznie z błędem, po wyjaśnieniu liniowej zależności między x a y za pomocą regresji. Tutaj SSE jest nazywane zmiennością niewyjaśnioną.

74 Ponieważ współczynnik determinacji przyjmuje postać ilorazu SSR i SST możemy go interpretować jako tę część zmienności zmiennej y, która została wyjaśniona przez regresję, czyli przez liniowy związek pomiędzy zmienną celu a zmienną objaśniającą.

75 Jaka jest maksymalna wartość R 2? Maksymalna wartość może być osiągnięta wtedy, gdy regresja idealnie pasuje do danych, co ma miejsce wówczas, gdy każdy z punktów danych leży dokładnie na oszacowanej linii regresji. W tej optymalnej sytuacji nie ma błędów oszacowania podczas stosowania regresji, a zatem każda wartość resztowa jest równa 0, co z kolei oznacza, że SSE jest =0. Jeżeli SSE = 0 to SST = SSR zatem współczynnik R 2 jest równy SSR/SST = 1. Taka sytuacja ma miejsce gdy regresja idealnie modeluje dostępne dane.

76 Jaka jest minimalna wartość R 2? Jeśli regresja nie wykazała żadnej poprawy, czyli nie wyjaśniła żadnej części zmienności zmiennej y. Wówczas wartość SSR jest równa zero, a więc również wartość R 2 = 0. Zatem wartość współczynnika R 2 jest z zakresu od 0 do 1. Im wyższa wartość R 2, tym lepsze dopasowanie regresji do danych. Wartości R 2 bliskie 1 oznaczają niezwykle dobre dopasowanie regresji do danych, wartości bliskie 0, oznaczają bardzo słabe dopasowanie.

77 Współczynnik determinacji r 2 Współczynnik determinacji r 2 : 2 r SSR SST Mierzy stopień dopasowania regresji jako przybliżenia liniowej zależności pomiędzy zmienną celu a zmienną objaśniającą. Jaka jest wartość maksymalna współczynnika determinacji r 2? Jest ona osiągana wtedy, gdy regresja idealnie pasuje do danych, co ma miejsce wtedy gdy każdy z punktów danych leży dokładnie na oszacowanej linii regresji. Wówczas nie ma błędów oszacowania, a więc wartości resztowe (rezydua) wynoszą 0, a więc SSE=0 a wtedy SST = SSR a r 2 =1. Jaka jest wartość minimalna współczynnika determinacji r 2? Jest ona osiągana wtedy, gdy regresja nie wyjaśnia zmienności, wtedy SSR = 0, a więc r 2 =0. Im większa wartość r 2 tym lepsze dopasowanie regresji do zbioru danych.

78 x y y y y 2 ( y y) Całkowita suma kwadratów SST n i1 ( y y) 2 Regresyjna suma kwadratów SSR n i1 ( y y) 2 Suma kwadratów błędów oszacowania: SSE n i1 ( y y) 2 Wówczas współczynnik determinacji r 2 : 2 r SSR SST

79 Przykład analizy współczynnika R 2 dla wielu zmiennych objaśniających Jak już wspomnieliśmy na początku, często w świecie rzeczywistym mamy do czynienia z zależnościami zmiennej objaśnianej nie od jednej ale raczej od wielu zmiennych objaśniających. Wykonanie tego typu analiz w pakiecie R nie jest rzeczą trudną. Wręcz przeciwnie. Nim przeprowadzimy analizę zależności zmiennej rating od wielu zmiennych objaśniających np. sugars oraz fiber przyjrzyjmy się wykresom rozrzutu dla tych zmiennych osobno. Wykres rozrzutu bowiem doskonale odzwierciedla zależności między pojedynczymi zmiennymi.

80 Współczynnik determinacji Niezwykle istotna jest miara nazwana już wcześniej współczynnikiem determinacji R 2 określana za pomocą wzoru: n ^ n 2 SSR ^ 2ˆ 2 SSR ( y y) i1 R SST SST ( y y) gdzie SSR to regresyjna suma kwadratów zaś SST to całkowita suma kwadratów Będziemy go interpretować jako część zmienności zmiennej objaśnianej, która jest wyjaśniana przez liniową zależność ze zbiorem zmiennych objaśniających. Im większa będzie liczba zmiennych objaśniających tym nie mniejsza będzie wartość współczynnika determinacji R 2. Możemy wnioskować, że gdy dodajemy nową zmienną objaśniającą do modelu, wartość R 2 będzie nie mniejsza niż przy modelu o mniejszej liczbie zmiennych. Oczywiście skala (wielkość) tej różnicy jest bardzo istotna w zależności od tego czy dodamy tę zmienną do modelu czy też nie. Jeśli wzrost jest duży to uznamy tę zmienną za znaczącą (przydatną). i1

81 Jeśli takie reszty obliczymy dla każdej obserwacji to możliwe będzie wyznaczenie wartości współczynnika determinacji R 2. W naszym przypadku jest on równy czyli %. Oznacza to w naszej analizie, że % zmienności wartości odżywczej jest wyjaśniane przez liniową zależność pomiędzy zmienną wartość odżywcza a zbiorem zmiennych objaśniających - zawartością cukrów i zawartością błonnika. Jeśli popatrzymy jaka była wartość tego współczynnika, gdy badaliśmy na początku zależność zmiennej objaśnianej tylko od jednej zmiennej objaśniającej (cukry) to wartość ta wynosiła R 2 = 57.71%. Dla dwóch zmiennych objaśniających ta wartości wyniosła %. Czyli powiemy, że dodając nową zmienną objaśniającą (w tym przypadku błonnik) możemy wyjaśnić dodatkowe = 22.19% zmienności wartości odżywczej (rating) płatków. Typowy błąd oszacowania jest tu obliczany jako standardowy błąd oszacowania s i wynosi 6.22 punktu. Oznacza to, że estymacja wartości odżywczej płatków na podstawie zawartości cukrów i błonnika zwykle różni się od właściwej wartości o 6.22 punktu. Jeśli nowa zmienna jest przydatna, to błąd ten powinien się zmniejszać po dodaniu nowej zmiennej.

82 Ile zmiennych objaśniających w modelu regresji? Najprostszym sposobem na wybór optymalnej liczby zmiennych objaśniających jest współczynnik R 2 adj zwany skorygowanym. Wiedząc, że R 2 = 1 SSE/SST wartość R 2 adj obliczymy jako: 2 R adj 1 SSE n p SST n 1 gdzie p oznacza liczbę parametrów modelu (i jest to zazwyczaj liczba zmiennych objaśniających + 1) zaś n oznacza wielkość próby. Zwykle wartość R 2 adj będzie po prostu nieco mniejsza niż wartość R 2. W środowisku R współczynnik determinacji R 2 wyznaczymy stosując bezpośrednio komendę: summary(model.liniowy)\$r.square Z kolei współczynnik determinacji ale ten tzw. skorygowany (ang. Adjusted) za pomocą komendy: summary(model.liniowy)\$adj.r.squared

83 Chcąc wyznaczyć wartości tych współczynników dla naszego testowego modelu z dwiema zmiennymi objaśniającymi sugars oraz fiber w środowisku R użyjemy odpowiednich komend, jak to pokazuje poniższy kod R wraz z wynikami: > dane<- read.table("c:\\cereals.data", header = TRUE, row.names = 1) > model<-lm(rating~sugars+fiber, data=dane) > summary(model)$r.square [1] > summary(model)$adj.r.squared [1] Jak widzimy współczynnik R 2 wynosi zaś R 2 adj odpowiednio

84

85 Funkcja r.square

86 Funkcja r.square.adjusted

87 Funkcja coeff

88 Przykład analizy współczynnika R2 dla jednej zmiennej objaśniającej Procedura analizy współczynnika determinacji R2 dla jednej zmiennej objaśniającej może wyglądać następująco. Jeśli założymy, że zmienną objaśnianą ma być wartość odżywcza płatków (rating) zaś zmienną objaśniającą poziom cukrów (sugars) to komenda R wywołującą badanie zależności między tymi zmiennymi będzie nastepująca: lm(rating~sugars, data=dane) Wówczas pełny zapis okna dialogu z R-em będzie następujący: > dane<- read.table("c:\\cereals.data", header = TRUE, row.names = 1) > model<-lm(rating~sugars, data=dane) > summary(model)

89 Call: lm(formula = rating ~ sugars, data = dane) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** sugars e-15 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 75 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 75 DF, p-value: 1.153e-15 > Widzimy zatem, że równanie regresji, gdy zmienną objaśnianą będzie zmienna rating (wartość odżywcza płatków) zaś objaśniającą sugars (poziom cukrów), będzie następującej postaci: rating = -2.4 * sugars+ 59.3

90 Teraz możemy przewidywać, że gdy poziom cukrów wynosi np. 1 to wartość odżywcza płatków będzie wynosić 56.9 zaś gdy poziom cukrów będzie wynosił np. 10 wówczas wartość odżywcza zmaleje do wartości 35.3 (patrz poniżej). > predict(model,data.frame(sugars=10), level = 0.9, interval = "confidence") fit lwr upr > predict(model,data.frame(sugars=1), level = 0.9, interval = "confidence") fit lwr upr

91 Przykład analizy współczynnika R2 dla wielu zmiennych objaśniających Często w świecie rzeczywistym mamy do czynienia z zależnościami zmiennej objaśniającą nie od jednej zmiennej objaśnianej ale raczej od wielu zmiennych objaśniających. Wykonanie tego typu analiz w pakiecie R nie jest rzeczą trudną. Wręcz przeciwnie. Nim przeprowadzimy analizę zależności zmiennej rating od wielu zmiennych objaśniających np. sugars oraz fiber przyjrzyjmy się wykresom rozrzutu dla tych zmiennych osobno. Wykres rozrzutu bowiem doskonale odzwierciedla zależności między pojedynczymi zmiennymi.

92

93 Przykład analizy zmiennej objaśnianej (a więc wartości odżywczej płatków ze zbioru Cereals od kilku zmiennych, np. sugars oraz fiber (a więc odpowiednio: poziom cukrów oraz błonnik) przedstawiamy poniżej. > model<-lm(rating~sugars+fiber, data=dane) > summary(model) Call: lm(formula = rating ~ sugars + fiber, data = dane) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** sugars < 2e-16 *** fiber e-14 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 74 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 74 DF, p-value: < 2.2e-16

94 wtedy powiemy, że równanie regresji będzie wyglądać następująco: rating = * sugars * fiber Czyli, aby zinterpretować współczynnik nachylenia prostej regresji b 1 = powiemy, że wartość odżywcza maleje o punktu, jeśli zawartość cukru rośnie o jedną jednostkę. Zakładamy przy tym, że zawartość błonnika (fiber) jest stała. Z kolei interpretacja współczynnika b 2 = jest taka, że wartość odżywcza rośnie o punktu, jeśli zawartość błonnika rośnie o jedną jednostkę a zawartość cukru (sugars) jest stała.

95 Uogólniając będziemy mówić, że dla m zmiennych objaśniających zachodzi reguła, zgodnie z którą oszacowana zmiana wartości zmiennej odpowiedzi to b i, jeśli wartość zmiennej x i rośnie o jednostkę i zakładając, że wszystkie pozostałe wartości zmiennych są stałe. Błędy predykcji są mierzone przy użyciu reszt Co ważne: y y w prostej regresji liniowej reszty reprezentują odległość (mierzoną wzdłuż osi pionowej) pomiędzy właściwym punktem danych a linią regresji. Zaś w regresji wielokrotnej, reszta jest reprezentowana jako odległość między właściwym punktem danych a płaszczyzną lub hiperpłaszczyzną regresji. Przykładowo płatki Spoon Size Shredded Wheat zawierają x 1 =0 gramów cukru i x 2 = 3 gramy błonnika, a ich wartość odżywcza jest równa podczas gdy wartość oszacowana, podana za pomocą równania regresji: > predict(model, data.frame(sugars=0,fiber=3),level=0.95, interval="confidence") fit lwr upr >

96 Zatem dla tych konkretnych płatków reszta jest równa = Zwróćmy uwagę na to, że wyniki które tutaj zwraca funkcja R: predict są bardzo istotne. Mianowicie, oprócz podanej (oszacowanej, przewidywanej) wartości zmiennej objaśniającej, otrzymujemy również przedział ufności na zadanym poziomie ufności równym 0.95, który to przedział mieści się między wartością (lwr) a (upr). Pamiętamy, że z pojęciem regresji wiąże się pojęcie współczynnika determinacji: gdzie SSR to regresyjna suma kwadratów: zaś SST to całkowita suma kwadratów: 2 R SSR SST Będziemy R 2 interpretować jako część zmienności zmiennej objaśnianej, która jest wyjaśniana przez liniową zależność ze zbiorem zmiennych objaśniających. SST SSR n i1 n i1 ( ( y y) y 2 y) 2

97 Co ważne: Im większa będzie liczba zmiennych objaśniających tym nie mniejsza będzie wartość współczynnika determinacji R 2 Możemy wnioskować, że gdy dodajemy nową zmienną objaśniającą do modelu, wartość R 2 będzie nie mniejsza niż przy modelu o mniejszej liczbie zmiennych. Oczywiście skala (wielkość) tej różnicy jest bardzo istotna w zależności od tego czy dodamy tę zmienną do modelu czy też nie. Jeśli wzrost jest duży to uznamy tę zmienną za znaczącą (przydatną). Jeśli takie reszty obliczymy dla każdej obserwacji to możliwe będzie wyznaczenie wartości współczynnika determinacji R 2. W naszym przypadku jest on równy czyli 80.92%. Oznacza to w naszej analizie, że 80.92% zmienności wartości odżywczej jest wyjaśniana przez liniową zależność (płaszczyznę) pomiędzy zmienną wartość odżywcza a zbiorem zmiennych objaśniających - zawartością cukrów i zawartością błonnika. Jeśli popatrzymy jaka była wartość tego współczynnika, gdy badaliśmy na początku zależność zmiennej objaśnianej tylko od jednej zmiennej objaśniającej (cukry) to wartość ta wynosiła R 2 = 57.71%. Dla dwóch zmiennych objaśniających ta wartości wyniosła %. Czyli powiemy, że dodając nową zmienną objaśniającą (w tym przypadku błonnik) możemy wyjaśnić dodatkowe = 22.19% zmienności wartości odżywczej (rating) płatków. Typowy błąd oszacowania jest tu obliczany jako standardowy błąd oszacowania s i wynosi 6.22 punktu. Oznacza to, że estymacja wartości odżywczej płatków na podstawie zawartości cukrów i błonnika zwykle różni się od właściwej wartości o 6.22 punktu. Jeśli nowa zmienna jest przydatna, to błąd ten powinien się zmniejszać po dodaniu nowej zmiennej.

98 Najprostszym sposobem na wybór optymalnej liczby zmiennych objaśniających jest współczynnik R 2 adj zwany skorygowanym (ang. adjusted). Wiedząc, że wartość R 2 2 SSE( n p) 2 SSE adj obliczymy jako R adj 1 R 1 SST SST( n 1) i zwykle ta wartość będzie po prostu nieco mniejsza niż wartość R 2. W środowisku R współczynnik determinacji R 2 wyznaczymy stosując bezpośrednio komendę: summary(model.liniowy)$r.square Z kolei współczynnik determinacji ale ten tzw. skorygowany (ang. adjusted) za pomocą komendy: summary(model.liniowy)$adj.r.squared. Chcąc wyznaczyć wartości tych współczynników dla naszego testowego modelu w dwiema zmiennymi objaśniającymi sugars oraz fiber w środowisku R użyjemy odpowiednich komend, jak to pokazuje poniższy kod R wraz z wynikami: > dane<- read.table("c:\\cereals.data", header = TRUE, row.names = 1) > model<-lm(rating~sugars+fiber, data=dane) > summary(model)$r.square [1] > summary(model)$adj.r.squared [1] Jak widzimy współczynnik R 2 wynosi zaś R 2 adj odpowiednio

99 Użyjemy równania regresji aby oszacować wartość odżywczą Chocolade Frosted Sugar Bombs: y = * sugars = * 30 = -3.2 Innymi słowy, ulubione płatki mogą mieć tak dużo cukru, że wartość odżywcza jest liczbą ujemną, w przeciwieństwie do innych płatków w zbiorze danych (minimalna wartość odżywcza = 18) i analogicznie do ujemnej oceny studenta z egzaminu. Co tu się dzieje? Ujemna przewidywana wartość odżywcza dla tych płatków jest przykładem nieuzasadnionej ekstrapolacji.

100 Po dzisiejszym wykładzie powinieneś znać odpowiedź na następujące pytania: Jaką postać przyjmuje równanie regresji liniowej? Jak z równania regresji dokonywać predykcji? Co to znaczy, że regresja jest wielokrotna? Czym jest współczynnik determinacji? Jak się go mierzy? Jaka jest jego max i min wartość? Jak sprawdzić czy regresja jest przydatna? Do czego służy metoda MNK?

101 Na następnym wykładzie poznasz odpowiedź na następujące pytania: Jak graficznie sprawdzać założenia regresji liniowej? Co to jest wykres kwantylowy? Co to jest wykres studentyzowanych i standaryzowanych reszt? Jak znaleźć w modelu obserwacje wpływowe, obserwacje odstąjące czy obserwacje wysokiej dźwigni? Jak weryfikować poprawność modelu regresji? Jak wybrać lepszy model regresji? Jak badać regresję nieliniową?