TEMATYKA: Regresja liiowa dla prostej i płaszczyzy Ćwiczeia r 5 DEFINICJE: Regresja: metoda statystycza pozwalająca a badaie związku pomiędzy wielkościami daych i przewidywaie a tej podstawie iezaych wartości jedych wielkości a podstawie zaych wartości iych. Regresja liiowa wyików pomiarów: jest to proces polegający a aproksymowaiu wyików pomiarów przy pomocy prostej lub płaszczyzy. Gdy mamy do czyieia z wyikami pomiarów w postaci puktów a płaszczyźie (w przestrzei) i a skutek błędów pomiarowych układają się oe w przybliżeiu wzdłuż pewej prostej (płaszczyzy), ale ie są ai współliiowe, ai współpłaszczyzowe, to poszukiwaie prostej y = ax + b (płaszczyzy z = ax + by + c), która by przechodziła możliwie ajbliżej wszystkich puktów doświadczalych azywamy regresją liiową dla prostej (dla płaszczyzy). Wyzaczeie parametrów a, b, c polega a miimalizacji sumy: a) Dla prostej: S(a, b) = y i a x i b] b) Dla płaszczyzy: S(a, b, c) = z i a x i b y i c] Metoda ta osi azwę metody ajmiejszych kwadratów. Formalie rzecz biorąc są to fukcje dwóch zmieych w przypadku prostej i trzech zmieych w przypadku płaszczyzy. Iteresują as takie wartości tych zmieych, dla których S(a, b) lub S(a, b, c) jest miimala. Wiadomo, że fukcja wielu zmieych ma miimum w pukcie, dla którego pochode cząstkowe tej fukcji po wszystkich zmieych są rówe zeru, a zatem w tym przypadku muszą być spełioe waruki: a) Dla prostej: b) Dla płaszczyzy: = 0 { = 0 = 0 = 0 { = 0 c
Współczyik korelacji: liczba określająca w jakim stopiu dae doświadczale (statystycze) są współzależe. Jest to miara korelacji (współzależości) dwóch (lub więcej) zmieych. Istieje wiele różych wzorów określaych jako współczyiki korelacji. Większość z ich jest ormalizowaa tak, żeby przybierała wartości od (zupeła korelacja ujema), przez 0 (brak korelacji) do + (zupeła korelacja dodatia). a) współczyik korelacji Pearsoa (dla dwóch zmieych x i y): x jest objaśiaa przez y r xy = x = cov(x, y) s x s y = x i, y = y i (x i x ) (y i y ) (x i x ) (y i y ) średie arytmetycze Iterpretacja: Mówi o sile (wartość) i kieruku (zak) zależości pomiędzy dwoma cechami, p. r xy = 0.9 świadczy o silej, dodatiej korelacji (zależości, związku) pomiędzy x i y. Właściwości:. korelacja pomiędzy dwoma cechami ilościowymi,. tylko dla zależości liiowych, 3. korelacja ujema i dodatia (od - do ): 4. "+": cechy zmieiają się jedokierukowo: wzrostowi (spadkowi) wartości x towarzyszy wzrost (spadek) wartości y, 5. "-": cechy zmieiają się dwukierukowo: wzrostowi (spadkowi) wartości x towarzyszy spadek (wzrost) wartości y. b) współczyik korelacji cząstkowej Kedalla (dla trzech zmieych x, y i z) z jest objaśiaa przez x i y : r zx r zy r xy r zx.y = ( r zy ) ( r xy ) r zy r zx r xy r zy.x = ( r zx ) ( r xy ) r xy r zx r zy r xy.z = ( r zx ) ( r zy ) r xy, r zx, r zy - współczyiki korelacji Pearsoa
Iterpretacja: r xy.z = 0.9 ozacza, że istieje sila, dodatia korelacja (zależość) pomiędzy zmieą x i y, po wyelimiowaiu wpływu zmieej z. Właściwości:. pomiędzy dwoma cechami (zmieymi) ilościowymi, lecz gdy wpływ iych chcemy odseparować,. korelacje różego rzędu: p. rzędu I: dla 3 zmieych z wyłączeiem oddziaływaia jedej z ich, rzędu II: dla 4 zmieych z wyłączeiem oddziaływaia dwóch z ich, 3. rzędu "": dla + zmieych z wyłączeiem oddziaływaia "" z ich, 4. korelacja ujema i dodatia (od - do ) jak w przypadku Pearsoa. c) Współczyik korelacji wielorakiej (pierwiastek ze współczyika determiacji), (dla trzech zmieych x, y i z) z jest objaśiaa przez x i y : r zx r zy D = r xz r xy r yz r yx R = r yx ] - macierz korelacji pomiędzy wszystkimi zmieymi r xy ] - macierz korelacji pomiędzy zmieymi objaśiającymi gdzie: r ij = r ji R z.xy = detd detr Iterpretacja: Zazwyczaj iterpretacji podlega kwadrat R zway współczyikiem determiacji R. Jeżeli R = 0.9, to R = 0.8, co ozacza, że zmieość zmieej zależej (z) została w 8% wyjaśioa zmieością zmieych iezależych (x i y), a mówiąc prościej, że model w 8% opisuje dopasowaie modelu do daych. Właściwości:. pomiędzy wieloma cechami (zmieymi) ilościowymi,. wartości z przedziału <0; >: 3. im bliżej tym związek pomiędzy z a (x i y) jest siliejszy, 4. im bliżej 0 tym związek pomiędzy z a (x i y) słabszy, 5. podiesioy do kwadratu daje współczyik determiacji. 3
Uwagi ogóle: Aproksymacja daych doświadczalych (statystyczych) krzywymi osi azwę regresji. W przypadku, gdy do tych daych dopasowujemy prostą, mówimy o regresji liiowej. Niedostateczość tej metody (regresji liiowej) w ogólym przypadku pokazuje m.i. kwartet Ascombe'a zestaw czterech zbiorów daych, które mają iemal tożsame wskaźiki statystycze (średią i wariację w kieruku X i Y, współczyik korelacji oraz prostą regresji) pomimo zacząco różego charakteru daych. Rys. 5. 4
ZADANIA:. Dla wyików pomiarów reprezetowaych przez puktów P i (x i ; y i ) wyprowadzić wzór ogóly (macierzowy) do wyzaczeia współczyików a i b dla prostej y = ax + b aproksymującej dae pukty stosując założeia regresji liiowej.. Dla wyików pomiarów reprezetowaych przez puktów P i (x i ; y i ; z i ) wyprowadzić wzór ogóly (macierzowy) do wyzaczeia współczyików a i b i c dla płaszczyzy z = ax + by + c aproksymującej dae pukty stosując założeia regresji liiowej. 3. W tabeli podao parametry puktów pomiarowych pozwalające wykreślić je w kartezjańskim układzie współrzędych D: i x i y i 4 3 3 6 3 4 8 3 5 0 5 6 7 7 4 6 8 6 8 9 8 9 0 0 Tab. 5. Rys. 5. 5
Wyzaczyć współczyiki a i b aproksymujące dae pukty do prostej o rówaiu y = ax + b. Naszkicować wyzaczoą prostą a jedym wykresie z pukami pomiarowymi. Zastosować założeia regresji liiowej. 4. Dla daych doświadczalych z zadaia 3 wyzaczyć współczyik korelacji liiowej r xy oraz podać iterpretację otrzymaego rezultatu co do stopia zależości liiowej pomiędzy daymi doświadczalymi opisującymi x oraz opisywaymi y. 5. Wyzaczyć współczyik korelacji wielorakiej R dla astępujących założeń: a) zmiee x i y opisują w sposób iezależy zmieą z, b) współczyiki korelacji wyoszą odpowiedio r xy = 0.6, r zx = 0.9, r zy = 0.3 podać iterpretację otrzymaego rezultatu co do stopia zależości liiowej pomiędzy daymi doświadczalymi opisującymi x i y oraz opisywaymi z. 6
ROZWIĄZANIA ZADAŃ:. Dla wyików pomiarów reprezetowaych przez puktów P i (x i ; y i ) wyprowadzić wzór ogóly (macierzowy) do wyzaczeia współczyików a i b dla prostej y = ax + b aproksymującej dae pukty stosując założeia regresji liiowej. Regresja liiowa dla prostej w ujęciu macierzowym: S(a, b) = y i a x i b] = y i a x i b] y i a x i b] = = y i a x i y i + a b x i b y i + a x i + b ] = 0 x i y i + b x i 0 + a x i + 0] = 0 = x i y i + b x i + a x i ] = 0 = x i y i ] + b x i ] + a x i ] = 0 b x i ] + a x i ] = x i y i ] b + a = y i = 0 0 + a x i y i + 0 + b] = 0 = a x i y i + b] = 0 = a x i ] + y i ] + b] = 0 a x i ] + b] = y i ] a + b = y i y i ] a b ] = y i ] a b ] = y i ] y i ] 7
. Dla wyików pomiarów reprezetowaych przez puktów P i (x i ; y i ; z i ) wyprowadzić wzór ogóly (macierzowy) do wyzaczeia współczyików a i b i c dla płaszczyzy z = ax + by + c aproksymującej dae pukty stosując założeia regresji liiowej. Regresja liiowa dla płaszczyzy w ujęciu macierzowym: S(a, b, c) = z i a x i b y i c] = = z i a x i b y i c] z i a x i b y i c] = = z i a x i z i + a b x i y i b y i z i + a c x i + b c y i c c z i + a x i + b y i + c ] = 0 x i z i + b x i y i 0 + c x i + 0 0 + a x i + 0 + 0] = 0 = x i z i + b x i y i + c x i + a x i ] = 0 = x i z i ] + b x i y i ] + c x i ] + a x i ] = 0 a x i + b y i + c = z i = 0 0 + a x i y i y i z i + 0 + c y i 0 + 0 + b y i + 0] = 0 = y i z i + a x i y i + c y i + b y i ] = 0 = y i z i ] + a x i y i ] + c y i ] + b y i ] = 0 a y i + b y i + c y i = y i z i = 0 0 + 0 0 + a x i + b y i z i + 0 + 0 + c] = 0 8
c c = a x i + b y i z i + c] = 0 = a x i ] + b y i ] + z i ] + c] = 0 a + b y i + c = z i y i z i y i y i y i y i a b] = c ] a b] = c y i z i z i ] y i z i y i y i y i y i z i y i ] z i ] 9
3. W tabeli podao parametry puktów pomiarowych pozwalające wykreślić je w kartezjańskim układzie współrzędych D: i x i y i 4 3 3 6 3 4 8 3 5 0 5 6 7 7 4 6 8 6 8 9 8 9 0 0 Tab. 5. Rys. 5. Wyzaczyć współczyiki a i b aproksymujące dae pukty do prostej o rówaiu y = ax + b. Naszkicować wyzaczoą prostą a jedym wykresie z pukami pomiarowymi. Zastosować założeia regresji liiowej. 0
y i ] a b ] = y i ] a b ] = y i ] y i ] = ( + 4 + 6 + 8 + 0 + + 4 + 6 + 8 + 0 ) = 540 = ( + 4 + 6 + 8 + 0 + + 4 + 6 + 8 + 0) = 0 y i = ( + 3 + 3 + 3 + 5 + 7 + 6 + 8 + 9 + ) = 57 y i = ( + 4 3 + 6 3 + 8 3 + 0 5 + 7 + 4 6 + 6 8 + 8 9 + 0 ) = 804 A = 540 0 0 ] deta = 540 0 0 0 = 3300 0 M = 0 = 0 M = 0 = 0 M = 0 = 0 M = 540 = 540 0 0 B = 0 540 ] 0 0 BT = 0 540 ] A = deta BT = 0 0 3300 0 540 ] = 330 30 30 ] 77 65 a b ] = 330 30 30 ] 804 804 77 57 ] = 330 30 57 77 ] = 330 0. 536 ] 77 804 + 65 30 65 57 66 0. 00 ] 330 Prosta aproksymująca liiowo pukty pomiarowe ma rówaie: y = 0. 536 x 0.
Rys. 5.3 4. Dla daych doświadczalych z zadaia 3 wyzaczyć współczyik korelacji liiowej r xy oraz podać iterpretację otrzymaego rezultatu co do stopia zależości liiowej pomiędzy daymi doświadczalymi opisującymi x oraz opisywaymi y. r xy = cov(x, y) s x s y = (x i x ) (y i y ) (x i x ) (y i y ) x = y = x i y i = = ( + 4 + 6 + 8 + 0 + + 4 + 6 + 8 + 0) = 0 0 0 = ( + 3 + 3 + 3 + 5 + 7 + 6 + 8 + 9 + ) 0 = 57 = 5. 7 0 cov(x, y) = 0. ( ) ( 5. 7) + (4 ) (3 5. 7) + (6 ) (3 5. 7) + (8 ) (3 5. 7) + (0 ) (5 5. 7) + ( ) (7 5. 7) + (4 ) (6 5. 7) + (6 ) (8 5. 7) + (8 ) (9 5. 7) + (0 ) ( 5. 7)] = 7. 7 s x = 0. ( ) + (4 ) + (6 ) + (8 ) + (0 ) + ( ) + (4 ) + (6 ) + (8 ) + (0 ) ] =5.74 s y = 0. ( 5. 7) + (3 5. 7) + (3 5. 7) + (3 5. 7) + (5 5. 7) + (7 5. 7) + (6 5. 7) + (8 5. 7) + (9 5. 7) + ( 5. 7) ] =3.0 r xy = 7. 7 7. 7 = = 0. 96 > 0 sila korelacja dodatia 5. 74 3. 0 8. 37 Odp. Zmiee x i y są zatem dobrze skorelowae i założeie, że są powiązae zależością liiową, jest uzasadioe Wraz ze wzrostem zmieej x wzrasta wartość zmieej y.
5. Wyzaczyć współczyik korelacji wielorakiej R dla astępujących założeń: c) zmiee x i y opisują w sposób iezależy zmieą z, d) współczyiki korelacji wyoszą odpowiedio r xy = 0.6, r zx = 0.9, r zy = 0.3 podać iterpretację otrzymaego rezultatu co do stopia zależości liiowej pomiędzy daymi doświadczalymi opisującymi x i y oraz opisywaymi z. Macierz korelacji pomiędzy wszystkimi zmieymi: r zx r zy 0. 9 0. 3 D = r xz r xy ] = 0. 9 0. 6] r yz r yx 0. 3 0. 6 Macierz korelacji pomiędzy zmieymi objaśiającymi: r xy R = r yx ] = 0. 6 0. 6 ] 0. 9 0. 3 0. 9 detd = 0. 9 0. 6 0. 9 = + 0. 9 0. 6 0. 3 + 0. 3 0. 9 0. 3 0. 6 0. 3 0. 6 0. 6 0. 3 0. 3 0. 6 0. 6 0. 9 0. 9 = 0. 064 detr = 0. 6 0. 6 = 0. 6 0. 6 = 0. 64 Współczyik korelacji wielorakiej: R z.xy = detd detr = 0. 064 0. 64 = 0. 9 0. 95 R z.xy 0. 90 Odp. Zmieość zmieej zależej (z) została w 90% wyjaśioa zmieością zmieych iezależych (x i y). Model w 90% opisuje dopasowaie modelu do daych. 3