Lowe relacje mędzy zmeym Marta Zalewska Zakład Proflaktyk ZagrożeńŚrodowskowych Alergolog Ocea lowych relacj mędzy zmeym Metoda korelacj - określee rodzaju sły zależośc mędzy cecham. Metoda regresj 1
Uwaga Lczbowe stwerdzee występowaa zależośc mędzy x Y e mus ozaczać występowaa zależośc przyczyowoskutkowej. Współzależość dwóch zmeych może wykać z bezpośredego oddzaływaa a e trzecej zmeej, której e rozważamy w aalzowaym badau. Współczyk korelacj Dla cech jakoścowych (bądź loścowych skategoryzowaych) stosujemy współczyk korelacj Spearmaa. Dla zmeych loścowych cągłych stosujemy współczyk korelacj Pearsoa.
Badae zależośc mędzy dwema cecham Jak zmea sę wartość jedej cechy w zależośc od zma wartośc drugej? Wykres puktów empryczych, dagram korelacyjy Wykres składa sę z tylu puktów le jest obektów w próbce. Dwa obekty mające tę samą wartość jedej cechy mogą meć róże wartośc drugej cechy rozproszee wykresu x=c(56,4,7,36,63,47,55,49,38,4,68,60) y=c(147,15,160,118,149,18,150,145,115,140,15,155) 3
Współczyk korelacj Pearsoa Jest marą współzależośc lowej mędzy dwema cecham cągłym Pozwala oceć w jakm stopu wykres puktów dywdualych jest blsk pewej prostej lub czy zmaa jedej cechy powoduje proporcjoalą zmaę wartośc drugej cechy. (ajczęścej ozaczay dla próbk r dla populacj ) ρ Dae emprycze dla oblczaa r: day jest zbór dwucechowych obserwacj (x,y ), (=1,,,) dokoaych a a obektach próbk gdze x,y ozaczają wartośc cechy X Y zaobserwowae a -tym obekce. Wzory dla oblczaa r r = = 1 cov r = S S ( x x)( y ( x x) = 1 = 1 x xy y y) ( y y) x y = = 1 = = 1 x y 4
Iterpretacja współczyka korelacj Pearsoa (r) Wartość r zawera sę zawsze <-1,+1>, Wartość r pozwala oceć keruek słę współzależośc lowej mędzy dwema cecham, Keruek współzależośc: r>0 wększej wartośc jedej cechy odpowada wększa wartość drugej. Mów sę, że cechy korelują dodato. r<0 wększej wartośc jedej cechy odpowada mejsza wartość drugej. Mów sę, że cechy korelują ujeme. Jeżel rozproszee puktów jest jedakowe we wszystkch kerukach to wartość cechy Y e zależy od wartośc cechy X Zależość jest tym wększa m blżej pewej prostej cągłej zajdują sę te pukty. Prostą zajduje sę ajczęścej metodą ajmejszych kwadratów. Uzyskay wzór to model matematyczy zależośc 5
Grafcza prezetacja różych wartośc współczyka korelacj r = 0 0 < r < 1-1 < r < 0 Współczyk korelacj rag r Spearmaa τ Kedalla Dla cech merzoych a skal porządkowej 6
Najczęścej stosowaym współczykem korelacj rag jest współczyk Spearmaa. Jest marą współzależośc mędzy dwema cecham, których wartośc są ragam (pozycjam) obektów uporządkowaych osobo według jedej cechy osobo według drugej. 6 d = 1 r = 1 ( 1) Aalza regresj Aalza regresj zajmuje sę badaem zależośc jedej cechy od ej obserwowaej cechy (cech). Podstawą aalzowaa jest model (rówae) tej zależośc rówae regresj. Rówae (wzór) wykorzystuje sę do przewdywaa (progozowaa, predykcj) wartośc jedej cechy a podstawe wartośc ej (ych) cech. 7
Prosta regresja lowa Iteresuje as zwązek mędzy dwema zmeym (cecham) x Y. Merzymy lub obserwujemy welokrote wartośc tych zmeych. ( x, Y ) Dae emprycze są postac - co ozacza wartośc cech x Y dla -tego spośród obektów próbk. Postać daych Przypadk (obekty) 1 : Zmea ezależa (objaśająca) x x 1 x : x Zmea zależa (objaśaa) Y Y 1 Y : Y 8
Aalza zależośc mędzy zmeym loścowym Badamy zależośc mędzy: dawkam pewego preparatu a procetową zawartośca pewego składka krw; czasem leczea chorych a aktywoścą pewego ezymu; wagą a wzrostem chorych a pewą chorobę; Przykłady zależośc: masy mózgu człoweka masą jego cała; objętośc płuc ssaków od masy ch cała; lczby krwek czerwoych a ch objętoścą; kosztam utrzymaa placówk zdrowa od lczby persoelu lczby pacjetów. 9
Model lowy Zmea Y jest fukcją x ale zaburzoą błędam losowym. Nasz model dla ajprostszej lowej postac fukcj: Gdze e jest błędem losowym o wartośc oczekwaej 0 waracj sgma. Prostą azywamy prostą regresj Y = a + bx + e y = a + bx W rówau regresj Y- zmea objaśaa (kryterala, zależa ). x - zmea objaśająca ezależa Dla poszczególych przypadków czyl uzyskaych dośwadczale puktów mamy (model): Y = a + bx + e, =1,..., Współczyk a b są ezae 10
Y = a + bx + e, =1,..., Współczyk a b odgrywają rolę parametrów modelu będzemy je estymować a podstawe daych. Zakładamy, że welkośc x są zae elosowe. Zmea x jest pod kotrolą obserwatora jest merzoa bezbłęde. Wartośc zmeej Y są losowym obserwacjam (ze względu a wpływ losowego składka e) 1 =100 =100 3 =100 Y 1 =x 1 +0.3 Y =-x +0.9 Y 3 =-0.4x 3 +1.5 11
Przykłady przyblżoych zależośc fukcyjych 1
13
Prosta regresj Jest przyblżeem wykresu puktów dywdualych uzyskaym wg metody ajmejszych kwadratów. Rówae prostej regresj jest wzorem (modelem) a zależość lową mędzy dwema badaym cecham Prosta regresja lowa Problem badawczy: podać wzór a zależość lową Y od x y = a + bx 14
Estymatory współczyków regresj a b z próbk Otrzymuje sę je metodą ajmejszych kwadratów tz. poszukując a b takch by SSE =( Y a bx ) = m 15
bˆ Y Prosta regresj z próbk Mmalzując sumę kwadratów błędów (SSE Sum of Squares of Errors), oblczając pochode względem a b oraz przyrówując je do zera otrzymujemy tzw. rówae ormale, których rozwązaa są: ( x 1 = Y x)( Y = ( x x) Y ) aˆ = Y bx ˆ x 1 = x bˆ = ( x ( x x) Y x) x Cd. Wzory a estymowae współczyk regresj w MNK S bˆ Y = r, aˆ = S X y bx obektów r współ korelacj Pearsoa S, S odchylea st. x y 16
Przewdywae wartośc zmeej zależej: eˆ Yˆ = aˆ + bˆ x są to współrzęde puktów leżące a estymowaej prostej regresj Odchylea welkośc obserwowaych od welkośc przewdywaych azywamy resztam: = Y Yˆ Reszty e są tym samym co błędy e ˆ = m SSE Estymator waracj błędu trzeba podzelć e ˆ przez - 17
Podstawowa tożsamość aalzy waracj ˆ ( Y Y ) = ( Y Y ) + ( Y Y SST = SSR + SSE ˆ ) Całkowta zmeość Y = zmeość wyjaśoa regresją (pukty a prostej) + zmeość resztowa (albo z błędów) To samo co r R SSR = = 1 SST SSE SST R jest częścą zmeośc wyjaśoą przez regresję Rozkład całkowtej zmeośc Y SST = SSE + SSR, gdze SST SSE SSR 1 1 1 Y Y Y Y Y Y 18
Nazewctwo: SST = total sum of squares SSE = error sum of squares SSR = regresso sum of squares Współczyk dopasowaa: R SSR = = 1 SST SSE SST R jest częścą zmeośc wyjaśoą przez regresję Kwadrat współczyka korelacj r jest współczykem dopasowaa r = ( ( x x x)( Y x) Y ) ( Y Y ) 19
Współczyk determacj (dopasowaa) cd. zmeość wyjaśoa przez model / zmeość całkowta określa o stopeń, w jakm zależość lowa mędzy Y x tłumaczy zmeość wykresu rozproszea. 0 < R < 1 Wyk estymacj współczyków rówaa regresj w pakece statystyczym R 0
Rozwązywae zadań z regresj Wykres rozproszea daych plot(x,y) Oblczae próbkowego współczyka korelacj Pearsoa (róże możlwośc) p: r = = 1 x = 1 x x y xy = 1 y y cd. rozwązywae zadań Dopasowae prostej regresj y=a+bx metodą ajmejszych kwadratów S bˆ = r S Y X, aˆ = y bx ˆ Na rysuku rozproszea daych arysować prostą regresj plot(x,y) able(a,b) 1
cd. rozwązywae zadań Oblcz współczyk determacj oceń jakość dopasowaa prostej regresj R=1-SSE/SST ( ) SSE = ˆ y y ( ) SST = y y = 1 = 1 yhat=a+b*x (a b z rówaa regresj) cd. oblczae współczyka determacj SSE=sum((y-yhat)^) SST=sum((y-mea(y))^) R=1-SSE/SST R
cd zadaa z regresj - użyce fukcj lm z=lm(y~x) summary(z) # podsumowae wyków aalzy regresj cd. predykcja Do wzoru a regresję lową wstawamy te x dla którego dokoujemy predykcj Y*=a+bx oblczamy Y* 3
Wyk estymacj wsp. regresj w pakece statystyczym R. Przykład 1 Resduals: M 1Q Meda 3Q Max -6.17 -.114 0.89 1.885 6.86 Coeffcets: Estmate Std. Error t value Pr(> t ) (Itercept) 1.44 1.0404 1.196 0.4 x.07 0.0586 34.594 <e-16 *** --- Sgf. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Resdual stadard error:.778 o 8 degrees of freedom Multple R-Squared: 0.9771, Adjusted R-squared: 0.9763 F-statstc: 1197 o 1 ad 8 DF, p-value: <.e-16 4
Wosk z przykładu 1: Rówae regresj : Y =.07X+1.44 wsp. kerukowy regresj jest stoty a pozome stotośc < *10-16 wyraz woly jest stoty a pozome stotośc 0,0 prosta jest dobrze dopasowaa do daych, bo R wyos 0,9771 Przykład. Resduals: M 1Q Meda 3Q Max -1.0779-8.008-0.7656 6.75 3.6319 Coeffcets: Estmate Std. Error t value Pr(> t ) (Itercept) -0.8639 4.157-0.05 0.839 x.1813 0.375 9.186 6.06e-10 *** --- Sgf. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Resdual stadard error: 11.6 o 8 degrees of freedom Multple R-Squared: 0.7508, Adjusted R-squared: 0.7419 F-statstc: 84.38 o 1 ad 8 DF, p-value: 6.064e-10 5
Wosk z przykładu : Rówae regresj : Y =.18x - 0.86 współczyk kerukowy regresj (x ) jest stoty a pozome stotośc < 6*10-10 wyraz woly (Itercept) jest estoty prosta jest gorzej dopasowaa do daych ż w poprzedm przykładze, bo R spadł z 0,9771 do 0,75. 6
Przykład 3. Wyk regresj: Resduals: M 1Q Meda 3Q Max -99.65 -.389 6.736 7.834 101.44 Coeffcets: Estmate Std. Error t value Pr(> t ) (Itercept) 18.093 15.890 1.139 0.65 x 1.081 0.895 1.07 0.37 Parametry estote Resdual stadard error: 4.43 o 8 degrees of freedom Multple R-Squared: 0.04948, mała wartość wsp. determacj Adjusted R-squared: 0.01554 F-statstc: 1.458 o 1 ad 8 DF, p-value: 0.374 estoty zwązek regresyjy 7
Przykład progozy Na podstawe daych metodą ajmejszych kwadratów otrzymao prostą regresj: Y= X-, progozą dla X = 7 jest Y* = 5 Zbory ufośc dla prostej regresj 8
Model regresj lowej welozmeej Y = a 0 + a 1 X 1 +...+ a k X k + error, gdze Y - zmea objaśaa (typu cągłego) X 1,...,X k zmee objaśające (typu cagłego) a 0, a 1,..., a k - parametry modelu error - błąd losowy 9