Idetyfikacja i modelowaie struktur i procesów biologiczych Laboratorium 4: Modele regresyje mgr iż. Urszula Smyczyńska AGH Akademia Góriczo-Huticza Aaliza regresji Aaliza regresji jest bardzo szeroka dziedzią, polegającą a badaiu zależości między różymi obserwowaymi zmieymi. Wyróżiamy przy tym role jaką te wielkości mogą pełić: zmiee zależe (objaśiae, wyjściowe) to takie zmiee, których wartości próbujemy wyrazić za pomocą zależości od iych wielkości, zmiee iezależe (objaśiające, wejściowe) to wszystkie wielkości, od których zależy wartość zmiee zależej. Poprawie skostruoway model może być wykorzystay do predykcji iezaych (p. mających się pojawić w przyszłości) wartości zmieej zależej. Zajduje to zastosowaie w wielu dziedziach, oprócz auk biomedyczych p. w aalizach ryku, progozach fiasowych, oceie wiarygodości potecjalych kredytobiorców czy aalizie wyików badań w iemal wszystkich działach auki. Regresja liiowa Regresja liowa jest metodą, która zakłada poszukiwaie zależości liiowych między zmieą zależą a zmieymi objaśiającymi. W zależości od ilości zmieych objaśiających wyróżiamy: regresję liiową prostą zmiea iezależa, regresję liiową wieloraką (wielokrotą) wiele zmieych iezależych.. Regresja liiowa prosta Ogóly wzór zależości opisywaych tym modelem jest astępujący: gdzie: y i =b +b x i +e i =^y i +e i x i - koleje obserwacje zmieej iezależej,
y i - koleje obserwacje zmieej zależej, b - wyraz woly, b - współczyik regresji liiowej (współczyik kierukowy), ^yi - progozowae przez model wartości zmieej y, e i - reszty (błędy) modelu dla poszczególych obserwacji. Kostruowaie modelu polega a wyzaczeiu wartości współczyików regresji ( b, b ), co wykouje się metodą ajmiejszych kwadratów obecie ajczęściej przy użyciu odpowiediego oprogramowaia. Metoda ta polega a miimalizacji sumy kwadratów reszt modelu, opisaej astępująco: ( y i ^y i ) = ( y i b x i b ) W tym stosukowo prostym modelu aalityczie otrzymujemy poiższy wyik: b = ( x x)( y i ȳ) i b = ȳ b x (x i x). Regresja liowa wielokrota Regresja wielokrota różi się od prostej tym, że możemy uwzględić więcej zmieych wyjaśiających. Ogóly model jest astępujący: y i =β +β x i +β x i +...+β ki x ki +ε i Możemy go rówież zapisać macierzowo, co bywa przydate w aalizach prowadzoych przy użyciu komputera: Y =X β +ε [y x xk y ]=[ x x β k] [β k]+[ε ] ε. Założeia powyższych modeli Założeia dla modeli regresyjych, podae za [] są astępujące:. Model jest liiowy względem parametrów.. Liczba obserwacji jest większa lub rówa liczbie parametrów do wyzaczeia.
Jego iespełieie uiemożliwia obliczeie współczyików regresji. W praktyce ależy się starać, aby obserwacji było zacząco więcej iż parametrów zwykle pozwala to uzyskać dokładiejszy, bardziej wiarygody model.. Składik losowy (e i ) ma wartość oczekiwaą (średią). W tej sytuacji moża zwykle przyjąć, że błąd ie wyika z żadego systematyczego efektu. 4. Wariacja składika losowego (e i ) jest taka sama dla wszystkich obserwacji. 5. Składiki losowe są ze sobą ieskorelowae. 6. Składiki losowe (reszty) mają rozkład ormaly. 7. Żada ze zmieych iezależych ie jest liiową kombiacją iych zmieych iezależych. To założeie dotyczy tylko regresji wielokrotej. Zapewia możliwość jedozaczego wyzaczeia współczyików regresji. Dzięki jego spełieiu każda ze zmieych wosi do modelu iformacje, których ie zawierają ie zmiee. Z istieia powyższych założeń wyika koieczość sprawdzeia ich spełieie w trakcie lub po zbudowaiu modelu. Kostruowaie liiowego modelu regresyjego w Matlab'ie Budowaie modelu regresyjego przy użyciu dowolego arzędzi iformatyczego obejmuje kilka etapów. Przykładowy (choć ajpewiej ie jedyy możliwy) opis takich etapów zajduje się w kolejych sekcjach.. Wstępa aaliza i przygotowaie daych Może obejmować róże działaia, takie jak: aaliza wykresów rozrzutu, główie zmieej zależej względem zmieych iezależych W Matlab'ie fukcja plot(...) lub scatter(...), p.: plot(x,y,'.') xlabel('zmiea iezależa') ylabel('zmiea iezaleza') 6 5.8 5.6 zmiea iezaleza 5.4 5. 5 4.8 4.6 4.4 4..5.5 4 4.5 zmiea iezależa
obliczeie współczyików korelacji między poszczególymi zmieymi przy ich wartościach bezwzględych bliskich stwierdzamy istieie liiowej zależości między zmieymi W Matab'ie fukcja corrcoef(...) usuięcie obserwacji odstających 6 5.8 5.6 zmiea iezaleza 5.4 5. 5 4.8 4.6 4.4 obserwacja odstająca 4..5.5 4 4.5 zmiea iezależa liearyzację zmieych.5.5 y.5 y.5.5.5 -.5 5 5 x -.5.5.5.5 v=l(x). Budowaie modelu Budowaie modelu polega a obliczeiu współczyików regresji, które w pakietach obliczeiowych jest zwykle powiązae z oceą istotości statystyczej modelu oraz wstępą oceą błędu. Do budowaia modeli regresji liiowej prostej i wielorakiej w Matlab'ie wykorzystujemy fukcję fitlm(...), która w zależości od aszych potrzeb może otrzymać róże zastawy argumetów (szeroki opis w pomocy pod hasłem help fitlm). Przykładowo dla regresji prostej: mdl=fitlm(x,y); mdl 4
Po wykoaiu obu komed w główym okie zobaczymy wyik podoby do poiższego: U góry zajduje się uproszczoy opis modelu (y~+x), ozaczający, że uwzględiamy zmieą iezależą (x) i współczyik kierukowy (iekoieczie rówy ). Koluma Estimate zawiera oszacowaia współczyików modelu; Itercept to wyraz woly. SE to obliczeie błędów współczyików. tstat jest wartością statystyki testowej dla testu istotości statystyczej wartości współczyików, pvalue to prawdopodobieństwo testowe jeśli jest miejsze od założoego poziomu istotości, to uzajemy współczyik za istoty. Dalej zajdziemy m.i. ilość obserwacji, błąd średiokwadratowy (Root Mea Squared Error, RMSE), współczyik determiacji R (R-squared) i jego wersją skorygowaą (Adjusted R-squared). Ostatia liia zawiera oceę statystyczą istotości całego modelu, iterpretowaą podobie jak w przypadku istotości poszczególych współczyików (F-statistic vs. costat model). W przypadku regresji prostej model moża rówież przedstawić a wykresie: plot(mdl) 7 y vs. x 7 7 7 69 y 68 67 66 65 64 64 65 66 67 68 69 7 7 7 7 x 5 Data Fit Cofidece bouds
. Badaie założeń Dla każdego modelu ależy sprawdzić spełieie jego założeń. Trzeba sprawdzić m.i. czy reszty mają średią oraz czy mają rozkład ormaly. Średią liczymy fukcją mea(...), atomiast fukcją ttest(...) możemy sprawdzić, czy może być rówa, o ile rozkład błędów jest ormaly. Zgodość rozkładu reszt z rozkładem ormalym moża badać a kilka sposobów: graficzie histogram hist(...) q-q plot qqplot(...) QQ Plot of Sample Data versus Stadard Normal Quatiles of Iput Sample - - - -.5 - -.5.5.5 Stadard Normal Quatiles przy pomocy testów statystyczych test χ chigof(...) test Kołmogorowa-Smirowa kstest(...) test Lillieforsa lillietest(...) test Shapiro-Wilka Przydate może okazać się rówież zrobieie wykresów zależości reszt od zmieych zależych oraz progozy modelu. Mogą oe ujawić p. iezauważoe wcześiej ieliiowości lub zależość wariacji reszt od którejś ze zmieych. 6
.4 Ocea jakości i przydatości modelu W całościowej oceie przydatości modelu ależy wziąć pod uwagę wymieioe już wyżej czyiki: Istotość statystyczą modelu i poszczególych współczyików, Spełieie założeń. Wielkość błędu. Wielkość błędu powio się oceiać w stosuku do wartości progozowaej zmieej. Stwierdzając, czy model jest użyteczy ależy rówież wziąć pod uwagę, jaki skutki będą miały błędy. W zastosowaiach, gdzie ryzyko związae z popełieiem błędu jest duże, będziemy wymagać dokładiejszego i lepiej sprawdzoego modelu. Wielkość współczyika determiacji. Współczyik determiacji R jest oszacowaiem, jak dużo zmieości badaej wielkości wyjaśia model. Wartości bliskie ozaczają dobre dopasowaie modelu, a bliskie brak dopasowaia; moża je wyrażać rówież w %. 4 Literatura. A. Staisz Przystępy kurs statystyki z zastosowaiem STATISTICA PL a przykładach z medycyy, Tom, StatSoft, Kraków, 7. D.E. Matthews, V.T. Farewell, Usig ad Uderstadig Medical Statistics, Karger, 5 7