Identyfikacja i modelowanie struktur i procesów biologicznych

Podobne dokumenty
Ćwiczenia nr 5. TEMATYKA: Regresja liniowa dla prostej i płaszczyzny

KADD Metoda najmniejszych kwadratów

Trzeba pokazać, że dla każdego c 0 c Mc 0. ) = oraz det( ) det( ) det( ) jest macierzą idempotentną? Proszę odpowiedzieć w

Metrologia: miary dokładności. dr inż. Paweł Zalewski Akademia Morska w Szczecinie

będą niezależnymi zmiennymi losowymi z rozkładu jednostajnego na przedziale ( 0,

Prawdopodobieństwo i statystyka r.

3. Regresja liniowa Założenia dotyczące modelu regresji liniowej

Korelacja i regresja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 12

Modele tendencji rozwojowej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

są niezależnymi zmiennymi losowymi o jednakowym rozkładzie Poissona z wartością oczekiwaną λ równą 10. Obliczyć v = var( X

STATYSTYKA MATEMATYCZNA

Statystyka opisowa. () Statystyka opisowa 24 maja / 8

Charakterystyki liczbowe zmiennych losowych: wartość oczekiwana i wariancja

oznaczają łączne wartości szkód odpowiednio dla k-tego kontraktu w t-tym roku. O składnikach naszych zmiennych zakładamy, że:

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych (w zakresie materiału przedstawionego na wykładzie organizacyjnym)

Zadanie 2 Niech,,, będą niezależnymi zmiennymi losowymi o identycznym rozkładzie,.

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH

3. Tworzenie próby, błąd przypadkowy (próbkowania) 5. Błąd standardowy średniej arytmetycznej

X i. X = 1 n. i=1. wartość tej statystyki nazywana jest wartością średnią empiryczną i oznaczamy ją symbolem x, przy czym x = 1. (X i X) 2.

STATYSTYKA OPISOWA PODSTAWOWE WZORY

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych

Twierdzenia graniczne:

EKONOMETRIA. Liniowy model ekonometryczny (regresji) z jedną zmienną objaśniającą

ANALIZA KORELACJI IREGRESJILINIOWEJ

Podstawowe oznaczenia i wzory stosowane na wykładzie i laboratorium Część I: estymacja

Miary rozproszenia. Miary położenia. Wariancja. Średnia. Dla danych indywidualnych: Dla danych indywidualnych: s 2 = 1 n. (x i x) 2. x i.

Rachunek prawdopodobieństwa i statystyka W12: Statystyczna analiza danych jakościowych. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.

Miary położenia. Miary rozproszenia. Średnia. Wariancja. Dla danych indywidualnych: Dla danych indywidualnych: s 2 = 1 n. (x i x) 2. x i.

θx θ 1, dla 0 < x < 1, 0, poza tym,

Zeszyty naukowe nr 9

Elementy statystyki opisowej Izolda Gorgol wyciąg z prezentacji (wykład I)

Lista 6. Estymacja punktowa

Wokół testu Studenta 1. Wprowadzenie Rozkłady prawdopodobieństwa występujące w testowaniu hipotez dotyczących rozkładów normalnych

z przedziału 0,1. Rozważmy trzy zmienne losowe:..., gdzie X

Punktowe procesy niejednorodne

Ćwiczenia rachunkowe TEST ZGODNOŚCI χ 2 PEARSONA ROZKŁAD GAUSSA

STATYSTYKA I ANALIZA DANYCH

Niezależność zmiennych, funkcje i charakterystyki wektora losowego, centralne twierdzenia graniczne

Matematyka ubezpieczeń majątkowych r.

Statystyka. Katarzyna Chudy Laskowska

Miary położenia (tendencji centralnej) to tzw. miary przeciętne charakteryzujące średni lub typowy poziom wartości cechy.

Podprzestrzenie macierzowe

STATYSTYKA OPISOWA PODSTAWOWE WZORY

Prawdopodobieństwo i statystyka r.

METODY NUMERYCZNE dr inż. Mirosław Dziewoński

Podstawowe testy statystyczne i analiza zależności zjawisk

Elementy modelowania matematycznego

Podprzestrzenie macierzowe

MINIMALIZACJA PUSTYCH PRZEBIEGÓW PRZEZ ŚRODKI TRANSPORTU

8. Optymalizacja decyzji inwestycyjnych

O pewnych zastosowaniach rachunku różniczkowego funkcji dwóch zmiennych w ekonomii

Wyższe momenty zmiennej losowej

Testowanie hipotez. H 1 : µ 15 lub H 1 : µ < 15 lub H 1 : µ > 15

Statystyka matematyczna. Wykład II. Estymacja punktowa

Ćwiczenie nr 14. Porównanie doświadczalnego rozkładu liczby zliczeń w zadanym przedziale czasu z rozkładem Poissona

Opracowanie danych pomiarowych. dla studentów realizujących program Pracowni Fizycznej

COLLEGIUM MAZOVIA INNOWACYJNA SZKOŁA WYŻSZA WYDZIAŁ NAUK STOSOWANYCH. Kierunek: Finanse i rachunkowość. Robert Bąkowski Nr albumu: 9871

n k n k ( ) k ) P r s r s m n m n r s r s x y x y M. Przybycień Rachunek prawdopodobieństwa i statystyka

STATYSTKA I ANALIZA DANYCH LAB II

ZADANIA NA ĆWICZENIA 3 I 4

1. Wnioskowanie statystyczne. Ponadto mianem statystyki określa się także funkcje zmiennych losowych o

Metody numeryczne Laboratorium 5 Info

2.1. Studium przypadku 1

BADANIA DOCHODU I RYZYKA INWESTYCJI

Przemysław Jaśko Wydział Ekonomii i Stosunków Międzynarodowych, Uniwersytet Ekonomiczny w Krakowie

Statystyka i Opracowanie Danych. W7. Estymacja i estymatory. Dr Anna ADRIAN Paw B5, pok407

ZDARZENIE ELEMENTARNE to możliwy wynik doświadczenia losowego. Wszystkie takie możliwe wyniki tworzą zbiór zdarzeń elementarnych.

qwertyuiopasdfghjklzxcvbnmqwerty uiopasdfghjklzxcvbnmqwertyuiopasd fghjklzxcvbnmqwertyuiopasdfghjklzx cvbnmqwertyuiopasdfghjklzxcvbnmq

Sprawdzamy, czy błędy są losowo rozrzucone wokół zera i nie obserwujemy wśród nich żadnego trendu.

STATYSTYKA OPISOWA WYKŁAD 1 i 2

WYKŁAD 1. Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Wprowadzenie do laboratorium 1

STATYSTYKA MATEMATYCZNA

16 Przedziały ufności

Inżynieria Środowiska Ćwiczenia /2018 Regresja liniowa. Regresja wielomianowa

n n X n = σ σ = n n n Ponieważ zmienna losowa standaryzowana ma rozkład normalny N(0, 1), więc

ZAGADNIENIE ESTYMACJI. ESTYMACJA PUNKTOWA I PRZEDZIAŁOWA

Estymacja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 7

14. RACHUNEK BŁĘDÓW *

KURS STATYSTYKA. Lekcja 3 Parametryczne testy istotności ZADANIE DOMOWE. Strona 1

ZBIEŻNOŚĆ CIĄGU ZMIENNYCH LOSOWYCH. TWIERDZENIA GRANICZNE

TESTY LOSOWOŚCI. Badanie losowości próby - test serii.

Prawdopodobieństwo i statystyka

Moda (Mo, D) wartość cechy występującej najczęściej (najliczniej).

8. WERYFIKACJA HIPOTEZ STATYSTYCZNYCH DWA RODZAJE TESTÓW STATYSTYCZNYCH: PARAMETRYCZNE I ZGODNOŚCI

Statystyka w rozumieniu tego wykładu to zbiór metod służących pozyskiwaniu, prezentacji, analizie danych.

1 Testy statystyczne. 2 Rodzaje testów

ANALIZA ZJAWISKA STARZENIA SIĘ LUDNOŚCI ŚLĄSKA W UJĘCIU PRZESTRZENNYM

Jak obliczać podstawowe wskaźniki statystyczne?

Statystyka opisowa - dodatek

Model ciągły wyceny opcji Blacka Scholesa - Mertona. Wzór Blacka - Scholesa na wycenę opcji europejskiej.

1 Przedziały ufności. ). Obliczamy. gdzie S pochodzi z rozkładu B(n, 1 2. P(2 S n 2) = 1 P(S 2) P(S n 2) = 1 2( 2 n +n2 n +2 n ) = 1 (n 2 +n+2)2 n.

Planowanie doświadczeń - DPLD LMO Materiały pomocnicze

ANALIZA REGRESJI. Urszula Smyczyńska

POLITECHNIKA OPOLSKA

WERSJA TESTU A. Komisja Egzaminacyjna dla Aktuariuszy. LX Egzamin dla Aktuariuszy z 28 maja 2012 r. Część I. Matematyka finansowa

Ekonometria Mirosław Wójciak

Ocena dopasowania modelu do danych empirycznych

MIANO ROZTWORU TITRANTA. Analiza statystyczna wyników oznaczeń

Transkrypt:

Idetyfikacja i modelowaie struktur i procesów biologiczych Laboratorium 4: Modele regresyje mgr iż. Urszula Smyczyńska AGH Akademia Góriczo-Huticza Aaliza regresji Aaliza regresji jest bardzo szeroka dziedzią, polegającą a badaiu zależości między różymi obserwowaymi zmieymi. Wyróżiamy przy tym role jaką te wielkości mogą pełić: zmiee zależe (objaśiae, wyjściowe) to takie zmiee, których wartości próbujemy wyrazić za pomocą zależości od iych wielkości, zmiee iezależe (objaśiające, wejściowe) to wszystkie wielkości, od których zależy wartość zmiee zależej. Poprawie skostruoway model może być wykorzystay do predykcji iezaych (p. mających się pojawić w przyszłości) wartości zmieej zależej. Zajduje to zastosowaie w wielu dziedziach, oprócz auk biomedyczych p. w aalizach ryku, progozach fiasowych, oceie wiarygodości potecjalych kredytobiorców czy aalizie wyików badań w iemal wszystkich działach auki. Regresja liiowa Regresja liowa jest metodą, która zakłada poszukiwaie zależości liiowych między zmieą zależą a zmieymi objaśiającymi. W zależości od ilości zmieych objaśiających wyróżiamy: regresję liiową prostą zmiea iezależa, regresję liiową wieloraką (wielokrotą) wiele zmieych iezależych.. Regresja liiowa prosta Ogóly wzór zależości opisywaych tym modelem jest astępujący: gdzie: y i =b +b x i +e i =^y i +e i x i - koleje obserwacje zmieej iezależej,

y i - koleje obserwacje zmieej zależej, b - wyraz woly, b - współczyik regresji liiowej (współczyik kierukowy), ^yi - progozowae przez model wartości zmieej y, e i - reszty (błędy) modelu dla poszczególych obserwacji. Kostruowaie modelu polega a wyzaczeiu wartości współczyików regresji ( b, b ), co wykouje się metodą ajmiejszych kwadratów obecie ajczęściej przy użyciu odpowiediego oprogramowaia. Metoda ta polega a miimalizacji sumy kwadratów reszt modelu, opisaej astępująco: ( y i ^y i ) = ( y i b x i b ) W tym stosukowo prostym modelu aalityczie otrzymujemy poiższy wyik: b = ( x x)( y i ȳ) i b = ȳ b x (x i x). Regresja liowa wielokrota Regresja wielokrota różi się od prostej tym, że możemy uwzględić więcej zmieych wyjaśiających. Ogóly model jest astępujący: y i =β +β x i +β x i +...+β ki x ki +ε i Możemy go rówież zapisać macierzowo, co bywa przydate w aalizach prowadzoych przy użyciu komputera: Y =X β +ε [y x xk y ]=[ x x β k] [β k]+[ε ] ε. Założeia powyższych modeli Założeia dla modeli regresyjych, podae za [] są astępujące:. Model jest liiowy względem parametrów.. Liczba obserwacji jest większa lub rówa liczbie parametrów do wyzaczeia.

Jego iespełieie uiemożliwia obliczeie współczyików regresji. W praktyce ależy się starać, aby obserwacji było zacząco więcej iż parametrów zwykle pozwala to uzyskać dokładiejszy, bardziej wiarygody model.. Składik losowy (e i ) ma wartość oczekiwaą (średią). W tej sytuacji moża zwykle przyjąć, że błąd ie wyika z żadego systematyczego efektu. 4. Wariacja składika losowego (e i ) jest taka sama dla wszystkich obserwacji. 5. Składiki losowe są ze sobą ieskorelowae. 6. Składiki losowe (reszty) mają rozkład ormaly. 7. Żada ze zmieych iezależych ie jest liiową kombiacją iych zmieych iezależych. To założeie dotyczy tylko regresji wielokrotej. Zapewia możliwość jedozaczego wyzaczeia współczyików regresji. Dzięki jego spełieiu każda ze zmieych wosi do modelu iformacje, których ie zawierają ie zmiee. Z istieia powyższych założeń wyika koieczość sprawdzeia ich spełieie w trakcie lub po zbudowaiu modelu. Kostruowaie liiowego modelu regresyjego w Matlab'ie Budowaie modelu regresyjego przy użyciu dowolego arzędzi iformatyczego obejmuje kilka etapów. Przykładowy (choć ajpewiej ie jedyy możliwy) opis takich etapów zajduje się w kolejych sekcjach.. Wstępa aaliza i przygotowaie daych Może obejmować róże działaia, takie jak: aaliza wykresów rozrzutu, główie zmieej zależej względem zmieych iezależych W Matlab'ie fukcja plot(...) lub scatter(...), p.: plot(x,y,'.') xlabel('zmiea iezależa') ylabel('zmiea iezaleza') 6 5.8 5.6 zmiea iezaleza 5.4 5. 5 4.8 4.6 4.4 4..5.5 4 4.5 zmiea iezależa

obliczeie współczyików korelacji między poszczególymi zmieymi przy ich wartościach bezwzględych bliskich stwierdzamy istieie liiowej zależości między zmieymi W Matab'ie fukcja corrcoef(...) usuięcie obserwacji odstających 6 5.8 5.6 zmiea iezaleza 5.4 5. 5 4.8 4.6 4.4 obserwacja odstająca 4..5.5 4 4.5 zmiea iezależa liearyzację zmieych.5.5 y.5 y.5.5.5 -.5 5 5 x -.5.5.5.5 v=l(x). Budowaie modelu Budowaie modelu polega a obliczeiu współczyików regresji, które w pakietach obliczeiowych jest zwykle powiązae z oceą istotości statystyczej modelu oraz wstępą oceą błędu. Do budowaia modeli regresji liiowej prostej i wielorakiej w Matlab'ie wykorzystujemy fukcję fitlm(...), która w zależości od aszych potrzeb może otrzymać róże zastawy argumetów (szeroki opis w pomocy pod hasłem help fitlm). Przykładowo dla regresji prostej: mdl=fitlm(x,y); mdl 4

Po wykoaiu obu komed w główym okie zobaczymy wyik podoby do poiższego: U góry zajduje się uproszczoy opis modelu (y~+x), ozaczający, że uwzględiamy zmieą iezależą (x) i współczyik kierukowy (iekoieczie rówy ). Koluma Estimate zawiera oszacowaia współczyików modelu; Itercept to wyraz woly. SE to obliczeie błędów współczyików. tstat jest wartością statystyki testowej dla testu istotości statystyczej wartości współczyików, pvalue to prawdopodobieństwo testowe jeśli jest miejsze od założoego poziomu istotości, to uzajemy współczyik za istoty. Dalej zajdziemy m.i. ilość obserwacji, błąd średiokwadratowy (Root Mea Squared Error, RMSE), współczyik determiacji R (R-squared) i jego wersją skorygowaą (Adjusted R-squared). Ostatia liia zawiera oceę statystyczą istotości całego modelu, iterpretowaą podobie jak w przypadku istotości poszczególych współczyików (F-statistic vs. costat model). W przypadku regresji prostej model moża rówież przedstawić a wykresie: plot(mdl) 7 y vs. x 7 7 7 69 y 68 67 66 65 64 64 65 66 67 68 69 7 7 7 7 x 5 Data Fit Cofidece bouds

. Badaie założeń Dla każdego modelu ależy sprawdzić spełieie jego założeń. Trzeba sprawdzić m.i. czy reszty mają średią oraz czy mają rozkład ormaly. Średią liczymy fukcją mea(...), atomiast fukcją ttest(...) możemy sprawdzić, czy może być rówa, o ile rozkład błędów jest ormaly. Zgodość rozkładu reszt z rozkładem ormalym moża badać a kilka sposobów: graficzie histogram hist(...) q-q plot qqplot(...) QQ Plot of Sample Data versus Stadard Normal Quatiles of Iput Sample - - - -.5 - -.5.5.5 Stadard Normal Quatiles przy pomocy testów statystyczych test χ chigof(...) test Kołmogorowa-Smirowa kstest(...) test Lillieforsa lillietest(...) test Shapiro-Wilka Przydate może okazać się rówież zrobieie wykresów zależości reszt od zmieych zależych oraz progozy modelu. Mogą oe ujawić p. iezauważoe wcześiej ieliiowości lub zależość wariacji reszt od którejś ze zmieych. 6

.4 Ocea jakości i przydatości modelu W całościowej oceie przydatości modelu ależy wziąć pod uwagę wymieioe już wyżej czyiki: Istotość statystyczą modelu i poszczególych współczyików, Spełieie założeń. Wielkość błędu. Wielkość błędu powio się oceiać w stosuku do wartości progozowaej zmieej. Stwierdzając, czy model jest użyteczy ależy rówież wziąć pod uwagę, jaki skutki będą miały błędy. W zastosowaiach, gdzie ryzyko związae z popełieiem błędu jest duże, będziemy wymagać dokładiejszego i lepiej sprawdzoego modelu. Wielkość współczyika determiacji. Współczyik determiacji R jest oszacowaiem, jak dużo zmieości badaej wielkości wyjaśia model. Wartości bliskie ozaczają dobre dopasowaie modelu, a bliskie brak dopasowaia; moża je wyrażać rówież w %. 4 Literatura. A. Staisz Przystępy kurs statystyki z zastosowaiem STATISTICA PL a przykładach z medycyy, Tom, StatSoft, Kraków, 7. D.E. Matthews, V.T. Farewell, Usig ad Uderstadig Medical Statistics, Karger, 5 7