www.stes.google.co/ste/cheolab Wprowadzene do kalbracj jedno- weloparaetrowej Mchał Daszykowsk, Ivana Stanrova Instytut Che Unwersytet Śląsk w Katowcach Ul. Szkolna 9 40-006 Katowce E-al: www: daszyk@us.edu.pl stan@us.edu.pl http://www.stes.google.co/ste/cheolab/ Badane zależnośc poędzy paraetra Czy dwa wektory są ze sobą skorelowane? Co to w praktyce oznacza? Kedy dwa wektory są zależne? M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków
www.stes.google.co/ste/cheolab Badane zależnośc poędzy paraetra Mg + Ca + Korelacja dodatna Badane zależnośc poędzy paraetra Mg + Ca + Korelacja ujena M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków
www.stes.google.co/ste/cheolab Badane zależnośc poędzy paraetra Mg + Ca + Brak korelacj Iloczyn skalarny cos( x, x ) = j x x x T j x j x x j 4 3 M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 3
www.stes.google.co/ste/cheolab Współczynnk korelacj r= r = (x x)(y (x x) y) (y y) y r=- x r=0 Współczynnk korelacj Współczynnk korelacj Pearsona wskazuje na słę lnowej zależnośc poędzy paraetra. Poo to, współczynnk korelacj Pearsona ne zawsze w sposób wystarczający pozwala tą relacje ocenć. Ma to ejsce w szczególnośc, gdy ne są spełnone założena o noralnośc rozkładu reszt od odelu. M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 4
www.stes.google.co/ste/cheolab Współczynnk korelacj Kwartet Anscobe a Wszystke y ają tą saą średną (7,5), to sao odchylene standardowe (4,), tą saą korelację (0,8) to sao równane regresj dane wzore y = 3 + 0,5x Współczynnk korelacj y 0 r=0,986 r=0 x M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 5
www.stes.google.co/ste/cheolab Regresja lnowa y = f (x) y odpowedź, y reszta e ŷ dopasowana wartość yˆ = b x 0 + b e = y ŷ R = e = = (y ŷ ) = x Regresja lnowa yˆ = b x 0 + b b0 = y bx b (x = = = x)(y (x x) y) s e e = = n s e jest warancją reszt odelu jest zwązana z błęde eksperyentalny! reszty e ają rozkład noralny M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 6
www.stes.google.co/ste/cheolab Regresja lnowa - przykład y ntensywność fluorescencj (jednostk arbtralne) x stężene zwązku 3 4 5 6 x (µg / l) 0 0 0 30 40 50 y (I) 4.0. 44.6 6.8 78.0 05. b =.98 b 0 =.9 ŷ =.9 +.98x nowa próbka x nowa Regresja lnowa - przykład x y e e ŷ 0 4.0.9.08.7 0..74 -.54.37 0 44.6 4.56.04 4.7 30 6.8 6.38-0.58 0.34 40 78.0 8.9-4.9 7.56 50 05. 0.0 3.9 0.8 s e = 8.94 e e = 0 = 0 M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 7
www.stes.google.co/ste/cheolab Regresja lnowa - przykład Zerzono dwadześca wd UV-VIS roztworów zarejestrowanych w zakrese 500-68 n co n (wartośc stężeń analtu w próbkach względe absorpcj odczytanej dla 58 n). 0.9 0.8 0.7 0.9 0.85 absorbancja 0.6 0.5 0.4 0.3 0. 0. absorbancja 0.8 0.75 0.7 0.65 0 500 50 540 560 580 600 długość fal [n] 0.6 4 4.5 5 5.5 6 stężene Wykorzystane regresj do porównana dwóch etod etoda B etoda A etoda B etoda A etoda B etoda A etoda B etoda B etoda B etoda A etoda A etoda A M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 8
www.stes.google.co/ste/cheolab Regresja lnowa - przykład e e 0 ŷ rozrzut reszt wzrasta precyzja etody zena sę z ŷ ŷ U-kształt rozkładu reszt - zależność ne jest lnowa Regresja ważona Warancja poarów wzrasta wraz ze stężene Dla każdego pozou stężeń przyjujey wag będące odwrotnoścą obserwowanych powtórzeń 6 4 Measured 0 8 6 4 4 6 8 0 4 Standard M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 9
www.stes.google.co/ste/cheolab Regresja ważona sygnał stężene w b b x y 0 w w = = = = s s = y w /n w x y nx b x w x w w x /n w y /n x w w y w Stablna regresja W przypadku obecnośc w danych obektów odległych, etoda najnejszych kwadratów zawodz. R = e = (y ŷ ) = = n Estyowane współczynnk regresj są obcążone tzn. równane regresj zerza do kopensacj efektu obektu odległego. M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 0
www.stes.google.co/ste/cheolab Estyator stablny klasyczny (nestablny) Zadane estyatora jest generalzowane pewnej tendencj prawdzwej dla wększośc danych (5%) Stablny estyator to tak, który jest neczuły na obecność w danych obektów odległych. Przykład: edana średna. Punkt załaana estyatora Marą stablnośc estyatora jest jego punkt załaana (z ang. breakdown pont): Lczba lub proporcja obektów odległych, które należałoby wprowadzć do zboru by zaobserwować arbtralne wynk estyacj. Najlepsze stablne estyatory są w stane dzałać jeśl 5% danych jest poprawna. M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków
www.stes.google.co/ste/cheolab Sprawność estyatora Stablny estyator pownen cechować sę duży punkte załaana dużą sprawnoścą. Sprawność estyatora bada sę porównując jego dzałane z klasyczny jego odpowednke dla danych pozbawonych obektów odległych. Efekt obektu odległego Obekt odległy w kerunku y Obekt odległy w kerunku x ( leverage ) M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków
www.stes.google.co/ste/cheolab Stablne waranty regresj Wyana funkcj celu na jej stablny odpowednk: R = = e n R = = ρ ( e /σ) n σ - stablny estyator rozrzutu MAD: edan absolute devaton Skala Sn Skala Qn ( x ); c,486 σmad = c edan x edan j j = σ Sn = c edan { edan x x }; c =,96 j j σ Qn k = = c { x x j ; < j } ( k ) h n ( ) ( )/4 h = [n/]+ ; c =,9 M. Daszykowsk, et al., Robust statstcs n data analyss - a revew: basc concepts, Cheoetrcs and Intellgent Laboratory Systes. 85 (007) 03 9 M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 3
www.stes.google.co/ste/cheolab LTS (Least Tred Squares) P.J. Rousseeuw (984) Metoda LTS nalzuje w sposób teracyjny suę kwadratów reszt od odelu dla podzboru k obektów. R k = = e n LMS (Least Medan of Squares) Hapel (975) Metoda LMS nalzuje w sposób teracyjny edanę kwadratów reszt od odelu. R = edan ( e ) n M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 4
www.stes.google.co/ste/cheolab Przykłady różnych odel P.J. Rousseeuw, Least Medan of Squares Regresson, Journal of the Aercan Statstcal Assocaton 79 (984) 87-880 Regresja weloraka Ne zawsze jedna zenna pozwala na konstrukcję zadowalającego odelu kalbracyjnego. j n (zenne) y = f (X) y X M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 5
www.stes.google.co/ste/cheolab Efekt welu zennych K. Varuza, P. Fzoser, Instroducton to ultvarate statstcal analyss n cheoetrcs, CRC Press, 009 Regresja weloraka y y y 3 y 4 y 5 y 6 = x x x 3 x 4 b 0 x b x x 3 x 4 b x 3 x 3 x 33 x 34 b 3 x 4 x 4 x 43 x 44 b 4 x 5 x 5 x 53 x 54 x 6 x 6 x 63 x 64 y = b 0 + b x +b x + b 3 x 3 + b 4 x 4 M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 6
www.stes.google.co/ste/cheolab Regresja weloraka y = b 0 + b x + b x + b 3 x 3 + b 4 x 4 y = Xb T X y = X ) b = yˆ = ) T Xb T T ( X X) X y T T Xb = X( X X) X y Grafczna prezentacja odelu MLR y przewdzane y obserwowane M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 7
www.stes.google.co/ste/cheolab Efekt welu zennych Regresja weloraka - przykład Dane opsujące proces utlenana aonaku do kwasu azotowego. y (zenna zależna) opsuje straty aonaku w procese produkcj. Zenne objaśnające X to: pozo pracy fabryk, teperatura ceczy chłodzącej, stężene kwasu. M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 8
www.stes.google.co/ste/cheolab Regresja weloraka - przykład y 37 8 8 9 0 5 4 4 3 8 7 8 8 9 5 x x x3 x4 = 80 7 88 b 0 6 87 b 6 3 87 b 6 4 93 b 3 6 4 93 58 3 87 58 8 80 58 8 89 58 7 88 58 8 8 58 9 93 50 8 89 50 8 86 50 9 7 50 9 79 50 0 80 56 0 8 Regresja weloraka - przykład b 0 b b b 3 = -37.655 0.7977 0.5773-0.067 ŷ = 37,65 + 0,798x + 0,577x 0,067x3 M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 9
www.stes.google.co/ste/cheolab Regresja weloraka - przykład Średn błąd kwadratowy: RMS = = ( y ŷ ) RMS =,095 Ocena dopasowana odelu RMS Współczynnk deternacj (porcja wyjaśnonej warancj przez odel) RMS = = ( y ŷ ) R = = = ( y ŷ ) SSres = ( y y) SStot M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 0
www.stes.google.co/ste/cheolab Ocena dopasowana odelu RSD: współczynnk zennośc (z ang. coeffcent of varaton) lub względne odchylene standardowe (z ang. relatve standard devaton) RSD = 00 σ/x Ogranczena regresj welorakej Zenne X są skorelowane. Lczba zennych objaśnających jest wększa nż lczba próbek ( szeroka acerz) ne ożna wyznaczyć acerzy odwrotnej. W danych występują próbk odległe b = T T ( X X) X y X n X n M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków
www.stes.google.co/ste/cheolab Regresja krokowa Sposób na konstrukcję odelu MLR połączony z wybore optyalnych zennych. Model budowany jest w sposób teracyjny, tak aby uzyskać stotną w sense statystyczny redukcję błędu. Perwsza zenna do konstrukcj odelu zenna o najwększej korelacj ze zenną zależną. Regresja krokowa przykład Zbór danych: wda zarejestrowane w zakrese blskej podczerwen 69 próbek śruty rzepakowej; zależność całkowtego stężena tłuszczy w próbkach (wyrażonego w procentach w przelczenu na suchą asę próbk) od reflektancj, R, wyrażonej jako log(/r). 0 x 06 9 8 7 log(/r) 6 5 4 3 00 400 600 800 000 00 400 długość fal [n] M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków
www.stes.google.co/ste/cheolab Regresja krokowa - przykład Zależność całkowtego stężena tłuszczy w próbkach (wyrażonego w procentach w przelczenu na suchą asę próbk) od reflektancj, R, wyrażonej jako log(/r), zerzonej przy: 740 n 300 n. 0 0 9 9 8 8 stężene 7 6 stężene 7 6 5 5 4 4 3 3 4.5 5 5.5 6 6.5 7 7.5 8 log(/r) x 0 6.4.6.8 3 3. 3.4 3.6 3.8 4 4. log(/r) x 0 6 Regresja krokowa - przykład Model MLR skonstruowany dla pęcu zennych (reflektancje zerzone przy 78, 74, 700, 4 oraz 704 n). 0 9 stężene przewdzane 8 7 6 5 4 3 3 4 5 6 7 8 9 0 stężene obserwowane ŷ = b 0 +b log(/r 78 )+b log(/r 74 )+b 3 log(/r 700 )+b 4 log(/r 4 )+b 5 log(/r 704 ) M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 3
www.stes.google.co/ste/cheolab Porównane odel o różnej lczbe zennych Skorygowany współczynnk deternacj. SS SS R res tot adj = = ( y ŷ ) = = SSres/ = SS ( n ) /( n ) tot ( y y) Regresja krokowa przykład Ustalono czasy retencj dla 90 peptydów o znanej kopozycj anokwasów w układze chroatografczny. Geoetra struktur peptydów - zoptyalzowana stosując oprograowane Hyperche 6.03 (Hypercube, Ganesvlle, Florda). Każdy peptyd opsano 76 deskryptora. Zbudowano odel QSRR. R. Put, M. Daszykowsk, T. Baczek, Y. Vander Heyden, Retenton predcton of peptdes based on unnforatve varable elnaton by partal least squares, Journal of Proteoe Research. 5 (006) 68 65 M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 4
www.stes.google.co/ste/cheolab Generacja deskryptorów Class Fales of descrptors Densonalty Nuber of descrptors Nuberng Consttutonal 0-D 3-3 Topologcal -D 80 33-3 Walk and path counts -D 46 3-58 4 Connectvty ndces -D 33 59-9 5 Inforaton ndces -D 47 9-38 6 D autocorrelatons -D 96 39-334 7 Edge adjacency ndces -D 06 335-440 8 BCUT -D 64 44-504 9 Topologcal charge ndces -D 5 505-59 0 Egenvalue-based ndces -D 39 50-558 Randc olecular profles -D 4 559-599 Geoetrcal descrptors 3-D 43 600-64 3 RDF descrptors 3-D 50 643-79 4 3D-MoRSE 3-D 60 793-95 5 WHIM 3-D 99 953-05 6 GETAWAY 3-D 93 05-44 7 Functonal group counts -D 45-65 8 Ato-centered fragents -D 34 66-99 9 Molecular propertes other 300-3 Regresja krokowa retencja peptydów Zbór peptydów podzelono na dwa podzbory: odelowy (63) oraz testowy (7) wykorzystując algoryt Kennard a Ston a. zbór odelowy budowa odelu y = Xb RMS zbór testowy RMSEP X y testowane odelu M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 5
www.stes.google.co/ste/cheolab Regresja krokowa retencja peptydów y predcted 8 6 4 0 Model MLR dla 7 z 76 deskryptorów: RMS = 0,547 RMSEP = 0,668 8 6 4 4 6 8 0 4 6 8 y observed Regresja krokowa przykład 3 (NNRTI) Aktywność bologczna (pic 50 ) 3 nhbtorów RT. Oblczone oddzaływana Van der Waalsa Couloba poędzy fragenta anokwasów budujący RT nhbtore w oparcu o algoryt dokowana farakoforów. DATA 65 struktur DAPY 48 struktur M. Daszykowsk et al., Classfcaton and regresson trees-studes of HIV reverse transcrptase nhbtors, Journal of Checal Inforaton and Coputer Scences. 44 (004) 76 76. M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 6
www.stes.google.co/ste/cheolab Generowane deskryptorów dla NNRTI Regresja krokowa przykład 3 (NNRTI) DATA 8 RMS = 0,37 DAPY 8 RMS = 0,33 M. Daszykowsk, I. Stanrova, Wprowadzene do statystyk dla cheków 7