Statystyczna analiza danych wykład I: motywacja i organizacja Anna Gambin Instytut Informatyki UW
plan wykładu motywacja: statystyczna bioinformatyka - dwa przykłady (z własnego podwórka) spektrometria mas mikromacierze acgh organizacja: plan wykładu i reguły zaliczenia
EKSPERYMENT DANE (duża skala) STATYSTYCZNA ANALIZA DANYCH Diagram of the microarray-based comparative genomic hybridization (acgh)process 2008 Nature Education
ludzie (bioputer.mimuw.edu.pl) Piotrek Michał
projekty (przykład 1: spektrometria)
spektrometria mas widmo peptydu = obwiednia izotopowa
automatyczna interpretacja widma
DBSCAN
klastrowanie w domenie czasu retencji metody obszarowe: DBSCAN
klastrowanie )* "%## &!## &&##!"#$!"!$!""$ '( algorytm EM algorytm k-średnich wykorzystujące model probabilistyczny
ocena jakości
(jednoczesne) testowanie (wielu) hipotez statystycznych FDR - false dicovery rate
selekcja cech (biomarkerów) metoda PPC
selekcja cech (biomarkerów) t-test (Welch)
niestabilność biomarkerów
modele Markowa Markov Figure 7chain hierarchical structure
uliniowienie próbek
klasyfikacja
konsensus biomarkerów
klasyfikacja RF- random forest SVM- support vector machines DT - decision trees LDA- linear discriminant analysis
modelowanie aktywności proteolitycznej
model I: egzopeptydazy FTSSTS FTSST TSSTS SSTSY FTSS TSST SSTS STSY FTS TSS SST STS TSY FT SS TS ST SY Figure 2: The cleavage graph for 2 precursor peptides FTSSTS and SSTSY with source and sink nodes added.
model II: endopepydazy
modelowanie
bayesowskie modelowanie
prawdopodobieństwo a posteriori
Metropolis-Hastings
aktywność trypsyny
! estymacja parametrów elastase.1 trypsin.1 ADAM10.peptidase matrix.metallopeptidase.20 membrane.type.matrix.metallopeptidase.3 cathepsin.s membrane.type.matrix.metallopeptidase.4 calpain.2 membrane.type.matrix.metallopeptidase.6 ADAMTS5.peptidase myeloblastin membrane.type.matrix.metallopeptidase.1 calpain.1 8 6! 4!! 2! 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 cathepsin.h hea dise A (real data) clr(activity) 8 B (synthetic data with std = 0.1) clr(activity) 6 4 2!!! 0 C (synthetic data with std = 0.01) clr(activity) 8 6 4 2 0 1 1 2 2 3 3 4 4 5! 5 6 6 7! 7 8 8 9 9 10 0 11 1 12! 2 13 3 14 4 Figure 5. Peptidases activities for 19 samples. The red-whi represents peptidase acivities in descending order (for missing pe values are set to minimal). tering of activity profiles groups samples into two c being in good accordance with patient s diagnosis. Let s take a closer look at the set of identified pept Among them we detected the family of matrix metal tidases, whose role in cancer development and progr is significant [16], [17]. The calpain enzyme is use marker for the early detection of colorectal carcinom and inhibitors of cathepsins as possible therapeu
grupowanie
PCA: analiza składowych głównych
PCA: analiza składowych głównych
projekty (przykład 2: mikromacierze acgh)
technologia acgh Diagram of the microarray-based comparative genomic hybridization (acgh)process 2008 Nature Education
baza pacjentów w IMiD
zidentyfikowane segmenty
zidentyfikowane segmenty
zidentyfikowane segmenty
zidentyfikowane segmenty
!"#$%$#&' ()*+)",'*$-%./&0 1234)- 5+.6*$7.) 8/'%)"*)9.6*$7.)!"#$%&'()*+,-.. /0 /0 1&2.*1,3.,)3&)"*,34!"#$%&'()5.1(6. 70 /0 891&-.3 :&*+;3,6)<=>3.*16"'().)*&?6"'( 70 70 891&-.3 @$%4A)#").35"<-&%(6. /0 /0 891&-.3 @$%4A)#")B."2"9.. 70 891&-.3 C41(6)"B*( D 70 1&2.*1,3.,)3&)"*,34 @E D /0 1&2.*1,3.,!<1,#-."%)"9=23";3.',<$(%,*6. /0 D 891&-.3 :;6*7)"9.6*<)"=/-*.7>"?@A!!"#$%$#&'" ()*+)",'*$-%./&0 1234)- 5+.6*$7.) 8/'%)"*)9.6*$7.)!"#$%&'()*+,-.. /0 FG 891&-.3 :&*+;3,6)A<&'#"A"#"B.,H$%'& 70 70 891&-.3 I29"<(%-().)$%<;6%;<()#&3(*+ /0 /0 891&-.3 86"2"9.& /0 /0 891&-.3 J."*+,-.& 70 D 891&-.3 C41(6)"B*( D 70 1&2.*1,3.,)3&)"*,34 @E D /0 1&2.*1,3.,!<1,#-."%)"9=23";3.',<$(%,*6. /0 D K&2.*1,3.,)3&)"*,34) :;6*7)"9.6*<)"=/-*.7>"BC?
!!!"#$%$#&'" ()*+)",'*$-%./&0 1234)- 5+.6*$7.) 8/'%)"*)9.6*$7.) L&%,-&%(6&)#($6<,%3&).)&29,B<&) /0 /0 891&-.3 2.3."'&!<"9<&-"'&3., ). ) A<"M,6%"'&3.,) /0 /0 891&-.3 "B.,6%"', J."2"9.&)6"-=<6. 70 /0 891&-.3 @$%4A)#")B.".35"<-&%(6. FG NG 891&-.3 J."2"9.&)-"2,6;2&<3&)1)9,3,%(6O) 70 D 891&-.3 *1PQ C41(6)"B*( D 70 K&2.*1,3.,)3&)"*,34 @E D /0 K&2.*1,3.,)!<1,#-."%)"9=23";3.',<$(%,*6. /0 D K&2.*1,3.,)3&)"*,34 :;6*7)"9.6*<)"=/-*.7>"BDA!E"#$%$#&'> ()*+)",'*$-%./&0 1234)- 5+.6*$7.) 8/'%)"*)9.6*$7.) L&%,-&%(6&)"B2.*1,3."'& /0 /0 891&-.3 R%&%($%(*13&)&3&2.1&)#&3(*+ /0 /0 891&-.3 J."2"9.& ) -"2,6;2&<3& ) 1 ) 9,3,%(6O) /0 /0 891&-.3 *1PQQ @$%4A)#")B.".35"<-&%(6. FG NG 891&-.3 E.1M"2"9.&).)<,9;2&*M&)-,%&B"2.1-; 70 D K&2.*1,3.,)3&)"*,34 L"2,6;2&<3,)A"#$%&'(),31(-"2"9.. 70 D 1&2.*1,3.,)3&)"*,34 C41(6)"B*( D 70 1&2.*1,3.,)3&)"*,34 891&-.3 ) *,<%(5.6&*(M3( ) 1 ) M41(6&) "B*,9" 891&-.3 @E D /0 1&2.*1,3.,
Organizacja wykładu wykład ~ teoria (slajdy + notatki) zaliczenie wykładu = egzamin ustny laboratorium ~ analiza danych (język R) zaliczenie labu = projekt
literatura Statistics Using R with Biological Examples Kim Seefeld, Ernst Linder, http://cran.r-project.org/doc/contrib/seefeld_statsrbio.pdf Applied Statistics for Bioinformatics using R Wim P. Krijnen http://cran.r-project.org/doc/contrib/krijnen-introbioinfstatistics.pdf Statistical Bioinformatics with R Sunil K. Mathur, Elsevier Academic Press, 2010
Organizacja wykładu wykład 1: wstęp - organizacja wykładu, skąd przyszliśmy, dokąd zmierzamy... wykład 2 i 3: podstawowe rozkłady prawdopodobieństwa, testy parametryczne i nieparametryczne wykłady 4, 5: analiza skupień=grupowanie = klasteryzacja (ang. clustering) metody grafowe, metody hierarchiczne, relokacyjne, oparte o model.
Organizacja wykładu wykłady 6,7: redukcja wymiaru, selekcja cech (biomarkerów) analiza składowych głównych, skalowanie wielowymiarowe wykłady 8-11: klasyfikacja LDA, QDA, regresja liniowa, klasyfikatory drzewowe, boosting,... wykłady 11-14: modele Markowa
Organizacja wykładu wykład 1: wstęp - organizacja wykładu, skąd przyszliśmy, dokąd zmierzamy... wykład 2 i 3: podstawowe rozkłady prawdopodobieństwa, testy parametryczne i nieparametryczne wykłady 4-7: statystyka bayesowska modele Markowa, symulacje stochastyczne, próbnik Gibbsa, MCMC...
Organizacja wykładu wykłady 8,9: modelowanie estymacja parametów modelu wykłady 10-12: modele liniowe, analiza wariancji ANOVA, regresja liniowa,... wykłady 13-14: projektowanie eksperymentów