Statystyczna analiza danych

Statystyczna analiza danych ukryte modele Markowa, zastosowania Anna Gambin Instytut Informatyki Uniwersytet Warszawski

plan na dziś Ukryte modele Markowa w praktyce modelowania rodzin białek multiuliniowienia znajdowanie genów

model rodziny białek Cele: zbudowanie multiuliniowienia dla danej sekwencji identyfikacja rodziny

model rodziny białek d1 d2 d3 d4 i0 i1 i2 i3 i4 m0 m1 m2 m3 m4 m5 profilowy HMM

model rodziny białek długość sekwencji w przykładzie - 5 stany: match, insert, delete m0 - stan początkowy, m5 - końcowy alfabet - 20 aminokwasów plus dziura

model rodziny białek każdy stan typu match i insert ma swój rozkład na aa, które emituje: jeśli jest on jednostajny to emitujemy losowe sekwencje, jeśli jednopunktowy to dokładnie jedną sekwencję, jeśli pomiędzy to mamy pewną rodzinę sekwencji. stan typu delete emituje symbol dziury z prawdopodobieństwem 1

model rodziny białek dzięki modelowi hmm możemy zróżnicować podobieństwo różnych fragmentów sekwencji: algorytmy dynamiczne i BLAST mają ustalony parametr na karanie przerwy oraz jedną tablicę substytucyjną dla całej sewencji. hmm pozwala na zróżnicowanie tych parametrów w szczególności kara za przerwę może być w każdym miejscu inna. białka posiadają słabo i silnie konserwowane regiony (domenty funkcyjne).

model rodziny białek i0 gap open penalty i0 m0 gap extention penalty zaczynamy od treningu (czyli estymacji parametrów) alg. Bauma-Welcha, długość modelu - średnia długość sekwencji w rodzinie, inicjalizacja parametrów - rozkłady jednostajne.

hmm i multiuliniowienia

hmm i multiuliniowienia używamy sekwencji do wytrenowania modelu hmm (alg. Bauma-Welcha). dla każdej sekwencji algorytmem Viterbiego liczymy najbardziej prawdopodobną trajektorię stanów łańcucha. konstruujemy uliniowienie: dwa aminokwasy są w jednej kolumnie jeśli są wyemitowane w tym samym stanie typu match.

hmm i multiuliniowienia m0 m1 m2 m3 m4 d5 d6 m7 m8 m9 m10 C A E F D D H C D A E F P D DH m0 m1 i1 m2 m3 m4 d5 m6 m7 m8 m9 m10

hmm i multiuliniowienia C - A E F - D D H C D A E F P D D H

hmm i multiuliniowienia C A E F T P A V H C K E T T P A D H C A E T P D D H C A E F D D H C D A E F P D D H

hmm i multiuliniowienia m0 m1 m2 m3 m4 m5 m6 m7 m8 m9 m10 m0 m1 m2 m3 m4 m5 m6 m7 m8 m9 m10 m0 m1 m2 m3 d4 m5 m6 m7 m8 m9 m10 m0 m1 m2 m3 m4 d5 d6 m7 m8 m9 m10 m0 m1 i1 m2 m3 m4 d5 m6 m7 m8 m9 m10

hmm i multiuliniowienia C - A E F T P A V H C - K E T T P A D H C - A E - T P D D H C - A E F - - D D H C DA E F - P D D H

hmm i multiuliniowienia możliwe niejednoznaczności, np. dla modelu długości 2 i sekwencji: A B A C A B B A C A B A C o trajektoriach: m0 m1 i1 i1 m2 m3 m0 m1 i1 i1 i1 m2 m3 A B B A C w takich przypadkach fragmenty uliniowienia małymi literkami kodowane...

muliuliniowienie globin 400 białek globinowych zostało użytych do wytrenowania modelu. używając algorytmu Viterbiego uliniowiona całą rodzinę liczącą 625 białek globinowych. uzyskane uliniowienie porównane z uliniowieniem strukturalnym (które było znane dla 7 sekwencji).

http://pfam.sanger.ac.uk/ potrafi namierzyć domeny funkcyjne w sekwencjach białek - reprezentowane jako HMMy (ponad 2000) jak annotować nową sekwencję? BLASTem znajdujemy homologi czasem sensowniej przeszukać domeny z PFAMa

polowanie na geny miliardy par zasad DNA do analizy: sekwencje genów poprzedzielane długimi niefunkcjonalnymi fragmentami. metody obliczeniowe automatycznej detekcji regionów kodujących bardzo pożądane. Genscan: popularne narzędzie oparte o HMMy Burge, C. and Karlin, S. (1997) Prediction of complete gene structures in human genomic DNA. J. Mol. Biol. 268, 78-94.

emihidden Markov models p prawdopodobieństwo pozostania w stanie p n 1 (1 p) p-stwo, że czekamy n kroków rozkład geometryczny semihmm: 1.bez pętli 2.w stanie emitujemy całe słowo z dowolnego rozkładu

semihidden Markov models z każdym stanem losowa S związana zmienna L S Y S,l - rozkład długości słowa - rozkład na sekwencjach długości l algorytmy dla semihmm dużo bardziej skomplikowane, bo musimy nie tylko odkryć trajektorię stanów które wyemitowały daną sekwencję, ale również punkty podziału...

semihidden Markov models uogólniony algorytm Viterbiego nie działa w rozsądnym czasie... dodatkowe założenia niezbędne: długości długich regionów międzygenowych mają rozkład geometryczny. sekwencje w tych regionach typu iid.

semihidden Markov models DEF: parsowanie to sekwencja stanów q 1,g 2,...q r i długości d 1,d 2,...d r dla danej sekwencji s algorytm Viterbiego znajduje optymalne parsowanie że opt takie, P ( opt s) P ( s) dla wszystkich parsowań czyli opt z największym prawdopodobieństwem wyemitowało sekwencję s

struktura genu - powtórka długość około 500 bp region UTR podlega transkrypcji, ale nie translacji

struktura genu - powtórka

struktura genu - powtórka ma go 70% genów Scientific American image

r. geometryczny sekwencja dł. generowana przez ŁM rzędu 5

jednostajny: 28-34 geometryczny: średnia 735

promotor ekson ekson końcowy genscan ' 6. ' 6 ' 3 ' -. :3 35 3;:; 3) 5 początkowy '.>.. 3 0 ' 0 3 3 3 ' 6. ' ( ' 3+ 6 ' :3 3 :3. 3: apple5 3 :3. 3: " 5 3 " 5 ' ' 30 3: (3) 3 0 : 6 >3 ' 6 '. >3 ' ' 7 ' : ' +" 5 : 373) ( 3 + :3 3 ( ' 7 ' '. 0 +" 5 ' 3) ( ' ' ' 0.3 3+" ( 4 4 +5 >' 3 7 3 ' 3) ('..3.3 3 0.3 3+" 5 3 ' 3) ('..3.3 3. 0 +" 5 ' ' 30 3: (3) 3 0 : 6 '6 3 >3. 0 >3 -'03 - ' : ' +" 5 -'037 Thursday, March 20, - ' 14 : ' " ' 0 ( 4 4 +5 >' 3 ( 33 5 3 :3. 3: 5 3.; ( 33 : 3 3:3 0 6 03 ' +5 &>.> '-.. ' - * :.' -. 7 3 03 ; 1 3 >' ' 0 3 ' 3) 03 ' 3 0 $ 030 '.. 0 : ## >' 3%%5 &>.>. 3-3 ' 30 >3 3'0 : 6 ' 3; > 5 ' &>.> 6' *3 &33. 0. 03 30 pojedynczy ekson >' 3 " '6 3 >3 8 *' 3 6 '. 0 5 >' 3 " '6 3 >3 3. 0 *' 3 6 '. 0 5 >' 3 5 03 30 5 5 5 3 3. $3 -; 3 ' 3) ' 3 ' - 0 $ 030 '.. 0 : >3 >' 3 6 >3 3$ 7 (&>.> 03 3 3 >3. 0 6 >3 sygnał polya = koniec 8 *' 37 ' 6 >3 3) 5 >3.3 >3 3'0 : 6 ' 3+;. $3 3.35 0 ' 0 '..3.3 3 5 ' ' ' ' 0 3 ' : ' transkrypcji ' 3. 03 30 ' ' 6 >3 '. ' 30 3) ;?3$3 3 ' 0 ' 3 ' 0 6 &' 0 ' 0 ' 3 ' 3 03' & > ' 3 - > 03 5 37 &>' ' >3 3' 3 6 * > ' 0 >3 1/?, : ' ( 0 $ -! /..>5 region międzygenowy +" 33 >3 3:3 0 : 3 ; > :> 3&>' ' >3 03 03. *30 *-, ; ( apple+5 03 * ' ' - 3 :3 3 ' >' 7. 03 ( + : 3 ' &3 ' 73) :3 3 " ( + 3 5 -'03 - ' : ' ' 0 3 :3. 3 3.3 " ' 0 ( + :3 3.. : 3 >3 * > 1 ' 0 ; '00 5 ' 3 30 3$ -5 ' ' ' &3 '. 3 3 :3 3 ' 3 3 30 ' >3.. 3.3 6 3 :3 3 >3 ' 3 37 3.3; > 5 >3 3 3 '. 3 6 $3 7 3* ' 3 :3. 3 3.3 3 - *3 3. 3 30 :3 3 3 3. : 3..' *3 03. *30 *- > 03. 3; >3 '* 3 ' ' 3 >' $3 ' : '. ( *'* - ' 3+.' *3 >' 0 30 ' 0 >' ' 3 ' $3 7. : 3). - '00 3 30; >3 03 5 3 3 ' - 6 3 7/' $ - 35. $3 3-6 ' 30 ' ' 3). ' 3 0 7 ' 003 /' $ / 03 ( //+ 6 >3 03. *30 *-?'* 3 ( +; 3=-5 >3 03 > :> 6 ' :3 3 ' : ' ## ' 3%% 5. : 6 ' 03 30 3 6 ' 3 5... 5 & > ' '. ' 30 3 6 3 : > (0 ' +5... &>.>5 : *'*. 03 6 3'.> 6 >3 ' 3-3 5 :3 3 ' 3 ' 1 3 3.3 6 3 : > ; >3 :3 3 ' 6 ' ' 3. 3 0 : ' ( 37038 30+ 37 3.3 3 : > ' 6 & ( + ' ' 3.> 3 '.. 0 :

introny/eksony zaczynają się po 1,2,3 bazie w kodonie... dla nici komplementarnej

dla każdego typu sekwencji GENSCAN modeluje rozkład długości: nieparametrycznie - histogram lub parametrycznie - r. geometryczny; skład sekwencji: łańcuch Markowa (1st, 5 stopnia, (nie)homogeniczny

zależności między kolumnami...

jak modelować?

max. dependence decomposition - MDD

pozycja 4 ma największy wpływ na inne...

budujemy drzewo...

trening ' 6. ' 6 ' 3 ' -. :3 35 3;:; 3) 5 5 3 :3. 3: 5 3.; ( 33 : 3 3:3 0 6 03 ' +5 &>.> '-.. ' - * :.' -. 7 3 03 ; 1 3 >' semihmma ' 0 3 ' 3) 03 ' 3 0 $ 030 '.. 0 : ## >' 3%%5 &>.>. 3-3 ' 30 >3 3'0 : 6 ' 3; > 5 ' &>.> 6' *3 &33. 0. 03 30 >' 3 " '6 3 >3 8 *' 3 6 '. 0 5 >' 3 " '6 3 >3 3. 0 *' 3 6 '. 0 5 >' 3 5 03 30 5 5 5 3 3. $3 -; 3 ' 3) ' 3 ' - 0 $ 030 '.. 0 : >3 >' 3 6 >3 3$ 7 (&>.> 03 3 3 >3. 0 6 >3 8 *' 37 ' 6 >3 3) 5 >3.3 >3 3'0 : 6 ' 3+;. $3 3.35 0 ' 0 '..3.3 3 5 ' ' 2.5 ' Mb ' 0 3 bp ' : ' ' 3. 03 30 ' ' 6 >3 '. ' 30 3) ;?3$3 3 ' 0 ' 3 ' 0 6 &' 0 ' 0 ' 3 ' 3 03' & > ' 3 - > 03 5 37 &>' ' >3 3' 3 6 * > ' 0 >3 1/?, 380 : ' ( genów 0 $ -! /..>5 +" 33 >3 3:3 0 : 3 ; > :> 3&>' ' >3 03 03. *30 *-, ; ( apple+5 03 * ' ' - 3 :3 3 ' >' 7. 03 ( + : 3 ' &3 ' 73) :3 3 " ( + 3 5 -'03 - ' : ' ' 0 3 :3. 3 3.3 " ' 0 ( + :3 3.. : 3 >3 * > 1 ' 0 ; '00 5 ' 3 30 3$ -5 ' ' ' &3 '. 3 3 :3 3 ' 3 3 30 ' >3.. 3.3 6 3 :3 3 >3 ' 3 37 3.3; > 1492 5 >3 3 3 ' eksony. 3 6 $3 7 3* ' 3 :3. 3 3.3 3 - *3 3. 3 30 :3 3 3 3. : 3..' *3 03. *30 *- > 03. 3; >3 '* 3 ' ' 3 >' $3 ' : '. ( *'* - ' 3+.' *3 >' 0 30 ' 0 >' ' 3 ' $3 7. : 3) 1254. - '00 3 30; introny >3 03 5 3 3 ' - 6 3 7/' $ - 35. $3 3-6 ' 30 ' ' 3). ' 3 0 7 ' 003 /' $ / 03 ( //+ 6 >3 '.>.. 3 0 ' 0 3 3 3 ' 6. ' ( ' 3+ 6 ' :3 3 :3. 3: apple5 3 :3. 03. *30 *-?'* 3 ( +; 3=-5 >3 03 3: " 5 3 " 5 ' ' 30 3: (3) 3 0 : > :> 6 ' :3 3 ' : ' ## ' 3%% 5. : 6 >3 ' 6 '. >3 ' ' 7 6 ' 03 30 3 6 ' 3 5... 5 ' : ' +" 5 : 373) ( 3 + :3 3 ( ' 7 & > ' '. ' 30 3 6 3 : > (0 ' +5 ' '. 0 +" 5 ' 3) ( ' '... &>.>5 : *'*. ' 0.3 3+" ( 4 4 +5 >' 3 7 03 6 3'.> 6 >3 ' 3-3 5 :3 3 ' 3 ' 1 3 ' 3) ('..3.3 3 0.3 3+" 3 3.3 6 3 : > ; >3 :3 3 ' 5 3 ' 3) ('..3.3 3. 0 +" 6 ' ' 3. 3 0 : ' ( 37038 30+ 37 5 ' ' 30 3: (3) 3 0 : 6 '6 3 >3. 0 >3 -'03 - ' : ' +" 5 -'037 3.3 3 : > ' 6 & Thursday, March 20, - ' 14 : ' " ' 0 ( 4 4 +5 >' 3 ( 33 ( + ' ' 3.> 3 '.. 0 : 142 z pojedynczym eksonem

Y N,l generowane przez łańcuch Markowa rzędu 5 (3072 parametry) genscan ' 6. ' 6 ' 3 ' -. :3 35 3;:; 3) 5 3 :3. 3: 5 3.; ( 33 : 3 3:3 0 6 03 ' +5 &>.> '-.. ' - * :.' -. 3 03 ; 1 3 >' ' 0 3 ' 3) 03 ' 3 0 $ 030 '.. 0 : ## >' 3 założenie: w danym &>.>. 3-3 ' 30 >3 3'0 : 6 ' 3; > ' &>.> 6' *3 &33. 0. 03 3 odcinku >' 3 " '6 3 liczba >3 8 *' 3genów 6 '. 0-5 >' 3 '6 3 >3 3. 0 *' 3 6 '. 0 5 >' 3 5 03 3 rozkład 5 5 5 3 3. Poissona $3 -; 3 ' 3) ' 3 ' 0 $ 030 '.. 0 : >3 >' 3 6 >3 3$ (&>.> 03 3 3 >3. 0 6 > odległość 8 *' 37 ' 6 między >3 3) 5 >3 nimi.3 >3-3'0 6 ' 3+;. $3 3.35 0 ' 0 '..3 3 5 ' ' ' ' 0 3 ' : ' ' 3. 03 30 ' ' 6 >3 '. ' 30 3) ; rozkład wykładniczy?3$3 3 ' 0 ' 3 ' 0 6 &' 0 ' 0 ' ' 3 03' & > ' 3 - > 03 5 &>' ' >3 3' 3 6 * > ' 0 > 1/?, : ' ( 0 $ -! /.. +" 33 >3 3:3 0 : 3 ; > :> 3&> ' L >3 03 03. *30 *-, ; ( apple 03 N r. geometryczny * ' ' - 3 :3 3 ' >'. 03 ( + : 3 ' &3 ' 73) :3 3 " ( 3 5 -'03 - ' : ' ' 0 3 :3 3 3.3 " ' 0 ( + :3 3.. : 3 >3 * 1 ' 0 ; '00 5 ' 3 30 3$ ' ' ' &3 '. 3 3 :3 3 ' 3 3 30 ' >3.. 3.3 6 3 :3 3 >3 ' 3 3.3; > 5 >3 3 3 '. 3 6 $3 3* ' 3 :3. 3 3.3 3 - *3 3. 3 3

dł. intronów r. geometryczny '.>.. 3 0 ' 0 3 3 3 ' 6. ' ( ' 3+ 6 ' :3 3 :3. 3: apple5 3 :3. 3: " 5 3 " 5 ' ' 30 3: (3) 3 0 : 6 >3 ' 6 '. >3 ' ' 7 macierz wag 8 *' 37 ' 6 >3 3) 5 >3. 6 ' 3+;. $3 3.35 0 ' 0 3 5 ' ' ' ' 0 3 ' 3. 03 30 ' ' 6 >3 '. '?3$3 3 ' 0 ' 3 ' 0 6 &' ' 3 03' & > ' 3 - > macierz wag &>' ' >3 3' 3 6 * > 1/?, : ' ( 0 $ - +" 33 >3 3:3 0 : 3 ; > rozmiaru 15 ' >3 03 03. *30 *-, 03 * ' ' - 3 :3 3. 03 ( + : 3 ' &3 ' 73 3 5 -'03 - ' : ' 3 3.3 " ' 0 ( + :3 3.. : 1 ' 0 ; '00 5 ' 3 ' ' ' &3 '. 3 3 :3 3 ' 3 >3.. 3.3 6 3 :3 3 3.3; > 5 >3 3 3 '. 3* ' 3 :3. 3 3.3 3 - :3 3 3 3. : 3..' * wyuczony > 03. łańcuch 3; >3 ' ' 3 >' $3 ' : '. Markowa ' 3+.' *3 >' rzędu 0 30 ' 50 >' '. : 3). - '00 3 30; >3 03 5 3 3 ' - 6 3 7/. $3 3-6 ' 30 ' ' 3) ' 003 /' $ / 03 ( / 03. *30 *-?'* 3 ( +; 3=- > :> 6 ' :3 3 ' : ' ## ' 3% 6 ' 03 30 3 6 ' 3 5 genscan

genscan algorytmem Viterbiego znajdujemy optymalne parsowanie: 5,>, : 7, 7 $7 37 "! -,337! 9 7 > @ 9! /apple1 @ + + @, <, 75 3 5 > 7. -: @7 7, :7, $ 7 1 /,3 9 6 6 apple 75 3 75 7. 5, >,29, 5 A %0 apple 75 3 75 7. >@ >,2?. @7 : +, 5, 5, 7 @ +,/ (7 @7 7 $7 37 7& @7 7(7 7-3 apple< 7 7, 21, 59 /7 + @7 7 $7 37 7? A %0 %% +, $ @ $>@ @7 7, 7 (7 ->,?> (1# =, apple 7< 5 3 75 7. :, 2 $, 2, 7 @ +?. 47, 5 apple, 7 3, 79 7.37apple :, 9 7,, 5 > 7< 7. >7 7 9 +@ 3@ @,(7,,5575, +<@7,5 <, - 77 72,/ (71 +@ 3@ 3,$ 7 @7,appleapple7, >@ 2, >7 @, @7 $7 47? 37 A %0 5 7 5 3, 7 5 3 7. 2apple7 -, 7, 7, 7. 19, A %0 7., 7 @ +, 7, 7.? 7 7, 7 : @7.,, 75 >7 7 @ 7> - 9 7 7 9 7 7 9 6 9 % 8, 5 ;%1, 7 @ + @7,, 79 75, 7 2 apple 7375 > @7 = 3 5 > 7. : @7 >7 7? @7 6 6 apple 75 3 75 >7 7, 7,/7 75, @72 33$, > @7 7 $7 37?,33$,32 @,(7 /77 57, 75 : 6 6 (7 7. > apple >, 9 7(7 @ 7 +@ 3@ $ 7 apple < 7 7 $7 37 @ >2 :, 9, 5 +7 @,(7 @ + @, @7 apple >, 3, /7 $ 75 57 73 57 73 759 7 >@ apple7 @,apple 7= 7 @7 apple 75 3< /2 $/ > @7 >7 3 7> 3 7< apple 5 > @7 apple 75 3 75 >7 7 >7 @7 + @ @7 apple 7, apple 7 @ > @7 apple >, ; <