Bioinformatyka 2 (BT172) Ukryte modele Markowa

Transkrypt

1 Bioinformatyka 2 (BT172) Wykład 7 Ukryte modele Markowa Krzysztof Murzyn {5,12}.XII.2005 PLAN WYKŁADU 1. Modelowanie matematyczne 2. Założenia i własności modelowania opartego o ukryte modele Markowa 3. Architektura i parametryzacja modelowych układów HMM 4. Zastosowania, zalety i wady modeli HMM 5. Modelowanie rodziny sekwencji biopolimerów

2 MODELOWANIE MATEMATYCZNE definicja : użycie języka matematyki (funkcja, rozkład, zmienna,...) do opisania zachowania jakiegoś układu przykłady : analiza kontroli metabolicznej (MCA), symulacje dynamiki molekularnej (MD), ocena uliniowień sekwencji (rozkład Gumbela), klasyfikacja białek (ukryte modele Markowa, HMM), etc. Model matematyczny opisuje dany układ za pomocą zmiennych. Wartości zmiennych mogą należeć do różnych zbiorów, tj. być rozmaitego typu: liczb rzeczywistych, całkowitych, wartości logicznych, ciągów znakowych i tym podobnych. Właściwy model to grupa funkcji wiążących ze sobą różne zmienne za pomocą określonych parametrów i w ten sposób opisujących powiązania między wielkościami w układzie. ZAŁOŻENIA HMM obserwacje mogą być dowolnego typu (tj. niekoniecznie liczby, ale również dane znakowe (np. sekwencje aminokwasowe, nukleotydowe, etc.) obserwowana sekwencja zdarzeń jest uporządkowana obserwacje w sekwencji posiadają własność Markowa: tj. kolejna obserwacja w sekwencji nie zależy od jej poprzedzającej

3 WŁASNOŚCI HMM HMM modeluje proces stochastyczny, którego pewne własności nie są znane/jawne innymi słowy są: ukryte kolejne obserwacje są reprezentowane przez ukryte modele Markowa (HMM), każdy HMM jest automatem skończonym (ang. finite state machine), na który składa się skończona liczba stanów i przejść między nimi topologię określonego FSM określa się mianem architektury HMM każdemu stanowi w HMM przypisuje się prawdopodobieństwa emisji wartości zmiennych losowych z zadanego, skończonego zbioru (ang. emission) i prawdopodobieństwa przejść do innych stanów (ang. transition) ARCHITEKTURA SYSTEMU VEIL Upstream Start Codon Exon Stop Codon Downstream MODEL ATG ARCHITEKTURA HMM 3 Splice Site Intron 5 Splice Site 5 Poly A Site Upstream a t g Exon Początkowy etap modelowania procesu stochastycznego (np. reprezentowanego przez sekwencję reszt aminokwasowych lub nukleotydowych) w oparciu o ukryte modele Markowa obejmuje ustalenie architektury całego modelu, który może obejmować kilka oddzielnych FSM o zdefiniowanej topologii (tzw. modularność modelu). THE EXON AND STOP CODON MODELS IN VEIL MODEL EGZONU Start Codon a c g t 3 Splice Site 16 Backedges a c g t a a c g t a 5 Splice Site This model can be entered in two ways: either just after outputting a start codon, or upon leaving the 3 splice site model, which follows the intron model. The three central columns of states correspond to the three codon positions. Each of these 12 states is labeled with the base that it can output. The system outputs bases three at a time, looping back (16 possibilities: a[acgt], c[acgt],...) after each codon. Note that the paths corresponding to a stop codon (TAA, TAG, and TGA) all force the system to exit from the model (four states at lower right of figure). Alternatively, the system can exit through the 5 splice site, in which case an intron must follow the exon. The two blank states on either end of the model can output any base; these absorbing states allow the model to align itself to the proper reading frame, as splice junctions need not respect codon boundaries. g g Downstream Własność Markowa w genomowym DNA? Odpowiednia architektura poszczególnych modeli pozwala rozwiązać ten problem.

4 PROFILE HMM W przypadku, kiedy na architekturę całego modelu składają się powtarzające się elementy (tj. modele Markowa o takiej samej liczbie i rodzajów stanów połączonych w taki sam sposób) mówimy o profilu ukrytych modeli Markowa (ang. profile HMMs). HMMER PLAN7 S N B I1 I2 I3 M1 M2 M3 M4 D1 D2 D3 D4 J E C T SAM Start D1 D2 D3 End I1 I2 I3 I4 M1 M2 M3 PARAMETRYZACJA HMM po ustaleniu architektury systemu konieczne jest wyznaczenie dla każdego stanu w HMM wielkości prawdopodobieństw emisji i przejść do innych stanów parametry wyznaczane są w procedurze zwanej trenowaniem modelu, która przebiega o odpowiednio przygotowany zbiór danych (por. techniki nauczania maszynowego); trenowanie prowadzone jest zwykle w oparciu o algorytm Bauma-Welsha trenowanie modelu pozwala dopasować wielkości parametrów systemu w taki sposób aby sekwencjom obserwacji ze zbioru uczącego przypisywane były wysokie wartości prawdopodobieństw wielkość zbioru uczacego : wprost proporcjonalna do liczby parametrów układu, odwrotnie proporcjonalna do długości sekwencji obserwacji w zbiorze uczącym: wiele krótkich sekwencji vs. mniej długich lokalne maksimum : wyznaczone wartości parametrów mogą być suboptymalne; rozwiązanie: trenowanie modelu rozpoczynać od przypisania sensownych początkowych wartości parametrów przetrenowanie : ang. over-fitting, kiedy układ świetnie modeluje dane ze zbioru uczącego, a kiepsko radzi sobie z modelowaniem danych nie ujętych w procesie trenowania; wierne odtwarzanie danych/wzorców vs. ich generalizowanie

5 WYKORZYSTANIE HMM wyznaczanie prawdopodobieństwa określonej serii obserwacji w oparciu o przyjęty model badanego procesu (algorytm forward, do-przodu ) przy modelowaniu rodziny sekwencji białek, algorytm forward wykorzystywany jest do oceny podobieństwa sekwencji kwerendy z modelem (identyfikacja sekwencji homologicznych); suma prawdopodobieństw wygenerowania danej sekwencji aminokwasowej na wszystkie możliwe sposoby (szlaki stanów) przez określony profil HMM dekodowanie: przypisanie każdej z kolejnych obserwacji w sekwencji najbardziej prawdopodobnego stanu w modelu (algorytm Viterbiego) przy modelowaniu rodziny białek, algorytm Viterbiego wykorzystywany jest do dodawania nowej sekwencji do istniejącego MSA (każdej z kolejnych reszt w nowej sekwncji zostaje przypisany najbardziej prawdopodobny stan modelu HMM) przy przewidywaniu struktury drugorządowej białek, dla danej sekwencji można ustalić położenie poszczególnych elementów ( -helisy, -arkusz, etc.) przy przewidywaniu struktury genu org. eukariotycznego, pewne odcinki sekwencji zostaną opisane jako egzony, inne jako introny, etc. VITERBI VS. forward Viterbi : najbardziej prawdopodobna anotacja sekwencji (egzon/intron): forward : prawdopodobieństwo, że najlepsza anotacja jest poprawna: (stosunek do sumy prawdopodobieństw dla 6 alternatywnych anotacji z G (splice) i 8 z A w stanie 5; analizowany model może wygenerować daną sekwencję nukleotydową na łącznie 14 alternatywnych sposobów korzystając z 14 różnych szlaków stanów)

6 CO JEST UKRYTE W HMM analizowany HMM generuje dwa ciągi informacji w sekwencje nukleotydów (tj. CTTCA..TCA) w sekwencję stanów (tj. EEE..5..II ponieważ dana jest wyłącznie sekwencja nukleotydowa, którą HMM ma wygenerować, sposób w jaki to zrobi (tj. szlak stanów: przejść/emisji) jest nieznany/ukryty sekwencja szlak stanów OBLICZENIA... CTTCATGTGAAAGCAGACGTAAGTCA EEEEEEEEEEEEEEEEEE5IIIIIII Prawdopodobieństwo wygenerowania przez model! określonej sekwencji " w oparciu o jeden z możliwych szlaków stanów # : :2; 354ZY[8 6]\^:2; $&% " '(#*)!,+.- $&% #.)/!,+ 0 $&% "1) #2'!,+ prawdopodobieństwo obrania szlaku 6 (tj. iloczyn prawdopodobieństw przejść między kolejnymi stanami) przy generowaniu przez HMM zadanej sekwencji CTTCA..TCA (18 stanów E, jeden 5 i 7 I) 354<6=8 :2;?>@ACBDEBFAG9HIJDEBFA/@KD@ABLDEBFAGMKDNBFA/@O>QPFAPSRTD@UB9VXW prawdopodobieństwo wygenerowania przez HMM (tj. ilczonyn prawdopodobieństw emisji symboli nukleotydów z kolejnych stanów w szlaku) zadanej sekwencji CTTCA..TCA: 3_4`Y[8 6\a:b;>cB[AedfgHihjDEBFAGfLDEB[ACklKDEBFA/@KDEBFACkDEBFA/@mDNBFACkn>@ACkF@NRD@NB9V]Ho ostatecznie: piq $&% " '(#*)!,+.- rqslt?ù v?v

7 y y x x x x x ZALETY HMM modularność : złożony problem może być rozbity na autonomiczne modele HMM przezroczystość : samo-opisująca się architektura układu modelowego łatwość interpretacji układu i wyników modelowania (por. sieci neuronowe) w połączeniu z modularnością łatwość wbudowywania w układ modelowy (architektura) specyficznych dla danego problemu informacji WADY HMM własność Markowa : rozwiązania w odpowiedniej architekturze układu modelowego wymagania obliczeniowe : trenowanie, metoda programowania dynamicznego (Viterbi, forward) trenowanie : problem lokalnego maksimum, over-fitting METODY MODELOWANIA ZBIORU SEKWENCJI Problem : dysponując zbiorem spokrewnionych ewolucyjnie sekwencji, zidentyfikować ich cechy wspólne w celu stworzenia reprezentatywnego modelu umożliwiającego klasyfikowanie innych (nowych, nieznanych) sekwencji jako członków określonej rodziny Rozwiazania : uliniowienia wielosekwencyjne (MSA, ang. Multiple Sequence Alignment wyrażenia regularne (RE, ang. Regular Expressions) sekwencje konsensusowe ukryte modele Markowa (HMM, ang. Hidden Markov Models) pozycyjnie zróżnicowane macierze wartościujące (PSSM, ang. Position Specific Substitution Matrices, tzw. profile podstawień)

8 z z z z z Porównanie wykorzystania modeli rodziny sekwencji reprezentowanych przez przykładowe 5 sekwencji nukleotydowych ACA---ATG TCAACTATC ACAC--AGC AGA---ATC ACCG--ATC sprawdzać jakość uliniowienia nowych sekwencji do istniejącego MSA wykorzystać wyrażenie regularne: [AT][CG][AC][ACG-][-C][-T]A[GT][CG] a może [AT][CG][AC][ACGT-]{1,3}A[GT][CG], ale rozważmy porównanie dwóch nowych hipotetycznych sekwencji: TGCT--AGG i ACAC--ATC dysponując odpowiednim PSSM, ocena podobieństwa obu ostatnio porównywanych sekwencji będzie się istotnie różnić: PROFILE podstawień mogłyby tu być rzeczywiście pomocne (np. PSI-BLAST) sekwencja konsensusowa: ACA---ATC? tak, ale zarówno sposób jej wyznaczenia jak i późniejsze wykorzystanie w krytyczny sposób zależą od przyjętej miary dystansu między sekwencjami (kryteriów oceny podobieństwa) hmm, a może HMM? a precyzyjniej: PROFILE HMMs PRZYKŁAD: SEKWENCJE O TEJ SAMEJ DŁUGOŚCI, ŹRÓDŁOWE ULINIOWIENIE BEZ PRZERW Rozważmy przedstawienie przykładowego MSA jako liniowego ciągu stanów odpowiadających kolejnym kolumnom uliniowienia... ACATTC ACCTTC ACATTC AGAATA A: A: 0.0 A: 0.75 A: 0.25 A: 0.0 C: 0.75 C: 0.25 G: 0.25 T: 0.75 T: A: 0.25 C: 0.75

9 PRZYKŁAD: UWZGLEDNIAMY INSERCJE ACATT C ACCTT C ACATT C AGAATGCGCA e 0.25 A: 0.0 C: 0.5 G: 0.5 e A: A: 0.0 A: 0.75 A: 0.25 A: 0.0 C: 0.75 C: G: 0.25 T: 0.75 T: A: 0.25 C: 0.75 insercje są tymi odcinkami sekwencji, które nie przystaja do istniejącego profilu : prawdopodobieństwo wydłużania przerwy (emisji reszty na pozycji odpowiadającej przerwom w innych sekwencjach); tu: ~ (12 możliwości insercji w 4 sekwencjach z czego 3 wykorzystane ) uwzględnienie jednego dodatkowego stanu w celu opisywania insercji jest rozwiązaniem niewystarczającym ( nie zależy od długości insercji), por. afiniczne punktowanie przerw: wiele stanów insercji; zróżnicowane wielkości prawdopodobieństw przejść 2ª«ª vs. ª«ª/ ACATT C ACCTT C ACATT C AGAATGCGCA AC TGCGCC PRZYKŁAD: UWZGLEDNIAMY DELECJE... e 0.4 A: 0.0 C: 0.5 G: 0.5 e A: A: 0.0 A: 0.75 A: 0.75 C: C: 0.25 G: 0.2 T: 0.25 A: 0.0 T: 0.6 A: 0.2 C: { tu w przypadku insercji: ~} i a prawdopodobieństwo przejścia wynosi ƒ (insercje zachodzą w dwóch spośród 5 sekwencji) { delecje mogłyby być modelowane przez dodanie przejść typu: 2 2 ˆ Š gdzie Œ }c jžuž Ž ; jednak wprowadzenie dodatkowego stanu nie emitującego żadnego symbolu (ang. *? * šœg Nš silent states) podnosi transparentność modelu i obniża liczbę jego parametrów; por. vs. žzÿ, gdzie jest długością profilu, np. przy U } ƒe 4950 parametrów : mamy 390 vs.

10 MODELOWANIE PRZYPADKOWYCH SEKWENCJI start M KLASYFIKACJA SEKWENCJI end w przypadku sekwencji aminokwasowych, prawdopodobieństwa emisji odpowiadają składowi sekwencji np. w bazie SWISSPROT, np.: A : , E : , W : ± ponieważ układ HMM jest modelem probabilistycznym, może on generować (niemal) dowolne sekwencje reszt ± wytrenowanie określonego układu HMM dla danej rodziny sekwencji powoduje jednak, że pewne sekwencje będą generowane z wyższym prawdopodobieństwem ± ocena podobieństwa pary sekwencji ² ; dla zadanej sekwencji kwerendy wyznacza się prawdopodobieństwo jej wygenerowania ³5 µ^ U ]¹ º~»¼»¼½ przez model odpowiedniej rodziny oraz prawdopodobieństwo wygenerowania takiej ³5 µ^ U ]¹ samej ¾À FÁ/ÁÂ½ sekwencji przez model przypadkowy operujący na częstościach występowania poszczególnych reszt w typowych białkach/genomach etc.: ²ÄÃ Á/ÅÆ ³5 µa U ¹ ºL»Ç»¼½ ³5 µ^ ¹ ¾È Á/ÁÂ½ pozytywna ocena podobieństwa par sekwencji (model rodziny sekwencji vs. model przypadkowych sekwencji): prawdopodobny homolog negatywna ocena podobieństwa sekwencji: niskie prawdopodobieństwo, że dany model rodziny sekwncji mógł taką sekwencję wygenerować