Bioinformatyka 2 (BT172) Ukryte modele Markowa

Podobne dokumenty
Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Statystyczna analiza danych

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

PRZYRÓWNANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Spacery losowe generowanie realizacji procesu losowego

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

Porównywanie i dopasowywanie sekwencji

Agnieszka Nowak Brzezińska

Bioinformatyka 2 (BT172) Struktura i organizacja kursu

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Elementy modelowania matematycznego

Bioinformatyka Laboratorium, 30h. Michał Bereta

Dopasowanie sekwencji (sequence alignment)

Podstawy Sztucznej Inteligencji (PSZT)

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Dopasowania par sekwencji DNA

Wstęp do Biologii Obliczeniowej

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III

Bioinformatyka Laboratorium, 30h. Michał Bereta

Testowanie hipotez statystycznych

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Porównywanie i dopasowywanie sekwencji

Technologie informacyjne - wykład 12 -

Programowanie dynamiczne i algorytmy zachłanne

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Budowa kwasów nukleinowych

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Aproksymacja funkcji a regresja symboliczna

ROZKŁAD MATERIAŁU NAUCZANIA KLASA 2, ZAKRES PODSTAWOWY

Wykład z Technologii Informacyjnych. Piotr Mika

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

0 + 0 = 0, = 1, = 1, = 0.

Wprowadzenie do analizy korelacji i regresji

Wstęp do Techniki Cyfrowej... Teoria automatów

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Modelowanie komputerowe

PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński

Analiza danych. TEMATYKA PRZEDMIOTU

Układy stochastyczne

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

Wykład 5 Dopasowywanie lokalne

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

STOCHASTYCZNY MODEL BEZPIECZEŃSTWA OBIEKTU W PROCESIE EKSPLOATACJI

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCHY KOMPETENCJI EFEKTY KSZTAŁCENIA

Jeśli X jest przestrzenią o nieskończonej liczbie elementów:

KORELACJE I REGRESJA LINIOWA

Zmienność wiatru w okresie wieloletnim

Elżbieta Kula - wprowadzenie do Turbo Pascala i algorytmiki

W2 Podstawy rachunku prawdopodobieństwa (przypomnienie)

Literatura. adów w cyfrowych. Projektowanie układ. Technika cyfrowa. Technika cyfrowa. Bramki logiczne i przerzutniki.

SZTUCZNA INTELIGENCJA

Optymalizacja ciągła

Ćwiczenia: Ukryte procesy Markowa lista 1 kierunek: matematyka, specjalność: analiza danych i modelowanie, studia II

Teoretyczne podstawy informatyki

Wymagania edukacyjne z matematyki klasa II technikum

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Elementy modelowania matematycznego

Ę ć ć Ę Ą Ę

Ę


ś ś ś Ź Ę Ć ś ś ś ć ś ś ś ś ś ś ś ś ś ś Ą

ć ż ż Ś ż

ć ć ć Ś ć Ż

ź ś Ś Ę Ż ść ś ś Ż Ż ś Ż Ż

Jacek Skorupski pok. 251 tel konsultacje: poniedziałek , sobota zjazdowa

Procesy Markowa zawdzięczają swoją nazwę ich twórcy Andriejowi Markowowi, który po raz pierwszy opisał problem w 1906 roku.

Rachunek Prawdopodobieństwa i Statystyka

Centralne twierdzenie graniczne

Rozszerzony konspekt preskryptu do przedmiotu Podstawy Robotyki

Estymacja parametrów w modelu normalnym

Wstęp do informatyki- wykład 2

Algorytm poprawny jednoznaczny szczegółowy uniwersalny skończoność efektywność (sprawność) zmiennych liniowy warunkowy iteracyjny

Definicje. Algorytm to:

Algorytmy genetyczne. Paweł Cieśla. 8 stycznia 2009

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Wykładnicze grafy przypadkowe: teoria i przykłady zastosowań do analizy rzeczywistych sieci złożonych

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Bazy danych. Zachodniopomorski Uniwersytet Technologiczny w Szczecinie. Wykład 3: Model związków encji.

Elementy inteligencji obliczeniowej

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Algorytm. Krótka historia algorytmów

Drugie kolokwium z Rachunku Prawdopodobieństwa, zestaw A

1 Wprowadzenie do algorytmiki

Zadanie 1. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k =

Jeśli czas działania algorytmu zależy nie tylko od rozmiaru danych wejściowych i przyjmuje różne wartości dla różnych danych o tym samym rozmiarze,

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

Algorytmy i złożoność obliczeniowa. Wojciech Horzelski

0 --> 5, 1 --> 7, 2 --> 9, 3 -->1, 4 --> 3, 5 --> 5, 6 --> 7, 7 --> 9, 8 --> 1, 9 --> 3.

Transkrypt:

Bioinformatyka 2 (BT172) Wykład 7 Ukryte modele Markowa Krzysztof Murzyn {5,12}.XII.2005 PLAN WYKŁADU 1. Modelowanie matematyczne 2. Założenia i własności modelowania opartego o ukryte modele Markowa 3. Architektura i parametryzacja modelowych układów HMM 4. Zastosowania, zalety i wady modeli HMM 5. Modelowanie rodziny sekwencji biopolimerów

MODELOWANIE MATEMATYCZNE definicja : użycie języka matematyki (funkcja, rozkład, zmienna,...) do opisania zachowania jakiegoś układu przykłady : analiza kontroli metabolicznej (MCA), symulacje dynamiki molekularnej (MD), ocena uliniowień sekwencji (rozkład Gumbela), klasyfikacja białek (ukryte modele Markowa, HMM), etc. Model matematyczny opisuje dany układ za pomocą zmiennych. Wartości zmiennych mogą należeć do różnych zbiorów, tj. być rozmaitego typu: liczb rzeczywistych, całkowitych, wartości logicznych, ciągów znakowych i tym podobnych. Właściwy model to grupa funkcji wiążących ze sobą różne zmienne za pomocą określonych parametrów i w ten sposób opisujących powiązania między wielkościami w układzie. ZAŁOŻENIA HMM obserwacje mogą być dowolnego typu (tj. niekoniecznie liczby, ale również dane znakowe (np. sekwencje aminokwasowe, nukleotydowe, etc.) obserwowana sekwencja zdarzeń jest uporządkowana obserwacje w sekwencji posiadają własność Markowa: tj. kolejna obserwacja w sekwencji nie zależy od jej poprzedzającej

WŁASNOŚCI HMM HMM modeluje proces stochastyczny, którego pewne własności nie są znane/jawne innymi słowy są: ukryte kolejne obserwacje są reprezentowane przez ukryte modele Markowa (HMM), każdy HMM jest automatem skończonym (ang. finite state machine), na który składa się skończona liczba stanów i przejść między nimi topologię określonego FSM określa się mianem architektury HMM każdemu stanowi w HMM przypisuje się prawdopodobieństwa emisji wartości zmiennych losowych z zadanego, skończonego zbioru (ang. emission) i prawdopodobieństwa przejść do innych stanów (ang. transition) ARCHITEKTURA SYSTEMU VEIL Upstream Start Codon Exon Stop Codon Downstream MODEL ATG ARCHITEKTURA HMM 3 Splice Site Intron 5 Splice Site 5 Poly A Site Upstream a t g Exon Początkowy etap modelowania procesu stochastycznego (np. reprezentowanego przez sekwencję reszt aminokwasowych lub nukleotydowych) w oparciu o ukryte modele Markowa obejmuje ustalenie architektury całego modelu, który może obejmować kilka oddzielnych FSM o zdefiniowanej topologii (tzw. modularność modelu). THE EXON AND STOP CODON MODELS IN VEIL MODEL EGZONU Start Codon a c g t 3 Splice Site 16 Backedges a c g t a a c g t a 5 Splice Site This model can be entered in two ways: either just after outputting a start codon, or upon leaving the 3 splice site model, which follows the intron model. The three central columns of states correspond to the three codon positions. Each of these 12 states is labeled with the base that it can output. The system outputs bases three at a time, looping back (16 possibilities: a[acgt], c[acgt],...) after each codon. Note that the paths corresponding to a stop codon (TAA, TAG, and TGA) all force the system to exit from the model (four states at lower right of figure). Alternatively, the system can exit through the 5 splice site, in which case an intron must follow the exon. The two blank states on either end of the model can output any base; these absorbing states allow the model to align itself to the proper reading frame, as splice junctions need not respect codon boundaries. g g Downstream Własność Markowa w genomowym DNA? Odpowiednia architektura poszczególnych modeli pozwala rozwiązać ten problem.

PROFILE HMM W przypadku, kiedy na architekturę całego modelu składają się powtarzające się elementy (tj. modele Markowa o takiej samej liczbie i rodzajów stanów połączonych w taki sam sposób) mówimy o profilu ukrytych modeli Markowa (ang. profile HMMs). HMMER PLAN7 S N B I1 I2 I3 M1 M2 M3 M4 D1 D2 D3 D4 J E C T SAM Start D1 D2 D3 End I1 I2 I3 I4 M1 M2 M3 PARAMETRYZACJA HMM po ustaleniu architektury systemu konieczne jest wyznaczenie dla każdego stanu w HMM wielkości prawdopodobieństw emisji i przejść do innych stanów parametry wyznaczane są w procedurze zwanej trenowaniem modelu, która przebiega o odpowiednio przygotowany zbiór danych (por. techniki nauczania maszynowego); trenowanie prowadzone jest zwykle w oparciu o algorytm Bauma-Welsha trenowanie modelu pozwala dopasować wielkości parametrów systemu w taki sposób aby sekwencjom obserwacji ze zbioru uczącego przypisywane były wysokie wartości prawdopodobieństw wielkość zbioru uczacego : wprost proporcjonalna do liczby parametrów układu, odwrotnie proporcjonalna do długości sekwencji obserwacji w zbiorze uczącym: wiele krótkich sekwencji vs. mniej długich lokalne maksimum : wyznaczone wartości parametrów mogą być suboptymalne; rozwiązanie: trenowanie modelu rozpoczynać od przypisania sensownych początkowych wartości parametrów przetrenowanie : ang. over-fitting, kiedy układ świetnie modeluje dane ze zbioru uczącego, a kiepsko radzi sobie z modelowaniem danych nie ujętych w procesie trenowania; wierne odtwarzanie danych/wzorców vs. ich generalizowanie

WYKORZYSTANIE HMM wyznaczanie prawdopodobieństwa określonej serii obserwacji w oparciu o przyjęty model badanego procesu (algorytm forward, do-przodu ) przy modelowaniu rodziny sekwencji białek, algorytm forward wykorzystywany jest do oceny podobieństwa sekwencji kwerendy z modelem (identyfikacja sekwencji homologicznych); suma prawdopodobieństw wygenerowania danej sekwencji aminokwasowej na wszystkie możliwe sposoby (szlaki stanów) przez określony profil HMM dekodowanie: przypisanie każdej z kolejnych obserwacji w sekwencji najbardziej prawdopodobnego stanu w modelu (algorytm Viterbiego) przy modelowaniu rodziny białek, algorytm Viterbiego wykorzystywany jest do dodawania nowej sekwencji do istniejącego MSA (każdej z kolejnych reszt w nowej sekwncji zostaje przypisany najbardziej prawdopodobny stan modelu HMM) przy przewidywaniu struktury drugorządowej białek, dla danej sekwencji można ustalić położenie poszczególnych elementów ( -helisy, -arkusz, etc.) przy przewidywaniu struktury genu org. eukariotycznego, pewne odcinki sekwencji zostaną opisane jako egzony, inne jako introny, etc. VITERBI VS. forward Viterbi : najbardziej prawdopodobna anotacja sekwencji (egzon/intron): forward : prawdopodobieństwo, że najlepsza anotacja jest poprawna: (stosunek do sumy prawdopodobieństw dla 6 alternatywnych anotacji z G (splice) i 8 z A w stanie 5; analizowany model może wygenerować daną sekwencję nukleotydową na łącznie 14 alternatywnych sposobów korzystając z 14 różnych szlaków stanów)

CO JEST UKRYTE W HMM analizowany HMM generuje dwa ciągi informacji w sekwencje nukleotydów (tj. CTTCA..TCA) w sekwencję stanów (tj. EEE..5..II ponieważ dana jest wyłącznie sekwencja nukleotydowa, którą HMM ma wygenerować, sposób w jaki to zrobi (tj. szlak stanów: przejść/emisji) jest nieznany/ukryty sekwencja szlak stanów OBLICZENIA... CTTCATGTGAAAGCAGACGTAAGTCA EEEEEEEEEEEEEEEEEE5IIIIIII Prawdopodobieństwo wygenerowania przez model! określonej sekwencji " w oparciu o jeden z możliwych szlaków stanów # : 3547698 :2; 354ZY[8 6]\^:2; $&% " '(#*)!,+.- $&% #.)/!,+ 0 $&% "1) #2'!,+ prawdopodobieństwo obrania szlaku 6 (tj. iloczyn prawdopodobieństw przejść między kolejnymi stanami) przy generowaniu przez HMM zadanej sekwencji CTTCA..TCA (18 stanów E, jeden 5 i 7 I) 354<6=8 :2;?>@ACBDEBFAG9HIJDEBFA/@KD@ABLDEBFAGMKDNBFA/@O>QPFAPSRTD@UB9VXW prawdopodobieństwo wygenerowania przez HMM (tj. ilczonyn prawdopodobieństw emisji symboli nukleotydów z kolejnych stanów w szlaku) zadanej sekwencji CTTCA..TCA: 3_4`Y[8 6\a:b;>cB[AedfgHihjDEBFAGfLDEB[ACklKDEBFA/@KDEBFACkDEBFA/@mDNBFACkn>@ACkF@NRD@NB9V]Ho ostatecznie: piq $&% " '(#*)!,+.- rqslt?ù v?v

y y x x x x x ZALETY HMM modularność : złożony problem może być rozbity na autonomiczne modele HMM przezroczystość : samo-opisująca się architektura układu modelowego łatwość interpretacji układu i wyników modelowania (por. sieci neuronowe) w połączeniu z modularnością łatwość wbudowywania w układ modelowy (architektura) specyficznych dla danego problemu informacji WADY HMM własność Markowa : rozwiązania w odpowiedniej architekturze układu modelowego wymagania obliczeniowe : trenowanie, metoda programowania dynamicznego (Viterbi, forward) trenowanie : problem lokalnego maksimum, over-fitting METODY MODELOWANIA ZBIORU SEKWENCJI Problem : dysponując zbiorem spokrewnionych ewolucyjnie sekwencji, zidentyfikować ich cechy wspólne w celu stworzenia reprezentatywnego modelu umożliwiającego klasyfikowanie innych (nowych, nieznanych) sekwencji jako członków określonej rodziny Rozwiazania : uliniowienia wielosekwencyjne (MSA, ang. Multiple Sequence Alignment wyrażenia regularne (RE, ang. Regular Expressions) sekwencje konsensusowe ukryte modele Markowa (HMM, ang. Hidden Markov Models) pozycyjnie zróżnicowane macierze wartościujące (PSSM, ang. Position Specific Substitution Matrices, tzw. profile podstawień)

z z z z z Porównanie wykorzystania modeli rodziny sekwencji reprezentowanych przez przykładowe 5 sekwencji nukleotydowych ACA---ATG TCAACTATC ACAC--AGC AGA---ATC ACCG--ATC sprawdzać jakość uliniowienia nowych sekwencji do istniejącego MSA wykorzystać wyrażenie regularne: [AT][CG][AC][ACG-][-C][-T]A[GT][CG] a może [AT][CG][AC][ACGT-]{1,3}A[GT][CG], ale rozważmy porównanie dwóch nowych hipotetycznych sekwencji: TGCT--AGG i ACAC--ATC dysponując odpowiednim PSSM, ocena podobieństwa obu ostatnio porównywanych sekwencji będzie się istotnie różnić: PROFILE podstawień mogłyby tu być rzeczywiście pomocne (np. PSI-BLAST) sekwencja konsensusowa: ACA---ATC? tak, ale zarówno sposób jej wyznaczenia jak i późniejsze wykorzystanie w krytyczny sposób zależą od przyjętej miary dystansu między sekwencjami (kryteriów oceny podobieństwa) hmm, a może HMM? a precyzyjniej: PROFILE HMMs PRZYKŁAD: SEKWENCJE O TEJ SAMEJ DŁUGOŚCI, ŹRÓDŁOWE ULINIOWIENIE BEZ PRZERW Rozważmy przedstawienie przykładowego MSA jako liniowego ciągu stanów odpowiadających kolejnym kolumnom uliniowienia... ACATTC ACCTTC ACATTC AGAATA A: A: 0.0 A: 0.75 A: 0.25 A: 0.0 C: 0.75 C: 0.25 G: 0.25 T: 0.75 T: A: 0.25 C: 0.75

PRZYKŁAD: UWZGLEDNIAMY INSERCJE ACATT C ACCTT C ACATT C AGAATGCGCA e 0.25 A: 0.0 C: 0.5 G: 0.5 e A: A: 0.0 A: 0.75 A: 0.25 A: 0.0 C: 0.75 C: 0.25 0.75 G: 0.25 T: 0.75 T: A: 0.25 C: 0.75 insercje są tymi odcinkami sekwencji, które nie przystaja do istniejącego profilu : prawdopodobieństwo wydłużania przerwy (emisji reszty na pozycji odpowiadającej przerwom w innych sekwencjach); tu: ~ (12 możliwości insercji w 4 sekwencjach z czego 3 wykorzystane ) uwzględnienie jednego dodatkowego stanu w celu opisywania insercji jest rozwiązaniem niewystarczającym ( nie zależy od długości insercji), por. afiniczne punktowanie przerw: wiele stanów insercji; zróżnicowane wielkości prawdopodobieństw przejść 2ª«ª vs. ª«ª/ ACATT C ACCTT C ACATT C AGAATGCGCA AC TGCGCC PRZYKŁAD: UWZGLEDNIAMY DELECJE... e 0.4 A: 0.0 C: 0.5 G: 0.5 e A: A: 0.0 A: 0.75 A: 0.75 C: 0.8 0.8 C: 0.25 G: 0.2 T: 0.25 A: 0.0 T: 0.6 A: 0.2 C: 0.8 0.2 { tu w przypadku insercji: ~} i a prawdopodobieństwo przejścia wynosi ƒ (insercje zachodzą w dwóch spośród 5 sekwencji) { delecje mogłyby być modelowane przez dodanie przejść typu: 2 2 ˆ Š gdzie Œ }c jžuž Ž ; jednak wprowadzenie dodatkowego stanu nie emitującego żadnego symbolu (ang. *? * šœg Nš silent states) podnosi transparentność modelu i obniża liczbę jego parametrów; por. vs. žzÿ, gdzie jest długością profilu, np. przy U } ƒe 4950 parametrów : mamy 390 vs.

MODELOWANIE PRZYPADKOWYCH SEKWENCJI start M KLASYFIKACJA SEKWENCJI end w przypadku sekwencji aminokwasowych, prawdopodobieństwa emisji odpowiadają składowi sekwencji np. w bazie SWISSPROT, np.: A : 0.0764, E : 0.0647, W : 0.0121... ± ponieważ układ HMM jest modelem probabilistycznym, może on generować (niemal) dowolne sekwencje reszt ± wytrenowanie określonego układu HMM dla danej rodziny sekwencji powoduje jednak, że pewne sekwencje będą generowane z wyższym prawdopodobieństwem ± ocena podobieństwa pary sekwencji ² ; dla zadanej sekwencji kwerendy wyznacza się prawdopodobieństwo jej wygenerowania ³5 µ^ U ]¹ º~»¼»¼½ przez model odpowiedniej rodziny oraz prawdopodobieństwo wygenerowania takiej ³5 µ^ U ]¹ samej ¾À FÁ/Á½ sekwencji przez model przypadkowy operujący na częstościach występowania poszczególnych reszt w typowych białkach/genomach etc.: ²Äà Á/ÅÆ ³5 µa U ¹ ºL»Ç»¼½ ³5 µ^ ¹ ¾È Á/Á½ pozytywna ocena podobieństwa par sekwencji (model rodziny sekwencji vs. model przypadkowych sekwencji): prawdopodobny homolog negatywna ocena podobieństwa sekwencji: niskie prawdopodobieństwo, że dany model rodziny sekwncji mógł taką sekwencję wygenerować