Bioinformatyka. Podsumowanie algorytmów dynamicznych

Bioinformatyka Wykład 5 E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas Podsumowanie algorytmów dynamicznych Algorytmy porównywania sekwencji oparte na programowaniu dynamicznym gwarantują znalezienie optymalnego (najlepszego) zestawienia dwóch sekwencji wymagają dużych rezerw pamięci i czasu Wykład 5, 2011 1

Programowanie dynamiczne Metody dynamiczne dobre są do zestawienia (porównania) dwóch sekwencji Jeśli celem jest znalezienie sekwencji homologicznych przeszukać trzeba bazę sekwencji. Przeszukać = porównać każdą sekwencję w bazie z zadaną sekwencją (query) to może być trudne.. Metody dynamiczne są raczej powolne i wymagają pamięci (na np. zapamiętanie macierzy F(nm) = O(nm)) Programowanie dynamiczne Rozmiar baz danych (rośnie ekspotencjalnie) białkowa: ok. 3 000 000 000 reszt aminokwasowych nukleotydowa: 200 000 000 000 nukleotydów Czas pracy komputera z mocą obliczeniową 10 7 komórek macierzy/sekundę (pełne zestawienie metodami dynamicznymi) białko 300 aminokwasów: 25 godzin dla bazy białkowej DNA 1000 nukleotydów: 5555 godzin (323 dni) w GenBanku (wg. W. Makałowskiego) Wykład 5, 2011 2

Algorytmy macierze punktowe (DotPlot) programowanie dynamiczne metody heurystyczne (BLAST, FASTA) metody statystyczne (modele Markova, statystyka Bayesa) Rodzaje dopasowań pokrycie sekwencji globalne, lokalne liczba sekwencji porównywanych para (pairwise sequence alignment) więcej niż dwie (multiple sequences alignment) Macierze punktowe (DotPlot) Macierze DotPlot opierają się na ocenie wizualnej i czasami skuteczniejsze niż alignment wykrywają fragmenty powtarzające się, rearanżacje i podobieństawa lokalne http://www.biophys.uni-duesseldorf.de/local/dotplot/dotplot.html Dotter: http://www.cgb.ki.se/cgb/groups/sonnhammer/dotter.html http://www.changbioscience.com/res/resd.html Wykład 5, 2011 3

H I S S E Q E N C E H I S S E Q E N C E Bioinformatyka Dotter niektóre układy punktów tworzą ścieżkę każda ścieżka odpowiada jednemu dopasowaniu M Y S E Q U E N C E H I S S E Q E N C E M Y S E Q U E N C E H I S S E Q E N C E M Y S E Q U E N C E znaleźć najlepszą ścieżkę! Dotter niektóre układy punktów tworzą ścieżkę każda ścieżka odpowiada jednemu dopasowaniu M Y S E Q U E N C E H I S S E Q E N C E M Y S E Q U E N C E H I S S E Q E N C E M Y S E Q U E N C E znaleźć najlepszą ścieżkę! Wykład 5, 2011 4

H I S S E Q E N C E H I S S E Q E N C E Bioinformatyka Dotter kropka w miejscu dopasowania układ kropek tworzy ścieżkę M Y S E Q U E N C E H I S S E Q E N C E M Y S E Q U E N C E H I S S E Q E N C E Czy wprowadzenie przerwy da lepsze dopasowanie? M Y S E Q U E N C E Dotter wprowadzenie przerwy wydłużenie ścieżki M Y S E Q U E N C E H I S S E Q E N C E M Y S E Q U E N C E H I S S E Q E N C E M Y S E Q U E N C E M Y S E Q U E N C E H I S S E Q - E N C E Wykład 5, 2011 5

Najlepsza ścieżka? G A T T A C C G A T T C T A A Najlepsza ścieżka? G A T T A C C G A T T C T A A każda ścieżka odpowiada jakiemuś dopasowaniu która z nich jest optymalna? Wykład 5, 2011 6

Najlepsza ścieżka Madryt Poznań http://www.viamichelin.com optymalna? najszybsza? najkrótsza? Najlepsza ścieżka najlepsza ścieżka = Zestawienia sekwencji zależy od sposobu punktowania. tożsamości, podobieństwa, przerwy Wykład 5, 2011 7

DotPlot -metody najprościej: kropka w miejscu identycznych znaków w sekwencjach lepiej: zastosowanie tablicy podobieństw (macierzy substytucji) kropka w miejscu, gdzie wartość podobieństwa przekracza określoną wartość lepiej: porównywanie okienek wstawianie kropek tam, gdzie ciąg n-liter ma punktację większą niż pewna wartość, albo jest określona liczba identycznych liter jeszcze lepiej: odfiltrowanie mniej istotnych kropek DotPlot najprostsza metoda W. Makałowski, 2005 Wykład 5, 2011 8

DotPlot najprostsza metoda DotPlot metoda okienkowa obliczyć punktację w okienku o zadanym rozmiarze (window size) ocenić czy punktacja spełnia określone warunki (threshold) przesunąć okienko o zadany krok (step) Wykład 5, 2011 9

DotPlot metoda okienkowa kropka= x brak kropki= o window size: 9 threshold: 6 step: 3 DotPlot metoda okienkowa window size: 9 threshold: 3 step: 6 Wykład 5, 2011 10

DotPlot metoda okienkowa window size: 9 threshold: 3 step: 6 DotPlot metoda okienkowa window size: 9 threshold: 3 step: 6 Wykład 5, 2011 11

DotPlot metoda okienkowa window size: 9 threshold: 3 step: 6 DotPlot- Dotter Dotter: http://www.cgb.ki.se/cgb/groups/sonnhammer/dotter.html Przykład: aktywator tkankowo plazminogenu urokinazowego (PLAU): P00749 aktywator tkankowo specyficznego plazminogenu (PLAT): P00750 (Bioinformatyka. Podręcznik do analizy genów i białek. A.D. Baxevanis, B.F.F. Quellette, PWN, 2005 ) Wykład 5, 2011 12

rozmiar okna:16 BLOSUM62 pixel value = 34xscore/residue Wykład 5, 2011 13

DotPlot- Dotter Dotter: http://www.cgb.ki.se/cgb/groups/sonnhammer/dotter.html Przykład: czynnik krzepnięcia XII (F12): P00748 aktywator tkankowo specyficznego plazminogenu (PLAT): P00750 (Bioinformatyka. Podręcznik do analizy genów i białek. A.D. Baxevanis, B.F.F. Quellette, PWN, 2005 ) Wykład 5, 2011 14

Dotter - sekwencje Dotter - sekwencje Wykład 5, 2011 15

Dotter SMART (http://smart.embl-heidelberg.de/) >gi 33877196 gb AAH02795.2 PLAT protein [Homo sapiens] >gi 180359 gb AAA51986.1 coagulation factor XII FN1 fibrynonektyna typ I, powtarzalna jednostka FN2 fibrynonektyna typ II, powtarzalna jednostka EGF moduł nabłonkowego czynnika wzrostu KR domena typu kringle Tryp SPc domena katalityczna zapewniająca aktywność proteinazy serynowej Wykład 5, 2011 16

aktywator tkankowo specyficznego plazminogenu aktywator tkankowo specyficznego plazminogenu czynnik krzepnięcia krwi czynnik krzepnięcia krwi Wykład 5, 2011 17

aktywator tkankowo specyficznego plazminogenu czynnik krzepnięcia krwi Algorytmy macierze punktowe (DotPlot) programowanie dynamiczne metody heurystyczne (BLAST, FASTA) metody statystyczne (modele Markova, statystyka Bayesa) Rodzaje dopasowań pokrycie sekwencji globalne, lokalne liczba sekwencji porównywanych para (pairwise sequence alignment) więcej niż dwie (multiple sequences alignment) Wykład 5, 2011 18

Pokrycie sekwencji dopasowanie globalne dopasowanie wzdłuż całej sekwencji (zastosowanie: do białek składających się z pojedynczej domeny lub homologicznych słabo zróżnicowanych) dopasowanie lokalne uwzględnia domenową naturę białek, szuka subsekwencji (zastosowanie: do białek wielodomenowych, mrna z sekwencją genomową) Algorytm Smitha-Watermana dopasowanie lokalne ścieżka dopasowania nie musi osiągać krawędzi analizowanej sekwencji ścieżka jest lokalnie optymalna jeśli jej wydłużanie/skracanie nie poprawia obliczonej dla niej wartości system wartościowania dopasowania zaniża wartości w regionach słabego dopasowania = przerwanie ścieżki mogą istnieć ścieżki złożone z kilku połączonych ścieżek Smith, Waterman (1981) J.Mol.Biol. 147, 195-197 Wykład 5, 2011 19

Szukanie wielu dopasowań -subdopasowania Metoda optymalna daje zawsze najlepsze dopasowanie nawet jeśli nie ma ono znaczenia biologicznego znaczących, niezachodzących na siebie dopasowń lokalnych można naleźć kilka subdopasownia Trzeba szukać więcej niż jednego dopasowania! (lalign, SIM) Przykład: Czynnik krzepnięcia IX (F9, SWISS-PROT P00740) Czynnik krzepnięcia XII (F12, SWISS-PROT P00748) Dopasowanie optymalne i suboptymalne >sp P00740 FA9_HUMAN Coagulation factor IX precursor (EC 3.4.21.22) (Christmas factor) (Plasma thromboplastin component) (PTC) [Contains: Coagulation factor IXa light chain; Coagulation factor IXa heavy chain] - Homo sapiens (Human). MQRVNMIMAESPGLITICLLGYLLSAECTVFLDHENANKILNRPKRYNSGKLEEFVQGNL ERECMEEKCSFEEAREVFENTERTTEFWKQYVDGDQCESNPCLNGGSCKDDINSYECWCP FGFEGKNCELDVTCNIKNGRCEQFCKNSADNKVVCSCTEGYRLAENQKSCEPAVPFPCGR VSVSQTSKLTRAETVFPDVDYVNSTEAETILDNITQSTQSFNDFTRVVGGEDAKPGQFPW QVVLNGKVDAFCGGSIVNEKWIVTAAHCVETGVKITVVAGEHNIEETEHTEQKRNVIRII PHHNYNAAINKYNHDIALLELDEPLVLNSYVTPICIADKEYTNIFLKFGSGYVSGWGRVF HKGRSALVLQYLRVPLVDRATCLRSTKFTIYNNMFCAGFHEGGRDSCQGDSGGPHVTEVE GTSFLTGIISWGEECAMKGKYGIYTKVSRYVNWIKEKTKLT P00740 >sp P00748 FA12_HUMAN Coagulation factor XII precursor (EC 3.4.21.38) (Hageman factor) (HAF) [Contains: Coagulation factor XIIa heavy chain; Betafactor XIIa part 1; Beta-factor XIIa part 2; Coagulation factor XIIa light chain] - Homo sapiens (Human). MRALLLLGFLLVSLESTLSIPPWEAPKEHKYKAEEHTVVLTVTGEPCHFPFQYHRQLYHK CTHKGRPGPQPWCATTPNFDQDQRWGYCLEPKKVKDHCSKHSPCQKGGTCVNMPSGPHCL CPQHLTGNHCQKEKCFEPQLLRFFHKNEIWYRTEQAAVARCQCKGPDAHCQRLASQACRT NPCLHGGRCLEVEGHRLCHCPVGYTGPFCDVDTKASCYDGRGLSYRGLARTTLSGAPCQP WASEATYRNVTAEQARNWGLGGHAFCRNPDNDIRPWCFVLNRDRLSWEYCDLAQCQTPTQ AAPPTPVSPRLHVPLMPAQPAPPKPQPTTRTPPQSQTPGALPAKREQPPSLTRNGPLSCG QRLRKSLSSMTRVVGGLVALRGAHPYIAALYWGHSFCAGSLIAPCWVLTAAHCLQDRPAP EDLTVVLGQERRNHSCEPCQTLAVRSYRLHEAFSPVSYQHDLALLRLQEDADGSCALLSP YVQPVCLPSGAARPSETTLCQVAGWGHQFEGAEEYASFLQEAQVPFLSLERCSAPDVHGS SILPGMLCAGFLEGGTDACQGDSGGPLVCEDQAAERRLTLQGIISWGSGCGDRNKPGVYT DVAYYLAWIREHTVS P00748 ExPasy Wykład 5, 2011 20

Dopasowanie optymalne i suboptymalne lalign http://www.ch.embnet.org/software/lalign_form.html oraz dopasowania 2 i 3: Wykład 5, 2011 21

SIM http://www.expasy.ch/tools/sim-prot.html P00740 P00748 Algorytmy macierze punktowe (DotPlot) programowanie dynamiczne metody heurystyczne (BLAST, FASTA) metody statystyczne (modele Markova, statystyka Bayesa) Rodzaje dopasowań pokrycie sekwencji globalne, lokalne liczba sekwencji porównywanych para (pairwise sequence alignment) więcej niż dwie (multiple sequences alignment) Wykład 5, 2011 22

Metody heurystyczne Metody heurystyczne FASTA i BLAST Programowanie dynamiczne zapewnia najlepsze zestawienie, ale jest czasochłonne. Większość sekwencji w bazie danych nie jest homologiczna do sekwencji badanej. Znalezienie sposobu na ich odrzucenie przyspieszyło by obliczenia! Heurystyczny - pomocny w rozwiązaniu, służący odkryciu, ale nie gwarantujący rozwiązania. Wykład 5, 2011 23

FASTA i BLAST wspólna strategia: szybkie przejrzenie bazy sekwencji wyeliminowanie sekwencji niepodobnych zestawienie (alignment) najlepszych FASTA i BLAST definicje: query sekwencje, która stanowi zapytanie do Bazy Danych subject sekwencja znaleziona w BD jako ta, która spełnia kryteria podobieństwa hit zestawienie lokalne miedzy query a subject Wykład 5, 2011 24

sekwencja 2 (subject) Bioinformatyka FASTA website: ftp://ftp.virginia.edu/pub/fasta web-interface: http://www.ebi.ac.uk/fasta33 Lipman DJ, Pearson WR. Rapid and sensitive protein similarity searches. Science.(1985)227(4693):1435-41. Pearson WR, Lipman DJ. Improved tools for biological sequence comparison. Proc Natl Acad Sci U S A (1988)85(8):2444-8. FASTA - pakiet oprogramowania do zestawień sekwencji DNA i białek FASTA program z dużą czułościa szukający podobieństwa między sekwencjami i z dużą prędkością fast = szybkie przybliżenie programowania dynamicznego FASTA format danych wprowadzony przez Pearsona FASTA Założenie: sekwencje podobne posiadają przekątne o wysokim podobieństwie sekwencja 1 (query) zestawienie zestawienie z przerwą Wykład 5, 2011 25

FASTA Strategia: 4 etapy 1. znalezienie najlepszych regionów na przekątnych 2. powtórne sprawdzenie 10 najlepszych regionów przy użyciu macierzy PAM 3. połączenie wybranych regionów 4. obliczenie optymalnego zestawienia za pomocą programowania dynamicznego Ekstra. obliczenie istotności punktacji zestawienia FASTA- 4 etapy 1. znalezienie najlepszych regionów na przekątnych 2. powtórne sprawdzenie 10 najlepszych regionów przy użyciu macierzy PAM 3. wyeliminowanie regionów, które nie mogą być częcią zestawienia i połączenie wybranych regionów 4. obliczenie optymalnego zestawienia za pomocą programowania dynamicznego Wykład 5, 2011 26

FASTA etap 1 znalezienie najlepszych regionów na przekątnej za pomocą tabel lookup table (lookup table lista wszystkich słów o zadanej długości ktup i ich pozycji w sekwencjach) 1 2 3 4 5 6 7 8 9 10 11 M Y S E Q U E N C E N 1 2 3 4 5 6 7 8 9 10 11 H I S S E Q E N C E Q CE EN EQ MY NC QV SE UE YS 9 7,10 4 1 8 5 3 6 2 itd. CE EN EQ HI IS NC QE SE SS 9 7 5,10 1 2 8 6 4 3 FASTA etap 1 znalezienie najlepszych regionów na przekątnej za pomocą tabel lookup table (lookup table lista wszystkich słów o zadanej długości ktup i ich pozycji w sekwencjach) 1 2 3 4 5 6 7 8 9 10 11 M Y S E Q U E N C E N 1 2 3 4 5 6 7 8 9 10 11 H I S S E Q E N C E Q CE 9 ktup=1 szukanie regionów z największą gęstością aa identycznych CE 9 EN 7,10 EN 7 EQ 4 ktup=2 szukanie regionów EQ o najwyższej 5,10 MY 1 gęstości identycznych HI par 1 NC 8 IS 2 QV 5 ktup z przedziału 1-6, rekomendowane NC 8 4-6 SE 3 QE 6 UE 6 dla krótkich sekwencji (oligomerów) SE 4 ktup=1 YS 2 SS 3 Wykład 5, 2011 27

HISSEQENCEQ MYSEQUENCEN FASTA etap 1 przekątna = pozycja subject - pozycja query słowo CE EN EQ NC SE Pozycja (subject) 9 7,10 4 8 3 Pozcja (query) 9 7 5,10 8 4 przekątna 0 0,+3-1,-6 0-1 znalezienie regionów o największej gęstości MYSEQUENCEN HISSEQENCEQ region para należy do regionu? tak próba połączenia nie nowy region FASTA etap 2 dla każdego regionu obliczana jest punktacja - lokalne podobieństwo (punkty za identyczność, kary za zamianę) 10 najlepszych regionów przechodzi do etapu 2 ponowne obliczenie punktacji z macierzą PAM250 (lub BLOSUM50) lokalne podobieństwo bez przerw. dla każedego regionu znaleziona jest subsekwencja z maksymalną punktacja (init1) przycięcie regionu Wykład 5, 2011 28

FASTA etap 3 łączenie przekątnych (próba łączenia przyciętych regionów zestawienie z przerwami) zwykle: 20 FASTA etap 4 tworzenie zestawienia całkowitego za pomocą lokalnego programowania dynamicznego (NWS Needleman-Wunch-Sellers) brane są pod uwagę tylko te elementy (aa, nt), które leżą w korytarzu o szerokości 32 elementy, wycentrowanym na najlepszym regionie init1 (z etapu 2) przypisanie punktacji ostatecznej (opt optimized score) Wykład 5, 2011 29

FASTA etap 4/ekstra oszacowanie istotności porównania dla każdej sekwencji w bazie obliczany jest init1 - powstaje histogram z histogramu oblicza się średnią punktację podobieństwa query względem bazy, oraz odchylenie standardow rozkładu init1. Ostateczne zestawienie (NWS) wykonywane jest tylko dla sekwencji najlepszych w rankingu (wg. init1) FASTA - zastosowanie DNA-DNA białko-białko DNA-białko białko-dna http://www.ebi.ac.uk/fasta/index.html przykład: ECGF1 (GI 522144) Wykład 5, 2011 30

Wykład 5, 2011 31

Wykład 5, 2011 32

Wykład 5, 2011 33

FASTA - Results Visual FASTA Wykład 5, 2011 34

FASTA Alignments display FASTA - MView Wykład 5, 2011 35

BLAST Basic Lolcal Alignment Search Tool BLAST oparty na wynikach statystycznego rozkładu punktacji lokalnych zestawień P(S>x) = 1- exp(-kmne -λx ) Zasada działania podobna do FASTA szybkie przeszukanie bazy, odrzucenie niepodobnych sekwencji, formalne zestawienie rozkład punktacji zestawień bez przerw (gaps) można wyliczyć zestawienia z przerwami tworzy się z szeregu zestawień bez przerw Wykład 5, 2011 36

BLAST dla białek - BLASTp 1. podzielenie query na nakładające się słowa 2. określenie słów pokrewnych i przeszukanie bazy szukanie słów 3. wydłużenie zestawienia od słowa identycznego tworzenie MSP (matching segment pair), obliczenie istotności dla MSP 4. lokalne programowanie dynamiczne wokół MSP BLASTp etap 1 Query: TPQGQRQGQ.. podział na nakładające się słowa: TPQ PQG QGQ GQR QRQ RQG 1 2 3,7 4 5 6 Proces kontrolowany przez: w długość słowa T treshold minimalna punktacja jaką musi otrzymać słowo przy sparowaniu dopuszczone są nieidentyczność (niesparownie), punktacja na podstawie BLOSUM65 dla białek w=3 (najczęściej) do etapu 2 Wykład 5, 2011 37

BLASTp etap 2 słowa pokrewne Query: TPQGQRQGQ.. TPQ PQG QGQ GQR QRQ RQG 1 2 3,7 4 5 6 tworzenie listy słów pokrewnych w oparciu o macierz BLOSUM62 AAA AAC AAD... PQG QGQ YYY AGA AGC AAN PEG QGM... AAG GAC AAE PRG MGQ... GAA AAQ PMG QAQ GAG QGN BLASTp etap 2 punktacja podobnych słów określona jest przez macierz BLOSUM62 PQG 18 PEG 15 PRG 14 PMG 14 PNG 13 PDG 13 PKG 12 etc. T Query: 325 LNKCKTPQGQRQGQQWIKQPLMDKN 350 L TP+GQR++++W+ P+ D Sbjct: 290 LDCTVTPMGQREAERWLHMPVRDTR 315 Wykład 5, 2011 38

BLAST - etap 2 słowa rozpoczną rozszerzanie zestawienia BLAST zależność od wartości T T = 12 T = 14 T = 16 kompromis między czasem, czułościa i specyficznością Wykład 5, 2011 39

Czułość,Specyficzność czułość = Prawdziwie pozytywne Prawdziwie pozytywne+fałszywie negatywne Prawdziwie pozytywne specyficzność = Prawdziwie pozytywne+fałszywie pozytywne niepodobne wszystkie znalezione podobne nieznalezione zbiór podobnych zbiór wszystkich sekwencji Wykład 5, 2011 40

punktacja BLAST etap 3 wydłużanie sekwencji do wydłużenia potrzebne są dwa słowa na tej samej diagonalnej w odległości nie większej niż zadana wartość powstają HSP (high scoring pair) przybliżenie MSP kontrola przez x-dropoff value (jeśli punktacja zmniejszy się o x, wydłuzanie jest przerwane) tymaczasowa max punktacja max punktacja x = 5 długość zachowanego zestawienia Rodzaje BLASTów http://www.ncbi.nlm.nih.gov/blast/ Wykład 5, 2011 41