Bioinformatyka (wykład monograficzny) wykład 5. E. Banachowicz Zakład Biofizyki Molekularnej IF UM http://www.amu.edu.pl/~ewas lgorytmy macierze punktowe (DotPlot) programowanie dynamiczne metody heurystyczne (BLS, FS) metody statystyczne (modele Markova, statystyka Bayesa) Rodzaje dopasowań pokrycie sekwencji globalne, lokalne liczba sekwencji porównywanych para (pairwise sequence alignment) więcej niż dwie (multiple sequences alignment) Wykład 5, 2006 1
Pokrycie sekwencji dopasowanie globalne dopasowanie wzdłuż całej sekwencji (zastosowanie: do białek składających się z pojedynczej domeny lub homologicznych słabo zróżnicowanych) dopasowanie lokalne uwzględnia domenową naturę białek, szuka subsekwencji (zastosowanie: do białek wielodomenowych, mrn z sekwencją genomową) DotPlot- Dotter Dotter: http://www.cgb.ki.se/cgb/groups/sonnhammer/dotter.html wykrywają fragmenty powtarzalne i rearanżacje opierają się na ocenie wizualnej czasami skuteczniejszej niż alignment idealny do szukania lokalnego podobieństwa Przykład: czynnik krzepnięcia XII (F12) aktywator tkankowo specyficznego plazminogenu (PL) (Bioinformatyka. Podręcznik do analizy genów i białek..d. Baxevanis, B.F.F. Quellette, PWN, 2005 ) Wykład 5, 2006 2
Dotter - sekwencje Dotter - sekwencje Wykład 5, 2006 3
Dotter SMR (http://smart.embl-heidelberg.de/) >gi 33877196 gb H02795.2 PL protein [Homo sapiens] >gi 180359 gb 51986.1 coagulation factor XII FN1 fibrynonektyna typ I, powtarzalna jednostka FN2 fibrynonektyna typ II, powtarzalna jednostka EF moduł nabłonkowego czynnika wzrostu KR domena typu kringle ryp SPc domena katalityczna zapewniająca aktywność proteinazy serynowej Wykład 5, 2006 4
czynnik krzepnięcia krwi aktywator tkankowo specyficznego plazminogenu czynnik krzepnięcia krwi aktywator tkankowo specyficznego plazminogenu Wykład 5, 2006 5
czynnik krzepnięcia krwi aktywator tkankowo specyficznego plazminogenu Dotter niektóre układy punktów tworząścieżkę każda ścieżka odpowiada jednemu dopasowaniu M Y S E Q U E N E H I S S E Q E N E H I S S E Q E N E M Y S E Q U E N E M Y S E Q U E N E H I S S E Q E N E znaleźć najlepszą ścieżkę! Wykład 5, 2006 6
Najlepsza ścieżka Madryt Poznań http://www.viamichelin.com optymalna? najszybsza? najkrótsza? Najlepsza ścieżka? Wykład 5, 2006 7
lgorytm Needlemana-Wunscha strategia najlepszej ścieżki programowanie dynamiczne przeszukiwanie dotyczy pełnego zakresu sekwencji (obszaru dopasowania)- dopasowanie globalne każda podścieżka stanowić może fragment optymalnej ścieżki. Ścieżki szuka się poszerzając zakres podscieżek. Needlemann, Wunch (1970) J.Mol.Biol. 48, 443-453 Sekwencja Sekwencja Sekwencja Sekwencja B Sekwencja B Sekwencja B Wykład 5, 2006 8
lgorytm Smitha-Watermana dopasowanie lokalne ścieżka dopasowania nie musi osiągać krawędzi analizowanej sekwencji ścieżka jest lokalnie optymalna jeśli jej wydłużanie/skracanie nie poprawia obliczonej dla niej wartości system wartościowania dopasowania zaniża wartości w regionach słabego dopasowania = przerwanie ścieżki mogą istniećścieżki złożone z kilku połączonych ścieżek Smith, Waterman (1981) J.Mol.Biol. 147, 195-197 Szukanie wielu dopasowań -subdopasowania Metoda optymalna daje zawsze najlepsze dopasowanie nawet jeśli nie ma ono znaczenia biologicznego znaczących, niezachodzących na siebie dopasowń lokalnych można naleźć kilka subdopasownia rzeba szukać więcej niż jednego dopasowania! (lalign, SIM) Przykład: zynnik krzepnięcia IX (F9, SWISS-PRO P00740) zynnik krzepnięcia XII (F12, SWISS-PRO P00748) Wykład 5, 2006 9
Dopasowanie optymalne i suboptymalne >sp P00740 F9_HUMN oagulation factor IX precursor (E 3.4.21.22) >sp P00740 F9_HUMN oagulation factor IX precursor (E 3.4.21.22) (hristmas (hristmas factor) factor) (Plasma (Plasma thromboplastin thromboplastin component) component) (P) (P) [ontains: [ontains: oagulation oagulation factor factor IXa IXa light light chain; chain; oagulation oagulation factor factor IXa IXa heavy heavy chain] chain] - - Homo Homo sapiens sapiens (Human). (Human). MQRVNMIMESPLIILLYLLSEVFLDHENNKILNRPKRYNSKLEEFVQNL MQRVNMIMESPLIILLYLLSEVFLDHENNKILNRPKRYNSKLEEFVQNL EREMEEKSFEEREVFENEREFWKQYVDDQESNPLNSKDDINSYEWP EREMEEKSFEEREVFENEREFWKQYVDDQESNPLNSKDDINSYEWP FFEKNELDVNIKNREQFKNSDNKVVSEYRLENQKSEPVPFPR FFEKNELDVNIKNREQFKNSDNKVVSEYRLENQKSEPVPFPR VSVSQSKLREVFPDVDYVNSEEILDNIQSQSFNDFRVVEDKPQFPW VSVSQSKLREVFPDVDYVNSEEILDNIQSQSFNDFRVVEDKPQFPW QVVLNKVDFSIVNEKWIVHVEVKIVVEHNIEEEHEQKRNVIRII QVVLNKVDFSIVNEKWIVHVEVKIVVEHNIEEEHEQKRNVIRII PHHNYNINKYNHDILLELDEPLVLNSYVPIIDKEYNIFLKFSYVSWRVF PHHNYNINKYNHDILLELDEPLVLNSYVPIIDKEYNIFLKFSYVSWRVF HKRSLVLQYLRVPLVDRLRSKFIYNNMFFHERDSQDSPHVEVE HKRSLVLQYLRVPLVDRLRSKFIYNNMFFHERDSQDSPHVEVE SFLIISWEEMKKYIYKVSRYVNWIKEKKL SFLIISWEEMKKYIYKVSRYVNWIKEKKL >sp P00748 F12_HUMN >sp P00748 F12_HUMN oagulation oagulation factor factor XII XII precursor precursor (E (E 3.4.21.38) 3.4.21.38) (Hageman (Hageman factor) factor) (HF) (HF) [ontains: [ontains: oagulation oagulation factor factor XIIa XIIa heavy heavy chain; chain; Betafactor XIIa part 1; Beta-factor XIIa part 2; oagulation factor XIIa light Betafactor XIIa part 1; Beta-factor XIIa part 2; oagulation factor XIIa light chain] - Homo sapiens (Human). chain] - Homo sapiens (Human). MRLLLLFLLVSLESLSIPPWEPKEHKYKEEHVVLVEPHFPFQYHRQLYHK MRLLLLFLLVSLESLSIPPWEPKEHKYKEEHVVLVEPHFPFQYHRQLYHK HKRPPQPWPNFDQDQRWYLEPKKVKDHSKHSPQKVNMPSPHL HKRPPQPWPNFDQDQRWYLEPKKVKDHSKHSPQKVNMPSPHL PQHLNHQKEKFEPQLLRFFHKNEIWYREQVRQKPDHQRLSQR PQHLNHQKEKFEPQLLRFFHKNEIWYREQVRQKPDHQRLSQR NPLHRLEVEHRLHPVYPFDVDKSYDRLSYRLRLSPQP NPLHRLEVEHRLHPVYPFDVDKSYDRLSYRLRLSPQP WSEYRNVEQRNWLHFRNPDNDIRPWFVLNRDRLSWEYDLQQPQ WSEYRNVEQRNWLHFRNPDNDIRPWFVLNRDRLSWEYDLQQPQ PPPVSPRLHVPLMPQPPPKPQPRPPQSQPLPKREQPPSLRNPLS PPPVSPRLHVPLMPQPPPKPQPRPPQSQPLPKREQPPSLRNPLS QRLRKSLSSMRVVLVLRHPYILYWHSFSLIPWVLHLQDRPP QRLRKSLSSMRVVLVLRHPYILYWHSFSLIPWVLHLQDRPP EDLVVLQERRNHSEPQLVRSYRLHEFSPVSYQHDLLLRLQEDDSLLSP EDLVVLQERRNHSEPQLVRSYRLHEFSPVSYQHDLLLRLQEDDSLLSP YVQPVLPSRPSELQVWHQFEEEYSFLQEQVPFLSLERSPDVHS YVQPVLPSRPSELQVWHQFEEEYSFLQEQVPFLSLERSPDVHS SILPMLFLEDQDSPLVEDQERRLLQIISWSDRNKPVY SILPMLFLEDQDSPLVEDQERRLLQIISWSDRNKPVY DVYYLWIREHVS DVYYLWIREHVS P00740 P00748 ExPasy Dopasowanie optymalne i suboptymalne lalign http://www.ch.embnet.org/software/llin_form.html Wykład 5, 2006 10
oraz dopasowania 2 i 3: SIM http://www.expasy.ch/tools/sim-prot.html P00740 P00748 Wykład 5, 2006 11
Wartości substytucji i kary za przerwy schemat wartościowania I: (match) dopasowany: +1 (mismatch) niedopasowany: -1 (gap) przerwa: -1 (nie-afiniczne kary za przerwy każda przerwa traktowana jest tak samo) schemat wartościowania II: dopasowany: +1 niedopasowany: -1 otwarcie przerwy: przedłużenie przerwy: L (afiniczne kary za przerwy kara za otwarcie, kary za przedłużenie ) Punktacja obszar dopasowania - dopasowanie przerwa niedopasowanie S punktacja za dopasowanie Score = Max(S) S = Σ(dopasowania) - Σ(niedopasowania) - Σ(przerwy) Wykład 5, 2006 12
Punktowanie przerw non-affine model (nieafinicznie): równo (match:4, mismatch:-3, gap:-4) affine model (afinicznie): + L n (match:4, mismatch:-3, gap creation:-8, gap:-4) ------ -3 4 4 4 4 4 4 4-4-3 4 4 4-3-4-4-4-4-4 4 4 4 :23-3 4 4 4 4 4 4 412-3 4 4 4-312-4-4-4-4 4 4 4 :7-3 -12 4-3 -3-3 -3 4-3 -3 3-3 4-3 -3-3 -3 4 ------ -3 4 4 4 4 4 4 4-4-3 4 4 4-4-4-4 4-4-4 4 4 4 :26-3 4 4 4 4 4 4 412-3 4 4 412-4-4 412-4 4 4 :2 4-12 4-12 4-12 Programowanie dynamiczne najlepsza ścieżka schemat wartościowania I: (match) dopasowany: +1 (mismatch) niedopasowany: -1 (gap) przerwa: -1 (nie-afiniczne kary za przerwy każda przerwa traktowana jest tak samo) Wykład 5, 2006 13
Programowanie dynamiczne zasady: dopasowane z = -1 dopasowane z = +1 NULL dopasowane z = -1 dopasowane z NULL = -1 Programowanie dynamiczne 0-1 -1 +1 Wykład 5, 2006 14
Programowanie dynamiczne 0-1 -1-2 +1-2 stopniowe poszerzanie ścieżek Programowanie dynamiczne 0-1 -1-2 +1-2 0 0 +2 stopniowe poszerzanie ścieżek Wykład 5, 2006 15
Programowanie dynamiczne 0-1 -2-1 +1 0-2 0 +2 stopniowe poszerzanie ścieżek Programowanie dynamiczne 0-1 -2-3 -1-2 -3 +1 0-1 0 +2 +1-1 +1 +3 stopniowe poszerzanie ścieżek Wykład 5, 2006 16
Programowanie dynamiczne 0-1 -2-3 -4-5 -1-2 -3 +1 0-1 -2-3 0 +2 +1 0-1 -1 +1 +3 +2 +1-4 -2 0 +2 +2 +1-5 -3-1 +1 +3 +2 stopniowe poszerzanie ścieżek wszystkie punkty musza zostać zbadane Programowanie dynamiczne 0-1 -2-3 -4-5 -6-7 -1-2 -3 +1 0-1 -2-3 -4-5 0 +2 +1 0-1 -2-3 -1 +1 +3 +2 +1 0-1 -4-2 0 +2 +2 +1 +2 +1-5 -3-1 +1 +3 +2 +1 +3-6 -4-2 0 +2 +4 +3-7 -5-8 -6-3 -1 +1 +3 +3-4 -2 0 +2 +2 +2 +2 +4 stopniowe poszerzanie ścieżek Wykład 5, 2006 17
Programowanie dynamiczne 0-1 -2-3 -4-5 -6-7 -1-2 -3 +1 0-1 -2-3 -4-5 0 +2 +1 0-1 -2-3 -1 +1 +3 +2 +1 0-1 -4-2 0 +2 +2 +1 +2 +1-5 -3-1 +1 +3 +2 +1 +3-6 -4-2 0 +2 +4 +3-7 -5-8 -6-3 -1 +1 +3 +3-4 -2 0 +2 +2 +2 +2 +4 stopniowe poszerzanie ścieżek - Programowanie dynamiczne stopniowe poszerzanie ścieżek - Wykład 5, 2006 18
Wartości substytucji i kary za przerwy Schemat punktacji bardziej złożony: macierze substytucji PM: macierze oparte na modelu ewolucyjnym akceptowanych mutacji punktowych (1 jednostka PM- stopień zróznicowania ewolucyjnego, w którym zmienił się 1% aminokwasów) częstość zmian przypadkowych częstość tła częstość substytucji częstość docelowa zmiany pojawiające się w białkach spokrewnionych Macierz PM250 wartości w macierzy są proporcjonalne do logarytmu z (cz. docelowej/cz.tła) zbudowana na podstawie analizy par blisko spokrewnionych (1PM) i ekstrapolowana do 250PM ekstrapolacje można przeprowadzić dla różnych odległości ewolucyjnych PM duże PM stosuje się do porównywania sekwencji o dużym stopniu dywergencji ewolucyjnej małe PM do badania sekwencji podobnych Wykład 5, 2006 19
Macierze BLOSUM Powstały w oparciu o bazę BLOKS dopasowanie sekwencji daleko spokrewnionych (oszacowanie częstotliwości docelowych, bez modelu ewolucyjnego) Rodzina macierzy: różnice (indeksu) związane są z maksymalnym stopniem identyczności sekwencji wziętych do obliczeń () BLOSUM62 BLOSUM90 do analizy sekwencji blisko spokrewnionych BOLSUM30 do analizy odległych ewolucyjnie sekwencji Wykład 5, 2006 20
Statystyczne znaczenie dopasowań jaka jest wartość/ istotność dopasowania? Dla dopasowań globalnych: porównanie obliczonej wartości dla danego dopasowania z wartościami obliczonymi dla wielu dopasowań przypadkowych sekwencji o podobnym składzie i długości Dla dopasowań lokalnych: podstawą jest rozkład wartości granicznej, scharakteryzowanej paramerami K i λ E (S) = K m n exp -λs Expected value, wartość oczekiwana sekwencji mających wartość sonajmniej S S bit score, punktacja podobieństwa m range of alignment, długość porównywanego segmentu n wielkość bazy λ - określa wpływ systemu punktowania K liczba powtarzających się segmentów w przeszukiwanej sekwencji Wykład 5, 2006 21
Następny wykład BLS, FS porównanie wielosekwencyjne w poszukiwanie wspólnego przodka KONIE Wykład 5, 2006 22