Bioinformatyka. Porównywanie sekwencji

Bioinformatyka Wykład 5 E. Banachowicz Zakład Biofizyki Molekularnej IF UM 1 http://www.amu.edu.pl/~ewas Porównywanie sekwencji Pierwsze pytanie biologa molekularnego, kiedy odkryje nową sekwencję: zy w bazie sekwencji są już sekwencje podobne do mojej? sekwencje są identyczne nic nowego. sekwencja jest podobna (ma krewnych ) nowy członek znanej rodziny sekwencja ma kilka podobnych regionów, motywów lub domen można zaproponować funkję Nie ma znaczącego podobieństwa dużo pracy.. Wykład 5, 2008 1

Porównywanie sekwencji elem porównania białek jest między innymi przypisanie informacji znanej dla jednej cząsteczki drugiej cząsteczce lgorytmy macierze punktowe (DotPlot) programowanie dynamiczne metody heurystyczne (BLS, FS) metody statystyczne (modele Markova, statystyka Bayesa) Rodzaje dopasowań pokrycie sekwencji globalne, lokalne liczba sekwencji porównywanych para (pairwise sequence alignment) więcej niż dwie (multiple sequences alignment) Wykład 5, 2008 2

Pokrycie sekwencji dopasowanie globalne dopasowanie wzdłuż całej sekwencji (zastosowanie: do białek składających się z pojedynczej domeny lub homologicznych słabo zróżnicowanych) dopasowanie lokalne uwzględnia domenową naturę białek, szuka subsekwencji (zastosowanie: do białek wielodomenowych, mrn z sekwencją genomową) 5 Macierze punktowe (DotPlot) http://www.biophys.uni-duesseldorf.de/local/doplo/dotplot.html Dotter: http://www.cgb.ki.se/cgb/groups/sonnhammer/dotter.html http://www.changbioscience.com/res/resd.html wykrywają fragmenty powtarzalne i rearanżacje opierają się na ocenie wizualnej czasami skuteczniejsze niż alignment Wykład 5, 2008 3

H I S S E Q E N E Wykład Bioinformatyka H5N1 (H, swan) H5N1 (H, chicken) Dotter niektóre układy punktów tworzą ścieżkę każda ścieżka odpowiada jednemu dopasowaniu M Y S E Q U E N E H I S S E Q E N E M Y S E Q U E N E H I S S E Q E N E M Y S E Q U E N E znaleźć najlepszą ścieżkę! 8 Wykład 5, 2008 4

Liniowe zestawienie dwóch sekwencji Pairwise Sequence lignment sekwencja 1 BEERGYLEDILGERFGSOUFWERM BEERNLEDLGERDFWGLSOUWRRWER sekwencja 2 Punktacja dla białek jest bardziej złożona 20 aminokwasów laresansom BEERGYLEDILGERFGSOUFWERM BEERNLEDLGERDFWGLSOUWRRWER laresansom Wykład 5, 2008 5

BEERGYLEDILGERFGSOUFWERM BEERNLEDLGERDFWGLSOUWRRWER laresansom BEERGYLEDILGERFGSOUFWERM BEERNLEDLGERDFWGLSOUWRRWER laresansom Wykład 5, 2008 6

BEERGYLEDILGERFGSOUFWERM BEERNLEDLGERDFWGLSOUWRRWER laresansom BEERGYLEDILGERFGSOUFWERM BEERNLEDLGERDFWGLSOUWRRWER laresansom Wykład 5, 2008 7

Insercja/Delecja => GPS zestawienie jeden-do-jeden przerwy odzwierciedlają wydarzenia ewolucyjne (wyzwanie dla programistów) BEERGYLEDILGERFGSOUFWERM BEERNLEDLGERDFWGLSOUWRRWER laresansom Insercja/Delecja => GPS BEERGYLEDILGERFGSOUFWERM BEERNLEDLGERDFWGLSOUWRRWER laresansom Wykład 5, 2008 8

Insercja/Delecja => GPS BEERGYLEDILGERFGSOUFWERM BEERN-LEDLGERDFWGLSOUWRRWER laresansom Insercja/Delecja => GPS BEERGYLEDILGERFGSOUFWERM BEERN-LED-LGERDFWGLSOUWRRWER laresansom Wykład 5, 2008 9

Insercja/Delecja => GPS BEERGYLEDILGERFG-SOUFWERM BEERN-LED-LGERDFWGLSOUWRRWER laresansom Insercja/Delecja => GPS BEERGYLEDILGERFG--SOUFWERM BEERN-LED-LGERDFWGLSOUWRRWER laresansom Wykład 5, 2008 10

Insercja/Delecja => GPS BEERGYLEDILGERFG---SOUFWERM BEERN-LED-LGERDFWGLSOUWRRWER laresansom Insercja/Delecja => GPS BEERGYLEDILGERFG---SOUF-WERM BEERN-LED-LGERDFWGLSOUWRRWER laresansom Wykład 5, 2008 11

Insercja/Delecja => GPS BEERGYLEDILGERFG---SOUF--WERM BEERN-LED-LGERDFWGLSOUWRRWER laresansom Insercja/Delecja => GPS G<->W = -7 G<->G = +5 BEERGYLEDILGERF-G--SOUF--WERM BEERN-LED-LGERDFWGLSOUWRRWER laresansom Wykład 5, 2008 12

Insercja/Delecja => GPS G<->W = -7 G<->G = +5 BEERGYLEDILGERF-G--SOUF--WERM -BEERN-LED-LGERDFWGLSOUWRRWER <-> = -2 <-> = +2 laresansom Insercja/Delecja => GPS Punktownia przerw programowanie dynamiczne Wykład 5, 2008 13

Najlepsza ścieżka Madryt Poznań http://www.viamichelin.com optymalna? najszybsza? najkrótsza? 27 Najlepsza ścieżka? G G 28 Wykład 5, 2008 14

Sekwencja B Sekwencja B Sekwencja B Wykład Bioinformatyka lgorytm Needlemana-Wunscha strategia najlepszej ścieżki programowanie dynamiczne przeszukiwanie dotyczy pełnego zakresu sekwencji (obszaru dopasowania)- dopasowanie globalne każda podścieżka stanowić może fragment optymalnej ścieżki. Ścieżki szuka się poszerzając zakres podscieżek. Needlemann, Wunch (1970) J.Mol.Biol. 48, 443-453 29 Sekwencja Sekwencja Sekwencja 30 Wykład 5, 2008 15

lgorytm Smitha-Watermana dopasowanie lokalne ścieżka dopasowania nie musi osiągać krawędzi analizowanej sekwencji ścieżka jest lokalnie optymalna jeśli jej wydłużanie/skracanie nie poprawia obliczonej dla niej wartości system wartościowania dopasowania zaniża wartości w regionach słabego dopasowania = przerwanie ścieżki mogą istnieć ścieżki złożone z kilku połączonych ścieżek Smith, Waterman (1981) J.Mol.Biol. 147, 195-197 31 Szukanie wielu dopasowań -subdopasowania Metoda optymalna daje zawsze najlepsze dopasowanie nawet jeśli nie ma ono znaczenia biologicznego znaczących, niezachodzących na siebie dopasowń lokalnych można naleźć kilka subdopasownia rzeba szukać więcej niż jednego dopasowania! (lalign, SIM) Przykład: zynnik krzepnięcia IX (F9, SWISS-PRO P00740) zynnik krzepnięcia XII (F12, SWISS-PRO P00748) 32 Wykład 5, 2008 16

Dopasowanie optymalne i suboptymalne >sp P00740 F9_HUMN oagulation factor IX precursor (E 3.4.21.22) (hristmas factor) (Plasma thromboplastin component) (P) [ontains: oagulation factor IXa light chain; oagulation factor IXa heavy chain] - Homo sapiens (Human). MQRVNMIMESPGLIILLGYLLSEVFLDHENNKILNRPKRYNSGKLEEFVQGNL EREMEEKSFEEREVFENEREFWKQYVDGDQESNPLNGGSKDDINSYEWP FGFEGKNELDVNIKNGREQFKNSDNKVVSEGYRLENQKSEPVPFPGR VSVSQSKLREVFPDVDYVNSEEILDNIQSQSFNDFRVVGGEDKPGQFPW QVVLNGKVDFGGSIVNEKWIVHVEGVKIVVGEHNIEEEHEQKRNVIRII PHHNYNINKYNHDILLELDEPLVLNSYVPIIDKEYNIFLKFGSGYVSGWGRVF HKGRSLVLQYLRVPLVDRLRSKFIYNNMFGFHEGGRDSQGDSGGPHVEVE GSFLGIISWGEEMKGKYGIYKVSRYVNWIKEKKL P00740 >sp P00748 F12_HUMN oagulation factor XII precursor (E 3.4.21.38) (Hageman factor) (HF) [ontains: oagulation factor XIIa heavy chain; Betafactor XIIa part 1; Beta-factor XIIa part 2; oagulation factor XIIa light chain] - Homo sapiens (Human). MRLLLLGFLLVSLESLSIPPWEPKEHKYKEEHVVLVGEPHFPFQYHRQLYHK HKGRPGPQPWPNFDQDQRWGYLEPKKVKDHSKHSPQKGGVNMPSGPHL PQHLGNHQKEKFEPQLLRFFHKNEIWYREQVRQKGPDHQRLSQR NPLHGGRLEVEGHRLHPVGYGPFDVDKSYDGRGLSYRGLRLSGPQP WSEYRNVEQRNWGLGGHFRNPDNDIRPWFVLNRDRLSWEYDLQQPQ PPPVSPRLHVPLMPQPPPKPQPRPPQSQPGLPKREQPPSLRNGPLSG QRLRKSLSSMRVVGGLVLRGHPYILYWGHSFGSLIPWVLHLQDRPP EDLVVLGQERRNHSEPQLVRSYRLHEFSPVSYQHDLLLRLQEDDGSLLSP YVQPVLPSGRPSELQVGWGHQFEGEEYSFLQEQVPFLSLERSPDVHGS SILPGMLGFLEGGDQGDSGGPLVEDQERRLLQGIISWGSGGDRNKPGVY DVYYLWIREHVS P00748 ExPasy 33 Dopasowanie optymalne i suboptymalne 34 lalign http://www.ch.embnet.org/software/llign_form.html Wykład 5, 2008 17

oraz dopasowania 2 i 3: 35 SIM http://www.expasy.ch/tools/sim-prot.html P00740 P00748 36 Wykład 5, 2008 18

Wartości substytucji i kary za przerwy schemat wartościowania I: (match) dopasowany: +1 (mismatch) niedopasowany: -1 (gap) przerwa: -1 (nie-afiniczne kary za przerwy każda przerwa traktowana jest tak samo) schemat wartościowania II: dopasowany: +1 niedopasowany: -1 otwarcie przerwy: G przedłużenie przerwy: L (afiniczne kary za przerwy kara za otwarcie, kary za przedłużenie ) 37 Punktacja obszar dopasowania GGGGGGG GGGG-GGGGG dopasowanie przerwa niedopasowanie S punktacja za dopasowanie Score = Max(S) S = (dopasowania) - (niedopasowania) - (przerwy) 38 Wykład 5, 2008 19

Punktowanie przerw non-affine model (nieafinicznie): równo (match:4, mismatch:-3, gap:-4) affine model (afinicznie): G + L n (match:4, mismatch:-3, gap creation:-8, gap:-4) GGG------G GGGGG -3 4 4 4 4 4 4 4-4-3 4 4 4-3-4-4-4-4-4 4 4 4 :23-3 4 4 4 4 4 4 412-3 4 4 4-312-4-4-4-4 4 4 4 :7 GGG------G GGGGG -3 4 4 4 4 4 4 4-4-3 4 4 4-4-4-4 4-4-4 4 4 4 :26-3 4 4 4 4 4 4 412-3 4 4 412-4-4 412-4 4 4 :2 4-12 -3-12 4-12 4-12 G 4-3 -3-3 -3 4-3 -3 G 3-3 4-3 -3-3 -3 4 39 Programowanie dynamiczne najlepsza ścieżka schemat wartościowania I: (match) dopasowany: +1 (mismatch) niedopasowany: -1 (gap) przerwa: -1 (nie-afiniczne kary za przerwy każda przerwa traktowana jest tak samo) G G 40 Wykład 5, 2008 20

Programowanie dynamiczne zasady: G G dopasowane z = -1 dopasowane z = +1 NULL dopasowane z = -1 dopasowane z NULL = -1 41 Programowanie dynamiczne G G 0-1 -1 +1 42 Wykład 5, 2008 21

Programowanie dynamiczne G 0-1 G -1-2 +1-2 stopniowe poszerzanie ścieżek 43 Programowanie dynamiczne G 0-1 G -1-2 +1-2 0 0 +2 stopniowe poszerzanie ścieżek 44 Wykład 5, 2008 22

Programowanie dynamiczne G G 0-1 -2-1 +1 0-2 0 +2 stopniowe poszerzanie ścieżek 45 Programowanie dynamiczne G G 0-1 -2-3 -1-2 -3 +1 0-1 0 +2 +1-1 +1 +3 stopniowe poszerzanie ścieżek 46 Wykład 5, 2008 23

Programowanie dynamiczne G G 0-1 -2-3 -4-5 -1-2 -3 +1 0-1 -2-3 0 +2 +1 0-1 -1 +1 +3 +2 +1-4 -2 0 +2 +2 +1-5 -3-1 +1 +3 +2 stopniowe poszerzanie ścieżek wszystkie punkty musza zostać zbadane 47 Programowanie dynamiczne G G 0-1 -2-3 -4-5 -6-7 -1-2 -3 +1 0-1 -2-3 -4-5 0 +2 +1 0-1 -2-3 -1 +1 +3 +2 +1 0-1 -4-2 0 +2 +2 +1 +2 +1-5 -3-1 +1 +3 +2 +1 +3-6 -4-2 0 +2 +4 +3-7 -5-8 -6-3 -1 +1 +3 +3-4 -2 0 +2 +2 +2 +2 +4 stopniowe poszerzanie ścieżek 48 Wykład 5, 2008 24

Programowanie dynamiczne G G 0-1 -2-3 -4-5 -6-7 -1-2 -3 +1 0-1 -2-3 -4-5 0 +2 +1 0-1 -2-3 -1 +1 +3 +2 +1 0-1 -4-2 0 +2 +2 +1 +2 +1-5 -3-1 +1 +3 +2 +1 +3-6 -4-2 0 +2 +4 +3-7 -5-8 -6-3 -1 +1 +3 +3-4 -2 0 +2 +2 +2 +2 +4 stopniowe poszerzanie ścieżek G- G 49 Programowanie dynamiczne G G stopniowe poszerzanie ścieżek G- G 50 Wykład 5, 2008 25

Statystyczne znaczenie dopasowań jaka jest wartość/ istotność dopasowania? Dla dopasowań globalnych: porównanie obliczonej wartości dla danego dopasowania z wartościami obliczonymi dla wielu dopasowań przypadkowych sekwencji o podobnym składzie i długości Dla dopasowań lokalnych: podstawą jest rozkład wartości granicznej, scharakteryzowanej paramerami K i λ 51 ćwiczenia 52 Wykład 5, 2008 26

Dopasowanie Globalne -cząsteczki jednodomenowe dresy: Expasy: http://www.expasy.ch/ NBI: http://www.ncbi.nlm.nih.gov/ Narzędzia: Bl2seq: http://www.ncbi.nlm.nih.gov/blast/bl2seq/wblast2.cgi SIM + LLNVIEW:http://www.expasy.ch/tools/#align LLIGN: http://www.ch.embnet.org/software/llign_form.html lign: http://www.ebi.ac.uk/emboss/align/index.html 53 Dopasowanie globalne rypsyna: (mysz) P07146, (langusta) P00765 Zeta-krystalina (soczewka oka kręgowców) Q08257, oksydoreduktaza chininowa (E.oli) P28304 54 Wykład 5, 2008 27

DotPlot- Dotter Dotter: http://www.cgb.ki.se/cgb/groups/sonnhammer/dotter.html wykrywają fragmenty powtarzalne i rearanżacje opierają się na ocenie wizualnej czasami skuteczniejszej niż alignment idealny do szukania lokalnego podobieństwa Przykład: czynnik krzepnięcia XII (F12): P00748 aktywator tkankowo specyficznego plazminogenu (PL): P00750 (Bioinformatyka. Podręcznik do analizy genów i białek..d. Baxevanis, B.F.F. Quellette, PWN, 2005 ) 55 Dotter - sekwencje 56 Wykład 5, 2008 28

Dotter - sekwencje 57 Dotter 58 Wykład 5, 2008 29

aktywator tkankowo specyficznego plazminogenu SMR (http://smart.embl-heidelberg.de/) >gi 33877196 gb H02795.2 PL protein [Homo sapiens] >gi 180359 gb 51986.1 coagulation factor XII FN1 fibrynonektyna typ I, powtarzalna jednostka FN2 fibrynonektyna typ II, powtarzalna jednostka EGF moduł nabłonkowego czynnika wzrostu KR domena typu kringle ryp SPc domena katalityczna zapewniająca aktywność proteinazy serynowej 59 czynnik krzepnięcia krwi 60 Wykład 5, 2008 30

aktywator tkankowo specyficznego plazminogenu aktywator tkankowo specyficznego plazminogenu czynnik krzepnięcia krwi 61 czynnik krzepnięcia krwi 62 Wykład 5, 2008 31

c.d.n. (macierze substytucji, statystyczne znaczenie dopasowań) KONIE 63 Wykład 5, 2008 32