Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

Transkrypt

1 Dopasowanie sekwencji c.d. Sequence alignment Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

2 Dopasowanie sekwencji - znaczenie Podobieństwo porównywanych sekwencji (similarity) może świadczyć o: podobnej funkcji sekwencji podobnej strukturze białek wspólnej historii ewolucyjnej sekwencji Podobieństwo porównywanych sekwencji (similarity) może wynikać z: homologii - pochodzeniu sekwencji (homologicznych) od wspólnego przodka; sekwencje mogą, ale nie muszą pełnić te same funkcje konwergencji - podobne motywy, które wyewoluowały w obu sekwencjach (analogicznych) niezależnie; np. chymotrypsyna i subtylizyna - różna struktura 3D, ale podobne centrum aktywne (histydyna, seryna, kwas asparaginowy) {... Problem rozróżnienia odległej homologii a analogii }

3 dopasowanie - metody dopasowanie par sekwencji: Macierz punktów - dot matrix, dotplot Programowanie dynamiczne (DP) Metody słów (k - tuple methods) - szybkie metody stosowane przy przeszukiwaniu baz danych sekwencji z wykorzystaniem programów FASTA i BLAST dopasowanie wielu sekwencji

4 dopasowanie globalne i lokalne dopasowanie globalne (Needleman & Wunsch, 1970) przyrównuje sekwencje na całej długości; wykorzystuje tak dużo znaków, jak to jest tylko możliwe. dopasowanie lokalne (Smith & Waterman, 1981) przyrównuje fragmenty sekwencji, które wykazują największe podobieństwo; poszukuje najlepiej pasujących regionów; znajduje regiony konserwowane. Gdy obliczana wartość punktacji w macierzy jest mniejsza od zera, to wartość ta jest ustawiana na zero, a dopasowanie ulega zakończeniu do tego miejsca i rozpoczynany jest nowe` dopasowanie od nowego miejsca Optymalne dopasowanie globalne LGPSSKQTGKGS-SRIWDN LN-ITKSAGKGAIMRLGDA sekwencje o podobnej długości, blisko spokrewnione Optymal ne dopasowanie lolalne TGKG AGKG sekwencje o różnych długościach, posiadające regiony i domeny zachowane, podobne tylko w niektórych obszarach

5 Istotność dopasowania alignment significance Łatwiej oszacować istotność statystyczną Trudniej ocenić istotność biologiczną

6 Istotność dopasowania alignment significance Czy punktacja dopasowania jest znacząco większa od punktacji oczekiwanej dla dopasowania losowych sekwencji o tej samej długości i składzie? Tworzenie metodą Monte Carlo losowych(-ej) sekwencji (o tej samej długości i składzie co rzeczywiste). Przyrównanie losowych(-ej) sekwencji (powtórzenie np razy) przy tych samych parametrach dopasowania. Określenie rozkładu punktacji, średniej i odchylenia standardowego (SD). Wyliczenie Z-score: Z = (score obs score ran )/SD ran Przykładowe empiryczne reguły : 3 > Z brak homologii 3 < Z < 6 istnieje homologia Z > 6 silna homologia Rozkład punktacji (score) nie jest rozkładem normalnym i dlatego nie można przekształcić Z-score na prawdopodobieństwo.

7 Istotność dopasowania Dla dopasowań lokalnych rozkład maksymalnych wartości punktacji dopasowania dla sekwencji losowych przyjmuje rozkład wartości ekstremalnych, extreme values distribution (Karlin i Altschul 1990). Log p(s>=s ) S Wykres zależności logarytmu ułamka dopasowań z punktacją S równą lub większą od wartości punktacji S E-value (expect value) oczekiwana (wg rozkładu) liczba dopasowań z punktacją równą przynajmniej S E=Kmn e λs

8 Bit score- znormalizowana punktacja uwzględniająca warunki jej naliczania i przyjęte systemy punktacji (parametry lambda i K) E=mn2 S' S'= λs ln K ln2 m, n: długości porównywanych sekwencji, λ: parametr skalujący zależny od systemu punktacji k: parametr skalujący zależny od przeszukiwanej bazy danych Prawdopodobieństwo znalezienia przynajmniej jednego dopasowania o punktacji >=S p= 1 e E

9 dopasowanie wielu sekwencji (MSA) przyrównanie (porównanie) wielu (co najmniej trzech) sekwencji HBB_HUMAN VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLST HBB_HORSE VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSN HBA_HUMAN VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS- HBA_HORSE VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS- GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTT MYG_PHYCA VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKT LGB2_LUPLU GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSE *: : : *. :.: * : * :. HBB_HUMAN PDAVMGNPKVKAHGKKVLGAFSDGLAHLDN-----LKGTFATLSELHCDKLHVDPENFRL HBB_HORSE PGAVMGNPKVKAHGKKVLHSFGEGVHHLDN-----LKGTFAALSELHCDKLHVDPENFRL HBA_HUMAN ----HGSAQVKGHGKKVADALTNAVAHVDD-----MPNALSALSDLHAHKLRVDPVNFKL HBA_HORSE ----HGSAQVKAHGKKVGDALTLAVGHLDD-----LPGALSNLSDLHAHKLRVDPVNFKL GLB5_PETMA ADQLKKSADVRWHAERIINAVNDAVASMDDT--EKMSMKLRDLSGKHAKSFQVDPQYFKV MYG_PHYCA EAEMKASEDLKKHGVTVLTALGAILKKKGH-----HEAELKPLAQSHATKHKIPIKYLEF LGB2_LUPLU VP--QNNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKG-VADAHFPV..:: *. :. : *. *. : :. HBB_HUMAN LGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE LGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN LSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE LSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR GLB5_PETMA LAAVIADTVAAG DAGFEKLMSMICILLRSAY MYG_PHYCA ISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG LGB2_LUPLU VKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA--- : :.:.... :

10 Dopasowania wielu sekwencji - zastosowanie Określanie powiązań filogenetycznych między sekwencjami Poszukiwanie odległych homologów Poszukiwanie wspólnych, konserwowanych wzorów, motywów i domen w sekwencjach, odpowiedzialnych za odpowiednie funkcje biochemiczne lub strukturę przestrzenną. Grupowanie białek w rodziny o wspólnej funkcji biochemicznej lub historii ewolucyjnej. Identyfikowanie członków rodzin białek. Identyfikowanie zachodzących fragmentów sekwencji powstałych w wyniku losowego sekwencjonowania genomów i ułatwienie ich składania w jedną całą sekwencję. Najbardziej wiarygodny dla sekwencji o podobnej długości i posiadających zachowanie regiony.

11 Dopasowania wielu sekwencji a analizy filogenetyczne N-IAWSQGA NFLAWSQGA NFIAWSQGA NFIAWTQ-A I -> L - G sekw1 NFLAWSQGA sekw2 NFIAWSQGA sekw3 NFIAWTQ-A sekw4 N-IAWSQGA + F

12 Dopasowania wielu sekwencji - metody Programowanie dynamiczne (PD) - zbyt skomplikowane dla wielu sekwencji; stosowany dla niewielu krótkich sekwencji program MSA (dopasowanie globalne) Metody aproksymacyjne: Progresywne dopasowanie globalne (hierarchiczne) programy: CLUSTALW, CLUSTALX Metody iteracyjne programy: MultAlin, PRRP, DIALIGN, SAGA (algorytm genetyczny)

13 Dopasowanie wielu sekwencji i PD - złożoność problemu Optymalne dopasowanie dwóch sekwencji przy pomocy programowania dynamicznego - macierz punktacji w kwadracie, wymagany czas: L 2 ; L - długość sekwencji Optymalne dopasowanie trzech sekwencji przy pomocy programowania dynamicznego - macierz punktacji w sześcianie; wymagany czas: L 3 Optymalne dopasowanie N sekwencji przy pomocy programowania dynamicznego - macierz punktacji w N wymiarach: wymagany czas: L N - rośnie wykładniczo ze wzrostem liczby sekwencji (N)

14 Dopasowanie wielu sekwencji - trzy sekwencje A S Szukanie optymalnego dopasowania w objętości sześcianu. A N V S N - S - S N A A S S start V S N S

15 Dopasowanie wielu sekwencji i PD program MSA Liczenie w objętości (w przestrzeni N-wymiarowej) punktacji dla wielokrotnego dopasowania. Punktacja dla wielokrotnego dopasowania jest sumą punktacji uzyskanych dla porównania wszystkich par sekwencji w wielokrotnym alignment-cie (miara SP sum of pairs). Optymalne dopasowanie to takie, który posiada najlepszy SP score.

16 Progresywne dopasowanie globalne - program CLUSTALW Sekwencje globin >HBB_HUMAN VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFAT LSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH* >HBB_HORSE VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLKGTFAA LSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH* >HBA_HUMAN VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLH AHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR* >HBA_HORSE VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFDLSHGSAQVKAHGKKVGDALTLAVGHLDDLPGALSNLSDLH AHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR* >MYG_PHYCA VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGHHEAELK PLAQSHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG* >GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVNDAVAS MDDTEKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAGDAGFEKLMSMICILLRSAY* >LGB2_LUPLU GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSEVPQNNPELQAHAGKVFKLVYEAAIQLQVTGVVVTD ATLKNLGSVHVSKGVADAHFPVVKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA*

17 DOPASOWANIA WIELOKROTNE Metoda hierarchiczna Porównujemy zestaw 7 sekwencji :HAHU, HBHU,HAHO, HBHO, MYWHP, PILHB i LGHB Dopasowujemy osobno każdą możliwą parę sekwencji i obliczamy według pewnego algorytmu wzajemne podobieństwo sekwencji w obrębie każdej z 21 par Wynik przedstawiamy w macierzy podobieństw HBHU 21.1 HAHU HBHU HAHO HBHO MYWHP PILHB HAHO HBHO MYWHP PILHB LGHB

18 Tworzenie drzewa przewodniego HAHU HAHO HBHU HBHO MYWHP PILHB LGHB

19 Stopniowe zestawianie sekwencji dopasowanych HBHO dopasowanie HBHU Programowanie dynamiczne HBHO HBHU HAHU dopasowanie HAHO Programowanie dynamiczne HAHU HAHO

20 HBHO HBHU Nowa przerwa HAHU HAHO Programowanie dynamiczne HBHO HBHU HAHU HAHO dopasowanie czterech sekwencji - Dodawanie kolejnych sekwencji, coraz bardziej odległych według drzewa przewodniego

21 Sekwencyjne przyrównywanie sekwencji, ze względu na podobieństwo opisane na drzewie: przyrównanie najpierw sekwencji najbardziej podobnych, a następnie dołączanie do już utworzonego dopasowania pozostałych najbardziej podobnych sekwencji wg przewodniego drzewa filogenetycznego. Sekwencje po dopasowaniu są traktowane jako całość. HBB_HUMAN VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLK HBB_HORSE VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLK HBB_HUMAN GTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE GTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSA HBA_HORSE VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFDLSHGSAQVKAHGKKVGDALTLAVGHLDDLPGALSN HBA_HUMAN LSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE LSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR + HBB_HUMAN VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLK HBB_HORSE VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLK HBA_HUMAN -VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTNAVAHVDDMP HBA_HORSE -VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTLAVGHLDDLP HBB_HUMAN GTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE GTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN NALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE GALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR

22 HBB_HUMAN VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLK HBB_HORSE VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLK HBA_HUMAN -VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTNAVAHVDDMP HBA_HORSE -VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTLAVGHLDDLP HBB_HUMAN GTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE GTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN NALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE GALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVND GLB5_PETMA AVASMDDTEKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAGDAGFEKLMSMICILLRSAY + HBB_HUMAN VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSD HBB_HORSE VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGE HBA_HUMAN VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTN HBA_HORSE VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTL GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVND HBB_HUMAN GLAHLDN---LKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE GVHHLDN---LKGTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN AVAHVDD---MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE AVGHLDD---LPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR GLB5_PETMA AVASMDDTEKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAG DAGFEKLMSMICILLRSAY-

23 Progresywne dopasowanie globalne - program CLUSTALW α-helisa HBB_HUMAN VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLST HBB_HORSE VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSN HBA_HUMAN VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS- HBA_HORSE VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS- GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTT MYG_PHYCA VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKT LGB2_LUPLU GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSE *: : : *. :.: * : * :. HBB_HUMAN PDAVMGNPKVKAHGKKVLGAFSDGLAHLDN-----LKGTFATLSELHCDKLHVDPENFRL HBB_HORSE PGAVMGNPKVKAHGKKVLHSFGEGVHHLDN-----LKGTFAALSELHCDKLHVDPENFRL HBA_HUMAN ----HGSAQVKGHGKKVADALTNAVAHVDD-----MPNALSALSDLHAHKLRVDPVNFKL HBA_HORSE ----HGSAQVKAHGKKVGDALTLAVGHLDD-----LPGALSNLSDLHAHKLRVDPVNFKL GLB5_PETMA ADQLKKSADVRWHAERIINAVNDAVASMDDT--EKMSMKLRDLSGKHAKSFQVDPQYFKV MYG_PHYCA EAEMKASEDLKKHGVTVLTALGAILKKKGH-----HEAELKPLAQSHATKHKIPIKYLEF LGB2_LUPLU VP--QNNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKG-VADAHFPV..:: *. :. : *. *. : :. HBB_HUMAN LGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE LGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN LSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE LSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR GLB5_PETMA LAAVIADTVAAG DAGFEKLMSMICILLRSAY MYG_PHYCA ISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG LGB2_LUPLU VKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA--- : :.:.... :

24 Metody iteracyjne Problemy dopasowania progresywnego: dalsze przyrównania zależą od początkowej pary sekwencji (szczególnie jeśli są to sekwencje odległe); błędy powstałe przy pierwszym przyrównaniu będą powielane dalej. Metody iteracyjne - wielokrotnie przeprowadzają dopasowania podgrup sekwencji, a następnie wykonują przyrównanie tych podgrup w dopasowanie globalne wszystkich sekwencji. Podgrupy są wybierane ze względu na ułożenie na drzewie filogenetycznym lub losowo.

25 Metody kombinowane Uwzględnienie homologów dopasowywanych sekwencji: dopasowanie profili sekwencyjnych Uwzględnienie przewidywanej struktury drugorzędowej: łączne zliczanie dopasowania sekwencji oraz struktur drugorzędowych. Uwzględnienie przewidywanej lub rzeczywistej struktury trójwymiarowej: zakotwiczenie dopasowania sekwencji w dopasowaniu strukturalnym. T-coffee, ProbCons, MAFFT, Promals

26 Metody słów (k-tuple) FASTA, BLAST Szybkość kosztem precyzji

27 FASTA - algorytm Tworzenie listy słów znaków o zadanej długości (k-tup dla DNA: 4-6; dla białek: 1, 2) i określenie ich położenia w sekwencjach. MRSCNSCMI MR 1 RS 2 SC 3, 6 CN 4 NS 5 CM 7 MI 8 MIRSCNCN MI 1 IR 2 RS 3 SC 4 CN 5, 7 NC 6 Liczenie różnicy położenia dla odpowiednich słów. Słowa, które wykazują tą samą różnicę w położeniu, mogą odpowiadać regionom, gdzie sekwencje pasują do siebie. MRSCNSCG RS 2 SC 3, 6 CN 4 MI 8 - IRSCNCN RS 3 SC 4 CN 5, 7 MI 1 = RS -1 SC -1, 2 CN -1, -3 MI 7

28 FASTA - algorytm Łączenie znalezionych par słów w regiony początkowe bez przerw znajdujące się w pewnej odległości od siebie. -MRSCNSCMIGWQIAAWYA MIRSCNCNA--WQAGSWYLA Łączenie regionów początkowych w większe regiony najlepiej pasujące (o największej punktacji) i mogące uwzględniać przerwy. -MRSCNSCMIGWQIAAWYA MIRSCNCNA--WQAGSWYLA Przeprowadzenie optymalnego lokalnego dopasowania w oparciu o algorytm Smith-Watermana dla wybranych regionów, a następnie pomiędzy całą sekwencją wysłaną i znalezioną w bazie o najlepszej punktacji. Określenie istotności statystycznej dopasowań (E-value).

29 BLAST - algorytm Tworzenie listy słów znaków o zadanej długości (k-tup dla DNA: 11, 3 w przypadku tłumaczenia; dla białek: 2, 3) i określenie sąsiadujących (podobnych) słów neighorhood words (dla sekwencji aminokwasowych). MLIPQGDELVISWA MLI LIP IPQ PQG PEG,PRG,PSG,PQA,PAA,LQW,... QGD GDE GDA,GDF,ASE,QDE,IDL,ADE... DEL ELV LVI VIS ISW SWA

30 BLAST - algorytm Zidentyfikowanie w obrębie sąsiadujących (podobnych) słów tylko takich (~50), które najmniej różnią się od wzorca wg macierzy BLOSUM62 (>T punktacja progowa, score threshold). MLIPQGDELVISWA PQG 18 PEG 15 PRG 14 PKG 14 PNG 13 PDG 13 PHG 13 PMG 13 PSG 13 PQA 12 PQN T>13 Poszukiwanie wybranych słów w sekwencjach w bazie danych i ich przyrównywanie (dopasowywanie). Dla sekwencji DNA szukane są identyczne słowa. GQTERFCVLMLIPQGDELVISWANASSCS NQWGYASCAALLPRGDFLVLGWIGHAALI

31 BLAST - algorytm Rozszerzanie dopasowania w regionie, w którym zostały znalezione przynajmniej dwa słowa, aż do regionów o niskiej punktacji. Określenie regionów HSP (high-scoring segment pair). GQTERFCVLMLIPQGDELVISWANASSCS NQWGYASCAALLPRGDFLVLGWIGHAALI HSP Przeprowadzenie optymalnego lokalnego dopasowania w oparciu o algorytm Smith-Watermana uwzględniającego wszystkie znalezione regiony HSP. Określenie istotności statystycznej dopasowań (E-value).

32 Filtrowanie regionów o słabej złożoności Maskowanie (nieuwzględnianie w porównaniach sekwencji) regionów o niskiej złożoności składu, niskiej entropii - LCR (low-complexity regions): powtórzenia nukleotydów lub aminokwasów ciągi tych samych, dwóch lub jednego znaku Regiony te mogą dawać wysokie wartości punktacji dla sekwencji w rzeczywistości niehomologicznych - wyniki fałszywe pozytywne Ponad połowa sekwencji białkowych w bazach posiada przynajmniej jeden LCR Programy do poszukiwania i maskowania tych regionów: PRSS (w pakiecie FASTA) SEG (wykorzystywany przez BLASTP) PSEG NSEG DUST (wykorzystywany przez BLASTN) XNU RepeatMasker Filtrowanie tych regionów jest opcją domyślną w programie BLAST. X - dla aminokwasów, N - dla nukleotydów

33 Filtrowanie regionów o słabej złożoności >gi sp P40692 MLH1_HUMAN DNA mismatch repair protein Mlh1 1) Length = 756 Score = 233 bits (593), Expect = 8e-62 Identities = 117/131 (89%), Positives = 117/131 (89%) Query: 1 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL 60 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL Sbjct: 276 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL 335 Query: 61 GSNSSRMYFTQTLLPGLAGPSGEMVKXXXXXXXXXXXXXXDKVYAHQMVRTDSREQKLDA 120 GSNSSRMYFTQTLLPGLAGPSGEMVK DKVYAHQMVRTDSREQKLDA Sbjct: 336 GSNSSRMYFTQTLLPGLAGPSGEMVKSTTSLTSSSTSGSSDKVYAHQMVRTDSREQKLDA 395 Query: 121 FLQPLSKPLSS 131 FLQPLSKPLSS Sbjct: 396 FLQPLSKPLSS 406 LCR (low-complexity regions

34 Porównanie programów FASTA i BLAST BLAST FASTA może podawać więcej niż jeden region o wysokiej punktacji lepszy dla sekwencji białek niż DNA podaje tylko jedno najlepsze dopasowanie lepszy dla sekwencji DNA niż białek szybszy niż FASTA mniej czuły niż FASTA przy użyciu domyślnych ustawień daje gorsze rozróżnienie między prawdziwymi i fałszywymi homologami wolniejszy niż BLAST bardziej czuły niż BLAST daje lepsze rozróżnienie między prawdziwymi i fałszywymi homologami

35 PSI-Blast Sequence vs Sequence Database or Sequence Profile vs Sequence Database PSSM: Position-Specific Scoring Matrix

36 PSI-Blast Query: FAM69A protein, human

37 PSI-Blast. Druga iteracja Query: FAM69A protein, human

38 PSI-Blast. Trzecia iteracja Query: FAM69A protein, human