Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl

Podobne dokumenty

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PRZYRÓWNANIE SEKWENCJI

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Dopasowanie sekwencji (sequence alignment)

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Dopasowania par sekwencji DNA

Porównywanie i dopasowywanie sekwencji

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Wykład 5 Dopasowywanie lokalne

Bioinformatyka Laboratorium, 30h. Michał Bereta

Porównywanie i dopasowywanie sekwencji

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Bioinformatyka Laboratorium, 30h. Michał Bereta

Przyrównywanie sekwencji

Wstęp do Biologii Obliczeniowej

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Generator testów Bioinformatyka wer / 0 Strona: 1

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Bioinformatyka Laboratorium, 30h. Michał Bereta

Algorytmy kombinatoryczne w bioinformatyce

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Bioinformatyka Laboratorium, 30h. Michał Bereta

Algorytmy kombinatoryczne w bioinformatyce

Statystyczna analiza danych

Bioinformatyka II Modelowanie struktury białek

Porównywanie sekwencji białkowych

Techniki grupowania danych w środowisku Matlab

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Bioinformatyka. Porównywanie sekwencji

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Motywy i podobieństwo

Dopasowanie par sekwencji

Bioinformatyka wykład 10

MSA i analizy filogenetyczne

Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Bioinformatyka wykład 8, 27.XI.2012

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Samouczek: Konstruujemy drzewo

Spis treści 8 Ewolucja molekularna Ewolucyjne podstawy porównywania sekwencji Identyfikacja sekwencji i jej funkcji...

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

Wstęp do programowania

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

Bioinformatyka. Podsumowanie algorytmów dynamicznych

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Bioinformatyka. Program UGENE

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

3 Przeszukiwanie baz danych

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

dr inż. Jarosław Forenc

PODSTAWY BIOINFORMATYKI

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Wstęp do programowania

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Autor: mgr inż. Agata Joanna Czerniecka. Tytuł: Nowa metoda obliczeniowa porównywania sekwencji białek

Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -

Testy nieparametryczne

Testowanie hipotez statystycznych

Wstęp do programowania

Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia

Zmienne zależne i niezależne

Pamiętając o komplementarności zasad azotowych, dopisz sekwencję nukleotydów brakującej nici DNA. A C C G T G C C A A T C G A...

ALGORYTMY EWOLUCYJNE W OPTYMALIZACJI JEDNOKRYTERIALNEJ

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Testowanie hipotez statystycznych

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Hierarchiczna analiza skupień

Program MC. Obliczyć radialną funkcję korelacji. Zrobić jej wykres. Odczytać z wykresu wartość radialnej funkcji korelacji w punkcie r=

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

Wykład 8: Testy istotności

Bioinformatyka Laboratorium, 30h. Michał Bereta

RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych

Wykład 9 Wnioskowanie o średnich

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Pobieranie prób i rozkład z próby

Luty 2001 Algorytmy (4) 2000/2001

Transkrypt:

Dopasowanie sekwencji c.d. Sequence alignment Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl

dopasowanie - metody dopasowanie par sekwencji: Macierz punktów - dot matrix, dotplot Programowanie dynamiczne (DP) Metody słów (k - tuple methods) - szybkie metody stosowane przy przeszukiwaniu baz danych sekwencji z wykorzystaniem programów FASTA i BLAST dopasowanie wielu sekwencji

dopasowanie globalne i lokalne dopasowanie globalne (Needleman & Wunsch, 1970) przyrównuje sekwencje na całej długości; wykorzystuje tak dużo znaków, jak to jest tylko możliwe. dopasowanie lokalne (Smith & Waterman, 1981) przyrównuje fragmenty sekwencji, które wykazują największe podobieństwo; poszukuje najlepiej pasujących regionów; znajduje regiony konserwowane. Gdy obliczana wartość punktacji w macierzy jest mniejsza od zera, to wartość ta jest ustawiana na zero, a dopasowanie ulega zakończeniu do tego miejsca i rozpoczynany jest nowe` dopasowanie od nowego miejsca Optymalne dopasowanie globalne LGPSSKQTGKGS-SRIWDN LN-ITKSAGKGAIMRLGDA sekwencje o podobnej długości, blisko spokrewnione Optymal ne dopasowanie lolalne -------TGKG-------- -------AGKG-------- sekwencje o różnych długościach, posiadające regiony i domeny zachowane, podobne tylko w niektórych obszarach

Istotność dopasowania alignment significance Łatwiej oszacować istotność statystyczną Trudniej ocenić istotność biologiczną

Istotność dopasowania alignment significance Czy punktacja dopasowania jest znacząco większa od punktacji oczekiwanej dla dopasowania losowych sekwencji o tej samej długości i składzie? Tworzenie metodą Monte Carlo losowych(-ej) sekwencji (o tej samej długości i składzie co rzeczywiste). Przyrównanie losowych(-ej) sekwencji (powtórzenie np. 100-1000 razy) przy tych samych parametrach dopasowania. Określenie rozkładu punktacji, średniej i odchylenia standardowego (SD). Wyliczenie Z-score: Z = (score obs score ran )/SD ran Przykładowe empiryczne reguły : 3 > Z brak homologii 3 < Z < 6 istnieje homologia Z > 6 silna homologia Rozkład punktacji (score) nie jest rozkładem normalnym i dlatego nie można przekształcić Z-score na prawdopodobieństwo.

Istotność dopasowania Dla dopasowań lokalnych rozkład maksymalnych wartości punktacji dopasowania dla sekwencji losowych przyjmuje rozkład wartości ekstremalnych, extreme values distribution (Karlin i Altschul 1990). Log p(s>=s ) S Wykres zależności logarytmu ułamka dopasowań z punktacją S równą lub większą od wartości punktacji S E-value (expect value) oczekiwana (wg rozkładu) liczba dopasowań z punktacją równą przynajmniej S E = Kmn e λs

FASTA - algorytm Tworzenie listy słów znaków o zadanej długości (k-tuple dla DNA: 4-6; dla białek: 1, 2) i określenie ich położenia w sekwencjach. MRSCNSCMI MR 1 RS 2 SC 3, 6 CN 4 NS 5 CM 7 MI 8 MIRSCNCN MI 1 IR 2 RS 3 SC 4 CN 5, 7 NC 6 Liczenie różnicy położenia dla odpowiednich słów. Słowa, które wykazują tą samą różnicę w położeniu i znajdują się w fazie są regionem, gdzie sekwencje pasują do siebie. MRSCNSCG RS 2 SC 3, 6 CN 4 MI 8 - IRSCNCN RS 3 SC 4 CN 5, 7 MI 1 = RS -1 SC -1, 2 CN -1, -3 MI 7

FASTA - algorytm Łączenie znalezionych par słów w regiony początkowe bez przerw znajdujące się w pewnej odległości od siebie. -MRSCNSCMIGWQIAAWYA MIRSCNCNA--WQAGSWYLA Łączenie regionów początkowych w większe regiony najlepiej pasujące (o największej punktacji) i mogące uwzględniać przerwy. -MRSCNSCMIGWQIAAWYA MIRSCNCNA--WQAGSWYLA Przeprowadzenie optymalnego lokalnego dopasowania w oparciu o algorytm Smith-Watermana dla wybranych regionów, a następnie pomiędzy całą sekwencją wysłaną i znalezioną w bazie o najlepszej punktacji. Określenie istotności statystycznej dopasowań (E-value).

BLAST - algorytm Tworzenie listy słów znaków o zadanej długości (k-tuple dla DNA: 11, 3 w przypadku tłumaczenia; dla białek: 2, 3) i określenie sąsiadujących (podobnych) słów neighorhood words (dla sekwencji aminokwasowych). MLIPQGDELVISWA MLI LIP IPQ PQG PEG,PRG,PSG,PQA,PAA,LQW,... QGD GDE GDA,GDF,ASE,QDE,IDL,ADE... DEL ELV LVI VIS ISW SWA

BLAST - algorytm Zidentyfikowanie w obrębie sąsiadujących (podobnych) słów tylko takich (~50), które najmniej różnią się od wzorca wg macierzy BLOSUM62 (>T punktacja progowa, score threshold). MLIPQGDELVISWA PQG 18 PEG 15 PRG 14 PKG 14 PNG 13 PDG 13 PHG 13 PMG 13 PSG 13 PQA 12 PQN 12... T>13 Poszukiwanie wybranych słów w sekwencjach w bazie danych i ich przyrównywanie (dopasowywanie). Dla sekwencji DNA szukane są identyczne słowa. GQTERFCVLMLIPQGDELVISWANASSCS NQWGYASCAALLPRGDFLVLGWIGHAALI

BLAST - algorytm Rozszerzanie dopasowania w regionie, w którym zostały znalezione przynajmniej dwa słowa, aż do regionów o niskiej punktacji. Określenie regionów HSP (high-scoring segment pair). GQTERFCVLMLIPQGDELVISWANASSCS NQWGYASCAALLPRGDFLVLGWIGHAALI HSP Przeprowadzenie optymalnego lokalnego dopasowania w oparciu o algorytm Smith-Watermana uwzględniającego wszystkie znalezione regiony HSP. Określenie istotności statystycznej dopasowań (E-value).

Filtrowanie regionów w o słabej s złożonoz oności Maskowanie (nieuwzględnianie w porównaniach sekwencji) regionów o niskiej złożoności składu, niskiej entropii - LCR (low-complexity regions): powtórzenia nukleotydów lub aminokwasów ciągi tych samych, dwóch lub jednego znaku Regiony te mogą dawać wysokie wartości punktacji dla sekwencji w rzeczywistości niehomologicznych - wyniki fałszywe pozytywne Ponad połowa sekwencji białkowych w bazach posiada przynajmniej jeden LCR Programy do poszukiwania i maskowania tych regionów: PRSS (w pakiecie FASTA) SEG (wykorzystywany przez BLASTP) PSEG NSEG DUST (wykorzystywany przez BLASTN) XNU RepeatMasker Filtrowanie tych regionów jest opcją domyślną w programie BLAST. X - dla aminokwasów, N - dla nukleotydów

Filtrowanie regionów w o słabej s złożonoz oności >gi 730028 sp P40692 MLH1_HUMAN DNA mismatch repair protein Mlh1 1) Length = 756 Score = 233 bits (593), Expect = 8e-62 Identities = 117/131 (89%), Positives = 117/131 (89%) Query: 1 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL 60 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL Sbjct: 276 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL 335 Query: 61 GSNSSRMYFTQTLLPGLAGPSGEMVKXXXXXXXXXXXXXXDKVYAHQMVRTDSREQKLDA 120 GSNSSRMYFTQTLLPGLAGPSGEMVK DKVYAHQMVRTDSREQKLDA Sbjct: 336 GSNSSRMYFTQTLLPGLAGPSGEMVKSTTSLTSSSTSGSSDKVYAHQMVRTDSREQKLDA 395 Query: 121 FLQPLSKPLSS 131 FLQPLSKPLSS Sbjct: 396 FLQPLSKPLSS 406 LCR (low-complexity regions

Porównanie programów w FASTA i BLAST BLAST FASTA może podawać więcej niż jeden region o wysokiej punktacji lepszy dla sekwencji białek niż DNA podaje tylko jedno najlepsze dopasowanie lepszy dla sekwencji DNA niż białek szybszy niż FASTA mniej czuły niż FASTA przy użyciu domyślnych ustawień daje gorsze rozróżnienie między prawdziwymi i fałszywymi homologami wolniejszy niż BLAST bardziej czuły niż BLAST daje lepsze rozróżnienie między prawdziwymi i fałszywymi homologami

dopasowanie wielu sekwencji (MSA) przyrównanie (porównanie) wielu (co najmniej trzech) sekwencji HBB_HUMAN --------VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLST HBB_HORSE --------VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSN HBA_HUMAN ---------VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS- HBA_HORSE ---------VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS- GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTT MYG_PHYCA ---------VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKT LGB2_LUPLU --------GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSE *: : : *. :.: * : * :. HBB_HUMAN PDAVMGNPKVKAHGKKVLGAFSDGLAHLDN-----LKGTFATLSELHCDKLHVDPENFRL HBB_HORSE PGAVMGNPKVKAHGKKVLHSFGEGVHHLDN-----LKGTFAALSELHCDKLHVDPENFRL HBA_HUMAN ----HGSAQVKGHGKKVADALTNAVAHVDD-----MPNALSALSDLHAHKLRVDPVNFKL HBA_HORSE ----HGSAQVKAHGKKVGDALTLAVGHLDD-----LPGALSNLSDLHAHKLRVDPVNFKL GLB5_PETMA ADQLKKSADVRWHAERIINAVNDAVASMDDT--EKMSMKLRDLSGKHAKSFQVDPQYFKV MYG_PHYCA EAEMKASEDLKKHGVTVLTALGAILKKKGH-----HEAELKPLAQSHATKHKIPIKYLEF LGB2_LUPLU VP--QNNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKG-VADAHFPV..:: *. :. : *. *. : :. HBB_HUMAN LGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH------ HBB_HORSE LGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH------ HBA_HUMAN LSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR------ HBA_HORSE LSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR------ GLB5_PETMA LAAVIADTVAAG---------DAGFEKLMSMICILLRSAY------- MYG_PHYCA ISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG LGB2_LUPLU VKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA--- : :.:.... :

Dopasowania wielu sekwencji - zastosowanie Określanie powiązań filogenetycznych między sekwencjami Poszukiwanie odległych homologów Poszukiwanie wspólnych, konserwowanych wzorów, motywów i domen w sekwencjach, odpowiedzialnych za odpowiednie funkcje biochemiczne lub strukturę przestrzenną. Grupowanie białek w rodziny o wspólnej funkcji biochemicznej lub historii ewolucyjnej. Identyfikowanie członków rodzin białek. Identyfikowanie zachodzących fragmentów sekwencji powstałych w wyniku losowego sekwencjonowania genomów i ułatwienie ich składania w jedną całą sekwencję. Najbardziej wiarygodny dla sekwencji o podobnej długości i posiadających zachowanie regiony.

Dopasowania wielu sekwencji a analizy filogenetyczne N-IAWSQGA NFLAWSQGA NFIAWSQGA NFIAWTQ-A I -> L - G + F sekw1 sekw2 sekw3 sekw4 NFLAWSQGA NFIAWSQGA NFIAWTQ-A N-IAWSQGA

Dopasowania wielu sekwencji - metody Programowanie dynamiczne (PD) - zbyt skomplikowane dla wielu sekwencji; stosowany dla niewielu krótkich sekwencji program MSA (dopasowanie globalne) Metody aproksymacyjne: Progresywne dopasowanie globalne (hierarchiczne) programy: CLUSTALW, CLUSTALX Metody iteracyjne programy: MultAlin, PRRP, DIALIGN, SAGA (algorytm genetyczny)

Dopasowanie wielu sekwencji i PD - złożoność problemu Optymalne dopasowanie dwóch sekwencji przy pomocy programowania dynamicznego - macierz punktacji w kwadracie, wymagany czas: L 2 ; L - długość sekwencji Optymalne dopasowanie trzech sekwencji przy pomocy programowania dynamicznego - macierz punktacji w sześcianie; wymagany czas: L 3 Optymalne dopasowanie N sekwencji przy pomocy programowania dynamicznego - macierz punktacji w N wymiarach: wymagany czas: L N -rośnie wykładniczo ze wzrostem liczby sekwencji (N)

Dopasowanie wielu sekwencji - trzy sekwencje A S Szukanie optymalnego dopasowania w objętości sześcianu. A N V S N - S - S N A - - - A S S start V S N S

Dopasowanie wielu sekwencji i PD program MSA Liczenie w objętości (w przestrzeni N-wymiarowej) punktacji dla wielokrotnego dopasowania. Punktacja dla wielokrotnego dopasowania jest sumą punktacji uzyskanych dla porównania wszystkich par sekwencji w wielokrotnym alignment-cie (miara SP sum of pairs). Optymalne dopasowanie to takie, który posiada najlepszy SP score.

Progresywne dopasowanie globalne - program CLUSTALW Sekwencje globin >HBB_HUMAN VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFA TLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH* >HBB_HORSE VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLKGTFA ALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH* >HBA_HUMAN VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDL HAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR* >HBA_HORSE VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFDLSHGSAQVKAHGKKVGDALTLAVGHLDDLPGALSNLSDL HAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR* >MYG_PHYCA VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGHHEAEL KPLAQSHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG* >GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVNDAVA SMDDTEKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAGDAGFEKLMSMICILLRSAY* >LGB2_LUPLU GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSEVPQNNPELQAHAGKVFKLVYEAAIQLQVTGVVVT DATLKNLGSVHVSKGVADAHFPVVKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA*

DOPASOWANIA WIELOKROTNE (MULTIALIGNMENT) Metoda hierarchiczna Porównujemy zestaw 7 sekwencji :HAHU, HBHU,HAHO, HBHO, MYWHP, PILHB i LGHB Dopasowujemy osobno każdą możliwą parę sekwencji i obliczamy według pewnego algorytmu wzajemne podobieństwo sekwencji w obrębie każdej z 21 par Wynik przedstawiamy w macierzy podobieństw HBHU 21.1 HAHU HBHU HAHO HBHO MYWHP PILHB HAHO 32.9 19.7 HBHO 20.7 39.0 20.4 MYWHP 11.0 9.8 10.3 9.7 PILHB 9.3 8.6 9.6 8.4 7.0 LGHB 7.1 7.3 7.5 7.4 7.3 4.3

Tworzenie drzewa przewodniego

Stopniowe zestawianie sekwencji dopasowanych HBHO dopasowanie HBHU Programowanie dynamiczne HBHO HBHU HAHU dopasowanie HAHO Programowanie dynamiczne HAHU HAHO

HBHO HBHU Nowa przerwa HAHU HAHO Programowanie dynamiczne HBHO HBHU HAHU HAHO dopasowanie czterech sekwencji - Dodawanie kolejnych sekwencji, coraz bardziej odległych według drzewa przewodniego

Sekwencyjne przyrównywanie sekwencji, ze względu na podobieństwo opisane na drzewie: przyrównanie najpierw sekwencji najbardziej podobnych, a następnie dołączanie do już utworzonego dopasowania pozostałych najbardziej podobnych sekwencji wg przewodniego drzewa filogenetycznego. Sekwencje po dopasowaniu są traktowane jako całość. HBB_HUMAN VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLK HBB_HORSE VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLK HBB_HUMAN GTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE GTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSA HBA_HORSE VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFDLSHGSAQVKAHGKKVGDALTLAVGHLDDLPGALSN HBA_HUMAN LSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE LSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR + HBB_HUMAN VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLK HBB_HORSE VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLK HBA_HUMAN -VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTNAVAHVDDMP HBA_HORSE -VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTLAVGHLDDLP HBB_HUMAN GTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE GTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN NALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE GALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR

HBB_HUMAN VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLK HBB_HORSE VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLK HBA_HUMAN -VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTNAVAHVDDMP HBA_HORSE -VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTLAVGHLDDLP HBB_HUMAN GTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE GTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN NALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE GALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVND GLB5_PETMA AVASMDDTEKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAGDAGFEKLMSMICILLRSAY + HBB_HUMAN --------VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSD HBB_HORSE --------VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGE HBA_HUMAN ---------VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTN HBA_HORSE ---------VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTL GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVND HBB_HUMAN GLAHLDN---LKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE GVHHLDN---LKGTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN AVAHVDD---MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE AVGHLDD---LPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR GLB5_PETMA AVASMDDTEKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAG---------DAGFEKLMSMICILLRSAY-

Progresywne dopasowanie globalne - program CLUSTALW α-helisa HBB_HUMAN --------VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLST HBB_HORSE --------VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSN HBA_HUMAN ---------VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS- HBA_HORSE ---------VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS- GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTT MYG_PHYCA ---------VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKT LGB2_LUPLU --------GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSE *: : : *. :.: * : * :. HBB_HUMAN PDAVMGNPKVKAHGKKVLGAFSDGLAHLDN-----LKGTFATLSELHCDKLHVDPENFRL HBB_HORSE PGAVMGNPKVKAHGKKVLHSFGEGVHHLDN-----LKGTFAALSELHCDKLHVDPENFRL HBA_HUMAN ----HGSAQVKGHGKKVADALTNAVAHVDD-----MPNALSALSDLHAHKLRVDPVNFKL HBA_HORSE ----HGSAQVKAHGKKVGDALTLAVGHLDD-----LPGALSNLSDLHAHKLRVDPVNFKL GLB5_PETMA ADQLKKSADVRWHAERIINAVNDAVASMDDT--EKMSMKLRDLSGKHAKSFQVDPQYFKV MYG_PHYCA EAEMKASEDLKKHGVTVLTALGAILKKKGH-----HEAELKPLAQSHATKHKIPIKYLEF LGB2_LUPLU VP--QNNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKG-VADAHFPV..:: *. :. : *. *. : :. HBB_HUMAN LGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH------ HBB_HORSE LGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH------ HBA_HUMAN LSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR------ HBA_HORSE LSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR------ GLB5_PETMA LAAVIADTVAAG---------DAGFEKLMSMICILLRSAY------- MYG_PHYCA ISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG LGB2_LUPLU VKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA--- : :.:.... :

Metody iteracyjne Problemy dopasowania progresywnego: dalsze przyrównania zależą od początkowej pary sekwencji (szczególnie jeśli są to sekwencje odległe); błędy powstałe przy pierwszym przyrównaniu będą powielane dalej. Metody iteracyjne - wielokrotnie przeprowadzają dopasowania podgrup sekwencji, a następnie wykonują przyrównanie tych podgrup w dopasowanie globalne wszystkich sekwencji. Podgrupy są wybierane ze względu na ułożenie na drzewie filogenetycznym lub losowo.

Metody kombinowane Uwzględnienie homologów dopasowywanych sekwencji: dopasowanie profili sekwencyjnych Uwzględnienie przewidywanej struktury drugorzędowej: łączne zliczanie dopasowania sekwencji oraz struktur drugorzędowych. T-coffee, ProbCons, MAFFT, Promals

nieistotne podobieństwa mogą być istotne

nieistotne podobieństwa aplikacja CLANS przedstawienie podobieństw między rodzinami receptorów w typu GPCR

Edytory dopasowania a wielu sekwencji - Jalview