Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl



Podobne dokumenty
Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

PRZYRÓWNANIE SEKWENCJI

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowanie sekwencji (sequence alignment)

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Dopasowania par sekwencji DNA

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Wykład 5 Dopasowywanie lokalne

Porównywanie i dopasowywanie sekwencji

Bioinformatyka Laboratorium, 30h. Michał Bereta

Porównywanie i dopasowywanie sekwencji

Bioinformatyka Laboratorium, 30h. Michał Bereta

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Przyrównywanie sekwencji

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Wstęp do Biologii Obliczeniowej

Generator testów Bioinformatyka wer / 0 Strona: 1

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

Bioinformatyka Laboratorium, 30h. Michał Bereta

Motywy i podobieństwo

Bioinformatyka Laboratorium, 30h. Michał Bereta

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

Algorytmy kombinatoryczne w bioinformatyce

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

Porównywanie sekwencji białkowych

Bioinformatyka. Porównywanie sekwencji

Bioinformatyka II Modelowanie struktury białek

Statystyczna analiza danych

Algorytmy kombinatoryczne w bioinformatyce

Samouczek: Konstruujemy drzewo

Homologia, podobieństwo i analogia

Techniki grupowania danych w środowisku Matlab

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Bioinformatyka wykład 10

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Bioinformatyka. Podsumowanie algorytmów dynamicznych

Dopasowanie par sekwencji

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

Bioinformatyka wykład 8, 27.XI.2012

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

MSA i analizy filogenetyczne

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Bioinformatyka Laboratorium, 30h. Michał Bereta

Spis treści 8 Ewolucja molekularna Ewolucyjne podstawy porównywania sekwencji Identyfikacja sekwencji i jej funkcji...

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Bioinformatyka Laboratorium, 30h. Michał Bereta

Wstęp do programowania

Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Wstęp do programowania

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

3 Przeszukiwanie baz danych

Algorytmy przeszukiwania wzorca

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Testowanie hipotez statystycznych

dr inż. Jarosław Forenc

Modelowanie homologiczne

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Program MC. Obliczyć radialną funkcję korelacji. Zrobić jej wykres. Odczytać z wykresu wartość radialnej funkcji korelacji w punkcie r=

Autor: mgr inż. Agata Joanna Czerniecka. Tytuł: Nowa metoda obliczeniowa porównywania sekwencji białek

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

Algorytm genetyczny (genetic algorithm)-

Testy nieparametryczne

Generator testów bioinformatyka wer / Strona: 1

Wykład 9 Wnioskowanie o średnich

Wstęp do programowania

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

PODSTAWY BIOINFORMATYKI

WNIOSKOWANIE STATYSTYCZNE

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -

Pamiętając o komplementarności zasad azotowych, dopisz sekwencję nukleotydów brakującej nici DNA. A C C G T G C C A A T C G A...

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Wykład 10 Skalowanie wielowymiarowe

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

KORELACJE I REGRESJA LINIOWA

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Transkrypt:

Dopasowanie sekwencji c.d. Sequence alignment Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

Dopasowanie sekwencji - znaczenie Podobieństwo porównywanych sekwencji (similarity) może świadczyć o: podobnej funkcji sekwencji podobnej strukturze białek wspólnej historii ewolucyjnej sekwencji Podobieństwo porównywanych sekwencji (similarity) może wynikać z: homologii - pochodzeniu sekwencji (homologicznych) od wspólnego przodka; sekwencje mogą, ale nie muszą pełnić te same funkcje konwergencji - podobne motywy, które wyewoluowały w obu sekwencjach (analogicznych) niezależnie; np. chymotrypsyna i subtylizyna - różna struktura 3D, ale podobne centrum aktywne (histydyna, seryna, kwas asparaginowy) {... Problem rozróżnienia odległej homologii a analogii }

dopasowanie - metody dopasowanie par sekwencji: Macierz punktów - dot matrix, dotplot Programowanie dynamiczne (DP) Metody słów (k - tuple methods) - szybkie metody stosowane przy przeszukiwaniu baz danych sekwencji z wykorzystaniem programów FASTA i BLAST dopasowanie wielu sekwencji

dopasowanie globalne i lokalne dopasowanie globalne (Needleman & Wunsch, 1970) przyrównuje sekwencje na całej długości; wykorzystuje tak dużo znaków, jak to jest tylko możliwe. dopasowanie lokalne (Smith & Waterman, 1981) przyrównuje fragmenty sekwencji, które wykazują największe podobieństwo; poszukuje najlepiej pasujących regionów; znajduje regiony konserwowane. Gdy obliczana wartość punktacji w macierzy jest mniejsza od zera, to wartość ta jest ustawiana na zero, a dopasowanie ulega zakończeniu do tego miejsca i rozpoczynany jest nowe` dopasowanie od nowego miejsca Optymalne dopasowanie globalne LGPSSKQTGKGS-SRIWDN LN-ITKSAGKGAIMRLGDA sekwencje o podobnej długości, blisko spokrewnione Optymal ne dopasowanie lolalne -------TGKG-------- -------AGKG-------- sekwencje o różnych długościach, posiadające regiony i domeny zachowane, podobne tylko w niektórych obszarach

Istotność dopasowania alignment significance Łatwiej oszacować istotność statystyczną Trudniej ocenić istotność biologiczną

Istotność dopasowania alignment significance Czy punktacja dopasowania jest znacząco większa od punktacji oczekiwanej dla dopasowania losowych sekwencji o tej samej długości i składzie? Tworzenie metodą Monte Carlo losowych(-ej) sekwencji (o tej samej długości i składzie co rzeczywiste). Przyrównanie losowych(-ej) sekwencji (powtórzenie np. 100-1000 razy) przy tych samych parametrach dopasowania. Określenie rozkładu punktacji, średniej i odchylenia standardowego (SD). Wyliczenie Z-score: Z = (score obs score ran )/SD ran Przykładowe empiryczne reguły : 3 > Z brak homologii 3 < Z < 6 istnieje homologia Z > 6 silna homologia Rozkład punktacji (score) nie jest rozkładem normalnym i dlatego nie można przekształcić Z-score na prawdopodobieństwo.

Istotność dopasowania Dla dopasowań lokalnych rozkład maksymalnych wartości punktacji dopasowania dla sekwencji losowych przyjmuje rozkład wartości ekstremalnych, extreme values distribution (Karlin i Altschul 1990). Log p(s>=s ) S Wykres zależności logarytmu ułamka dopasowań z punktacją S równą lub większą od wartości punktacji S E-value (expect value) oczekiwana (wg rozkładu) liczba dopasowań z punktacją równą przynajmniej S E=Kmn e λs

Bit score- znormalizowana punktacja uwzględniająca warunki jej naliczania i przyjęte systemy punktacji (parametry lambda i K) E=mn2 S' S'= λs ln K ln2 m, n: długości porównywanych sekwencji, λ: parametr skalujący zależny od systemu punktacji k: parametr skalujący zależny od przeszukiwanej bazy danych Prawdopodobieństwo znalezienia przynajmniej jednego dopasowania o punktacji >=S p= 1 e E

dopasowanie wielu sekwencji (MSA) przyrównanie (porównanie) wielu (co najmniej trzech) sekwencji HBB_HUMAN --------VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLST HBB_HORSE --------VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSN HBA_HUMAN ---------VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS- HBA_HORSE ---------VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS- GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTT MYG_PHYCA ---------VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKT LGB2_LUPLU --------GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSE *: : : *. :.: * : * :. HBB_HUMAN PDAVMGNPKVKAHGKKVLGAFSDGLAHLDN-----LKGTFATLSELHCDKLHVDPENFRL HBB_HORSE PGAVMGNPKVKAHGKKVLHSFGEGVHHLDN-----LKGTFAALSELHCDKLHVDPENFRL HBA_HUMAN ----HGSAQVKGHGKKVADALTNAVAHVDD-----MPNALSALSDLHAHKLRVDPVNFKL HBA_HORSE ----HGSAQVKAHGKKVGDALTLAVGHLDD-----LPGALSNLSDLHAHKLRVDPVNFKL GLB5_PETMA ADQLKKSADVRWHAERIINAVNDAVASMDDT--EKMSMKLRDLSGKHAKSFQVDPQYFKV MYG_PHYCA EAEMKASEDLKKHGVTVLTALGAILKKKGH-----HEAELKPLAQSHATKHKIPIKYLEF LGB2_LUPLU VP--QNNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKG-VADAHFPV..:: *. :. : *. *. : :. HBB_HUMAN LGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH------ HBB_HORSE LGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH------ HBA_HUMAN LSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR------ HBA_HORSE LSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR------ GLB5_PETMA LAAVIADTVAAG---------DAGFEKLMSMICILLRSAY------- MYG_PHYCA ISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG LGB2_LUPLU VKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA--- : :.:.... :

Dopasowania wielu sekwencji - zastosowanie Określanie powiązań filogenetycznych między sekwencjami Poszukiwanie odległych homologów Poszukiwanie wspólnych, konserwowanych wzorów, motywów i domen w sekwencjach, odpowiedzialnych za odpowiednie funkcje biochemiczne lub strukturę przestrzenną. Grupowanie białek w rodziny o wspólnej funkcji biochemicznej lub historii ewolucyjnej. Identyfikowanie członków rodzin białek. Identyfikowanie zachodzących fragmentów sekwencji powstałych w wyniku losowego sekwencjonowania genomów i ułatwienie ich składania w jedną całą sekwencję. Najbardziej wiarygodny dla sekwencji o podobnej długości i posiadających zachowanie regiony.

Dopasowania wielu sekwencji a analizy filogenetyczne N-IAWSQGA NFLAWSQGA NFIAWSQGA NFIAWTQ-A I -> L - G sekw1 NFLAWSQGA sekw2 NFIAWSQGA sekw3 NFIAWTQ-A sekw4 N-IAWSQGA + F

Dopasowania wielu sekwencji - metody Programowanie dynamiczne (PD) - zbyt skomplikowane dla wielu sekwencji; stosowany dla niewielu krótkich sekwencji program MSA (dopasowanie globalne) Metody aproksymacyjne: Progresywne dopasowanie globalne (hierarchiczne) programy: CLUSTALW, CLUSTALX Metody iteracyjne programy: MultAlin, PRRP, DIALIGN, SAGA (algorytm genetyczny)

Dopasowanie wielu sekwencji i PD - złożoność problemu Optymalne dopasowanie dwóch sekwencji przy pomocy programowania dynamicznego - macierz punktacji w kwadracie, wymagany czas: L 2 ; L - długość sekwencji Optymalne dopasowanie trzech sekwencji przy pomocy programowania dynamicznego - macierz punktacji w sześcianie; wymagany czas: L 3 Optymalne dopasowanie N sekwencji przy pomocy programowania dynamicznego - macierz punktacji w N wymiarach: wymagany czas: L N - rośnie wykładniczo ze wzrostem liczby sekwencji (N)

Dopasowanie wielu sekwencji - trzy sekwencje A S Szukanie optymalnego dopasowania w objętości sześcianu. A N V S N - S - S N A - - - A S S start V S N S

Dopasowanie wielu sekwencji i PD program MSA Liczenie w objętości (w przestrzeni N-wymiarowej) punktacji dla wielokrotnego dopasowania. Punktacja dla wielokrotnego dopasowania jest sumą punktacji uzyskanych dla porównania wszystkich par sekwencji w wielokrotnym alignment-cie (miara SP sum of pairs). Optymalne dopasowanie to takie, który posiada najlepszy SP score.

Progresywne dopasowanie globalne - program CLUSTALW Sekwencje globin >HBB_HUMAN VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFAT LSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH* >HBB_HORSE VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLKGTFAA LSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH* >HBA_HUMAN VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLH AHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR* >HBA_HORSE VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFDLSHGSAQVKAHGKKVGDALTLAVGHLDDLPGALSNLSDLH AHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR* >MYG_PHYCA VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGHHEAELK PLAQSHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG* >GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVNDAVAS MDDTEKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAGDAGFEKLMSMICILLRSAY* >LGB2_LUPLU GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSEVPQNNPELQAHAGKVFKLVYEAAIQLQVTGVVVTD ATLKNLGSVHVSKGVADAHFPVVKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA*

DOPASOWANIA WIELOKROTNE Metoda hierarchiczna Porównujemy zestaw 7 sekwencji :HAHU, HBHU,HAHO, HBHO, MYWHP, PILHB i LGHB Dopasowujemy osobno każdą możliwą parę sekwencji i obliczamy według pewnego algorytmu wzajemne podobieństwo sekwencji w obrębie każdej z 21 par Wynik przedstawiamy w macierzy podobieństw HBHU 21.1 HAHU HBHU HAHO HBHO MYWHP PILHB HAHO 32.9 19.7 HBHO 20.7 39.0 20.4 MYWHP 11.0 9.8 10.3 9.7 PILHB 9.3 8.6 9.6 8.4 7.0 LGHB 7.1 7.3 7.5 7.4 7.3 4.3

Tworzenie drzewa przewodniego HAHU HAHO HBHU HBHO MYWHP PILHB LGHB

Stopniowe zestawianie sekwencji dopasowanych HBHO dopasowanie HBHU Programowanie dynamiczne HBHO HBHU HAHU dopasowanie HAHO Programowanie dynamiczne HAHU HAHO

HBHO HBHU Nowa przerwa HAHU HAHO Programowanie dynamiczne HBHO HBHU HAHU HAHO dopasowanie czterech sekwencji - Dodawanie kolejnych sekwencji, coraz bardziej odległych według drzewa przewodniego

Sekwencyjne przyrównywanie sekwencji, ze względu na podobieństwo opisane na drzewie: przyrównanie najpierw sekwencji najbardziej podobnych, a następnie dołączanie do już utworzonego dopasowania pozostałych najbardziej podobnych sekwencji wg przewodniego drzewa filogenetycznego. Sekwencje po dopasowaniu są traktowane jako całość. HBB_HUMAN VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLK HBB_HORSE VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLK HBB_HUMAN GTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE GTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSA HBA_HORSE VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFDLSHGSAQVKAHGKKVGDALTLAVGHLDDLPGALSN HBA_HUMAN LSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE LSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR + HBB_HUMAN VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLK HBB_HORSE VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLK HBA_HUMAN -VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTNAVAHVDDMP HBA_HORSE -VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTLAVGHLDDLP HBB_HUMAN GTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE GTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN NALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE GALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR

HBB_HUMAN VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLK HBB_HORSE VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNLK HBA_HUMAN -VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTNAVAHVDDMP HBA_HORSE -VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTLAVGHLDDLP HBB_HUMAN GTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE GTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN NALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE GALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVND GLB5_PETMA AVASMDDTEKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAGDAGFEKLMSMICILLRSAY + HBB_HUMAN --------VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSD HBB_HORSE --------VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGE HBA_HUMAN ---------VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTN HBA_HORSE ---------VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTL GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVND HBB_HUMAN GLAHLDN---LKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBB_HORSE GVHHLDN---LKGTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH HBA_HUMAN AVAHVDD---MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HBA_HORSE AVGHLDD---LPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR GLB5_PETMA AVASMDDTEKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAG---------DAGFEKLMSMICILLRSAY-

Progresywne dopasowanie globalne - program CLUSTALW α-helisa HBB_HUMAN --------VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLST HBB_HORSE --------VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSN HBA_HUMAN ---------VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS- HBA_HORSE ---------VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS- GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTT MYG_PHYCA ---------VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKT LGB2_LUPLU --------GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSE *: : : *. :.: * : * :. HBB_HUMAN PDAVMGNPKVKAHGKKVLGAFSDGLAHLDN-----LKGTFATLSELHCDKLHVDPENFRL HBB_HORSE PGAVMGNPKVKAHGKKVLHSFGEGVHHLDN-----LKGTFAALSELHCDKLHVDPENFRL HBA_HUMAN ----HGSAQVKGHGKKVADALTNAVAHVDD-----MPNALSALSDLHAHKLRVDPVNFKL HBA_HORSE ----HGSAQVKAHGKKVGDALTLAVGHLDD-----LPGALSNLSDLHAHKLRVDPVNFKL GLB5_PETMA ADQLKKSADVRWHAERIINAVNDAVASMDDT--EKMSMKLRDLSGKHAKSFQVDPQYFKV MYG_PHYCA EAEMKASEDLKKHGVTVLTALGAILKKKGH-----HEAELKPLAQSHATKHKIPIKYLEF LGB2_LUPLU VP--QNNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKG-VADAHFPV..:: *. :. : *. *. : :. HBB_HUMAN LGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH------ HBB_HORSE LGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH------ HBA_HUMAN LSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR------ HBA_HORSE LSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR------ GLB5_PETMA LAAVIADTVAAG---------DAGFEKLMSMICILLRSAY------- MYG_PHYCA ISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG LGB2_LUPLU VKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA--- : :.:.... :

Metody iteracyjne Problemy dopasowania progresywnego: dalsze przyrównania zależą od początkowej pary sekwencji (szczególnie jeśli są to sekwencje odległe); błędy powstałe przy pierwszym przyrównaniu będą powielane dalej. Metody iteracyjne - wielokrotnie przeprowadzają dopasowania podgrup sekwencji, a następnie wykonują przyrównanie tych podgrup w dopasowanie globalne wszystkich sekwencji. Podgrupy są wybierane ze względu na ułożenie na drzewie filogenetycznym lub losowo.

Metody kombinowane Uwzględnienie homologów dopasowywanych sekwencji: dopasowanie profili sekwencyjnych Uwzględnienie przewidywanej struktury drugorzędowej: łączne zliczanie dopasowania sekwencji oraz struktur drugorzędowych. Uwzględnienie przewidywanej lub rzeczywistej struktury trójwymiarowej: zakotwiczenie dopasowania sekwencji w dopasowaniu strukturalnym. T-coffee, ProbCons, MAFFT, Promals

Metody słów (k-tuple) FASTA, BLAST Szybkość kosztem precyzji

FASTA - algorytm Tworzenie listy słów znaków o zadanej długości (k-tup dla DNA: 4-6; dla białek: 1, 2) i określenie ich położenia w sekwencjach. MRSCNSCMI MR 1 RS 2 SC 3, 6 CN 4 NS 5 CM 7 MI 8 MIRSCNCN MI 1 IR 2 RS 3 SC 4 CN 5, 7 NC 6 Liczenie różnicy położenia dla odpowiednich słów. Słowa, które wykazują tą samą różnicę w położeniu, mogą odpowiadać regionom, gdzie sekwencje pasują do siebie. MRSCNSCG RS 2 SC 3, 6 CN 4 MI 8 - IRSCNCN RS 3 SC 4 CN 5, 7 MI 1 = RS -1 SC -1, 2 CN -1, -3 MI 7

FASTA - algorytm Łączenie znalezionych par słów w regiony początkowe bez przerw znajdujące się w pewnej odległości od siebie. -MRSCNSCMIGWQIAAWYA MIRSCNCNA--WQAGSWYLA Łączenie regionów początkowych w większe regiony najlepiej pasujące (o największej punktacji) i mogące uwzględniać przerwy. -MRSCNSCMIGWQIAAWYA MIRSCNCNA--WQAGSWYLA Przeprowadzenie optymalnego lokalnego dopasowania w oparciu o algorytm Smith-Watermana dla wybranych regionów, a następnie pomiędzy całą sekwencją wysłaną i znalezioną w bazie o najlepszej punktacji. Określenie istotności statystycznej dopasowań (E-value).

BLAST - algorytm Tworzenie listy słów znaków o zadanej długości (k-tup dla DNA: 11, 3 w przypadku tłumaczenia; dla białek: 2, 3) i określenie sąsiadujących (podobnych) słów neighorhood words (dla sekwencji aminokwasowych). MLIPQGDELVISWA MLI LIP IPQ PQG PEG,PRG,PSG,PQA,PAA,LQW,... QGD GDE GDA,GDF,ASE,QDE,IDL,ADE... DEL ELV LVI VIS ISW SWA

BLAST - algorytm Zidentyfikowanie w obrębie sąsiadujących (podobnych) słów tylko takich (~50), które najmniej różnią się od wzorca wg macierzy BLOSUM62 (>T punktacja progowa, score threshold). MLIPQGDELVISWA PQG 18 PEG 15 PRG 14 PKG 14 PNG 13 PDG 13 PHG 13 PMG 13 PSG 13 PQA 12 PQN 12... T>13 Poszukiwanie wybranych słów w sekwencjach w bazie danych i ich przyrównywanie (dopasowywanie). Dla sekwencji DNA szukane są identyczne słowa. GQTERFCVLMLIPQGDELVISWANASSCS NQWGYASCAALLPRGDFLVLGWIGHAALI

BLAST - algorytm Rozszerzanie dopasowania w regionie, w którym zostały znalezione przynajmniej dwa słowa, aż do regionów o niskiej punktacji. Określenie regionów HSP (high-scoring segment pair). GQTERFCVLMLIPQGDELVISWANASSCS NQWGYASCAALLPRGDFLVLGWIGHAALI HSP Przeprowadzenie optymalnego lokalnego dopasowania w oparciu o algorytm Smith-Watermana uwzględniającego wszystkie znalezione regiony HSP. Określenie istotności statystycznej dopasowań (E-value).

Filtrowanie regionów o słabej złożoności Maskowanie (nieuwzględnianie w porównaniach sekwencji) regionów o niskiej złożoności składu, niskiej entropii - LCR (low-complexity regions): powtórzenia nukleotydów lub aminokwasów ciągi tych samych, dwóch lub jednego znaku Regiony te mogą dawać wysokie wartości punktacji dla sekwencji w rzeczywistości niehomologicznych - wyniki fałszywe pozytywne Ponad połowa sekwencji białkowych w bazach posiada przynajmniej jeden LCR Programy do poszukiwania i maskowania tych regionów: PRSS (w pakiecie FASTA) SEG (wykorzystywany przez BLASTP) PSEG NSEG DUST (wykorzystywany przez BLASTN) XNU RepeatMasker Filtrowanie tych regionów jest opcją domyślną w programie BLAST. X - dla aminokwasów, N - dla nukleotydów

Filtrowanie regionów o słabej złożoności >gi 730028 sp P40692 MLH1_HUMAN DNA mismatch repair protein Mlh1 1) Length = 756 Score = 233 bits (593), Expect = 8e-62 Identities = 117/131 (89%), Positives = 117/131 (89%) Query: 1 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL 60 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL Sbjct: 276 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL 335 Query: 61 GSNSSRMYFTQTLLPGLAGPSGEMVKXXXXXXXXXXXXXXDKVYAHQMVRTDSREQKLDA 120 GSNSSRMYFTQTLLPGLAGPSGEMVK DKVYAHQMVRTDSREQKLDA Sbjct: 336 GSNSSRMYFTQTLLPGLAGPSGEMVKSTTSLTSSSTSGSSDKVYAHQMVRTDSREQKLDA 395 Query: 121 FLQPLSKPLSS 131 FLQPLSKPLSS Sbjct: 396 FLQPLSKPLSS 406 LCR (low-complexity regions

Porównanie programów FASTA i BLAST BLAST FASTA może podawać więcej niż jeden region o wysokiej punktacji lepszy dla sekwencji białek niż DNA podaje tylko jedno najlepsze dopasowanie lepszy dla sekwencji DNA niż białek szybszy niż FASTA mniej czuły niż FASTA przy użyciu domyślnych ustawień daje gorsze rozróżnienie między prawdziwymi i fałszywymi homologami wolniejszy niż BLAST bardziej czuły niż BLAST daje lepsze rozróżnienie między prawdziwymi i fałszywymi homologami

PSI-Blast Sequence vs Sequence Database or Sequence Profile vs Sequence Database PSSM: Position-Specific Scoring Matrix

PSI-Blast Query: FAM69A protein, human

PSI-Blast. Druga iteracja Query: FAM69A protein, human

PSI-Blast. Trzecia iteracja Query: FAM69A protein, human