Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1
Często dopasować chcemy nie dwie sekwencje ale kilkanaście lub więcej 2
Istnieją dokładne algorytmy, lecz są one niewydajne (złożoność O(N S ), N - długość sekwencji, S liczba sekwencji) Często interesuje nas dopasowanie albo dwóch sekwencji albo kilkunastu lub więcej Rzadko kiedy chodzi o dopasowanie 3 czy 4 sekwencji Często chodzi nam o dopasowanie spokrewnionych ze sobą (podobnych) sekwencji wstęp do analizy filogenetycznej 3
Homologia podobieństwo ze względu na wspólnego przodka wspólne ewolucyjne pochodzenie struktur organizmów z różnych grup taksonomicznych (np. ręka człowieka i skrzydło ptaka) podobieństwo sposobów zachowania się (jeśli odziedziczone po wspólnym przodku) 4
Homoplazja podobieństwo ze względu na konwergencję Konwergencja proces powstawania morfologicznie i funkcjonalnie podobnych cech (analogicznych) w grupach organizmów odlegle spokrewnionych w odpowiedzi na podobne lub takie same wymagania środowiskowe niezależność ewolucyjna np. opływowe kształty ryb i waleni np. skrzydła ptaków i owadów 5
6
Sekwencje homologiczne są podobne Sekwencje podobne nie muszą być homologiczne Sekwencje homologiczne Podobne funkcje Podobieństwo konserwatywnych fragmentów 7
Homologi Geny podobne pochodzące od wspólnego przodka Ortologi Rozdzielenie nastąpiło w wyniku specjacji rozdzielenia się gatunków Paralogi Rodzielenie nastąpiło w wyniku duplikacji genu Mogą mieć różne funkcje w organiźmie Można rozważać paralogi w jednym organiźmie (np. Mioglobina I hemoglobina u człowieka) Przykład: hemoglobina u człowieka i mioglobina u szympansa są paralogami, a nie ortologami, dlatego, że w tym przypadku duplikacja genu nastąpiła przed specjacją. Analogi Podobne cechy pojawiają się niezależnie 8
Metoda progresywnego dopasowania wielosekwencyjnego Konsktrukcja drzewa filogenetycznego (przewodniego) dla zadanych sekwencji Stopniowe dodawanie sekwencji do konstruowanego dopasowania w kolejności wyznaczonej drzewem przewodnim Wykorzystywane dopasowanie globalne 9
Drzewo przewodnie 10
Sekwencje genów kodujących heksokinazy u Ludzi Szczurów Muszki owocowej Drożdży Zarodźca sierpowego 11
W genomach ssaków, grzybów i owadów od czasu oddzielenia się linii ewolucyjnych doszło do niezależnych duplikacji odpowiednich genów. 12
Każdy z ludzkich genów ma swój gen homologiczny u szczura. Wniosek: duplikacje genów musiały zajść przed oddzieleniem się linii ewolucyjnych ludzi i szczurów. 13
Drzewo przewodnie Dla każdej pary sekwencji wyznacza się dopasowanie Na podstawie dopasowań wyznacza się odległości ewolucyjne dla każdej pary sekwencji Najprostszy sposób: policzyć odsetek pozycji D, na których występują różne reszty Uwzględniając fakt, że podstawienia mogły zachodzić wielokrotnie na tych samych pozycjach, można wprowadzać poprawki (np. poprawka Kimury) Istnieją różne poprawki wynikające z różnych modeli ewolucyjnych (temat na osobny wykład) 14
Drzewo przewodnie Przykładowa poprawka (Feng i Doolittle) na podstawie oceny S dopasowania pary sekwencji S rand średnie dopasowanie losowych sekwencji S ident średnie dopasowanie identycznych sekwencji 15
Drzewo przewodnie Mając macierz odległości ewolucyjnych między wszystkimi sekwencjami można ich użyć do konstrukcji drzewa np. metoda przyłączenia sąsiada do konstruowania drzewa wraz z metodą środkowego punktu do wyznaczenia korzenia drzewa 16
Podczas kolejnych kroków konstruowania dopasowania wielosekwencyjnego: Dopasowanie sekwencji w istniejących dopasowaniach się nie zmienia W kolejnych krokach istnieje konieczność dopasowania: Sekwencja + sekwencja (dopasowanie globalne) Dopasowanie + nowa sekwencja Dopasowanie + dopasowanie 17
Podczas dopasowania innego niż dwóch sekwencji algorytm w zasadzie nie zmienia się (alg. Needlemana-Wunscha), istnieje jednak konieczność dodatkowych zabiegów: Uśrednianie punktacji Wstawiane przerwy muszą pojawić się w każdej sekwencji dopasowania 18
LRNIHHANGASM LRAI-HANGASM Istniejące dopasowanie 1 RRGIHANGAFSM RRFIHANAA-SM Istniejące dopasowanie 2 Ocena = [ S(N,G) + S(N,F) + S(A,G) + S(A,F) ]/ 4 19
LRNIHHANGASM LRAI-HANGASM Istniejące dopasowanie 1 RRGIHA-NGAFSM RRFIHA-NAA-SM Istniejące dopasowanie 2 Nowe znaki przerw w istniejącym zamrożonym dopasowaniu wstawiane są na danej pozycji w każdej sekwencji należącej do tego dopasowania. 20
LRNIHHANGASM LRAI-HANGASM Istniejące dopasowanie 1 RRGIHA-NGAFSM RRFIHA-NAA-SM Istniejące dopasowanie 2 LRNIHHANGASM- LRAI-HANGASM- RRGIHA-NGAFSM RRFIHA-NAA-SM Nowe dopasowanie, zostaje od tej pory zamrożone. 21
Metoda progresywnego dopasowania wielosekwencyjnego Jest to metoda heurystyczna (nie jest dokładna) Efekt dopasowania zależy od drzewa przewodniego, tablicy podstawień, funkcji kary Złożoność : O(SN 2 ) Działa lepiej dla sekwencji o podobnej długości Na podstawie otrzymanego dopasowania można otrzymać nowe drzewo przewodnie (filogenetyczne), które jednak może być silnie skorelowane z oryginalnym drzewem 22
Możliwe ulepszenia Zmniejszenie wpływu blisko spokrewnionych sekwencji Uzależnienie kar za przerwy od pozycji gdzie występują (na podstawie struktury drugorzędowej białek) Przerwy zazwyczaj nie są wstawiane w obrębie elementów struktury drugorzędowej, ale raczej w obrębie łączących ich pętli Dopasowanie odpowiednich macierzy PAM lub BLOSUM 23
Najbardziej popularna implementacja metody progresywnej to program Clustal. Istnieją alternatywne algorytmy, np. T-Coffee. 24
Problematyka konstruowania dopasowań wielosekwencyjnych oraz drzew filogenetycznych jest ze sobą powiązana. Obecnie zazwyczaj najpierw wyznacza się dopasowanie wielosekwencyjne a dopiero następnie konstruuje się drzewo filogenetyczne. 25
http://www.ebi.ac.uk/tools/msa/ 26
zawartość pliku CytBProt.txt (wszystkie sekwencje) 27
28
29
30
31
Unipro UGENE Zadanie Wykonaj dopasowanie wszystkich sekwencji z pliku CytBProt.txt 32
Unipro UGENE 33
Unipro UGENE 34
Unipro UGENE 35
Unipro UGENE 36