Porównywanie i dopasowywanie sekwencji
Związek bioinformatyki z ewolucją Wraz ze wzrostem dostępności sekwencji DNA i białek pojawiła się nowa możliwość śledzenia ewolucji na poziomie molekularnym Ewolucja molekularna za przedmiot swoich badań uznaje cząsteczki DNA i białek a jej celem jest scharakteryzowanie mechanizmów mutacji i selekcji zachodzących na poziomie sekwencji Analiza ewolucji molekularnej umożliwia porównywanie cząsteczek między różnymi gatunkami, co stanowi przewagę w stosunku do np. genetyki populacyjnej, która zajmuje się badaniem zróżnicowania genetycznego u osobników tego samego gatunku.
Filogenetyka to nauka wykorzystującą metody bioinformatyczne do analizy relacji ewolucyjnych na poziomie molekularnym Celem analizy filogenetycznej jest wysuwanie wniosków na temat tych relacji ewolucyjnych lub ich szacowanie. Filogenetyka molekularna obejmuje zestaw metod pozwalających wykorzystać informację zawartą w sekwencjach aminokwasowych lub nukleotydowych w celu odtworzenia historii ewolucyjnej, uwzględniając kolejność specjacji Historia ewolucyjna odtwarzana dzięki analizie filogenetycznej, jest zwykle przedstawiana w postaci rozgałęziających się diagramów przypominających drzewo i odzwierciedlających przypuszczalne zależności genealogiczne między cząsteczkami lub organizmami
Za umowny początek filogenetyki - badań nad ewolucją molekularną przyjmuje się rok 1965 kiedy to ukazał się artykuł Zuckerkandala i Paulinga demonstrujący tzw. drzewo filogenetyczne skonstruowane w oparciu o sekwencje białek.
HOMOLOGIA kluczowe pojęcie, w odniesieniu do ewolucji molekularnej homologia - obecność podobnych własności (czyli kolejności nukleotydów w DNA lub aminokwasów w białku) ze względu na pochodzenie od wspólnego przodka, rozbieżności między sekwencjami są wynikiem ich różnicowania się w toku ewolucji homologię określamy na podstawie obserwowanych podobieństw (przy czym homologia jest nieobserwowalna bezpośrednio, gdyż nie dysponujemy sekwencjami DNA lub białek przodków, ale potrafimy sobie wyobrazić jak takie sekwencje mogły wyglądać) homologia jest własnością binarną - nie ma stanów pośrednich
Sekwencje homologiczne mogą być: Ortologami jeśli ich ostatni wspólny przodek istniał w momencie specjacji tzn. ortologami nazwywamy homologiczne geny w różnych organizmach, które kodują białka pełniące tę samą funkcję i które ewoluują bezpośrednio z pokolenia na pokolenie
Występowanie ortologów w różnych organizmów jest wynikiem rozdzielenia się gatunków czyli specjacji
Sekwencje homologiczne mogą być też: paralogami jeśli ich ostatni wspólny przodek istniał w momencie duplikacji w tym samym organizmie tzn. paralogami są homologiczne geny w organizmie, które kodują białka o pokrewnych, ale nie identycznych funkcjach Paralogami nazywamy spokrewnione ewolucyjnie sekwencje z jednego organizmu, których linie ewolucyjne rozeszły się w wyniku duplikacji genu
Jak możemy zobaczyć ewolucję molekularną: Do wyznaczenia homologii konieczne jest porównywanie sekwencji poprzez wyznaczenie dopasowań par sekwencji lub wielu sekwencji jednocześnie Homologię obserwujemy na podstawie podobieństwa sekwencji Podobieństwo sekwencji ustalamy przez ich dopasowanie czyli alignment
Wyznaczanie homologii nie jest jedynym celem porównywania i dopasowywania sekwencji Po co jeszcze porównuje się sekwencje DNA i białek: z ciekawości - by dowiedzieć się czym jest nasza sekwencja i co zawiera w celu określenia jej przypuszczalnej funkcji poznać przybliżoną strukturę (białka) poznać położenie eksonów (DNA), lokalizacja domen funkcyjnych (białka)
Żeby móc pokazać np. ewolucję molekularną lub określić funkcję nowo poznanego odcinka DNA musimy dopasować sekwencje w dość wysublimowany sposób Dopasowanie (alignment) powinno być: liniowym przedstawieniem relacji pomiędzy sekwencjami z uwzględnieniem układu jeden-do-jednego pomiędzy resztami aminokwasowymi lub nukleotydami Z takiego założenia wynika specyfika dopasowania której największym wyzwaniem było: umieszczenie insercji i delecji (gaps) tak aby odzwierciedlały prawdziwe wydarzenia ewolucyjne
Algorytmy używane do porównywania i dopasowywania sekwencji dot matrix metoda okienkowa programowanie dynamiczne BLAST FASTA metody hierarchiczne wykorzystywane przede wszystkim dla dopasowań wielokrotnych w filogenetyce Wynik dopasowania uzyskiwany przy pomocy tych algorytmów dynamicznych pokazuje zarówno proste podobieństwo sekwencji jak również pozwala ustalić związki ewolucyjne pomiędzy nimi wyznaczyć homologię
Zasada algorytmów dynamicznych, które stały się podstawą narzędzi do poszukiwania podobieństwa w bazach danych polega na przesuwaniu jednej sekwencji nad drugą i obliczaniu najlepszego wyniku dopasowania Co jest składową wyniku podobieństwa (dopasowania)? Na ogólny wynik (współczynnika podobieństwa sekwencji) składają się: 1. współczynniki podobieństwa poszczególnych punktów porównania sekwencji (czyli np. pary nukleotydów lub aminokwasów) odczytywane z tzw. tablic podobieństwa 2. punktów (zwykle ujemne) wynikających z wstawienia przerwy i jej wydłużania (w jednej lub drugiej sekwencji), które obniżają końcowy wynik Wspólnym mianownikiem działania programów dynamicznych jest rozpoczęcie wyszukiwania podobieństwa od krótkich odcinków (słów) zadanej sekwencji nt lub aa
Tablice podobieństwa - punktacja podobieństwa na przykładzie porównywania i dopasowywania sekwencji białkowych Pierwsze tablice opierały się na podobieństwie fizyko-chemicznych właściwości 210 możliwych par aminokwasów (190 par różnych aminokwasów i 20 identycznych) tablice podobieństwa uwzględniały podobny charakter aminokwasów (np. I - L) i te pary mają wyższy współczynnik niż aminokwasy o różnym charakterze (np. alifatyczne i aromatyczne) Nowsze generacje tablic podobieństwa (obecnie w powszechnym użyciu) opierają się na obserwowanej częstości substytucji (zmiany jednego aminokwasu na drugi), w zależności od stopnia pokrewieństwa (częstość obserwowanych substytucji odzwierciedla najczęściej podobieństwo właściwości fizyko-chemicznych, ale także bierze pod uwagę mechanizmy ewolucji molekularnej) Najpopularniejszym schematem punktowania jest tablica opracowana przez Margaret Dayhoff i współpracowników (1978) PAM (Percentage of Acceptable point Mutations per 10 8 years) - oparta jest na modelu ewolucji białek blisko spokrewnionych: substytucje aminokwasów są wynikiem kolejnych mutacji w obrębie odpowiednich kodonów. Częstość zmian jednego aminokwasu na drugi, obserwowanych w obrębie porównania wielu sekwencji, jest dla każdego aminokwasu standaryzowana (przeliczana tak aby była uwzględniona częstość występowania tego aminokwasu we wszystkich sekwencjach bazy danych)
Zasady poszukiwania podobieństwa sekwencji w bazach danych za pomocą algorytmów dynamicznych 1. Nie interesuje nas ewolucja molekularna - celem jest znalezienie sekwencji podobnych, które mogą (ale nie muszą) być homologiczne, spokrewnione z sekwencją badaną 2. Należy porównać sekwencję sprawdzaną (kwerendę, zapytanie ang. query sequence) do każdej sekwencji w bazie danych (a wiadomo, że jest ich bardzo dużo!) 3. Większość z sekwencji w bazie nie jest podobna do sekwencji zapytania należy więc znaleźć sposób na ich szybkie odrzucenie w trakcie analizy 4. Przy porównywaniu/dopasowywaniu sekwencji nie muszą one być podobnej długości (to jest zaleta programowania dynamicznego
Rodzaje przeszukiwań baz danych w celu znalezienia podobnych sekwencji (tryby pracy algorytmów dynamicznych) nukleotydy do nukleotydów- niska czułość ze względu na 4-literowy alfabet (dobry sposób przy porównywaniu dużych sekwencji genomowych oraz porównaniach wstępnych) białko do białek- najlepiej dopracowane duża czułość nukleotydy do białek- zamienia nukleotydy na białko we wszystkich sześciu ramkach odczytu, służy do znajdowania homologicznych białek, dobrze spisuje się w przypadku genomów eukariotycznych Terminologia przy poszukiwaniu podobieństwa w bazach danych query (kwerenda, zapytanie)- sekwencja dla której chcemy znaleźć podobne sekwencje w bazie danych subject - sekwencja znaleziona w bazie (dopasowana do kwerendy, zwykle jest ich wiele)
Przybliżenia - algorytm FASTA Pierwszym powszechnie stosowanym programem do przeszukiwania baz stało się narzędzie oparte na algorytmie FASTA, stworzonym przez Pearsona i Lipmana (1985) a jego zasada polega na wyszukiwaniu najistotniejszych przekątnych analizy dot-plot. FASTA jest uważany za nieco wolniejszy od drugiego powszechnie używanego programu jakim jest BLAST, ale za to bardziej czuły i bardziej specyficzny
Etapy porównywania sekwencji programem FASTA W efekcie działania algorytmu FASTA uzyskujemy dopasowanie na całej (lub prawie całej) długości sekwencji, nawet jeśli wyznaczony wynik podobieństwa jest nieco niższy
BLAST ang. Basic Local Alignment Search Tool Znajduje najlepsze lokalne podobieństwa z sekwencją porównywaną BLAST dzieli zapytanie i sekwencje w bazie danych na fragmenty (słowa) i wyszukuje podobieństwo pomiędzy tymi fragmentami przy zastosowaniu określonej matrycy (tablicy podobieństwa) Takie słowa są następnie wydłużane w obie strony i tworzone jest dopasowanie jeśli wynik przekracza określoną wartość progową Wydłużenie zgodnego słowa - "najdroższy" obliczeniowo etap BLAST wydłużenie nie jest prowadzone do momentu gdy wyniki punktacji podobieństwa spadnie do zera lecz do osiągnięcia pewnego minimalnego progu punktacji poniżej którego lepiej (wg założeń tego algorytmu) jest przerwać dopasowanie...i np. zacząć go w innym miejscu BLAST zwiększył znacząco szybkość przeszukiwania baz danych nie zmniejszając jednocześnie w sposób istotny jego czułości
Etapy poszukiwania podobieństwa BLAST 1. podzielenie query na nakładające się słowa 2. przeszukanie bazy w celu znalezienia słów pokrewnych 3. wydłużenie dopasowania zaczynając od słowa pokrewnego 4. wykonanie lokalnego programowania dynamicznego 5. obliczenie statystyczne wartości wyniku tzw. E-value W efekcie działania algorytmu BLAST często uzyskujemy dopasowanie na bardzo krótkim odcinku sekwencji, a wyznaczony wynik podobieństwa jest bardzo wysoki