Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Przyrównanie sekwencji Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Sequence alignment - przyrównanie sekwencji Poszukiwanie ciągów znaków (zasad nukleotydowych lub reszt aminokwasowych), które posiadają to samo ułożenie w porównywanych sekwencjach ACAAAATGTA ACACTAGATA A C A - - A A A T G T A A C A C T A G A T - - A Gap, indel, Match, Mismatch 2

Sequence alignment - przyrównanie sekwencji Stwierdzone różnice pomiędzy sekwencjami świadczą o mutacjach, które zaszły po rozdzieleniu się sekwencji od wspólnego przodka A C A - - A A A T G T A A C A C T A G A T - - A Delecja CT Substytucja A G Insercja GT 3

Przyrównanie - znaczenie Podobieństwo sekwencji może świadczyć o: Podobnej funkcji sekwencji Podobnej strukturze białek Wspólnej historii ewolucyjnej Podobieństwo sekwencji może wynikać z: Homologii Homoplazji (konwergencji) 4

Przyrównanie - znaczenie Podobieństwo sekwencji może świadczyć o: Podobnej funkcji sekwencji Podobnej strukturze białek Wspólnej historii ewolucyjnej Podobieństwo sekwencji może wynikać z: Homologii pochodzeniu sekwencji od wspólnego przodka; sekwencje mogą, ale nie muszą pełnić tych samych funkcji Homoplazji (konwergencji) podobnych zmianach, które pojawiły się w obu sekwencjach niezależnie chymotrypsyna i subtylizyna mają różną strukturę 3D ale podobne centrum aktywne (histydyna, seryna, kwas asparaginowy) 5

Rodzaje dopasowań pokrycie sekwencji Globalne Założenie: przyrównywane sekwencje są generalnie podobne na całej długości Od początku do końca obu sekwencji Bliskie pokrewieństwo, podobna długość Lokalne Założenie: sekwencje nie wykazują podobieństwa na całej długości Poszukiwanie regionów o najwyższym podobieństwie przyrównanie ich bez względu na to, jak są dopasowane pozostałe fragmenty Większa dywergencja, w celu znalezienia konserwatywnych regionów 6

Rodzaje dopasowań liczba sekwencji Pair-wise alignment (dwie sekwencje) Multiple sequence alignment (wiele sekwencji) Program Seaview 7

Algorytmy przyrównania sekwencji macierze punktowe (dot plot) programowanie dynamiczne (dynamic programming) metody słowne (k tuple methods) 8

Macierze punktowe (dot plot) Graficzny sposób przyrównania dwóch sekwencji w dwuwymiarowej macierzy wizualna identyfikacja podobnych regionów Zgodność reszt kropka Brak zgodności puste pole Podobne regiony = ciągłe, ukośne linie 9

Sekwencje podobne Insercja/delecja Duplikacja Inwersja Liczne powtórzenia 10

Programowanie dynamiczne Porównanie każdej pary znaków dwóch sekwencji Analiza wszystkich możliwych kombinacji dopasowania z uwzględnieniem systemu punktacji za: - dopasowania (matches) - niedopasowania (mismatches) - przerwy (gaps) Przerwy mogą spowodować wzrost liczby dopasowań w innych miejscach ACAAAATGTA ACACTAGATA A C A - - A A A T G T A A C A C T A G A T - - A przykładowo Gap = -1, Match = 1, Mismatch = -1 11

Analiza dwuwymiarowej macierzy z naniesionymi wartościami ocen dopasowania danych reszt wyznaczenie ścieżki Ścieżka reprezentująca najlepsze przyrównanie ma najwyższą możliwą wartość punktacji Identyczne reszty = 1 Brak skojarzenia = 0 Kara = -1 Xiong J., Podstawy bioinformatyki 12

Penalizacja afiniczna Łatwiej poszerzyć przerwę niż otworzyć nową 13

Macierze punktowania System punktowania, który jest zbiorem wartości opisujących ilościowo prawdopodobieństwo substytucji jednej reszty w drugą Oceny dodatnie, wysokie = reszty dobrze skojarzone Oceny ujemne, niskie = reszty źle skojarzone Sekwencje nukleotydowe Czy częstości mutacji są jednakowe dla wszystkich czterech zasad? Sekwencje amionokwasowe Odzwierciedlenie właściwości fizykochemicznych (PAM, BLOSUM) 14

Macierze punktowania System punktowania, który jest zbiorem wartości opisujących ilościowo prawdopodobieństwo substytucji jednej reszty w drugą Oceny dodatnie, wysokie = reszty dobrze skojarzone Oceny ujemne, niskie = reszty źle skojarzone Sekwencje nukleotydowe Czy częstości mutacji są jednakowe dla wszystkich czterech zasad? Sekwencje amionokwasowe Odzwierciedlenie właściwości fizykochemicznych (PAM, BLOSUM) 15

Macierze punktowania - przykład

Metoda heurystyczna, wykorzystanie metody słownej Sprawdzenie tylko cześci przyrównań, które byłyby analizowane zwykłymi metodami programowania dynamicznego znaczne przyspieszenie (50-100x)! Zmniejszenie czułości i specificzności Nie gwarantuje poprawnego wygenerowania przyrównania Metoda heurystyczna - metoda znajdowania rozwiązań, dla której nie ma gwarancji znalezienia rozwiązania optymalnego. Użyteczna, gdy pełny algorytm jest z przyczyn technicznych zbyt kosztowny lub gdy jest nieznany. 17

BLAST Basic Local Alignment Search Tool Przeszukuje połączone światowe bazy danych sekwencji białkowych i kwasów nukleinowych wykorzystując podaną sekwencję jako zapytanie Przyrównuje sekwencję z innymi sekwencjami dostępnymi w bazie Poszukuje wysoko punktowanych, ciągłych segmentów pokrewnych sekwencji 18

BLAST Basic Local Alignment Search Tool Etapy działania: Tworzenie listy słów analizowanej sekwencji (słowo to np. 3 reszty dla aminokwasów, 10 dla nukleotydów) Wyszukanie słów w sekwencyjnej bazie danych (identyfikacja sekwencji, z którymi zapytanie będzie skojarzone) Ocena (macierz substytucji) Przyrównanie parami poprzez rozszerzanie słów w obu kierunkach, ocena (wartość graniczna) seed-and-extend paradigm GATACCCCAATGATAGATAAAACGCGTAATTAGGCTAGCGATAAACGTACGTACGTACCCCCGATCAGG GTACTGAAAGATAGAGATAGATAAAATTAAGCGAATGATCCCCCCGATCAAAGCGCGCGTACGTACGTA 19

Przyrównanie wielu sekwencji (Multiple sequence alignment) Metody wyczerpujące (analiza dopasowań wszystkich możliwych pozycji, stosują macierze wielowymiarowe, są wymagające obliczeniowo) Metody heurystyczne (szybsze i mniej wymagające obliczeniowo) - progresywne (etapowe składanie przyrównania na podstawie podobieństwa par sekwencji) - iteracyjne (wielokrotne poprawianie przyrównań suboptymalnych) - blokowe (identyfikacja wspólnego dla wszystkich sekwencji bloku przyrównania, niezwierającego przerw) 20

Metoda progresywna 21

Clustal Elastyczność korzystania z różnych macierzy substytucji Kary za przerwy Zachłanna natura algorytmu Raz błąd, zawsze błąd 22

Clustal Elastyczność korzystania z różnych macierzy substytucji Kary za przerwy Zachłanna natura algorytmu Raz błąd, zawsze błąd Stosowanie różnych macierzy punktowania w zależności od stopnia podobieństwa sekwencji. BLOSUM62 lub PAM120 w początkowym etapie przy blisko spokrewnionych sekwencjach. BLOSUM45 lub PAM250 w dalszych etapach przy większym stopniu dywergencji sekwencji. 23

Clustal Elastyczność korzystania z różnych macierzy substytucji Kary za przerwy Wprowadzenie większej liczby insercji/delecji w regionach zlokalizowanych poza konserwatywnymi rejonami. Zachłanna natura algorytmu Raz błąd, zawsze błąd Wyższe kary dla przerw wprowadzonych zbyt blisko. 24

Clustal Elastyczność korzystania z różnych macierzy substytucji Kary za przerwy Zachłanna natura algorytmu Raz błąd, zawsze błąd Wynik końcowy zależy od wstępnego przyrównania sekwencji parami. Jeśli na wczesnym etapie tworzenia przyrównania przerwy wprowadzono błędnie, zostaną one utrwalone rozprzestrzenienie błędów na całe przyrównanie. 25

T-Coffee (Tree-based Consistency Objective Function for Alignment Evaluation) Clustal (globalne) + Lalign (lokalne) Zbiór obu rodzajów dopasowań = biblioteka oceny spójności każdej pary reszt Optymalne przyrównanie początkowe jest wybieranie spośród wielu dopasowań 26

Zadania Zapraszam na theta.edu.pl Plik PB_3 Praca domowa przygotowanie się na następne zajęcia (drzewa filogenetyczne) 27