Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Podobne dokumenty
PRZYRÓWNANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

Dopasowanie sekwencji (sequence alignment)

Porównywanie i dopasowywanie sekwencji

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Dopasowania par sekwencji DNA

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Porównywanie i dopasowywanie sekwencji

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta

dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia

Przyrównywanie sekwencji

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Dopasowanie par sekwencji

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Wykład 5 Dopasowywanie lokalne

Bioinformatyka. Porównywanie sekwencji

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

Porównywanie sekwencji białkowych

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl

Wstęp do Biologii Obliczeniowej

Homologia, podobieństwo i analogia

Generator testów Bioinformatyka wer / 0 Strona: 1

Spis treści 8 Ewolucja molekularna Ewolucyjne podstawy porównywania sekwencji Identyfikacja sekwencji i jej funkcji...

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

Algorytmy kombinatoryczne w bioinformatyce

Algorytmy kombinatoryczne w bioinformatyce

Motywy i podobieństwo

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Analizy filogenetyczne

W kierunku równoległej implementacji pakietu T-Coffee

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych

Autor: mgr inż. Agata Joanna Czerniecka. Tytuł: Nowa metoda obliczeniowa porównywania sekwencji białek

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

D: Dopasowanie sekwencji. Programowanie dynamiczne

Porównywanie sekwencji białek i kwasów nukleinowych

MSA i analizy filogenetyczne

Bioinformatyka Laboratorium, 30h. Michał Bereta

Generator testów bioinformatyka wer / Strona: 1

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna

3 Przeszukiwanie baz danych

Podstawy bioinformatyki dla biotechnologów

Bioinformatyka II Modelowanie struktury białek

Samouczek: Konstruujemy drzewo

MACIERZE MUTACYJNE W ANALIZIE GENOMÓW czy możliwa jest rekonstrukcja filogenetyczna? Aleksandra Nowicka

Algorytm genetyczny (genetic algorithm)-

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

Bioinformatyka wykład 3.I.2008

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka wykład 8, 27.XI.2012

Bioinformatyka 2 (BT172) Struktura i organizacja kursu

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Zmienność ewolucyjna. Ewolucja molekularna

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Mechanizmy zmienności ewolucyjnej. Podstawy ewolucji molekularnej.

Statystyczna analiza danych

Budowanie drzewa filogenetycznego

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

Bioinformatyka wykład 10

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Wstęp do programowania

Przewidywanie struktury kanału białkowego z wykorzystaniem probabilistycznych gramatyk formalnych oraz modelu ciągłego przepływu jonów

Wybrane podstawowe rodzaje algorytmów

Algorytmika dla bioinformatyki

ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI

Badanie doboru naturalnego na poziomie molekularnym

Bioinformatyka II Modelowanie struktury białek

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Rycina 1. Zasięg i zagęszczenie łosi (liczba osobników/1000 ha) w Polsce w roku 2010 oraz rozmieszczenie 29 analizowanych populacji łosi.

Olimpiada Biologiczna

Algorytmy genetyczne. Materiały do laboratorium PSI. Studia stacjonarne i niestacjonarne

Teoria ewolucji. Losy gatunków: specjacja i wymieranie. Podstawy ewolucji molekularnej

Technologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15

Algorytmy genetyczne. Materiały do laboratorium PSI. Studia niestacjonarne

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

FILOGENETYKA. Bioinformatyka, wykład. 8 c.d. 0)

Wstęp do programowania

xx + x = 1, to y = Jeśli x = 0, to y = 0 Przykładowy układ Funkcja przykładowego układu Metody poszukiwania testów Porównanie tabel prawdy

Modelowanie interakcji helis transmembranowych

BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH

Acknowledgement. Drzewa filogenetyczne

Bioinformatyka wykład 11, 11.I.2011 Białkowa bioinformatyka strukturalna c.d.

Metody Optymalizacji: Przeszukiwanie z listą tabu

Transkrypt:

Przyrównanie sekwencji Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Sequence alignment - przyrównanie sekwencji Poszukiwanie ciągów znaków (zasad nukleotydowych lub reszt aminokwasowych), które posiadają to samo ułożenie w porównywanych sekwencjach ACAAAATGTA ACACTAGATA A C A - - A A A T G T A A C A C T A G A T - - A Gap, indel, Match, Mismatch 2

Sequence alignment - przyrównanie sekwencji Stwierdzone różnice pomiędzy sekwencjami świadczą o mutacjach, które zaszły po rozdzieleniu się sekwencji od wspólnego przodka A C A - - A A A T G T A A C A C T A G A T - - A Delecja CT Substytucja A G Insercja GT 3

Przyrównanie - znaczenie Podobieństwo sekwencji może świadczyć o: Podobnej funkcji sekwencji Podobnej strukturze białek Wspólnej historii ewolucyjnej Podobieństwo sekwencji może wynikać z: Homologii Homoplazji (konwergencji) 4

Przyrównanie - znaczenie Podobieństwo sekwencji może świadczyć o: Podobnej funkcji sekwencji Podobnej strukturze białek Wspólnej historii ewolucyjnej Podobieństwo sekwencji może wynikać z: Homologii pochodzeniu sekwencji od wspólnego przodka; sekwencje mogą, ale nie muszą pełnić tych samych funkcji Homoplazji (konwergencji) podobnych zmianach, które pojawiły się w obu sekwencjach niezależnie chymotrypsyna i subtylizyna mają różną strukturę 3D ale podobne centrum aktywne (histydyna, seryna, kwas asparaginowy) 5

Rodzaje dopasowań pokrycie sekwencji Globalne Założenie: przyrównywane sekwencje są generalnie podobne na całej długości Od początku do końca obu sekwencji Bliskie pokrewieństwo, podobna długość Lokalne Założenie: sekwencje nie wykazują podobieństwa na całej długości Poszukiwanie regionów o najwyższym podobieństwie przyrównanie ich bez względu na to, jak są dopasowane pozostałe fragmenty Większa dywergencja, w celu znalezienia konserwatywnych regionów 6

Rodzaje dopasowań liczba sekwencji Pair-wise alignment (dwie sekwencje) Multiple sequence alignment (wiele sekwencji) Program Seaview 7

Algorytmy przyrównania sekwencji macierze punktowe (dot plot) programowanie dynamiczne (dynamic programming) metody słowne (k tuple methods) 8

Macierze punktowe (dot plot) Graficzny sposób przyrównania dwóch sekwencji w dwuwymiarowej macierzy wizualna identyfikacja podobnych regionów Zgodność reszt kropka Brak zgodności puste pole Podobne regiony = ciągłe, ukośne linie 9

Sekwencje podobne Insercja/delecja Duplikacja Inwersja Liczne powtórzenia 10

Programowanie dynamiczne Porównanie każdej pary znaków dwóch sekwencji Analiza wszystkich możliwych kombinacji dopasowania z uwzględnieniem systemu punktacji za: - dopasowania (matches) - niedopasowania (mismatches) - przerwy (gaps) Przerwy mogą spowodować wzrost liczby dopasowań w innych miejscach ACAAAATGTA ACACTAGATA A C A - - A A A T G T A A C A C T A G A T - - A przykładowo Gap = -1, Match = 1, Mismatch = -1 11

Analiza dwuwymiarowej macierzy z naniesionymi wartościami ocen dopasowania danych reszt wyznaczenie ścieżki Ścieżka reprezentująca najlepsze przyrównanie ma najwyższą możliwą wartość punktacji Identyczne reszty = 1 Brak skojarzenia = 0 Kara = -1 Xiong J., Podstawy bioinformatyki 12

Penalizacja afiniczna Łatwiej poszerzyć przerwę niż otworzyć nową 13

Macierze punktowania System punktowania, który jest zbiorem wartości opisujących ilościowo prawdopodobieństwo substytucji jednej reszty w drugą Oceny dodatnie, wysokie = reszty dobrze skojarzone Oceny ujemne, niskie = reszty źle skojarzone Sekwencje nukleotydowe Czy częstości mutacji są jednakowe dla wszystkich czterech zasad? Sekwencje amionokwasowe Odzwierciedlenie właściwości fizykochemicznych (PAM, BLOSUM) 14

Macierze punktowania System punktowania, który jest zbiorem wartości opisujących ilościowo prawdopodobieństwo substytucji jednej reszty w drugą Oceny dodatnie, wysokie = reszty dobrze skojarzone Oceny ujemne, niskie = reszty źle skojarzone Sekwencje nukleotydowe Czy częstości mutacji są jednakowe dla wszystkich czterech zasad? Sekwencje amionokwasowe Odzwierciedlenie właściwości fizykochemicznych (PAM, BLOSUM) 15

Macierze punktowania - przykład

Metoda heurystyczna, wykorzystanie metody słownej Sprawdzenie tylko cześci przyrównań, które byłyby analizowane zwykłymi metodami programowania dynamicznego znaczne przyspieszenie (50-100x)! Zmniejszenie czułości i specificzności Nie gwarantuje poprawnego wygenerowania przyrównania Metoda heurystyczna - metoda znajdowania rozwiązań, dla której nie ma gwarancji znalezienia rozwiązania optymalnego. Użyteczna, gdy pełny algorytm jest z przyczyn technicznych zbyt kosztowny lub gdy jest nieznany. 17

BLAST Basic Local Alignment Search Tool Przeszukuje połączone światowe bazy danych sekwencji białkowych i kwasów nukleinowych wykorzystując podaną sekwencję jako zapytanie Przyrównuje sekwencję z innymi sekwencjami dostępnymi w bazie Poszukuje wysoko punktowanych, ciągłych segmentów pokrewnych sekwencji 18

BLAST Basic Local Alignment Search Tool Etapy działania: Tworzenie listy słów analizowanej sekwencji (słowo to np. 3 reszty dla aminokwasów, 10 dla nukleotydów) Wyszukanie słów w sekwencyjnej bazie danych (identyfikacja sekwencji, z którymi zapytanie będzie skojarzone) Ocena (macierz substytucji) Przyrównanie parami poprzez rozszerzanie słów w obu kierunkach, ocena (wartość graniczna) seed-and-extend paradigm GATACCCCAATGATAGATAAAACGCGTAATTAGGCTAGCGATAAACGTACGTACGTACCCCCGATCAGG GTACTGAAAGATAGAGATAGATAAAATTAAGCGAATGATCCCCCCGATCAAAGCGCGCGTACGTACGTA 19

Przyrównanie wielu sekwencji (Multiple sequence alignment) Metody wyczerpujące (analiza dopasowań wszystkich możliwych pozycji, stosują macierze wielowymiarowe, są wymagające obliczeniowo) Metody heurystyczne (szybsze i mniej wymagające obliczeniowo) - progresywne (etapowe składanie przyrównania na podstawie podobieństwa par sekwencji) - iteracyjne (wielokrotne poprawianie przyrównań suboptymalnych) - blokowe (identyfikacja wspólnego dla wszystkich sekwencji bloku przyrównania, niezwierającego przerw) 20

Metoda progresywna 21

Clustal Elastyczność korzystania z różnych macierzy substytucji Kary za przerwy Zachłanna natura algorytmu Raz błąd, zawsze błąd 22

Clustal Elastyczność korzystania z różnych macierzy substytucji Kary za przerwy Zachłanna natura algorytmu Raz błąd, zawsze błąd Stosowanie różnych macierzy punktowania w zależności od stopnia podobieństwa sekwencji. BLOSUM62 lub PAM120 w początkowym etapie przy blisko spokrewnionych sekwencjach. BLOSUM45 lub PAM250 w dalszych etapach przy większym stopniu dywergencji sekwencji. 23

Clustal Elastyczność korzystania z różnych macierzy substytucji Kary za przerwy Wprowadzenie większej liczby insercji/delecji w regionach zlokalizowanych poza konserwatywnymi rejonami. Zachłanna natura algorytmu Raz błąd, zawsze błąd Wyższe kary dla przerw wprowadzonych zbyt blisko. 24

Clustal Elastyczność korzystania z różnych macierzy substytucji Kary za przerwy Zachłanna natura algorytmu Raz błąd, zawsze błąd Wynik końcowy zależy od wstępnego przyrównania sekwencji parami. Jeśli na wczesnym etapie tworzenia przyrównania przerwy wprowadzono błędnie, zostaną one utrwalone rozprzestrzenienie błędów na całe przyrównanie. 25

T-Coffee (Tree-based Consistency Objective Function for Alignment Evaluation) Clustal (globalne) + Lalign (lokalne) Zbiór obu rodzajów dopasowań = biblioteka oceny spójności każdej pary reszt Optymalne przyrównanie początkowe jest wybieranie spośród wielu dopasowań 26

Zadania Zapraszam na theta.edu.pl Plik PB_3 Praca domowa przygotowanie się na następne zajęcia (drzewa filogenetyczne) 27