PRZYRÓWNANIE SEKWENCJI

Podobne dokumenty
Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

Dopasowanie sekwencji (sequence alignment)

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Dopasowania par sekwencji DNA

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Porównywanie i dopasowywanie sekwencji

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Porównywanie i dopasowywanie sekwencji

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta

dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia

Przyrównywanie sekwencji

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Dopasowanie par sekwencji

Wykład 5 Dopasowywanie lokalne

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Bioinformatyka. Porównywanie sekwencji

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Porównywanie sekwencji białkowych

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Homologia, podobieństwo i analogia

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl

Generator testów Bioinformatyka wer / 0 Strona: 1

Spis treści 8 Ewolucja molekularna Ewolucyjne podstawy porównywania sekwencji Identyfikacja sekwencji i jej funkcji...

Wstęp do Biologii Obliczeniowej

Algorytmy kombinatoryczne w bioinformatyce

Motywy i podobieństwo

Algorytmy kombinatoryczne w bioinformatyce

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych

Analizy filogenetyczne

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

W kierunku równoległej implementacji pakietu T-Coffee

Porównywanie sekwencji białek i kwasów nukleinowych

3 Przeszukiwanie baz danych

Generator testów bioinformatyka wer / Strona: 1

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Podstawy bioinformatyki dla biotechnologów

D: Dopasowanie sekwencji. Programowanie dynamiczne

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

Autor: mgr inż. Agata Joanna Czerniecka. Tytuł: Nowa metoda obliczeniowa porównywania sekwencji białek

Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna

Bioinformatyka wykład 3.I.2008

Bioinformatyka II Modelowanie struktury białek

MSA i analizy filogenetyczne

Bioinformatyka wykład 8, 27.XI.2012

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

MACIERZE MUTACYJNE W ANALIZIE GENOMÓW czy możliwa jest rekonstrukcja filogenetyczna? Aleksandra Nowicka

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

Algorytm genetyczny (genetic algorithm)-

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Statystyczna analiza danych

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka wykład 10

Przewidywanie struktury kanału białkowego z wykorzystaniem probabilistycznych gramatyk formalnych oraz modelu ciągłego przepływu jonów

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Wybrane podstawowe rodzaje algorytmów

Samouczek: Konstruujemy drzewo

Badanie doboru naturalnego na poziomie molekularnym

Bioinformatyka Laboratorium, 30h. Michał Bereta

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Zmienność ewolucyjna. Ewolucja molekularna

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Mechanizmy zmienności ewolucyjnej. Podstawy ewolucji molekularnej.

Wstęp do programowania

Bioinformatyka 2 (BT172) Struktura i organizacja kursu

Bioinformatyka II Modelowanie struktury białek

Bioinformatyka wykład 11, 11.I.2011 Białkowa bioinformatyka strukturalna c.d.

Modelowanie interakcji helis transmembranowych

Olimpiada Biologiczna

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Metody Optymalizacji: Przeszukiwanie z listą tabu

FILOGENETYKA. Bioinformatyka, wykład. 8 c.d. 0)

Optymalizacja. Wybrane algorytmy

Technologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15

Budowanie drzewa filogenetycznego

Na czym skończyliśmy BLACK BOX. Sekwencjonowanie polega na odczytaniu sekwencji liter DNA/RNA badanego fragmentu genomu

Algorytmy memetyczne (hybrydowe algorytmy ewolucyjne)

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Bioinformatyka 2 (BT172) Ukryte modele Markowa

Bioinformatyka. Podsumowanie algorytmów dynamicznych

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Wstęp do programowania

xx + x = 1, to y = Jeśli x = 0, to y = 0 Przykładowy układ Funkcja przykładowego układu Metody poszukiwania testów Porównanie tabel prawdy

Algorytmy genetyczne. Materiały do laboratorium PSI. Studia stacjonarne i niestacjonarne

Algorytmy genetyczne. Materiały do laboratorium PSI. Studia niestacjonarne

Transkrypt:

http://theta.edu.pl/ Podstawy Bioinformatyki III PRZYRÓWNANIE SEKWENCJI 1

Sequence alignment - przyrównanie sekwencji Poszukiwanie ciągów znaków (zasad nukleotydowych lub reszt aminokwasowych), które posiadają to samo ułożenie w porównywanych sekwencjach ACAAAATGTA A C A - - A A A T G T A ACACTAGATA A C A C T A G A T - - A Gap, indel, Match, Mismatch 2

Sequence alignment - przyrównanie sekwencji Poszukiwanie ciągów znaków (zasad nukleotydowych lub reszt aminokwasowych), które posiadają to samo ułożenie w porównywanych sekwencjach ACAAAATGTA A C A - - A A A T G T A ACACTAGATA A C A C T A G A T - - A Gap, indel, Match, Mismatch 3

Sequence alignment - przyrównanie sekwencji Poszukiwanie ciągów znaków (zasad nukleotydowych lub reszt aminokwasowych), które posiadają to samo ułożenie w porównywanych sekwencjach ACAAAATGTA A C A - - A A A T G T A ACACTAGATA A C A C T A G A T - - A Gap, indel, Match, Mismatch 4

Sequence alignment - przyrównanie sekwencji Stwierdzone różnice pomiędzy sekwencjami świadczą o mutacjach, które zaszły po rozdzieleniu się sekwencji od wspólnego przodka A C A - - A A A T G T A A C A C T A G A T - - A Delecja CT Substytucja A G Insercja GT 5

Przyrównanie - znaczenie Podobieństwo sekwencji może świadczyć o: Podobnej funkcji sekwencji Podobnej strukturze białek Wspólnej historii ewolucyjnej Podobieństwo sekwencji może wynikać z: Homologii Homoplazji (konwergencji) 6

Przyrównanie - znaczenie Podobieństwo sekwencji może świadczyć o: Podobnej funkcji sekwencji Podobnej strukturze białek Wspólnej historii ewolucyjnej Podobieństwo sekwencji może wynikać z: Homologii pochodzeniu sekwencji od wspólnego przodka; sekwencje mogą, ale nie muszą pełnić tych samych funkcji Homoplazji (konwergencji) podobnych zmianach, które pojawiły się w obu sekwencjach niezależnie chymotrypsyna i subtylizyna mają różną strukturę 3D ale podobne centrum aktywne (histydyna, seryna, kwas asparaginowy) 7

Rodzaje dopasowań pokrycie sekwencji Globalne Założenie: przyrównywane sekwencje są generalnie podobne na całej długości Od początku do końca obu sekwencji Bliskie pokrewieństwo, podobna długość Lokalne Założenie: sekwencje nie wykazują podobieństwa na całej długości Poszukiwanie regionów o najwyższym podobieństwie przyrównanie ich bez względu na to, jak są dopasowane pozostałe fragmenty Większa dywergencja, w celu znalezienia konserwatywnych regionów 8

Rodzaje dopasowań liczba sekwencji Pair-wise alignment (dwie sekwencje) Multiple sequence alignment (wiele sekwencji) Program Seaview 9

Algorytmy przyrównania sekwencji macierze punktowe (dot plot) programowanie dynamiczne (dynamic programming) metody słowne (k tuple methods) 10

Macierze punktowe (dot plot) Graficzny sposób przyrównania dwóch sekwencji w dwuwymiarowej macierzy wizualna identyfikacja podobnych regionów Zgodność reszt kropka Brak zgodności puste pole Podobne regiony = ciągłe, ukośne linie 11

Sekwencje podobne Insercja/delecja Duplikacja Inwersja Liczne powtórzenia 12

Programowanie dynamiczne Porównanie każdej pary znaków dwóch sekwencji Analiza wszystkich możliwych kombinacji dopasowania z uwzględnieniem systemu punktacji za: - dopasowania (matches) - niedopasowania (mismatches) - przerwy (gaps) Przerwy mogą spowodować wzrost liczby dopasowań w innych miejscach ACAAAATGTA ACACTAGATA A C A - - A A A T G T A A C A C T A G A T - - A przykładowo Gap = -1, Match = 1, Mismatch = -1 13

Analiza dwuwymiarowej macierzy z naniesionymi wartościami ocen dopasowania danych reszt wyznaczenie ścieżki Ścieżka reprezentująca najlepsze przyrównanie, ma najwyższą możliwą wartość punktacji Identyczne reszty = 1 Brak skojarzenia = 0 Kara = -1 Xiong J., Podstawy bioinformatyki 14

Penalizacja afiniczna Łatwiej poszerzyć przerwę niż otworzyć nową 15

Macierze punktowania System punktowania, który jest zbiorem wartości opisujących ilościowo prawdopodobieństwo substytucji jednej reszty w drugą Oceny dodatnie, wysokie = reszty dobrze skojarzone Oceny ujemne, niskie = reszty źle skojarzone Sekwencje nukleotydowe Czy częstości mutacji są jednakowe dla wszystkich czterech zasad? Sekwencje amionokwasowe Odzwierciedlenie właściwości fizykochemicznych (PAM, BLOSUM) 16

Macierze punktowania System punktowania, który jest zbiorem wartości opisujących ilościowo prawdopodobieństwo substytucji jednej reszty w drugą Oceny dodatnie, wysokie = reszty dobrze skojarzone Oceny ujemne, niskie = reszty źle skojarzone Sekwencje nukleotydowe Czy częstości mutacji są jednakowe dla wszystkich czterech zasad? Sekwencje amionokwasowe Odzwierciedlenie właściwości fizykochemicznych (PAM, BLOSUM) 17

Macierze punktowania - przykład 18

Metoda heurystyczna, wykorzystanie metody słownej Sprawdzenie tylko cześci przyrównań, które byłyby analizowane zwykłymi metodami programowania dynamicznego znaczne przyspieszenie (50-100x)! Zmniejszenie czułości i specificzności Nie gwarantuje poprawnego wygenerowania przyrównania Metoda heurystyczna - metoda znajdowania rozwiązań, dla której nie ma gwarancji znalezienia rozwiązania optymalnego. Użyteczna, gdy pełny algorytm jest z przyczyn technicznych zbyt kosztowny lub gdy jest nieznany. 19

BLAST Basic Local Alignment Search Tool Przeszukuje połączone światowe bazy danych sekwencji białkowych i kwasów nukleinowych wykorzystując podaną sekwencję jako zapytanie Przyrównuje sekwencję z innymi sekwencjami dostępnymi w bazie Poszukuje wysoko punktowanych, ciągłych segmentów pokrewnych sekwencji 20

BLAST Basic Local Alignment Search Tool Etapy działania: Tworzenie listy słów analizowanej sekwencji (słowo to np. 3 reszty dla aminokwasów, 10 dla nukleotydów) Wyszukanie słów w sekwencyjnej bazie danych (identyfikacja sekwencji, z którymi zapytanie będzie skojarzone) Ocena (macierz substytucji) Przyrównanie parami poprzez rozszerzanie słów w obu kierunkach, ocena (wartość graniczna) seed-and-extend paradigm GATACCCCAATGATAGATAAAACGCGTAATTAGGCTAGCGATAAACGTACGTACGTACCCCCGATCAGG GTACTGAAAGATAGAGATAGATAAAATTAAGCGAATGATCCCCCCGATCAAAGCGCGCGTACGTACGTA 21

Przyrównanie wielu sekwencji (Multiple sequence alignment) Metody wyczerpujące (analiza dopasowań wszystkich możliwych pozycji, stosują macierze wielowymiarowe, są wymagające obliczeniowo) Metody heurystyczne (szybsze i mniej wymagające obliczeniowo) - progresywne (etapowe składanie przyrównania na podstawie podobieństwa par sekwencji) - iteracyjne (wielokrotne poprawianie przyrównań suboptymalnych) - blokowe (identyfikacja wspólnego dla wszystkich sekwencji bloku przyrównania, niezwierającego przerw) 22

Metoda progresywna 23

Clustal Elastyczność korzystania z różnych macierzy substytucji Kary za przerwy Zachłanna natura algorytmu Raz błąd, zawsze błąd 24

Clustal Elastyczność korzystania z różnych macierzy substytucji Kary za przerwy Zachłanna natura algorytmu Raz błąd, zawsze błąd Stosowanie różnych macierzy punktowania w zależności od stopnia podobieństwa sekwencji. BLOSUM62 lub PAM120 w początkowym etapie przy blisko spokrewnionych sekwencjach. BLOSUM45 lub PAM250 w dalszych etapach przy większym stopniu dywergencji sekwencji. 25

Clustal Elastyczność korzystania z różnych macierzy substytucji Kary za przerwy Wprowadzenie większej liczby insercji/delecji w regionach zlokalizowanych poza konserwatywnymi rejonami. Zachłanna natura algorytmu Raz błąd, zawsze błąd Wyższe kary dla przerw wprowadzonych zbyt blisko. 26

Clustal Elastyczność korzystania z różnych macierzy substytucji Kary za przerwy Zachłanna natura algorytmu Raz błąd, zawsze błąd Wynik końcowy zależy od wstępnego przyrównania sekwencji parami. Jeśli na wczesnym etapie tworzenia przyrównania przerwy wprowadzono błędnie, zostaną one utrwalone rozprzestrzenienie błędów na całe przyrównanie. 27

T-Coffee (Tree-based Consistency Objective Function for Alignment Evaluation) Clustal (globalne) + Lalign (lokalne) Zbiór obu rodzajów dopasowań = biblioteka oceny spójności każdej pary reszt Optymalne przyrównanie początkowe jest wybieranie spośród wielu dopasowań 28

http://theta.edu.pl/ LISTA ZADAŃ KARTKÓWKA (USTALENIE TERMINU) 29