Bioinformatyka Laboratorium, 30h. Michał Bereta

Podobne dokumenty
Dopasowanie sekwencji (sequence alignment)

Bioinformatyka Laboratorium, 30h. Michał Bereta

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PRZYRÓWNANIE SEKWENCJI

plezjomorfie: podobieństwa dziedziczone po dalszych przodkach (c. atawistyczna)

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

Porównywanie i dopasowywanie sekwencji

Acknowledgement. Drzewa filogenetyczne

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Porównywanie i dopasowywanie sekwencji

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Zmienność ewolucyjna. Ewolucja molekularna

Wstęp do Biologii Obliczeniowej

Bioinformatyka Laboratorium, 30h. Michał Bereta

MSA i analizy filogenetyczne

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

Mechanizmy zmienności ewolucyjnej. Podstawy ewolucji molekularnej.

Dopasowania par sekwencji DNA

Bioinformatyka Laboratorium, 30h. Michał Bereta

Teoria ewolucji. Losy gatunków: specjacja i wymieranie. Podstawy ewolucji molekularnej

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Przyrównywanie sekwencji

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Teoria ewolucji. Podstawy wspólne pochodzenie.

Analizy filogenetyczne

Historia informacji genetycznej. Jak ewolucja tworzy nową informację (z ma ą dygresją).

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

Porównywanie sekwencji białkowych

Bioinformatyka Laboratorium, 30h. Michał Bereta

Wykład 5 Dopasowywanie lokalne

Budowanie drzewa filogenetycznego

Urszula Poziomek, doradca metodyczny w zakresie biologii Materiał dydaktyczny przygotowany na konferencję z cyklu Na miarę Nobla, 14 stycznia 2010 r.

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Wspólne pochodzenie. Ślady ewolucji.

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

Zmienność ewolucyjna. Ewolucja molekularna

Zmienność ewolucyjna. Ewolucja molekularna

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka. Program UGENE

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl

Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Statystyczna analiza danych

Dopasowanie par sekwencji

46 Olimpiada Biologiczna

Twój wynik: 4 punktów na 6 możliwych do uzyskania (66,67 %).

klasyfikacja fenetyczna (numeryczna)

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

W kierunku równoległej implementacji pakietu T-Coffee

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

życia na Ziemi dr Joanna Piątkowska

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Generator testów Bioinformatyka wer / 0 Strona: 1

Kierunek i poziom studiów: Biologia, poziom drugi Sylabus modułu: Filogenetyka i taksonomia roślin i zwierząt dla EKOP

REKURENCJA W JĘZYKU HASKELL. Autor: Walczak Michał

Różnorodność życia na Ziemi

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Filogenetyka molekularna. Dr Anna Karnkowska Zakład Filogenetyki Molekularnej i Ewolucji

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1

Ślady wspólnego pochodzenia

Mitochondrialna Ewa;

Ograniczenia środowiskowe nie budzą wielu kontrowersji, co nie znaczy że rozumiemy do końca proces powstawania adaptacji fizjologicznych.

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta

Filogenetyka molekularna I

Spis treści 8 Ewolucja molekularna Ewolucyjne podstawy porównywania sekwencji Identyfikacja sekwencji i jej funkcji...

Metoda dokładnej rekonstrukcji drzew filogenetycznych genów. współczynników substytucji dla genów i gatunków

Sprawozdanie do zadania numer 2

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

BIOLOGIA EGZAMIN KLASYFIKACYJNY 2015/16. KLASA III Gimnazjum. Imię:... Nazwisko:... Data:...

Wyróżniamy dwa typy zadań projektowych.

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

Filogenetyka molekularna I. Krzysztof Spalik

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Bioinformatyka 2 (BT172) Struktura i organizacja kursu

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Ewolucja informacji genetycznej

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Bioinformatyka. Michał Bereta

Bioinformatyka. Michał Bereta

Zmienność ewolucyjna. Ewolucja molekularna

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

ALGORYTMY GENETYCZNE ćwiczenia

Bioinformatyka wykład 10

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

D: Dopasowanie sekwencji. Programowanie dynamiczne

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

PODSTAWY BIOINFORMATYKI

Transkrypt:

Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1

Często dopasować chcemy nie dwie sekwencje ale kilkanaście lub więcej 2

Istnieją dokładne algorytmy, lecz są one niewydajne (złożoność O(N S ), N - długość sekwencji, S liczba sekwencji) Często interesuje nas dopasowanie albo dwóch sekwencji albo kilkunastu lub więcej Rzadko kiedy chodzi o dopasowanie 3 czy 4 sekwencji Często chodzi nam o dopasowanie spokrewnionych ze sobą (podobnych) sekwencji wstęp do analizy filogenetycznej 3

Homologia podobieństwo ze względu na wspólnego przodka wspólne ewolucyjne pochodzenie struktur organizmów z różnych grup taksonomicznych (np. ręka człowieka i skrzydło ptaka) podobieństwo sposobów zachowania się (jeśli odziedziczone po wspólnym przodku) 4

Homoplazja podobieństwo ze względu na konwergencję Konwergencja proces powstawania morfologicznie i funkcjonalnie podobnych cech (analogicznych) w grupach organizmów odlegle spokrewnionych w odpowiedzi na podobne lub takie same wymagania środowiskowe niezależność ewolucyjna np. opływowe kształty ryb i waleni np. skrzydła ptaków i owadów 5

6

Sekwencje homologiczne są podobne Sekwencje podobne nie muszą być homologiczne Sekwencje homologiczne Podobne funkcje Podobieństwo konserwatywnych fragmentów 7

Homologi Geny podobne pochodzące od wspólnego przodka Ortologi Rozdzielenie nastąpiło w wyniku specjacji rozdzielenia się gatunków Paralogi Rodzielenie nastąpiło w wyniku duplikacji genu Mogą mieć różne funkcje w organiźmie Można rozważać paralogi w jednym organiźmie (np. Mioglobina I hemoglobina u człowieka) Przykład: hemoglobina u człowieka i mioglobina u szympansa są paralogami, a nie ortologami, dlatego, że w tym przypadku duplikacja genu nastąpiła przed specjacją. Analogi Podobne cechy pojawiają się niezależnie 8

Metoda progresywnego dopasowania wielosekwencyjnego Konsktrukcja drzewa filogenetycznego (przewodniego) dla zadanych sekwencji Stopniowe dodawanie sekwencji do konstruowanego dopasowania w kolejności wyznaczonej drzewem przewodnim Wykorzystywane dopasowanie globalne 9

Drzewo przewodnie 10

Sekwencje genów kodujących heksokinazy u Ludzi Szczurów Muszki owocowej Drożdży Zarodźca sierpowego 11

W genomach ssaków, grzybów i owadów od czasu oddzielenia się linii ewolucyjnych doszło do niezależnych duplikacji odpowiednich genów. 12

Każdy z ludzkich genów ma swój gen homologiczny u szczura. Wniosek: duplikacje genów musiały zajść przed oddzieleniem się linii ewolucyjnych ludzi i szczurów. 13

Drzewo przewodnie Dla każdej pary sekwencji wyznacza się dopasowanie Na podstawie dopasowań wyznacza się odległości ewolucyjne dla każdej pary sekwencji Najprostszy sposób: policzyć odsetek pozycji D, na których występują różne reszty Uwzględniając fakt, że podstawienia mogły zachodzić wielokrotnie na tych samych pozycjach, można wprowadzać poprawki (np. poprawka Kimury) Istnieją różne poprawki wynikające z różnych modeli ewolucyjnych (temat na osobny wykład) 14

Drzewo przewodnie Przykładowa poprawka (Feng i Doolittle) na podstawie oceny S dopasowania pary sekwencji S rand średnie dopasowanie losowych sekwencji S ident średnie dopasowanie identycznych sekwencji 15

Drzewo przewodnie Mając macierz odległości ewolucyjnych między wszystkimi sekwencjami można ich użyć do konstrukcji drzewa np. metoda przyłączenia sąsiada do konstruowania drzewa wraz z metodą środkowego punktu do wyznaczenia korzenia drzewa 16

Podczas kolejnych kroków konstruowania dopasowania wielosekwencyjnego: Dopasowanie sekwencji w istniejących dopasowaniach się nie zmienia W kolejnych krokach istnieje konieczność dopasowania: Sekwencja + sekwencja (dopasowanie globalne) Dopasowanie + nowa sekwencja Dopasowanie + dopasowanie 17

Podczas dopasowania innego niż dwóch sekwencji algorytm w zasadzie nie zmienia się (alg. Needlemana-Wunscha), istnieje jednak konieczność dodatkowych zabiegów: Uśrednianie punktacji Wstawiane przerwy muszą pojawić się w każdej sekwencji dopasowania 18

LRNIHHANGASM LRAI-HANGASM Istniejące dopasowanie 1 RRGIHANGAFSM RRFIHANAA-SM Istniejące dopasowanie 2 Ocena = [ S(N,G) + S(N,F) + S(A,G) + S(A,F) ]/ 4 19

LRNIHHANGASM LRAI-HANGASM Istniejące dopasowanie 1 RRGIHA-NGAFSM RRFIHA-NAA-SM Istniejące dopasowanie 2 Nowe znaki przerw w istniejącym zamrożonym dopasowaniu wstawiane są na danej pozycji w każdej sekwencji należącej do tego dopasowania. 20

LRNIHHANGASM LRAI-HANGASM Istniejące dopasowanie 1 RRGIHA-NGAFSM RRFIHA-NAA-SM Istniejące dopasowanie 2 LRNIHHANGASM- LRAI-HANGASM- RRGIHA-NGAFSM RRFIHA-NAA-SM Nowe dopasowanie, zostaje od tej pory zamrożone. 21

Metoda progresywnego dopasowania wielosekwencyjnego Jest to metoda heurystyczna (nie jest dokładna) Efekt dopasowania zależy od drzewa przewodniego, tablicy podstawień, funkcji kary Złożoność : O(SN 2 ) Działa lepiej dla sekwencji o podobnej długości Na podstawie otrzymanego dopasowania można otrzymać nowe drzewo przewodnie (filogenetyczne), które jednak może być silnie skorelowane z oryginalnym drzewem 22

Możliwe ulepszenia Zmniejszenie wpływu blisko spokrewnionych sekwencji Uzależnienie kar za przerwy od pozycji gdzie występują (na podstawie struktury drugorzędowej białek) Przerwy zazwyczaj nie są wstawiane w obrębie elementów struktury drugorzędowej, ale raczej w obrębie łączących ich pętli Dopasowanie odpowiednich macierzy PAM lub BLOSUM 23

Najbardziej popularna implementacja metody progresywnej to program Clustal. Istnieją alternatywne algorytmy, np. T-Coffee. 24

Problematyka konstruowania dopasowań wielosekwencyjnych oraz drzew filogenetycznych jest ze sobą powiązana. Obecnie zazwyczaj najpierw wyznacza się dopasowanie wielosekwencyjne a dopiero następnie konstruuje się drzewo filogenetyczne. 25

http://www.ebi.ac.uk/tools/msa/ 26

zawartość pliku CytBProt.txt (wszystkie sekwencje) 27

28

29

30

31

Unipro UGENE Zadanie Wykonaj dopasowanie wszystkich sekwencji z pliku CytBProt.txt 32

Unipro UGENE 33

Unipro UGENE 34

Unipro UGENE 35

Unipro UGENE 36