MSA i analizy filogenetyczne



Podobne dokumenty
Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowanie sekwencji (sequence alignment)

Porównywanie i dopasowywanie sekwencji

PRZYRÓWNANIE SEKWENCJI

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Urszula Poziomek, doradca metodyczny w zakresie biologii Materiał dydaktyczny przygotowany na konferencję z cyklu Na miarę Nobla, 14 stycznia 2010 r.

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Bioinformatyka. Program UGENE

Porównywanie i dopasowywanie sekwencji

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Filogenetyka molekularna. Dr Anna Karnkowska Zakład Filogenetyki Molekularnej i Ewolucji

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Przyrównywanie sekwencji

Analizy filogenetyczne

Samouczek: Konstruujemy drzewo

Instrukcja użytkownika WYKŁADOWCY AKADEMICKIEGO SYSTEMU ARCHIWIZACJI PRAC

Zadanie 1. Stosowanie stylów

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

Acknowledgement. Drzewa filogenetyczne

Wyróżniamy dwa typy zadań projektowych.

46 Olimpiada Biologiczna

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

Instrukcja użytkownika NAUCZYCIELA AKADEMICKIEGO SYSTEMU ARCHIWIZACJI PRAC

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Wstęp do Biologii Obliczeniowej

Prowadzenie przewodów w szafie

Wykład 5 Dopasowywanie lokalne

Matematyka grupa Uruchom arkusz kalkulacyjny. 2. Wprowadź do arkusza kalkulacyjnego wartości znajdujące się w kolumnach A i B.

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Kadry Optivum, Płace Optivum

Budowanie drzewa filogenetycznego

5.4. Tworzymy formularze

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

Instrukcja Użytkownika (Nauczyciel Akademicki) Akademickiego Systemu Archiwizacji Prac

Wybrane podstawowe rodzaje algorytmów

Programowanie w języku C++ Agnieszka Nowak Brzezińska Laboratorium nr 2

Ewolucjonizm NEODARWINIZM. Dr Jacek Francikowski Uniwersyteckie Towarzystwo Naukowe Uniwersytet Śląski w Katowicach

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

OPROGRAMOWANIE DEFSIM2

CLUSTERING. Metody grupowania danych

plezjomorfie: podobieństwa dziedziczone po dalszych przodkach (c. atawistyczna)

Teoria ewolucji. Podstawy wspólne pochodzenie.

Arkusz kalkulacyjny Excel

Menu Plik w Edytorze symboli i Edytorze widoku aparatów

Metody eksploracji danych Laboratorium 1. Weka + Python + regresja

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Zadanie 10. Stosowanie dokumentu głównego do organizowania dużych projektów

Rycina 1. Zasięg i zagęszczenie łosi (liczba osobników/1000 ha) w Polsce w roku 2010 oraz rozmieszczenie 29 analizowanych populacji łosi.

Aby przejść do edycji w tym module należy wybrać zakładkę "Dla Pracowników" -> "Sprawdziany".

Kopiowanie, przenoszenie plików i folderów

ColDis Poradnik użytkownika

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

Kwerenda. parametryczna, z polem wyliczeniowym, krzyżowa

Spis treści. Analiza Ryzyka Instrukcja Użytkowania

UWAGA BARDZO WAŻNE PROSIMY O ZWRÓCENIE NA TO SZCZEGÓLNEJ UWAGI

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Dopasowania par sekwencji DNA

Jak przygotować i wydrukować strony arkuszy ocen z wynikami klasyfikacji końcowej oraz świadectwa ukończenia szkoły?

SYSTEMY OPERACYJNE I SIECI KOMPUTEROWE

Filogenetyka molekularna I. Krzysztof Spalik Zakład Filogenetyki Molekularnej i Ewolucji

Filogenetyka molekularna I. Krzysztof Spalik

Programowanie genetyczne, gra SNAKE

UONET+ moduł Dziennik. Praca z rozkładami materiału nauczania

Filogenetyka molekularna I

4.2. Ustawienia programu

Obsługa systemu OGNIVO w aplikacji Kancelaria Komornika

Prezentacja multimedialna MS PowerPoint 2010 (podstawy)

Jak dopasować pola szablonu świadectwa, aby na stronie z wynikami klasyfikacji rocznej poprawnie drukowały się długie nazwy przedmiotów?

Finanse VULCAN. Jak wprowadzić fakturę sprzedaży?

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

Sekretariat Optivum. Import danych z Arkusza Optivum do Sekretariatu Optivum

Klawisze szybkiego wyboru układu drabinkowego

Bioinformatyka Laboratorium, 30h. Michał Bereta

2.8. Algorytmy, schematy, programy

Bioinformatyka Laboratorium, 30h. Michał Bereta

AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA W KRAKOWIE. QuIDE Quantum IDE PODRĘCZNIK UŻYTKOWNIKA

SPIS ILUSTRACJI, BIBLIOGRAFIA

Instrukcja importu dokumentów z programu Fakt do programu Płatnik

UONET+ moduł Dziennik

Dodatek Solver Teoria Dodatek Solver jest częścią zestawu poleceń czasami zwaną narzędziami analizy typu co-jśli (analiza typu co, jeśli?

Zapisywanie algorytmów w języku programowania

4.3 Grupowanie według podobieństwa

Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide.

Import limitów urlopowych / nowy rok

Transkrypt:

Instytut Informatyki i Matematyki Komputerowej UJ, opracowanie: mgr Ewa Matczyńska, dr Jacek Śmietański MSA i analizy filogenetyczne 1. Dopasowania wielosekwencyjne - wprowadzenie Dopasowanie wielosekwencyjne (MSA - multiple sequence alignment) pozwala na porównanie większej liczby sekwencji w celu wyszukania zależności ewolucyjnych między nimi. Możemy dzięki temu uzyskać informacje o: - homologii sekwencji, czyli o pochodzeniu od wspólnego przodka - konserwatywności sekwencji: sekwencje konserwatywne wyróżniają się bardzo dużym podobieństwem lub wręcz identycznością wśród różnych organizmów, ponieważ mutacje, które zdarzają się w rejonach konserwatywnych sekwencji powodują dużo gorsze przystosowanie do środowiska. W konsekwencji, pod działaniem doboru naturalnego nie utrzymują się w populacji. Informacja o konserwatywnych fragmentach MSA pomaga wnioskować o strukturze 3D białka. Rysunek 1: Dopasowanie wielosekwencyjne genu białka rybosomowego L1OE (pierwsze 90 pozycji, Clustal) 1

2. Dopasowanie wielosekwencyjne podejścia A) dopasowanie za pomocą programowania dynamicznego Jeśli mielibyśmy zestaw sekwencji, które podejrzewamy o ewolucyjne podobieństwo moglibyśmy próbować zastosować rozszerzenie algorytmu dynamicznego dla dopasowania globalnego. Na przykład dla dopasowania trzech sekwencji moglibyśmy używać trójwymiarowej tablicy i przemieszczać się po niej w następujący sposób: Nietrudno zauważyć, że złożoność zwiększałaby się ekspotencjalnie wraz z liczbą dopasowywanych sekwencji, jest to więc podejście dość mało efektywne. B) dopasowanie progresywne Aby przyspieszyć czas dopasowania poszukiwano pewnego uproszczenia względem programowania dynamicznego. Pomysł jest taki, aby użyć dopasowania pary najbardziej podobnych sekwencji jako bazy punktu startowego, ponieważ dopasowanie sekwencji najbliżej spokrewnionych będzie najprawdopodobniej najlepiej reprezentować optymalne dopasowanie wielosekwencyjne. Potem iteracyjnie dokładając kolejne najbardziej podobne sekwencje, uzyskuje się końcowe dopasowanie. W ten sposób działa najbardziej popularny program do wyznaczania dopasowań wielosekwencyjnych - Clustal. Aby rozpocząć procedurę progresywnego dopasowania musimy najpierw dla każdej pary sekwencji wyznaczyć jak bardzo są podobne, aby wiedzieć od których rozpocząć konstrukcję MSA. W tym celu oblicza się dopasowanie sekwencji, a następnie przyjmuje się jakąś miarę odległości między nimi. Najprościej można np. pominąć wszystkie pozycje na których wystąpiły indele i obliczyć odsetek pozycji na których aminokwasy, bądź nukleotydy się różniły. Na podstawie tej odległości tworzy się tzw. drzewo przewodnie (guide tree), zgodnie z którym progresywnie tworzy się dopasowanie. Drzewo przewodnie określa nam kolejność według której dołączamy kolejne sekwencje do dopasowania MSA typu progresywnego. Drzewo przewodnie tworzone jest zwykle metodami: - metodą średnich połączeń (UPGMA); - metodą łaczenia sąsiadów (neighbour joining). Obie metody wykorzystują macierz odległości sekwencji. Niech: d(x; y) odległość sekwencji x i y. Metoda UPGMA (Unweighted Pair Group Method with Arithmetic Mean) - to poprostu klastrowanie hierarchiczne bottom up z obliczaniem odległości klastrów jako średniej 2

odległości wszystkich punktów należących do klastrów (average linkage hierarchical clustering): Metoda neighbour joining to algorytm typu zachłannego, który dąży do zbudowania drzewa o takiej topologii, która minimalizowałaby tree length - określony jako średnia ważona odległości między sekwencjami z wagami określonymi przez topologię drzewa. W każdym kroku przekształcamy macierz d odległości między sekwencjami na macierz Q, określoną jako: Wybieramy do połączenia w jeden węzeł te dwie sekwencje, dla których wartość Q była najniższa. Można to interpretować tak, że chcemy łączyć te sekwencje, które są bliskie tzn. odległość d jest mała, jednocześnie są daleko od wszystkich innych sekwencji, za co odpowiadają odejmowane sumy po wszystkich wierzchołkach we wzorze powyżej. Następnie wyznaczamy odległości d nowego wierzchołka, który jest połączeniem dwóch wybranych sekwencji, do innych wierzchołków i znowu wyznaczamy macierz Q. 3

Używając jednej z powyższych metod otrzymujemy drzewo przewodnie guide tree, które w przybliżeniu obrazuje zależności ewolucyjne między sekwencjami. Dopasowanie sekwencji do dopasowania (zbioru już dopasowanych sekwencji we wcześniejszych krokach), bądź dopasowanie dopasowań do siebie przebiega w analogiczny, dynamiczny sposób, tak jak dopasowanie globalne sekwencji. Załóżmy, że w naszym dopasowaniu w pierwszej grupie sekwencji już dopasowanych w danej kolumnie mamy aminokwasy Y i P, a w drugiej grupie sekwencji aminokwasy F i Y. Jak dobrze dopasowane są te kolumny obliczamy np. w ten sposób: (δ(y;f)+δ(y;y)+δ(p;f)+ δ(p;y))/4 Czyli obliczamy dopasowania każdy z każdym z obydwu grup i uśredniamy. Przerwy wstawiane są analogicznie jak dla przypadku dwóch sekwencji. Zwróćmy jednak uwagę, że jeśli w dopasowaniu pojawia się przerwa, to zostaje ona wstawiona w każdą sekwencję składającą się na to dopasowanie, w myśl zasady once a gap, always a gap. W związku z tym widać, że generowane dopasowania wielosekwencyjne niekoniecznie będą optymalne: A-VKND AMEKAD A-VK-ND AMEK-AD TVEKTAD Więc aby uzyskać rezultat biologicznie sensowny czasami trzeba ręcznie poprawiać dopasowania wielosekwencyjne. Zadanie 1 Wejdź na stronę http://www.ebi.ac.uk/tools/msa/clustalw2 1. Gen MHC. W pliku mhc.fa znajdują się sekwencje aminokwasowe dla jednego z białek MHC, czyli białek zgodności tkankowej. Geny MHC kodują białka lokalizowane na powierzchni komórek, które są odpowiedzialne za wykrywanie niebezpieczeństw grożących naszemu organizmowi (np. wirusów). Dlatego też, przed przeszczepami sprawdza się ich zgodność w komórkach dawcy i biorcy, aby szanse przyjęcia się przeszczepu były większe. We wskazanym pliku (mhc.fa) znajdują się sekwencje tego samego białka, pochodzące od różnych organizmów: człowieka szympansa, szczura i myszy. a) Przeklej zawartość pliku do głównego okienka (proszę w tytule sekwencji zostawić tylko nazwę organizmu, wynik będzie wtedy bardziej czytelny) 4

b) Zobacz wyniki dopasowania, zidentyfikuj i wypisz kilka pozycji konserwatywnych, kliknij na opcję show colors u góry, aby zobaczyć czy aminokwasy w obrębie kolumn mają podobne właściwości c) Kliknij u góry na Result Summary, zobacz Score (w sekcji Scores Table) otrzymany przez dopasowanie par sekwencji. Zwróć uwagę, które pary sekwencji mają najwyższą punktację. Czy jest to zgodnie z oczekiwaniami? d) W tym samym widoku wybierz Jalview - program do wizualizacji dopasowania. Obejrzyj dopasowanie jeszcze raz, zwróć uwagę na pozycje konserwatywne oraz sekwencję konsensusową (wyświetlona na dole okna). Co oznaczają plusy w sekwencji konsensusowej? e) Z menu Colour wybierz Hydrophobicty, aby zobaczyć kolorowanie dla hydrofobowości aminokwasów: - czerwony: hydrofobowy grupa aminokwasów o ogonie węglowodorowym, która nie lubi przebywać w otoczeniu wody; - niebieski: hydrofilowy grupa aminokwasów o ogonie, który posiada ładunek - częściowy lub całkowity, która lubi przebywać w otoczeniu wody. Zidentyfikuj i wypisz kilka pozycji gdzie zaszła zmiana hydrofobowości. f) Wróć do wyników dopasowania w programie ClustalW2. Obejrzyj drzewo przewodnie użyte do konstrukcji tego dopasowania (zakładka Guide Tree) 2. Rodopsyna. W pliku rhodopsin.fa znajdziesz sekwencje białka rodopsyny, czyli światłoczułego barwnika występującego w siatkówce oka (kolejno: człowiek, szympans, pies, byk, mysz, szczur, kurczak, rybka danio). Prześledź kolejne punkty jak w zadaniu 1. 3. Który z tych dwóch genów jest bardziej konserwatywny? jak myślisz dlaczego? 3. Analizy filogenetyczne filogeneza droga rozwoju rodowego, pochodzenie i zmiany ewolucyjne grupy organizmów, zwykle gatunków filogenetyka dział biologii zajmujący się badaniem drogi rozwojowej (filogenezy) organizmów 5

Rysunek 2: Filogenetyczne drzewo życia. Zadania filogenetyki : - zrekonstruowanie ewolucyjnej historii wszystkich organizmów - odkrycie przodka wszystkich organizmów żyjących na Ziemi - segregacja i klasyfikacja organizmów - poznanie mechanizmów ewolucji Od lat posługiwano się filogenetyką bazując na cechach morfologicznych organizmów, w tej chwili możemy mówić o filogenetyce molekularnej, gdyż możemy porównywać ze sobą informacje zawarte w DNA organizmów. Zakładamy, że sekwencje te są homologiczne i zmieniały się podlegając tym samym prawom ewolucji. 6

Rysunek 3: Różne rodzaje drzew filogenetycznych. Rysunek 4: Wprowadzenie grupy zewnętrznej umożliwia ulokowanie korzenia drzewa. Rysunek 5: Drzewo filogenetyczne dla genów nie zawsze jest zgodne z drzewem filogenety-cznym gatunków. Rozgałęzienie drzewa dla genów oznacza mutację, ale dwa rodzaje genów mogą nadal występować w ramach jednego gatunku. Rozgałęzienie w drzewie gatunków oznacza specjację. 7

Rysunek 6: Mutacja, specjacja i utrata alleli danych genów w gatunkach potomnych. Rysunek 7: Drzewo filogenetyczne dla wirusa HIV. Odmiana ZR59 uzyskana z krwi Arfykańczyka w 1959 jest jedną z najwcześniejszych wersji wirusa HIV-1. 4. Ocena wiarygodności drzewa filogenetycznego Aby sprawdzić czy drzewo, które obliczyliśmy jest sensowne często stosuje się podejście bootstrap, które pozwala na ocenienie istotności informacji biologicznej zawartej w drzewie. Podejście to polega na tworzeniu nowych dopasowań (tej samej długości) na podstawie tego, które badamy poprzez wielokrotne losowanie ze zwracaniem kolumn dopasowania. Dlatego pewne kolumny mogą pojawić się więcej niż raz, inne wcale. Rysunek 7: Bootstrap dla rhodopsyny uzyskany na serwerze - www.phylogeny.fr 8

Jeśli pomimo tak zmienionych dopasowań, drzewo, które uzyskujemy jest podobne wtedy możemy mówić, że wynik jest biologicznie wiarygodny. Dla każdego poddrzewa możemy wyznaczyć współczynniki odsetek drzew wyprodukowanych metodą bootstrap w którym się pojawiły. W ten sposób możemy się dowiedzieć, które fragmenty drzewa są istotne biologicznie. 5. Bio.Align i Bio.Phylo W Biopythonie mamy moduł BioAlign, dzięki któremu możemy analizować dopasowania wielosekwencyjne, oraz Bio.Phylo, który pozwala na wizualizację i analizę drzew filogenetycznych. Na wcześniejszych zajęciach korzystaliśmy z programu Clustal aby wyprodukować dopasowanie wielosekwencyjne dla białka rodopsyny - światłoczułego barwnika siatkówki oka. Plik rho.clustalw zawiera output programu z dopasowaniem. Zadanie 2. Wejdź na stronę http://www.ebi.ac.uk/tools/phylogeny/clustalw2_phylogeny. Wklej output z dopasowaniem wielosekwencyjnym oraz zaznacz w ustawieniach Clustering Method UMPGA i uruchom Clustala. Zapisz plik ze strukturą drzewa, kóry jest dostępny w Result Summary jako rhotree.ph. Zadanie 4a Dopasowania filogenetyczne (3 pkt) Zadanie w Biopythonie wykonaj wszystkie poniższe polecenia: 1. Przeczytaj i wypisz dopasowanie wykonane przez Clustal from Bio import AlignIO alignment = AlignIO.read("rho.clustalw", "clustal") print(alignment) Możemy wypisać dopasowanie również w formacie fasta: print(alignment.format("fasta")) jak i dobrać się do wszytskich sewkencji dopasowania : for record in alignment: print(record.seq, record.id) Sprawdź, co można otrzymać wywołując następujące komendy: print(alignment[4:7]) print(alignment[3].seq[6:20]) print(alignment[:,1:6]) 2. Drzewo filogenetyczne możemy wczytać używając Bio.Phylo z pliku, w którym mamy zapisane drzewo filogenetyczne w formacie newick (zob. na wiki format newick): from Bio import Phylo tree = Phylo.read("rhoTree.ph", "newick") print(tree) 9

Phylo.draw_ascii(tree) Jeżeli posiadasz zainstalowane biblioteki matplotlib, NetworkX, PyGraphviz i Graphviz możesz wyrysować drzewo w ładniejszej graficznej postaci (ten punkt nie jest obowiązkowy): Phylo.draw_graphiz(tree) 3. Na obiekcie drzewa można wykonywać różne operacje np.: terminals = tree.get_terminals() for terminal in terminals : print(terminal) path = tree.get_path("homo") print(path) common_ancestor = tree.common_ancestor("homo", "Danio") print common_ancestor depths = tree.depths() for d in depths.keys(): print(d,":", depths.get(d)) Zajrzyj też do dokumentacji: http://biopython.org/dist/docs/api/bio.phylo.basetree.treemixin-class.html gdzie znajdziesz więcej funkcji dla drzew. Zadanie 4b Dopasowania filogen. 2 (3 pkt) 1. Wybierz sobie jakiś dowolny gen i wyszukaj czy jest on w bazie HomoloGene na NCBI. 2. Za pomocą download po prawej na stronie rekordu bazy zapisz sekwencje homologiczne tego genu u różnych organizmów (minimum 4-5, może być więcej wtedy będziemy mogli lepiej ocenić drzewo). Wykonaj dopasowanie wielosekwencyjne za pomocą Clustala a następnie wygeneruj drzewo filogeneyczne. 3. Wykorzystując funkcję distance oblicz i wypisz dystans pomiędzy człowiekiem a innymi organizmami w twoim drzewie. 10

11