Drzewa filogenetyczne jako matematyczny model relacji pokrewieństwa. dr inż. Damian Bogdanowicz

Podobne dokumenty
Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Bioinformatyka Laboratorium, 30h. Michał Bereta

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

Filogenetyka molekularna. Dr Anna Karnkowska Zakład Filogenetyki Molekularnej i Ewolucji

Acknowledgement. Drzewa filogenetyczne

Filogenetyka molekularna I. Krzysztof Spalik

Urszula Poziomek, doradca metodyczny w zakresie biologii Materiał dydaktyczny przygotowany na konferencję z cyklu Na miarę Nobla, 14 stycznia 2010 r.

Bioinformatyka Laboratorium, 30h. Michał Bereta

ep do obliczeniowej biologii molekularnej (J. Tiuryn, wykĺady nr. 12 i 13; 25 stycznia 2006) 8 Konstrukcja drzew filogenetycznych

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

Analizy filogenetyczne

klasyfikacja fenetyczna (numeryczna)

Teoria ewolucji. Podstawy wspólne pochodzenie.

Hierarchiczna analiza skupień

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Wstęp do Biologii Obliczeniowej

Bioinformatyka Laboratorium, 30h. Michał Bereta

Filogenetyka molekularna I. Krzysztof Spalik Zakład Filogenetyki Molekularnej i Ewolucji

Porównywanie i dopasowywanie sekwencji

Bioinformatyka Laboratorium, 30h. Michał Bereta

Algorytmy kombinatoryczne w bioinformatyce

Elementy teorii informacji i kodowania

Filogenetyka molekularna I

46 Olimpiada Biologiczna

46 Olimpiada Biologiczna

voxele o wartości >0 to voxele stopy (kości, mięśnie, skóra), voxele o wartości > 70 to voxele kości.

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Mitochondrialna Ewa;

Modelowanie motywów łańcuchami Markowa wyższego rzędu

MACIERZE MUTACYJNE W ANALIZIE GENOMÓW czy możliwa jest rekonstrukcja filogenetyczna? Aleksandra Nowicka

Konstrukcja drzew filogenetycznych podstawy teoretyczne.

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

Optymalizacja ciągła

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

Rycina 1. Zasięg i zagęszczenie łosi (liczba osobników/1000 ha) w Polsce w roku 2010 oraz rozmieszczenie 29 analizowanych populacji łosi.

OLIMPIADA MATEMATYCZNA

PROBLEM: KLASTROWANIE DANYCH I DRZEWA FILOGENETYCZNE METODY:

Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych

Budowanie drzewa filogenetycznego

Algorytmy zrandomizowane

Wyróżniamy dwa typy zadań projektowych.

Porównywanie i dopasowywanie sekwencji

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Matura próbna 2014 z matematyki-poziom podstawowy

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Treści zadań Obozu Naukowego OMG

Metody numeryczne w przykładach

MSA i analizy filogenetyczne

Laboratorium podstaw elektroniki

Autor: mgr inż. Agata Joanna Czerniecka. Tytuł: Nowa metoda obliczeniowa porównywania sekwencji białek

Algorytm. Krótka historia algorytmów

Algorytmy równoległe. Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2010

Dopasowanie sekwencji (sequence alignment)

Metody optymalizacji dyskretnej w analizie podobieństwa drzew filogenetycznych

KADD Minimalizacja funkcji

Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne

VIII Olimpiada Matematyczna Gimnazjalistów

Wykład 10 Zrandomizowany plan blokowy

Zmienność ewolucyjna. Ewolucja molekularna

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Podstawy Informatyki. Wykład 6. Struktury danych

DWA ZDANIA O TEORII GRAFÓW. przepływ informacji tylko w kierunku

Przegląd 4 Aerodynamika, algorytmy genetyczne, duże kroki i dynamika pozycji. Modelowanie fizyczne w animacji komputerowej Maciej Matyka

Teoria grafów dla małolatów. Andrzej Przemysław Urbański Instytut Informatyki Politechnika Poznańska

Historia informacji genetycznej. Jak ewolucja tworzy nową informację (z ma ą dygresją).

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

Statystyczne Metody Opracowania Wyników Pomiarów

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY 7SP. V. Obliczenia procentowe. Uczeń: 1) przedstawia część wielkości jako procent tej wielkości;

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Algorytm genetyczny (genetic algorithm)-

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Informatyka Stosowana. a b c d a a b c d b b d a c c c a d b d d c b a

i ruchów użytkownika komputera za i pozycjonujący oczy cyberagenta internetowego na oczach i akcjach użytkownika Promotor: dr Adrian Horzyk

Macierz o wymiarach m n. a 21. a 22. A =

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Algorytmy i struktury danych, C3

Średnie. Średnie. Kinga Kolczyńska - Przybycień

Elżbieta Świda Elżbieta Kurczab Marcin Kurczab. Zadania otwarte krótkiej odpowiedzi na dowodzenie na obowiązkowej maturze z matematyki

MATEMATYKA I SEMESTR ALK (PwZ) 1. Sumy i sumy podwójne : Σ i ΣΣ

MATEMATYKA Z PLUSEM DLA KLASY VII W KONTEKŚCIE WYMAGAŃ PODSTAWY PROGRAMOWEJ. programowej dla klas IV-VI. programowej dla klas IV-VI.

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

Matematyka Dyskretna - zadania

TEORETYCZNE PODSTAWY INFORMATYKI

Przykładowy zestaw zadań nr 2 z matematyki Odpowiedzi i schemat punktowania poziom rozszerzony

Bukiety matematyczne dla szkoły podstawowej

Programowanie liniowe metoda sympleks

Zakażenia wywołane przez paciorkowce z grupy A. Informacje dla pacjentów

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

VII Olimpiada Matematyczna Gimnazjalistów

KLASA I LO Poziom podstawowy (styczeń) Treści nauczania wymagania szczegółowe:

XIV Olimpiada Matematyczna Juniorów

Fakt 3.(zastosowanie różniczki do obliczeń przybliżonych) Przy czym błąd, jaki popełniamy zastępując przyrost funkcji

Transkrypt:

Drzewa filogenetyczne jako matematyczny model relacji pokrewieństwa dr inż. Damian Bogdanowicz

Sprawa R. Schmidt a z Lafayette Podczas rutynowych badań u pielęgniarki Janet Allen stwierdzono obecność wirusa HIV. Brak możliwych źródeł zakażenia. Hipoteza Allen: wirus został wstrzyknięty umyślnie podczas zastrzyku witaminowego wykonanego przez byłego partnera pielęgniarki - lekarza Richard a Schmidt a. Policji udało się zidentyfikować jednego z pacjentów Schmidt a, którego krew mogłaby być źródłem wirusa. 003 Mary S. Gibbs, GNN, Pytanie Czy można obiektywnie zweryfikować prawdopodobieństwo wersji Janet Allen? Problem HIV szybko mutuje proste porównanie materiału genetycznego na ogół nie daje wyniku. Idea Przy porównywaniu materiału należy uwzględnić mechanizmy ewolucji. Jak to zrobić?

Nieukorzenione drzewa filogenetyczne Drzewa filogenetyczne obrazują ewolucyjne związki pomiędzy różnymi gatunkami lub organizmami. Węzły wewnętrzne odpowiadają przodkom odpowiednich gatunków. e a c b d Odległość ewolucyjna dzieląca poszczególne węzły. Obecnie istniejące gatunki przedstawiane są jako liście drzewa.

czas Drzewa filogenetyczne z korzeniem korzeń 30 mln korzeń mln 7 mln a b c d b c d a Oba drzewa przedstawiają te same relacje pokrewieństwa (mają tą samą topologię).

Drzewo życia Czy ludzie są bardziej spokrewnieni z nietoperzami, czy z kangurami? Neal Olander, http://www.tellapallet.com człowiek, kangur człowiek, nietoperz

Drzewa filogenetyczne jak wiele ich jest? Liczba n-listnych drzew nieukorzenionych binarnych: Liczba n-listnych drzew ukorzenionych binarnych: U n 1 3... (n 5) (n 4)! ( n )! n 1 n e n n R n (n )! ( n 1)! 1 3... (n 3) n 1 Przykłady: U 8 = 10 395 U 10 = 07 05 U 0. 10 0 R 8 = 135 135 R 10 = 34 459 45 R 0 8.0 10 1 U 60 5.01 10 94 Więcej niż szacunkowa liczba atomów w obserwowanym wszechświecie 10 80

Źródła informacji Tradycyjne: cechy morfologiczne, np. liczba nóg, kształt dzioba. Obecnie: dane molekularne, np. DNA (RNA) lub sekwencje aminokwasów. DNA (sekwencja liter A, C, T, G): ACTGACTCTGCCCTCA CTAAACTC Rozmiary genomów: Wirus (HIV) 9. 10 3 Bakteria (Escherichia coli) 4.6 10 6 Muszka owocówka 1.8 10 8 Człowiek (ok. 760MB) 3. 10 9 Paris japonica 1.5 10 11 www.sciencedaily.com/releases/010/10/10100710641.htm

Konstrukcja drzew - metody odległościowe Metody odległościowe opierają się na dostarczonej wraz ze zbiorem gatunków macierzy odległości, odzwierciedlającej ich dystans ewolucyjny. Metoda średnich połączeń (ang. Unweighted Pair Group Method with Arithmetic Mean - UPGMA) Metoda przyłączania sąsiada (ang. Neighbor Joining - NJ) Przybliżone (heurystyczne) metody przeszukiwania przestrzeni drzew A GCTTT CGTTAGA B ACTTT TGTTAGA C ACTTT CGAAAGA D ACTTA CGTTTCT E AGATA CGTTTGA Modele ewolucji - określają sposób pomiaru dystansu ewolucyjnego A B C D E A 0 4 6 6 B 0 4 6 6 C 0 6 6 D 0 4 E 0 Matematyka i informatyka 1 1 1 1 1 A B C D E

Metoda średnich połączeń (UPGMA) 1 A B C D A 0 6 6 B 0 6 6 C 0 4 D 0 1 1 d {A,B},{C} =(d {A},{C} +d {B},{C} )/= (6 + 6)/ = 6 A B d {A,B},{D} =(d {A},{D} +d {B},{D} )/= (6 + 6)/ = 6 A,B C D A,B 0 6 6 C 0 4 D 0 1 1 A B C D d {A,B},{C,D} =(d {A},{C} +d {A},{D} +d {B},{C} +d {B},{C} )/4= 6 3 A,B C,D A,B 0 6 C,D 0 1 1 1 A B C D

Metoda średnich połączeń - własności 1 A 1 1 1 3 4 C E D B Test A B C D E A 0 5 4 7 6 B 0 7 10 9 UPGMA C 0 7 6 D 0 5 E 0 0.75 1.5 1 3.5.5 A C B D E Założenia hipotezy zegara molekularnego są naruszone W metodzie UPGMA obowiązuje hipoteza zegara molekularnego tzn. ewolucja różnych gatunków zachodzi w tym samym tempie - rzadko spotykane w praktyce. UPGMA odtwarza poprawne drzewo, jeśli wejściowa macierz jest ultrametryczna. Macierz odległości jest ultrametryczna dla dowolnych 3 gatunków najdłuższe dwie odległości je dzielące są sobie równe (tzw. warunek trzech punktów).

Metoda przyłączania sąsiada (NJ) B A 4 1 1 C 3 E D Test NJ A B C D E A 0 5 4 7 6 B 0 7 10 9 C 0 7 6 D 0 5 E 0 Ewolucja różnych gatunków może zachodzić w różnym tempie. Odtwarza poprawne drzewo, dla addytywnej macierzy odległości. Macierz odległości jest addytywna dla dowolnych 4 gatunków i,j,k,l co najmniej dwie wartości spośród d ij + d kl, d ik + d jl, d il + d jk przyjmują największą wartość (tzw. warunek czterech punktów). Metoda NJ jest bardziej użyteczna niż UPGMA, lecz macierze odległości spotykane w praktyce zazwyczaj nie spełniają warunku addytywności.

Długości krawędzi dla danej topologii Problem Mamy daną addytywną macierz odległości oraz znamy topologię drzewa, jak wyznaczyć długości krawędzi? A B C A a A 0 d AB d AC B 0 d BC C 0 B b c C a + b = d AB a + c = d AC b + c = d BC a = (d AB + d AC d BC )/ b = (d AB + d BC d AC )/ c = (d AC + d BC d AB )/ Ogólnie: n-3 zmiennych, możemy utworzyć n(n-1)/ równań. Dla n = 4: 5 zmiennych, 6 równań.

Metody przybliżone Problem Mamy daną macierz odległości (niekoniecznie addytywną) oraz znamy topologię drzewa, jak wyznaczyć długości krawędzi? A B C D A 0 d AB d AC d AD B 0 d BC d BD C 0 d CD D 0 i, j L, i j A B a b T ErrT ( dij dij ) gdzie L zbiór liści w drzewie T, e c d C D Poszukajmy długości krawędzi, tak aby najlepiej pasowały do danej macierzy {d ij }. d T ij odległość między liśćmi i,j w T Err ( d AB a b) ( d AC a e c) ( d AD a e d) ( d BC b e c) ( d BD b e d) ( d CD c d) Jest efektywna metoda!

Przeszukiwanie zbioru drzew Wejście: macierz {d ij } Err T T T 1 T 3 ( d i, j L, i j T4 ij d T ij ) Wybieramy drzewo o zadanej topologii i obliczamy długości krawędzi, tak by Err było najmniejsze. Oceniamy otrzymane drzewo używając wybranego kryterium: Metoda najmniejszych kwadratów minimalizacja Err, Metoda minimalnych odległości (Minimum Evolution) minimalizacja sumy długości krawędzi. Przechodzimy do kolejnego drzewa. Przejrzenie wszystkich możliwości (?), dla U 60 5.01 10 94 nieefektywne! W praktyce stosuje się algorytmy heurystyczne.

Metody filogenetyczne w sądzie debiut w USA Lekarz oskarżony o zarażenie wirusem HIV byłej partnerki, poprzez wstrzyknięcie jej krwi chorego pacjenta. HIV - duże tempo ewolucji, wiele szczepów w jednym organizmie. Sekwencje pacjenta Sekwencje poszkodowanej A. Thanukos, Evol Educ Outreach, 010, 3(4):563 57 Sekwencje poszkodowanej wewnątrz grupy sekwencji pacjenta - kierunek zakażenia. R. Schmidt a uznano winnym i skazano na 50 lat więzienia. Sekwencje od osób z Lafayette i okolic Michael L. Metzker et al. PNAS 00;99:149-1497

Jak cofnąć czas? W 1999 r. 6 osób z personelu medycznego, przybyłych do jednego ze szpitali w Libii, zostało oskarżonych o umyślne zakażenie wirusem HIV ponad 400 dzieci. Sekwencje zarażonych dzieci tworzą klaster, co wskazuje na pojedyncze źródło. Ustalono, że wspólny przodek klastra istniał przed przyjazdem medyków. A. Thanukos, Evolution: Education and Outreach, 010, 3(4):563 57

Europejska wieża Babel skąd pochodzi j. polski? Problem Gdzie znajduje się pierwotna ojczyzna języka indoeuropejskiego? Teoria pontycko-kaspijska (kurhanowa) na północ od M. Kaspijskiego język powstał ok. 5000-6000 lat temu, używany przez wojujących koczowników, rozprzestrzenił się w wyniku podbojów części Europy i Azji. Teoria anatolijska w Anatolii, tereny dzisiejszej Turcji język powstał ok. 8000-9500 lat temu, używany przez rolnicze ludy, rozprzestrzenił się wraz z rozpowszechnieniem się rolnictwa. http://language.cs.auckland.ac.nz/the-indo-european-question/

Zastosowania metod filogenetycznych - lingwistyka Problem Gdzie znajduje się pierwotna ojczyzna języka indoeuropejskiego? Dane Teoria pontycko-kaspijska (kurhanowa) ok. 5000-6000 lat temu Teoria anatolijska ok. 8000-9500 lat temu Ponad 6000 grup wyrazów pokrewnych pochodzących z 103 języków. Uwzględniono historyczne daty, np. wyodrębnienie się języka rumuńskiego z łaciny po 70 roku. Polski wszyscy woda matka Angielski all water mother Niemiecki alle wasser mutter Francuski tout eau mère Włoski tutto acqua madre Polski Angielski Niemiecki Francuski Włoski 1 0 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 0 1 0 1 1 0 0 1 0 1 1

Zastosowania metod filogenetycznych - lingwistyka Problem Gdzie znajduje się pierwotna ojczyzna języka indoeuropejskiego? Teoria pontycko-kaspijska (kurhanowa) ok. 5000-6000 lat temu Teoria anatolijska ok. 8000-9500 lat temu Powstanie języka ok. 8000 lat temu. R. Bouckaert i in., Science, 01, 337(6097):957-960

Zastosowania metod filogenetycznych tomografia sieciowa Problem (tomografia sieciowa) Jak poznać strukturę i parametry sieci komputerowej wyłącznie na podstawie pomiarów pośrednich? Parametry połączeń prędkość, jakość połączenia (np. średnia liczba utraconych pakietów), opóźnienie. A A B C D A??? Pomiary A 0 d AB d AC d AD B 0 d BC d BD C 0 d CD D 0 B C D Metody odległościowe B C D Znajomość struktury i parametrów pozwala lepiej monitorować działanie sieci oraz dokonywać optymalizacji dotyczących przydzielania zasobów i funkcjonowania aplikacji sieciowych.

Dziękuję za uwagę