Bioinformatyka Laboratorium, 30h. Michał Bereta

Podobne dokumenty
Bioinformatyka Laboratorium, 30h. Michał Bereta

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Bioinformatyka Laboratorium, 30h. Michał Bereta

Filogenetyka molekularna I. Krzysztof Spalik

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

Filogenetyka molekularna I. Krzysztof Spalik Zakład Filogenetyki Molekularnej i Ewolucji

Filogenetyka molekularna I

Analizy filogenetyczne

Bioinformatyka Laboratorium, 30h. Michał Bereta

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

Filogenetyka molekularna. Dr Anna Karnkowska Zakład Filogenetyki Molekularnej i Ewolucji

Optymalizacja. Przeszukiwanie lokalne

Hierarchiczna analiza skupień

Urszula Poziomek, doradca metodyczny w zakresie biologii Materiał dydaktyczny przygotowany na konferencję z cyklu Na miarę Nobla, 14 stycznia 2010 r.

Bioinformatyka Laboratorium, 30h. Michał Bereta

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

EGZAMIN - Wersja A. ALGORYTMY I STRUKTURY DANYCH Lisek89 opracowanie kartki od Pani dr E. Koszelew

46 Olimpiada Biologiczna

Metody przeszukiwania

Acknowledgement. Drzewa filogenetyczne

Zapis liczb binarnych ze znakiem

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Agnieszka Nowak Brzezińska Wykład III

Rycina 1. Zasięg i zagęszczenie łosi (liczba osobników/1000 ha) w Polsce w roku 2010 oraz rozmieszczenie 29 analizowanych populacji łosi.

Agnieszka Nowak Brzezińska

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Prawdopodobieństwo czerwonych = = 0.33

klasyfikacja fenetyczna (numeryczna)

Ograniczenia środowiskowe nie budzą wielu kontrowersji, co nie znaczy że rozumiemy do końca proces powstawania adaptacji fizjologicznych.

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Drzewa filogenetyczne jako matematyczny model relacji pokrewieństwa. dr inż. Damian Bogdanowicz

Algorytmy ewolucyjne

ARYTMETYKA BINARNA. Dziesiątkowy system pozycyjny nie jest jedynym sposobem kodowania liczb z jakim mamy na co dzień do czynienia.

Optymalizacja ciągła

Algorytmy Równoległe i Rozproszone Część V - Model PRAM II

Struktury Danych i Złożoność Obliczeniowa

Agnieszka Nowak Brzezińska Wykład III

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Testy nieparametryczne

Rozwiązanie. #include <cstdlib> #include <iostream> using namespace std;

Zadanie 1. Potęgi (14 pkt)

Aproksymacja funkcji a regresja symboliczna

METODY STATYSTYCZNE W BIOLOGII

1. Napisz program, który wyświetli Twoje dane jako napis Witaj, Imię Nazwisko. 2. Napisz program, który wyświetli wizytówkę postaci:

TEORETYCZNE PODSTAWY INFORMATYKI

Techniki optymalizacji

START. Wprowadź (v, t) S:=v*t. Wyprowadź (S) KONIEC

Algorytmy sortujące i wyszukujące

Statystyka podstawowe wzory i definicje

Elementy modelowania matematycznego

2 Arytmetyka. d r 2 r + d r 1 2 r 1...d d 0 2 0,

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

WHILE (wyrażenie) instrukcja;

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Jarosław Wróblewski Matematyka Elementarna, zima 2015/16

Algorytmy i struktury danych. Co dziś? Tytułem przypomnienia metoda dziel i zwyciężaj. Wykład VIII Elementarne techniki algorytmiczne

SZTUCZNA INTELIGENCJA

ZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 2014/2015. Drzewa BST c.d., równoważenie drzew, kopce.

0 + 0 = 0, = 1, = 1, = 0.

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Bioinformatyka Laboratorium, 30h. Michał Bereta

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Algorytmy kombinatoryczne w bioinformatyce

Pętle instrukcje powtórzeo

Zadanie 1. Zmiana systemów. Zadanie 2. Szyfr Cezara. Zadanie 3. Czy liczba jest doskonała. Zadanie 4. Rozkład liczby na czynniki pierwsze Zadanie 5.

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Definicja pliku kratowego

Wstęp do programowania

Algorytm. a programowanie -

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >

Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

WHILE (wyrażenie) instrukcja;

Matematyka dyskretna - 7.Drzewa

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

ALGORYTMY Algorytm poprawny jednoznaczny szczegółowy uniwersalny skończoność efektywność (sprawność) zmiennych liniowy warunkowy iteracyjny

Programowanie dynamiczne i algorytmy zachłanne

a[1] a[2] a[3] a[4] a[5] a[6] a[7] a[8] a[9] a[10]

ZALICZENIE WYKŁADU: 30.I.2019

Definicje wyższego poziomu

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć

Programowanie w języku C++ Agnieszka Nowak Brzezińska Laboratorium nr 2

ep do obliczeniowej biologii molekularnej (J. Tiuryn, wykĺady nr. 12 i 13; 25 stycznia 2006) 8 Konstrukcja drzew filogenetycznych

do instrukcja while (wyrażenie);

Wybrane podstawowe rodzaje algorytmów

Wstęp do programowania

Skrypt 2. Liczby wymierne dodatnie i niedodatnie. 3. Obliczanie odległości między dwiema liczbami na osi liczbowej

Język C część 2. Podejmowanie decyzji w programie. if else. switch

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

Algorytmy równoległe. Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2010

Transkrypt:

Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1

Metoda NJ (przyłączania sąsiadów) umożliwia tworzenie drzewa addytywnego: odległości ewolucyjne między sekwencjami wyznaczone na podstawie sumy długości gałęzi w drzewie są w przybliżeniu równe odległościom zawartym w źródłowej macierzy odległości. 2

Miara różnic między tymi odległościami: średnie kwadratowe odchylenie Wartośd E można wykorzystad jako ocenę drzewa. Ogólnie, chcemy mied drzewo, które ma jak najmniejszą wartośd E. Znaczy to, że najmniej różni się od danych wejściowych. 3

Jeśli macierz odległości jest addytywna to można znaleźd drzewo, dla którego E jest równe zeru. Często nie jest to możliwe: liczba par sekwencji = N(N-1)/2 liczba optymalizowanych niezależnych długości gałęzi w nieukorzenionym drzewie = 2N-3 4

Algorytmy UPGMA oraz NJ są dobrze zdefiniowane, ale nie mają wbudowanego kryterium porównywania drzew (konstruują jedynie jedno drzewo). Alternatywne podejście: budowad drzewa różnymi metodami i wybrad to, dla którego E jest najmniejsze. 5

Inne kryteria oceny drzew: kryterium maksymalnej wiarygodności kryterium parsymonii 6

Kryterium maksymalnej wiarygodności Za najlepsze uważa się takie drzewo, które w najbardziej prawdopodobny sposób tłumaczy obserwowaną zmiennośd w danych sekwencjach. 7

Kryterium parsymonii Wybiera się takie drzewo, które obserwowaną zmiennośd z danym zbiorze sekwencji tłumaczy za pomocą jak najmniejszej liczby podstawieo. 8

Przeszukiwanie przestrzeni drzew Można wykonad bez względu na sposób oceny/porównywania drzew Szukamy poprawionych wersji aktualnego drzewa poprzez pewne modyfiikacje aktualnego Rodzaj optymalizacji zachłannej 9

Przestrzeo drzew dla danego zbioru sekwencji Wszystkie możliwe drzewa o różnej topologii, które można wyznaczyd dla tych sekwencji. Notacja!! oznacza iloczyn liczb nieparzystych, np. 9!! = 9 * 7 * 5 * 3 * 1 10

W przestrzenii drzew, dwa drzewa uważamy za sąsiadów, jeśli róznice między nimi można sprowadzid do pojedynczej zmiany topologii, którą określa się jako wymiana najbliższych sąsiadów (ang. nearestneighbor interchange, NNI). NNI: wybierz gałąź łączącą dwa jego węzły (tzn. gałąź wewnętrzną) wyróżnione zostają przez to dwa drzewa podrzędne drzewo podrzędne - może zawierad jeden liśd lub rozgałęzioną topologię zastąp drzewo podrzędne z jednego kooca gałęzi wewnętrznej drzewem podrzędnym z drugiego kooca 11

1, 2, 3 sąsiedzi (każde z nich może byd utworzone z innego przez jedno NNI). 12

1 i 4 - nie są sąsiadami, nie można 1 zmienid w 4 za pomocą 1 NNI (ale można za pomocą dwóch NNI). Zmiana 1 w 4 wymaga procedury zwanej wycięciem i przeszczepieniem dzrewa podrzędnego (ang. subtree pruning and regrafitin, SPR). Jest to procedura dalszego zasięgu w przestrzeni drzew niż NNI. 13

Inną operacją dalekiego zasięgu jest przepołowienie drzewa i ponowne jego połączenie: Wybierz i usuo gałąź wewnętrzną powstają dwa drzewa podrzędne Wybierz po jednej z terminalnych gałęzi każdego poddrzewa i połącz je w nową gałąź wewnętrzną 14

Metoda przeszukiwanie przestrzeni drzew Algorytm wspinaczkowy (optymalizacja zachłanna): przyjmij pewne kryterium porównywania drzew zacznij od pewnego drzewa (może to byd np. wynik algorytmu NJ) porównuj to drzewo z sąsiadami i zamieniaj jeśli znalezione drzewo jest lepsze powtarzaj dopóki aktualne drzewo jest gorsze od któregokolwiek sąsiada Algorytm ten nie gwarantuje znalezienia optimum globalnego. 15

Wersja 2: Kolejne punkty początkowe w przestrzeni poszukiwao (drzewa), generuj dla coraz większej liczby sekwencji. Pobieraj przy tym sewkencje w losowej kolejności Dla trzech sekwencji istnieje tylko jedna topologia drzewa nieukorzenionego Dodawaj pojedynczo kolejne sekwencje, za każdym razem optymalizując powstałe drzewo przez algortym wspinaczkowy z NNI Zakoocz po dodaniu wszystkich sekwencji. Wykonaj powyższe wielokrotnie (za każdym razem inna losowa kolejnośd przyłączania sekwencji) 16

Inne, poza NNI, operacje na drzewach (zmiany dalekiego zasięgu) wprowadzają zbyt wielkie zmiany w topologii drzewa i często są zbyt zbliżone do losowego generowania kolejnych drzew. Można okazjonalnie dopuścid akceptację drzewa o gorszej ocenie w celu umożliwienia algorytmowi "wyskoczenia" z optimum lokalnego. 17

Wiarygodnośd drzewa Jest to prawdopodobieostwo, że parametry wyznaczonego drzew poprawnie opisują związki ewolucyjne między poszczególnymi sekwencjami. Poszukiwane jest drzewo o maksymalnej wiarygodności (ang. maximum likelihood, ML) 18

Wiarygodnośd drzewa Parametry drzew, które bierze się pod uwagę: topologia drzewa długości galęzi drzewa wskaźniki tempa podstawieo częstości występowania zasad stosunek liczby tranzycji do transwersji Można optymalizowad jednocześnie wszystkie te parametry. Można również optymalziowad jedynie topologię i długości gałęzi (pozostałe parametry ustalone) 19

Wiarygodnośd drzewa Często drzewa będą miały niewielkie różnice w ocenie swojej wierygodności. Można wtedy określid, czy te różnice są statystycznie istotne (test Kishino i Hasegawy). 20

Obliczanie wiarygodności drzewa pierwszy krok odbywa się dla określonej pozycji n dopasowania wielosekwencyjnego Wiarygodnośd hipotezy, że wspólny przodek obu sekwencji miał na pozycji n zasadę X to: P ij (t) - prawdopodobieostwa podstawieo obliczone na podstawie odpowiedniego modelu ewolucji Powyższe można obliczyd dla wszystkich czterech możliwych wartości X. 21

Dla węzła Y: Kontynuując do węzła W: Co z węzłem Z? 22

Wiarygodnośd całego drzewa dla pozycji n to suma czterech wartości - dla W równego dowolnej wartości ze zbioru {A, C, T, G} Założenie: prawdopodobieostwo a priori wystąpienia każdej z czterech zasad na pozycji n w sekwencji przodka jest opisywana przez częstośd występowania zasad w stanie równowagi, zgodnie z wybranym modelem ewolucyjnym. 23

Obliczenia przeprowadza się rekurencyjnie od liści do korzenia. Wiarygodnośd nie zależy od położenia korzenia korzeo można umieści w dowolnym miejscu. Procedurę powtarza się dla każdej pozycji zakładając niezleżnośd przebiegu ewolucji na każdej pozycji 24

Wiarygodnośd drzewa dla całego dopasowania, L tot, to iloczyn wartości wiarygodności dla poszczególnych pozycji. Wykorzystując logarytm można uniknąd mnożenia i wykorzystad sumowanie Poszukiwane drzewo ML to drzewo o najmniej ujemnej wartości lnl tot 25

Przykład Czasami nie ma wątpliwośd co do części kladów - wiadomo, że pewne gatunki są bliżej ze sobą spokrewnione. Każdy klad jest wcześniej optymalizowany przez np. algorytm NJ. Pytanie - jak połączyd klady? Można optymalizowad długości gałęzi we wcześnie zdefiniowanych kladach, ale nie można zmieniad topologi. Pokrewieostwo między kladami może byd opisane przez 105 różnych topologicznie, nieukorzenionych drzew. Możliwe jest wyczerpujące przejrzenie wszystkich możliwych topologii i wybranie tego o największej wiarygodności. 26

Zastosowanie ML z modelem JC (Jukesa- Cantora) daje drzewo takie samo jak dla algortymu NJ. 27

JC zakłada jednakową częstośd A, C, T, G. W rzeczywistości dla tych sekwencji: A : 37.5% C : 24.7% G : 12.6% U : 25.2% Zakładając stosunek tranzycji do transwersji różny od 1 oraz model HKY oraz inwariantnośd na pewnych odcinkach sewkencji, metoda ML daje inne drzewo: 28

Wiewióreczniki nie są już uznawane za grupę siostrzaną do wyraków. 29

Kryterium parsymonii Ma swoje wykorzystanie w badaniach filogenetycznych prowadzonych na podstawie cech morfologicznych. Kryterium: Z możliwych rozwiązao wybieraj takie, które wymaga minimalnej liczby arbitralnych założeo. 30

Przykład 0 - cecha przodka (np. struktura kooczyny) 1 - cecha gatunku potomnego 31

Preferujemy drzewo A, gdyż zakłada ono, że nowa cecha wykształciła się jeden raz. 32

Ogólnie, musimy dysponowad zestawem wielu cech, które wykształciły się w różnych okresach czasu. Synapomorfa - ewolucyjnie wspólna cecha gatunków Idealnie - chcemy mied taki zbiór synapomorf, z których każda odpowiadałaby za inne rozgałęzienie w drzewie. Algortymy wykorzystujące kryterium parsymonii wykorzystują podejście heurystyczne uwzględnia się możliwośd utraty cechy stounkowo mało prawdopodobne jest wykształcenie się tej samej cechy u różnych gatunków niezależnie wykształcenie się cechy ma większą wagę niż jej utrata jednak - możliwa homoplazja - cechy wykształciły się niezależnie więcej niż jeden raz fałszywe synapomorfy 33

Parsymonia z danymi molekularnymi Każdą pozycję w dopasowaniu wielosekwencyjnym traktuje się jak cechę. Każde podstawienie zmienia stan cechy. Szukane jest drzewo, które wymagad będzie minimalnej liczby podstawieo. Ale - nie jest znana sekwencja przodka - nie można ustalid kierunku zmian Używane do oceny drzew nieukorzenionych. 34

35

Nie wszystkie pozycje są informatywne. Ta sama reszta we wszystkich sekwencjach na danej pozycji: brak informacji filogenetycznej. Tylko jeden gatunek z inną resztą - również nieinformatywny: tylko jedna gałąź wyróżniona, pozostałe topologie drzew nierozróżnialne przy zastosowaniu kryterium parsymonii. Wniosek: Aby pozycja dopasowania była informatywna, musi zawierad co najmniej dwa rodzaje reszt, z których każda musi występowad na tej pozycji co najmniej dwa razy. 36

Metoda ML czy kryterium parsymonii? Parsymonia Zaleta - szybkośd Unika się zakładania jakiegokolwiek modelu ewolucji Np. niebezpieczne jest stosowanie modelu JC - zakłada jednakowe częstości występowania reszt oraz jednakowe tempo podstawieo 37

Metoda ML czy kryterium parsymonii? Jednak: parsymonia - podobne założenia Wszystkie typy podstawieo mają taki sam wkład w liczoną parsymonię Zmiany na wszystkich pozycjach mają taką samą wagę Stosowanie modelu HKY poprawiło działanie meotdy ML Podobnie można przypisywad wagi w metodzie parsymonii, ale problemem jest dobór odpowiednich wag. Meotda ML optymalizuje swoje parametry przez maksymalizację funkcji wiarygodności. Lepsze zdaje się wykorzystanie modeli ewolucji takich jakie mamy niż nie korzystanie z nich w ogóle. 38

39