Bioinformatyka Laboratorium, 30h. Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl



Podobne dokumenty
Bioinformatyka Laboratorium, 30h. Michał Bereta

Harmonogramowanie projektów Zarządzanie czasem

Warunki Oferty PrOmOcyjnej usługi z ulgą

dr inż. Cezary Wiśniewski Płock, 2006

Umowa o pracę zawarta na czas nieokreślony

Edycja geometrii w Solid Edge ST

Instalacja. Zawartość. Wyszukiwarka. Instalacja Konfiguracja Uruchomienie i praca z raportem Metody wyszukiwania...

Pathfinder poprawny dobór parametrów i zachowań ludzi w czasie ewakuacji.

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

Zadania. SiOD Cwiczenie 1 ;

Bazy danych. Andrzej Łachwa, UJ, /15

Podstawowe pojęcia: Populacja. Populacja skończona zawiera skończoną liczbę jednostek statystycznych

INTENSE BUSINESS INTELLIGENCE PLATFORM

Projektowanie bazy danych

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych ul. Koszykowa 75, Warszawa

Podstawowe działania w rachunku macierzowym

PRZEPISY KLASYFIKACJI I BUDOWY STATKÓW MORSKICH

WordPad. Czyli mój pierwszy edytor tekstu

2.Prawo zachowania masy

GEO-SYSTEM Sp. z o.o. GEO-RCiWN Rejestr Cen i Wartości Nieruchomości Podręcznik dla uŝytkowników modułu wyszukiwania danych Warszawa 2007

REGULAMIN FINANSOWANIA ZE ŚRODKÓW FUNDUSZU PRACY KOSZTÓW STUDIÓW PODYPLOMOWYCH

Audyt SEO. Elementy oraz proces przygotowania audytu. strona

DE-WZP JJ.3 Warszawa,

KONSPEKT LEKCJI MATEMATYKI. Z WYKORZYSTANIEM METOD AKTYWIZUJĄCYCH w klasie I gimnazjum. TEMAT: Działania łączne na liczbach wymiernych

INSTRUKCJA DLA UCZESTNIKÓW ZAWODÓW ZADANIA

POMOC PSYCHOLOGICZNO-PEDAGOGICZNA Z OPERONEM. Vademecum doradztwa edukacyjno-zawodowego. Akademia

Dobór nastaw PID regulatorów LB-760A i LB-762

Strategia rozwoju kariery zawodowej - Twój scenariusz (program nagrania).

Akademickie Centrum Informatyki PS. Wydział Informatyki PS

Adres strony internetowej, na której Zamawiający udostępnia Specyfikację Istotnych Warunków Zamówienia: ops-targowek.waw.pl

INSTRUKCJA BHP PRZY RECZNYCH PRACACH TRANSPORTOWYCH DLA PRACOWNIKÓW KUCHENKI ODDZIAŁOWEJ.

Podatek przemysłowy (lokalny podatek od działalności usługowowytwórczej) :02:07

PODSTAWY METROLOGII ĆWICZENIE 4 PRZETWORNIKI AC/CA Międzywydziałowa Szkoła Inżynierii Biomedycznej 2009/2010 SEMESTR 3

Projekt MES. Wykonali: Lidia Orkowska Mateusz Wróbel Adam Wysocki WBMIZ, MIBM, IMe

art. 488 i n. ustawy z dnia 23 kwietnia 1964 r. Kodeks cywilny (Dz. U. Nr 16, poz. 93 ze zm.),

REGULAMIN OKRESOWYCH OCEN PRACOWNIKÓW URZĘDU GMINY LIMANOWA ORAZ KIEROWNIKÓW JEDNOSTEK ORGANIZACYJNYCH GMINY LIMANOWA

Wykład 8 Ochrona danych wprowadzenie Sterowanie dostępem do danych Sterowanie przepływem danych Ograniczanie możliwości wnioskowania Szyfrowanie

WZORU UŻYTKOWEGO EGZEMPLARZ ARCHIWALNY. d2)opis OCHRONNY. (19) PL (n) Centralny Instytut Ochrony Pracy, Warszawa, PL

Przypomnienie najważniejszych pojęć z baz danych. Co to jest baza danych?

Umowa kredytu. zawarta w dniu. zwanym dalej Kredytobiorcą, przy kontrasygnacie Skarbnika Powiatu.

epuap Ogólna instrukcja organizacyjna kroków dla realizacji integracji

Druk nr 1013 Warszawa, 9 lipca 2008 r.

Centrum Informatyki "ZETO" S.A. w Białymstoku. Instrukcja użytkownika dla urzędników nadających uprawnienia i ograniczenia podmiotom w ST CEIDG

INSTRUKCJA WebPTB 1.0

POWIATOWY URZĄD PRACY

Dr inż. Andrzej Tatarek. Siłownie cieplne

Wiedza niepewna i wnioskowanie (c.d.)

SCRIBA JUNIOR SCRIBA JUNIOR I

1. Rozwiązać układ równań { x 2 = 2y 1

Zarządzanie projektami. wykład 1 dr inż. Agata Klaus-Rosińska

Zobacz to na własne oczy. Przyszłość już tu jest dzięki rozwiązaniu Cisco TelePresence.

ROZDZIAŁ I POSTANOWIENIA OGÓLNE

Microsoft Management Console

Motywuj świadomie. Przez kompetencje.

PREFABRYKOWANE STUDNIE OPUSZCZANE Z ŻELBETU ŚREDNICACH NOMINALNYCH DN1500, DN2000, DN2500, DN3200 wg EN 1917 i DIN V

ZASADY WYPEŁNIANIA ANKIETY 2. ZATRUDNIENIE NA CZĘŚĆ ETATU LUB PRZEZ CZĘŚĆ OKRESU OCENY

WZÓR. Zawarta w dniu w Nowym Sączu pomiędzy Miastem Nowy Sącz z siedzibą Nowy Sącz ul. Rynek 1 zwanym dalej Zamawiającym reprezentowanym przez

1) TUnŻ WARTA S.A. i TUiR WARTA S.A. należą do tej samej grupy kapitałowej,

INFORMATOR dotyczący wprowadzania do obrotu urządzeń elektrycznych i elektronicznych aparatury, telekomunikacyjnych urządzeń końcowych i urządzeń

Konfiguracja Wyszukiwarki

Postanowienia ogólne. Usługodawcy oraz prawa do Witryn internetowych lub Aplikacji internetowych

W tym elemencie większość zdających nie zapisywała za pomocą równania reakcji procesu zobojętniania tlenku sodu mianowanym roztworem kwasu solnego.

Temat: Funkcje. Własności ogólne. A n n a R a j f u r a, M a t e m a t y k a s e m e s t r 1, W S Z i M w S o c h a c z e w i e 1

TEORIA GIER W EKONOMII WYKŁAD 1: GRY W POSTACI EKSTENSYWNEJ I NORMALNEJ

Załącznik nr 1 do specyfikacji BPM.ZZP UMOWA NR

- 70% wg starych zasad i 30% wg nowych zasad dla osób, które. - 55% wg starych zasad i 45% wg nowych zasad dla osób, które

Odpowiedzi na pytania zadane do zapytania ofertowego nr EFS/2012/05/01

TABELA ZGODNOŚCI. W aktualnym stanie prawnym pracodawca, który przez okres 36 miesięcy zatrudni osoby. l. Pornoc na rekompensatę dodatkowych

REGULAMIN PROMOCJI: BĄDŹ GOTÓW NA VAT! WYBIERZ SYMFONIĘ

OGŁOSZENIE. Z.Z.R.G. przy KGHM O/Z.G. RUDNA. Zaprasza na WĘDKARSKIE GRUNTOWE ZAWODY RATOWNIKÓW GÓRNICZYCH

Adres strony internetowej, na której Zamawiający udostępnia Specyfikację Istotnych Warunków Zamówienia:

Reforma emerytalna. Co zrobimy? SŁOWNICZEK

Czy zdążyłbyś w czasie, w jakim potrzebuje światło słoneczne, aby dotrzeć do Saturna, oglądnąć polski hit kinowy: Nad życie Anny Pluteckiej-Mesjasz?

Nowe funkcjonalności

Komentarz technik dróg i mostów kolejowych 311[06]-01 Czerwiec 2009

Od redakcji. Symbolem oznaczono zadania wykraczające poza zakres materiału omówionego w podręczniku Fizyka z plusem cz. 2.

WYZNACZANIE PRZYSPIESZENIA ZIEMSKIEGO ZA POMOCĄ WAHADŁA REWERSYJNEGO I MATEMATYCZNEGO

Przedmiotowe Zasady Oceniania z języka angielskiego w klasach IV-VI w Szkole Podstawowej im. Janusza Korczaka w Biedaszkach.

Na podstawie art.4 ust.1 i art.20 lit. l) Statutu Walne Zebranie Stowarzyszenia uchwala niniejszy Regulamin Zarządu.

SEKCJA I: ZAMAWIAJĄCY SEKCJA II: PRZEDMIOT ZAMÓWIENIA. file://d:\rckik-przetargi\103\ogłoszenie o zamówieniu - etykiety.htm

Opis programu do wizualizacji algorytmów z zakresu arytmetyki komputerowej

Załącznik nr 1 do Uchwały Nr.../.../16 Rady Miasta Milanówka z dnia. marca 2016 roku

Wymagania techniczno-montażowe dla lekkiego, drewnianego budownictwa szkieletowego

ZP/6/2015 WYKONAWCA NR 1 Pytanie 1 Odpowiedź: Pytanie 2 Odpowiedź: Pytanie 3 Odpowiedź: Pytanie 4 Odpowiedź: Pytanie 5 Odpowiedź:

Komunikat dla osób rozliczających umowy w sprawie nowego sposobu rozliczania umów w związku z likwidacją II fazy rozliczeń.

Umowy o pracę zawarte na czas określony od 22 lutego 2016 r.

Nowy program terapeutyczny w RZS i MIZS na czym polega zmiana.

KATEDRA INFORMATYKI STOSOWANEJ PŁ ANALIZA I PROJEKTOWANIE SYSTEMÓW INFORMATYCZNYCH

W N I O S E K. o przyznanie dofinansowania wynagrodzenia za zatrudnienie skierowanego bezrobotnego, który ukończył 50 rok życia

Roczne zeznanie podatkowe 2015

OPIS PRZEDMIOTU ZAMÓWIENIA DO ZAPYTANIA KE1/POIG 8.2/13

Oprogramowanie klawiatury matrycowej i alfanumerycznego wyświetlacza LCD

Zarządzenie Nr 52/2015. Wójta Gminy Jemielno. z dnia 24 lipca 2015 roku

SEKCJA I: ZAMAWIAJĄCY SEKCJA II: PRZEDMIOT ZAMÓWIENIA.

Postrzeganie reklamy zewnętrznej - badania

REGULAMIN TURNIEJU SPORTOWEJ GRY KARCIANEJ KANASTA W RAMACH I OGÓLNOPOLSKIEGO FESTIWALU GIER UMYSŁOWYCH 55+ GORZÓW WLKP R.

Integrować czy nie integrować?

DANE UCZESTNIKÓW PROJEKTÓW (PRACOWNIKÓW INSTYTUCJI), KTÓRZY OTRZYMUJĄ WSPARCIE W RAMACH EFS

Transkrypt:

Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1

Filogenetyka molekularna wykorzystuje informację zawartą w sekwencjach aminokwasów lub nukleotydów do kontrukcji drzew filogonetycznych, pozwalających odtworzyd dogę ewolucyjną (kolejnośd specjacji). Wykorzystuje się sekwencje homologiczne. 2

Metody konstruowania drzew filogenetycznych Metody odległościowe Metoda parsymonii Metoda największej wiarygodności 3

Podstawowe pojęcia: Równoważnośd drzew 4

Podstawowe pojęcia: Długośd gałęzi może (lecz nie musi) reprezentowad oszacowanej odległości ewolucyjnej 5

Podstawowe pojęcia: Długośd gałęzi może (lecz nie musi) reprezentowad oszacowanej odległości ewolucyjnej 6

Podstawowe pojęcia: Drzewo ukorzenione vs drzewo nieukorzenione Korzeo reprezentuje wspólnego (nieznanego przodka) 7

8

Drzewo nieukorzenione A i j C B D 9

10

Drzewo ukorzenione niesie więcej informacji niż drzewo nieukorzenione Przekształcenie drzewa nieukorzenionego w ukorzenione poprzez Określenie grupy zewnętrzenej Np. Torbacze dla ssaków łożyskowych Metodę punktu środkowego Umieszczenie korzenia w środku najdłuższej gałęzi drzewa nieukorzenionego 11

Uwaga: Wiele programów zakłada, że pierwsza podana sekwencja powinna byd użyta jako grupa zewnętrzna. 12

Klad grupa wszystkich gatunków wychodzących od wspólnego przodka 13

Procedura Wybierz sekwencje (homologiczne) Zbyt odległe sekwencje nie dają dobrych wyników Zbyt podobne nie niosą wystarczająco informacji Przyjmij pewien model ewolucji (np. JC lub nowsze) Wykonaj dopasowanie wielu sekwencji Częste ręczne poprawki Określ tablice odległości każdej z par sekwencji Wybierz algorytm tworzenia drzewa 14

Procedura Wybierz sekwencje (homologiczne) 15

Procedura Określ tablice odległości każdej z par sekwencji 16

Powstałe drzewo (metoda UPGMA) 17

Ogólna procedura tworzenia drzewa Połącz najbliższe dwa skupiska w jedno większa skupisko Oblicz odległości między wszystkimi skupiskami Powtarzaj poprzednie kroki dopóki wszystkie gatunki nie zostaną połączone w jedno skupisko 18

Poszczególne algorytmy różnią się konkretną realizacją. Np. Jak policzyd odległości między skupiskami, które zawierają po więcej niż jednej sekwencji? 19

Metoda średnich połączeo (UPGMA ang. unweighted pair group method with arithmetic mean) Hipoteza zegara molekularnego (ewolucja wszystkich gatunków zachodzi w tym samym tempie) Wysokośd drzewa to połowa średniej odległości pomiędzy sekwencjami z dwóch skupisk łączonych jako ostatnie Najprostsza metoda Odległośd między skupiskami liczona jest jako średnia z odległości każdej możliwej pary sekwencji Bezpośrednio tworzy korzeo (połączenie dwóch ostatnich skupisk) Ma szereg ograniczeo 20

Ultrametrycznośd Dla dowolnych trzech gatunków opisywanych przez drzewo UPGMA najdłuższe dwie z trzech łączących je odległości są sobie równe. UPGMA tworzy macierz czasów specjacji, która jest dokładnie ultrametryczna. Jeśli spełniona jest hipoteza zegara ewolucyjnego, to odległości ewolucyjne są tylko w przybliżeniu ultrametryczne (gdyż wciąż ewolucja jest losowa). Jeśli ewolucja zachodzi w różnym tempie zasada ultrametrycznośd jest złamana (bardziej rzeczywisty przypadek). Stąd UPGMA często nie daje wiarygodnych wyników 21

Metoda przyłączania sąsiadów (NJ - ang. Neighbourhood Joining) Tworzy nieukorzenione drzewo Drzewa mają własnośd addytywności tzn. odległości między gatunkami (liśdmi)są równe sumie długości łączących je gałęzi. Jeśli macierz jest ultrametryczna to jest addytywna; w drugą stronę zależnośd nie zawsze jest spełniona W rzeczywistości oryginalne macierze odległości nie są dokładnie addytywne, dlatego metoda NJ również będzie miała przybliżony charakter 22

Metoda przyłączania sąsiadów Sąsiędzi gdy gałęzie od nich biegnące łączą się w najbliższym, tym samym węźle. Addytywnośd: d AC = d Ai + d ij + d jc A i B sąsiedzi C i D sąsiedzi A i C nie sąsiedzi Metoda przyłączania sąsiada umożliwia konstrukcję drzewa addytywnego, w którym odległości między gatunkami będą najlepszym możliwym przybliżeniem odległości ewolucyjnych w oryginalnej macierzy odległości. Jeśli ta macierz jest dokladnie addytywna, metoda NJ gwarantuje kontrukcję poprawnego drzewa. 23

Metoda przyłączania sąsiadów Początek procedury zbiór niepołączonych liści (sekwencji). Połącznie dwóch liści (i oraz j) skutkuje dodaniem nowego węzła n. W kolejnych krokach węzły już włączone do drzewa są pomijane (ciemniejszy kolor na rys. b). Po każdej iteracji liczba węzłów zmniejszy się o 1. Kontynuacja dopóki wszystkie węzły nie zostaną połączone. 24

Metoda przyłączania sąsiadów Umieszczając nowy węzeł w drzewie musimy znad jego odległośd od każdego innego węzła, np. k. Aby wyznaczyd te odległości korzystamy z założenia addytywności odległości. 25

Metoda przyłączania sąsiadów Umieszczając nowy węzeł w drzewie musimy znad jego odległośd od każdego innego węzła, np. k. Aby wyznaczyd te odległości korzystamy z założenia addytywności odległości. 26

Metoda przyłączania sąsiadów Umieszczając nowy węzeł w drzewie musimy znad jego odległośd od każdego innego węzła, np. k. Aby wyznaczyd te odległości korzystamy z założenia addytywności odległości. Problem: zależy od wybranego k. Dla innych k możemy dostad nieznacznie 27 inne wartości.

Problem - rozwiązanie N całkowita liczba wolnych węzłów Ostatecznie, uśredniając : Analogicznie dla d jn. 28

Metoda przyłączania sąsiadów Jak wybierad i oraz j do połącznia? Łączyd należy takie i oraz j, dla któych minimalna jest odległośd policzona według wzoru: 29

Metoda przyłączania sąsiadów 30

31

Wniosek: wiewióreczniki są grupą siostrzaną do wyraków. Jest to błędny wniosek od strony biologicznej. Należy ostrożnie podchodzid do interpretacji powstałych drzew. 32

Metoda przyłączania sąsiadów Złożonośd obliczeniowa O(N 2 ) Dokładna jeśli macierz odległości jest addytywna Duża szansa na dobre wyniki jeśli macierz odległości jest prawie addytywna Macierz może nie byd addytywna w wyniku zastosowania błędnej metody wyznaczania odległości ewolucyjnej lub niedokładnego dopasowania wielosekwencyjnego. 33

Metoda bootstrap Ewolucja jest procesem losowym, zatem zmierzone odległości również podlegają wahaniom Celem metody bootstrap jest zmierzenie jak ta losowośd wpływa na konstruowanie drzewa Porównaniu podlegają drzewa skonstruowane na podstawie losowo wygenerowanych dopasowao sekwencji, nieznaczenie różniących się od zadanego dopasowania oryginalnego. 34

Generowanie dopasowao Każde wygenerowane dopasowanie ma taką samą długośd jak oryginalne Generowane dopasowanie jest tworzone przez losowanie kolumn z dopasowania oryginalnego Losowanie jest z powtórzeniami, tzn. kolumny mogą się powtarzad Uwaga: metody filogenetyczne traktują każdą kolumnę niezależnie od innych (tzn. kolejnośd kolumn nie ma znaczenia) 35

Metoda bootstrap 36

Wykonuje się od 100 do 1000 generowao losowych dopasowao Dla każdego tworzy się drzewo W drzewie oryginalnym każdy węzeł otrzymuje tzw. wartość bootstrap, czyli odsetek wygenerowanych drzew, w których obserwowano dokładnie takie samo rozgałęzienie. Im mniejsza taka wartośd tym mniej wiarygodne dane rozgałęzienie 37

Drzewo konsensusowe Określ zestaw wszystkich kladów, które pojawiają się podczas generowania drzew Sortuj zgodnie z malejącą wartością bootstrap Konstruuj drzewo konsensusowe rozpoczynając od kladu z nawiększą wartością bootstrap, takiego, który nie wprowadza sprzeczności z wcześniej przyłączonymi kladami. 38

Jakie opcje tworzenia drzew filogenetycznych udostępnia program UGENE w zakresie? Algorytmu Modelu ewolucji (określania macierzy odległości) Możliwośd użycia rozkładu gamma do modelowania nierównomierności ewolucji Różne czestości transwersji / tranzycji Możliwości wykorzystania metody bootstrap i tworzenia drzewa konsensusowego 39

40

Zadanie: Dla danych z pliku CytBDNA.txt przygotuj drzewa filogenetyczne wychodząc z dopasowania wielosekwencyjnego otrzymanego z każdego dostępnego algortymu (użyj domyślnych wartości parametrów) Dla każdego takiego drzewa zbuduj również drzewo konsensusowe Czy / w jakich przypadkach widad różnice między otrzymanymi drzewami Upenij się, że potrafisz odczytad wartości bootstrap każdego węzła w drzewie konsensusowym 41

Przykładowe drzewo konsensusowe z wartościami bootstrap 42