Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Podobne dokumenty
PRZYRÓWNANIE SEKWENCJI

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Bioinformatyka 2 (BT172) Struktura i organizacja kursu

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowanie sekwencji (sequence alignment)

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Dopasowania par sekwencji DNA

Kody blokowe Wykład 2, 10 III 2011

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Wstęp do programowania

Podstawy programowania. Wykład Funkcje. Krzysztof Banaś Podstawy programowania 1

Porównywanie i dopasowywanie sekwencji

Wstęp do Informatyki zadania ze złożoności obliczeniowej z rozwiązaniami

Wstęp do programowania

Wykład 5 Dopasowywanie lokalne

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Teoretyczne Podstawy Informatyki

BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH

1259 (10) = 1 * * * * 100 = 1 * * * *1

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

W kierunku równoległej implementacji pakietu T-Coffee

Arytmetyka komputera. Na podstawie podręcznika Urządzenia techniki komputerowej Tomasza Marciniuka. Opracował: Kamil Kowalski klasa III TI

Statystyczna analiza danych

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

wagi cyfry pozycje

Systemy liczbowe. 1. Przedstawić w postaci sumy wag poszczególnych cyfr liczbę rzeczywistą R = (10).

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

KARTA PRZEDMIOTU. Algorytmy i struktury danych, C4

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

WYKŁAD 10. kodem pierwotnym krzywej jest ciąg par współrzędnych x, y kolejnych punktów krzywej: (x 1, y 1 ), (x 2, y 2 ),...

Kompresja Kodowanie arytmetyczne. Dariusz Sobczuk

Metodyki i techniki programowania

Klasa 2 INFORMATYKA. dla szkół ponadgimnazjalnych zakres rozszerzony. Założone osiągnięcia ucznia wymagania edukacyjne na. poszczególne oceny

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Programowanie w Javie nazwa przedmiotu SYLABUS A. Informacje ogólne

Dariusz Brzeziński. Politechnika Poznańska, Instytut Informatyki

LABORATORIUM PROCESORY SYGNAŁOWE W AUTOMATYCE PRZEMYSŁOWEJ. Zasady arytmetyki stałoprzecinkowej oraz operacji arytmetycznych w formatach Q

Tutorial prowadzi przez kolejne etapy tworzenia projektu począwszy od zdefiniowania przypadków użycia, a skończywszy na konfiguracji i uruchomieniu.

7. Zagadnienie parkowania ciężarówki.

Hierarchiczna analiza skupień

Czym jest Java? Rozumiana jako środowisko do uruchamiania programów Platforma software owa

Sytuacja na rynku kredytowym. wyniki ankiety do przewodniczących komitetów kredytowych IV kwartał 2017 r.

RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych

Metodyki i techniki programowania

kierunek: Automatyka i Robotyka Zadania uzupełniające do wykładu i ćwiczeń laboratoryjnych z Elektroniki sem. II

Jeśli X jest przestrzenią o nieskończonej liczbie elementów:

Laboratorium nr 1. i 2.

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1

Nierówność Krafta-McMillana, Kodowanie Huffmana

Programowanie dynamiczne

Język ludzki kod maszynowy

Podstawy bioinformatyki - biologiczne bazy danych

Zadania z podstaw programowania obiektowego

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Algorytmy i struktury danych, C3

Programowanie celowe #1

Modelowanie motywów łańcuchami Markowa wyższego rzędu

PROBLEM: SORTOWANIE PRZEZ ODWRÓCENIA METODA: ALGORYTMY ZACHŁANNE

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

2.2 Opis części programowej

Analiza algorytmów zadania podstawowe

Podstawy programowania. Wykład PASCAL. Zmienne wskaźnikowe i dynamiczne. dr Artur Bartoszewski - Podstawy prograowania, sem.

Zadanie 1. Algorytmika ćwiczenia

Algorytmy i Struktury Danych

Rok akademicki: 2012/2013 Kod: ZIE s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Wstęp do Biologii Obliczeniowej

MODELE CYKLU ŻYCIA OPROGRAMOWANIA (1) Model kaskadowy (często stosowany w praktyce do projektów o niewielkiej złożonoś

2a. Przeciętna stopa zwrotu

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

Wstęp do informatyki- wykład 1

KARTA PRZEDMIOTU. Projekt zespołowy D1_10

Podsumowanie wyników ankiety

Sytuacja na rynku kredytowym. wyniki ankiety do przewodniczących komitetów kredytowych IV kwartał 2018 r.

Wizualizacja pogody dla windsurferów

Transformata Fouriera. Sylwia Kołoda Magdalena Pacek Krzysztof Kolago

ARYTMETYKA BINARNA. Dziesiątkowy system pozycyjny nie jest jedynym sposobem kodowania liczb z jakim mamy na co dzień do czynienia.

Algorytmy równoległe. Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2010

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Projekt zespołowy D1_10

Elementy cyfrowe i układy logiczne

Porównywanie i dopasowywanie sekwencji

K_W04 K_W04 K_W04. Opis

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY 7SP. V. Obliczenia procentowe. Uczeń: 1) przedstawia część wielkości jako procent tej wielkości;

Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa. P. F. Góra

6. Zagadnienie parkowania ciężarówki.

dr inż. Jarosław Forenc

Analiza i projekt systemu pracy grupowej z zastosowaniem metodyki SCRUM w technologii SharePoint Karolina Konstantynowicz

1 Wprowadzenie do algorytmiki

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

System wizyjny OMRON Xpectia FZx

Transkrypt:

Bioinformatyka 2 (BT172) Wykład 5 Progresywne metody wyznaczania MSA: T-coffee Krzysztof Murzyn 14.XI.2005 PLAN WYKŁADU Ostatnio : definicje, zastosowania MSA, złożoność obliczeniowa algorytmu wyznaczania MSA w oparciu o programowanie dynamiczne, kryteria oceny jakości MSA, sposoby obliczania oceny MSA, formaty zapisywania MSA, BaliBase: referencyjna baza uliniowień wielosekwencyjnych, edycja i wizualizacja MSA, zastosowania i algorytm ClustalW Dzisiaj : omówienie algorytmu i zastosowań T-Coffee

T-COFFEE Tree based Consistency Objective Function For alignment Evaluation Ograniczenie wpływu błędnego uliniowienia najbliżej spokrewnionych sekwencji na jakość końcowego MSA. Na każdym etapie progresywnego tworzenia MSA wykorzystana jest zarówno informacja o podobieństwie między wszystkimi parami sekwencji jak i dodatkowa informacja uzyskana z innych źródeł. interfejs tekstowy i sieciowy (http://igs-server.cnrs-mrs.fr/tcoffee/tcoffee_cgi/index.cgi) C. Notredame, D. Higgins, J. Heringa (2000) T-Coffee: A novel method for fast and accurate multiple sequence alignment Journal of Molecular Biology 302:205 217 C. Notredame, L. Holme, D.G. Higgins (1998) COFFEE: A New Objective Function For Multiple Sequence Alignment Bioinformatics 14(5):407 422 ALGORYTM T-COFFEE 1. utworzenie bibliotek pierwotnych (ang. primary libraries) zawierających uliniowienia lokalne i globalne par sekwencji 2. wyznaczenie i przypisanie wag uliniowieniom w bibliotekach pierwotnych 3. kompilacja bibliotek pierwotnych oraz (opcjonalnie) bibliotek wskazanych przez użytkownika zawierających dodatkowe informacje o uliniawianych sekwencjach (np. rozmieszczenie konserwowanych elementów struktury drugorzędowej, dopasowania strukturalne, ręcznie skorygowane MSA, etc.) 4. rozbudowa biblioteki: ustalenie ostatecznego wpływu poszczególnych uliniowień par sekwencji na ostateczne MSA 5. progresywne uliniowienie sekwencji z wykorzystaniem informacji zgromadzonych w uprzednio rozbudowanej bibliotece (ang. extended library)

ALGORYTM T-COFFEE: (1) TWORZENIE BIBLIOTEK PIERWOTNYCH w bibliotekach pierwotnych programu T-coffee gromadzone są informacje o parach reszt występujących w uliniowieniach lokalnych i globalnych wykonanych dla każdej z pośród analizowanych sekwencji łącznie uliniowień globalnych i nie więcej niż dziesięć razy tyle suboptymalnych uliniowień lokalnych globalne uliniowienie dla każdej pary sekwencji wyznaczane jest w oparciu o algorytm ClustalW lokalne uliniowienia (dziesięć najwyżej ocenionych) dla każdej pary sekwencji, wyznaczane jest w oparciu o algorytm Lalign (FASTA) każde z wyznaczonych uliniowień jest reprezentowane w bibliotece jako lista par reszt na odpowiadających sobie pozycjach w określonym uliniowieniu każda z uliniowionych par reszt reprezentuje więzy, które będą narzucone w procesie konstruowania MSA siła więzów zależy od jakości uliniowienia z którego pochodzi określona para reszt ALGORYTM T-COFFEE: (2) WYZNACZANIE I PRZYPISANIE WAG umownym wskaźnikiem jakości każdego z uliniowień pary sekwencji jest odsetek identyczności (odsetek identycznych reszt znajdujących się na odpowiadających sobie pozycjach uliniowienia, pozycje z przerwami w uliniowieniu są pomijane)

ALGORYTM T-COFFEE: (3) KOMPILACJA BIBLIOTEK biblioteki uliniowień globalnych i lokalnych zostają scalone w obrębie nakładających się fragmentów uliniowień lokalnych i globalnych, wagi kolejnych par reszt ulegają zwiększeniu (sumowanie wkładów z dwóch uliniowień) po czym odpowiednie uliniowienie lokalne jest usuwane z biblioteki (wzmocnienie sygnału w celu oddzielenia go od szumu) ALGORYTM T-COFFEE: (4) ROZBUDOWA BIBLIOTEKI WTÓRNEJ celem realizowanym w tej części algorytmu jest poszerzenie informacji wyrażającej się w sile więzów związanych z każdą parą reszt reprezentowanych w bibliotece uliniowień o wkład innych sekwencji w analizowanym zbiorze problem jest numerycznie wysoce złożony i w algorytmie T-Coffee rozwiązywany jest w oparciu o tzw. heurystykę trójkową (ang. triplet heuristics) nawiązującą do podobnej koncepcji zaimplementowanej w metodzie Dialign2 (Morgenstern, 1999) wagi dla więzów w każdym z uliniowień biblioteki wtórnej są przeliczane w zależności od częstości z jaką określone reszty są uliniawiane przy porównaniach obejmujących kolejne pary sekwencji z każdą spośród pozostałych sekwencji

T-COFFEE: HEURYSTYKA TRÓJKOWA T stopień zgodności (ang. consistency) uliniowienia poszczególnych par reszt wyznaczany jest w oparciu o analizę wszystkich możliych trójek sekwencji T dla określonych par reszt, tylko niektóre spośród analizowanych trójek sekwencji są informatywne (tzn. są i takie, w których uliniowienie par reszt nie obejmuje wszystkich trzech sekwencji), np. tryplet a:c:b nie jest informatywny dla reszt na odcinku LAST sekwencji a tryplet a:d:b nie jest informatywny dla reszt na odcinkach GARFIELD oraz LAST T jeśli uliniowienie określonej pary reszt znajduje potwierdzenie w uliniowieniu z udziałem sekwencji pośredniej (np. przy ulininiowieniu a i b poprzez c: a:c:b) waga tych par w wyjściowym uliniowieniu (np. a:b) ulega zwiększeniu o mniejszą z wag uliniowień z sekwencją pośrednią (np. dla a:c:b, UWVYX[Z]\A\, U_^ X Za`cbdb stąd U V ^ X ZfeSgihkjdUWVlXnmU=^ X%o Z]\d\ ; początkowa waga pary {a(t),b(t)} (w THE) wynosi pdp, wkład trypletu a:c:b wynosi \A\ stąd ostatecznie waga pary {a(t),b(t)} wyniesie ǹqdr, uwzględniając wkład a:d:b, waga ta wzrośnie do saqdr, itd. ALGORYTM T-COFFEE: (5) KONSTRUKCJA ULINIOWIENIA WIELOSEKWENCYJNEGO we wtórnej bibliotece uliniowień, każdej parze reszt jest przypisana waga będąca sumą jej wag z bibliotek pierwotnych oraz wag wyznaczonych na podstawie informatywnych trójek sekwencji stąd, siła więzów związanych z określoną parą reszt jest tym większa, im więcej jest sekwencji, których uliniowienie obejmuje daną parę parom reszt nie występującym w bibliotece wtórnej zostaje przypisana waga progresywne uliniowienie sekwencji jest prowadzone w oparciu o metodę programowania dynamicznego w którym kara za utworzenie i wydłużenie przerwy wynosi a konserwowanie reszt i ich podstawienia są oceniane na podstawie odpowiednich wag z biblioteki wtórnej (podejście równoważne wykorzystaniu pozycyjnie zróżnicowanego profilu podstawień, ang. Position-Specific Substitution Matrix, PSSM) przy uliniawianiu bloków wstępnie uliniowionych sekwencji, do oceny jakości dopasowania dwóch kolumn wykorzystywana jest średnia wartość wag par tworzonych przez reszty z obu kolumn "! # # %$ #'& ( ( )(+*,-,-,/. 01 0243 065 7 8 9 : 7?>A@CBED@F@ ;=< G 7 > @CBHI@F@ G 7 > @CBEJK@L G 7?ME@ON D @F@ G 7PM@ONEHI@F@ G 7PM @QN J @CLSR

t t t T-COFFEE: PRZYKŁADOWE ULINIOWIENIE T-COFFEE PODSUMOWANIE metoda wykorzystywana do konstrukcji uliniawień niewielkiej liczby sekwencji, ponieważ obecna implementacja algorytmu T-Coffee jest stosunkowo wymagająca obliczeniowo chociaż autorzy twierdzą, że w porównaniu z ClustalW, T-coffee oferuje znaczącą poprawę jakości MSA, w praktyce poprawa ta jest w wielu przypadkach nieznaczna (por. BaliBase); w szczególności, nierzadkie są przypadki błędnego uliniawiania sekwencji istotnie różniących się długością niepodważalną zaletą T-Coffee jest możliwość wykorzystywania w procesie uliniawiania dodatkowych źródeł informacji