Bioinformatyka 2 (BT172) Wykład 5 Progresywne metody wyznaczania MSA: T-coffee Krzysztof Murzyn 14.XI.2005 PLAN WYKŁADU Ostatnio : definicje, zastosowania MSA, złożoność obliczeniowa algorytmu wyznaczania MSA w oparciu o programowanie dynamiczne, kryteria oceny jakości MSA, sposoby obliczania oceny MSA, formaty zapisywania MSA, BaliBase: referencyjna baza uliniowień wielosekwencyjnych, edycja i wizualizacja MSA, zastosowania i algorytm ClustalW Dzisiaj : omówienie algorytmu i zastosowań T-Coffee
T-COFFEE Tree based Consistency Objective Function For alignment Evaluation Ograniczenie wpływu błędnego uliniowienia najbliżej spokrewnionych sekwencji na jakość końcowego MSA. Na każdym etapie progresywnego tworzenia MSA wykorzystana jest zarówno informacja o podobieństwie między wszystkimi parami sekwencji jak i dodatkowa informacja uzyskana z innych źródeł. interfejs tekstowy i sieciowy (http://igs-server.cnrs-mrs.fr/tcoffee/tcoffee_cgi/index.cgi) C. Notredame, D. Higgins, J. Heringa (2000) T-Coffee: A novel method for fast and accurate multiple sequence alignment Journal of Molecular Biology 302:205 217 C. Notredame, L. Holme, D.G. Higgins (1998) COFFEE: A New Objective Function For Multiple Sequence Alignment Bioinformatics 14(5):407 422 ALGORYTM T-COFFEE 1. utworzenie bibliotek pierwotnych (ang. primary libraries) zawierających uliniowienia lokalne i globalne par sekwencji 2. wyznaczenie i przypisanie wag uliniowieniom w bibliotekach pierwotnych 3. kompilacja bibliotek pierwotnych oraz (opcjonalnie) bibliotek wskazanych przez użytkownika zawierających dodatkowe informacje o uliniawianych sekwencjach (np. rozmieszczenie konserwowanych elementów struktury drugorzędowej, dopasowania strukturalne, ręcznie skorygowane MSA, etc.) 4. rozbudowa biblioteki: ustalenie ostatecznego wpływu poszczególnych uliniowień par sekwencji na ostateczne MSA 5. progresywne uliniowienie sekwencji z wykorzystaniem informacji zgromadzonych w uprzednio rozbudowanej bibliotece (ang. extended library)
ALGORYTM T-COFFEE: (1) TWORZENIE BIBLIOTEK PIERWOTNYCH w bibliotekach pierwotnych programu T-coffee gromadzone są informacje o parach reszt występujących w uliniowieniach lokalnych i globalnych wykonanych dla każdej z pośród analizowanych sekwencji łącznie uliniowień globalnych i nie więcej niż dziesięć razy tyle suboptymalnych uliniowień lokalnych globalne uliniowienie dla każdej pary sekwencji wyznaczane jest w oparciu o algorytm ClustalW lokalne uliniowienia (dziesięć najwyżej ocenionych) dla każdej pary sekwencji, wyznaczane jest w oparciu o algorytm Lalign (FASTA) każde z wyznaczonych uliniowień jest reprezentowane w bibliotece jako lista par reszt na odpowiadających sobie pozycjach w określonym uliniowieniu każda z uliniowionych par reszt reprezentuje więzy, które będą narzucone w procesie konstruowania MSA siła więzów zależy od jakości uliniowienia z którego pochodzi określona para reszt ALGORYTM T-COFFEE: (2) WYZNACZANIE I PRZYPISANIE WAG umownym wskaźnikiem jakości każdego z uliniowień pary sekwencji jest odsetek identyczności (odsetek identycznych reszt znajdujących się na odpowiadających sobie pozycjach uliniowienia, pozycje z przerwami w uliniowieniu są pomijane)
ALGORYTM T-COFFEE: (3) KOMPILACJA BIBLIOTEK biblioteki uliniowień globalnych i lokalnych zostają scalone w obrębie nakładających się fragmentów uliniowień lokalnych i globalnych, wagi kolejnych par reszt ulegają zwiększeniu (sumowanie wkładów z dwóch uliniowień) po czym odpowiednie uliniowienie lokalne jest usuwane z biblioteki (wzmocnienie sygnału w celu oddzielenia go od szumu) ALGORYTM T-COFFEE: (4) ROZBUDOWA BIBLIOTEKI WTÓRNEJ celem realizowanym w tej części algorytmu jest poszerzenie informacji wyrażającej się w sile więzów związanych z każdą parą reszt reprezentowanych w bibliotece uliniowień o wkład innych sekwencji w analizowanym zbiorze problem jest numerycznie wysoce złożony i w algorytmie T-Coffee rozwiązywany jest w oparciu o tzw. heurystykę trójkową (ang. triplet heuristics) nawiązującą do podobnej koncepcji zaimplementowanej w metodzie Dialign2 (Morgenstern, 1999) wagi dla więzów w każdym z uliniowień biblioteki wtórnej są przeliczane w zależności od częstości z jaką określone reszty są uliniawiane przy porównaniach obejmujących kolejne pary sekwencji z każdą spośród pozostałych sekwencji
T-COFFEE: HEURYSTYKA TRÓJKOWA T stopień zgodności (ang. consistency) uliniowienia poszczególnych par reszt wyznaczany jest w oparciu o analizę wszystkich możliych trójek sekwencji T dla określonych par reszt, tylko niektóre spośród analizowanych trójek sekwencji są informatywne (tzn. są i takie, w których uliniowienie par reszt nie obejmuje wszystkich trzech sekwencji), np. tryplet a:c:b nie jest informatywny dla reszt na odcinku LAST sekwencji a tryplet a:d:b nie jest informatywny dla reszt na odcinkach GARFIELD oraz LAST T jeśli uliniowienie określonej pary reszt znajduje potwierdzenie w uliniowieniu z udziałem sekwencji pośredniej (np. przy ulininiowieniu a i b poprzez c: a:c:b) waga tych par w wyjściowym uliniowieniu (np. a:b) ulega zwiększeniu o mniejszą z wag uliniowień z sekwencją pośrednią (np. dla a:c:b, UWVYX[Z]\A\, U_^ X Za`cbdb stąd U V ^ X ZfeSgihkjdUWVlXnmU=^ X%o Z]\d\ ; początkowa waga pary {a(t),b(t)} (w THE) wynosi pdp, wkład trypletu a:c:b wynosi \A\ stąd ostatecznie waga pary {a(t),b(t)} wyniesie ǹqdr, uwzględniając wkład a:d:b, waga ta wzrośnie do saqdr, itd. ALGORYTM T-COFFEE: (5) KONSTRUKCJA ULINIOWIENIA WIELOSEKWENCYJNEGO we wtórnej bibliotece uliniowień, każdej parze reszt jest przypisana waga będąca sumą jej wag z bibliotek pierwotnych oraz wag wyznaczonych na podstawie informatywnych trójek sekwencji stąd, siła więzów związanych z określoną parą reszt jest tym większa, im więcej jest sekwencji, których uliniowienie obejmuje daną parę parom reszt nie występującym w bibliotece wtórnej zostaje przypisana waga progresywne uliniowienie sekwencji jest prowadzone w oparciu o metodę programowania dynamicznego w którym kara za utworzenie i wydłużenie przerwy wynosi a konserwowanie reszt i ich podstawienia są oceniane na podstawie odpowiednich wag z biblioteki wtórnej (podejście równoważne wykorzystaniu pozycyjnie zróżnicowanego profilu podstawień, ang. Position-Specific Substitution Matrix, PSSM) przy uliniawianiu bloków wstępnie uliniowionych sekwencji, do oceny jakości dopasowania dwóch kolumn wykorzystywana jest średnia wartość wag par tworzonych przez reszty z obu kolumn "! # # %$ #'& ( ( )(+*,-,-,/. 01 0243 065 7 8 9 : 7?>A@CBED@F@ ;=< G 7 > @CBHI@F@ G 7 > @CBEJK@L G 7?ME@ON D @F@ G 7PM@ONEHI@F@ G 7PM @QN J @CLSR
t t t T-COFFEE: PRZYKŁADOWE ULINIOWIENIE T-COFFEE PODSUMOWANIE metoda wykorzystywana do konstrukcji uliniawień niewielkiej liczby sekwencji, ponieważ obecna implementacja algorytmu T-Coffee jest stosunkowo wymagająca obliczeniowo chociaż autorzy twierdzą, że w porównaniu z ClustalW, T-coffee oferuje znaczącą poprawę jakości MSA, w praktyce poprawa ta jest w wielu przypadkach nieznaczna (por. BaliBase); w szczególności, nierzadkie są przypadki błędnego uliniawiania sekwencji istotnie różniących się długością niepodważalną zaletą T-Coffee jest możliwość wykorzystywania w procesie uliniawiania dodatkowych źródeł informacji