Analiza grup i sygnałów używanych do budowy struktury białek z lokalnych deskryptorów



Podobne dokumenty
OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Bioinformatyka wykład 10.I.2008

Przewidywanie struktur białek

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Bioinformatyka wykład 3.I.2008

Bioinformatyka wykład 10

PRZYRÓWNANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Bioinformatyka wykład 11, 11.I.2011 Białkowa bioinformatyka strukturalna c.d.

RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych

Document: Exercise*02*-*manual /11/ :31---page1of8 INSTRUKCJA DO ĆWICZENIA NR 2

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Schemat programowania dynamicznego (ang. dynamic programming)

Bioinformatyka II Modelowanie struktury białek

Dopasowanie sekwencji (sequence alignment)

Bioinformatyka wykład 8, 27.XI.2012

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

Modelowanie interakcji helis transmembranowych

Wymagania edukacyjne na poszczególne stopnie z fizyki dla klasy VII:

Metody Programowania

Recenzja. Warszawa, dnia 22 października 2018 r.

Wymagania edukacyjne na poszczególne stopnie z fizyki dla klasy I:

Programowanie dynamiczne cz. 2

Porównanie różnych podejść typu ODE do modelowania sieci regu

Przewidywanie struktury kanału białkowego z wykorzystaniem probabilistycznych gramatyk formalnych oraz modelu ciągłego przepływu jonów

Elementy modelowania matematycznego

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott

Bioinformatyka wykład 12, 18.I.2011 Białkowa bioinformatyka strukturalna c.d.

Aproksymacja funkcji a regresja symboliczna

autoreferat rozprawy doktorskiej Szymon Nowakowski Maj, 2006

Opinia o pracy doktorskiej pt. On active disturbance rejection in robotic motion control autorstwa mgr inż. Rafała Madońskiego

WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI

Programowanie celowe #1

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

Projektowanie Wirtualne bloki tematyczne PW I

Zastosowanie stereowizji do śledzenia trajektorii obiektów w przestrzeni 3D

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

Jest to dziedzina biologiczna wywodząca się z biotechnologii. Bioinformatyka

Bioinformatyka II Modelowanie struktury białek

Jacek Skorupski pok. 251 tel konsultacje: poniedziałek , sobota zjazdowa

OBLICZENIA ZA POMOCĄ PROTEIN

Cykle życia systemu informatycznego

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Za pierwszy niebanalny algorytm uważa się algorytm Euklidesa wyszukiwanie NWD dwóch liczb (400 a 300 rok przed narodzeniem Chrystusa).

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Temat: Algorytmy zachłanne

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

ZARZĄDZANIE PROCESAMI I PROJEKTAMI. Zakres projektu. dr inż. ADAM KOLIŃSKI ZARZĄDZANIE PROCESAMI I PROJEKTAMI. Zakres projektu. dr inż.

SCENARIUSZ LEKCJI MATEMATYKI W KLASIE VI JAKA JEST LICZBA MEGGI?

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Informacje dotyczące pracy kontrolnej

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Streszczenie rozprawy doktorskiej MODEL FUNKCJONOWANIA GOSPODARKI KREATYWNEJ W PROCESIE WZROSTU GOSPODARCZEGO

efekty kształcenia dla kierunku Elektronika studia stacjonarne drugiego stopnia, profil ogólnoakademicki

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling

Wykład 5 Dopasowywanie lokalne

Wybrane podstawowe rodzaje algorytmów

Testowanie hipotez statystycznych

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Komputerowe wspomaganie projektowanie leków

SYSTEM DIAGNOSTYCZNY OPARTY NA LOGICE DOMNIEMAŃ. Ewa Madalińska. na podstawie prac:

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

tel. (+4861) fax. (+4861)

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO

Optymalizacja optymalizacji

Przygotowanie uczniów do egzaminu ósmoklasisty z matematyki. mgr Joanna Palińska

SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD

Modelowanie procesów współbieżnych

Efekty kształcenia dla kierunku studiów CHEMIA studia pierwszego stopnia profil ogólnoakademicki

na podstawie artykułu: Modeling Complex RNA Tertiary Folds with Rosetta Clarence Yu Cheng, Fang-Chieh Chou, Rhiju Das

Statystyczna analiza danych

Wykład z modelowania matematycznego. Zagadnienie transportowe.

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Wyk lad 3 Wyznaczniki

Kodowanie i kompresja Streszczenie Studia dzienne Wykład 9,

zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych

Statystyka w analizie i planowaniu eksperymentu

Agnieszka Nowak Brzezińska Wykład III

Testowanie modeli predykcyjnych

Recenzja pracy doktorskiej mgr Tomasza Świsłockiego pt. Wpływ oddziaływań dipolowych na własności spinorowego kondensatu rubidowego

W poszukiwaniu sensu w świecie widzialnym

Algorytm. Krótka historia algorytmów

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Kamila Muraszkowska Znaczenie wąskich gardeł w sieciach białkowych. źródło: (3)

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

Gdynia, dr hab. inż. Krzysztof Górecki, prof. nadzw. AMG Katedra Elektroniki Morskiej Akademia Morska w Gdyni

Bioinformatyka wykład 9

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

Heurystyki. Strategie poszukiwań

Urszula Poziomek, doradca metodyczny w zakresie biologii Materiał dydaktyczny przygotowany na konferencję z cyklu Na miarę Nobla, 14 stycznia 2010 r.

Diagramy obiegu dokumentów a UML w modelowaniu procesów biznesowych. Stanisław Niepostyn, Ilona Bluemke Instytut Informatyki, Politechnika Warszawska

Algorytmy kombinatoryczne w bioinformatyce

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Transkrypt:

STRESZCZENIE ROZPRAWY DOKTORSKIEJ Analiza grup i sygnałów używanych do budowy struktury białek z lokalnych deskryptorów Michał Drabikowski 1 Wst ep Białka to czasteczki o fundamentalnym znaczeniu dla organizmów żywych: sa podstawowym składnikiem suchej masy komórek, realizuja wszystkie ich ważniejsze funkcje. To, jaka funkcje pełni dane białko, determinowane jest bezpośrednio przez przyjmowana przez nie strukture przestrzenna, czyli konformacje. Konformacja określona jest zaś jednoznacznie przez sekwencje aminokwasów: aby zminimalizować swoja energie swobodna, białko spontanicznie zwija sie w środowisku wodnym w określony sposób zawsze tak samo! dzieki czemu może pełnić określona funkcje. W dobie sekwencjonowania genomów organizmów na wielka skale w olbrzymim tempie przyrasta wiedza o sekwencjach białkowych kodowanych przez nukleotydy na nici DNA. Jednak wiedza ta ma niewielkie znaczenie praktyczne dopiero znajomość struktury przestrzennej, a co za tym idzie w dalszej kolejności funkcji białek, pozwala rozwijać si e najróżniejszym działom biotechnologii: od produkcji kosmetyków czy pestycydów, aż po zastosowania w wielu sektorach przemysłu farmakologicznego (na przykład przy projektowaniu leków białkowych i eliminowaniu efektów ubocznych ich działania). Stosowane obecnie metody eksperymentalne służace poznaniu struktury przestrzennej białek (krystalografia rentgenowska, jadrowy rezonans magnetyczny) sa niezwykle kosztowne i czasochłonne. Dlatego właśnie problem przewidywania konformacji białek w oparciu o ich sekwencje (na która można patrzeć jak na słowo zbudowane nad dwudziestoelementowym alfabetem) jest jednym z najważ- 1

niejszych, choć ciagle otwartych problemów stojacych przed bioinformatyka. Rozwiniete białko przyjmuje spontanicznie swoja strukture przestrzenna w czasie od kilku milisekund do kilku minut. Symulacja tego procesu w pełnym atomowym modelu jest praktycznie niewykonalna obliczeniowo. Dlatego, aby przewidywać strukture przestrzenna białek, konieczne sa prostsze modele, uwzgledniaj ace pewne specyficzne cechy białek. Obecnie przewiduje sie ich strukture, stosujac jedno z trzech podstawowych podejść: modelowanie komparatywne majace zastosowanie wtedy, gdy dla rozważanego białka o nieznanej strukturze można znaleźć białko podobne sekwencyjnie (a zatem i strukturalnie) o znanej strukturze: służy ono za wzorzec przy budowie szukanej struktury [1, 2], wypierana ostatnio przez modelowanie komparatywne metoda nawlekania, polegajaca na nawlekaniu rozważanej sekwencji białkowej na białka o znanej strukturze i badaniu, czy otrzymane struktury sa stabilne w rozumieniu pewnej zdefiniowanej wcześniej funkcji potencjału [3], predykcja ab initio stosowana wtedy, gdy zawodza wyżej wspomniane techniki: standardowe rozwiazanie polega na stworzeniu modelu reprezentujacego strukture przestrzenna białek w pewnej przestrzeni poszukiwań oraz definiujacego funkcje potencjału oceniajac a energie układu, a nastepnie na poszukiwaniu struktury przestrzennej analizowanego białka minimalizujacej energie w tym modelu [4]. Prawie wszystkie liczace sie obecnie metody przewidywania struktury białek nie wykazujacych podobieństwa sekwencyjnego do jakiegokolwiek białka o znanej strukturze łacz a technike ab initio z próba składania białek z pewnych najcześciej kilku- lub kilkunastoaminokwasowych fragmentów struktur białkowych zbudowanych w oparciu o wszystkie białka o znanej strukturze. Jednym z prekursorów takiego podejcia jest David Baker [5], który od wielu lat odnosi wraz ze swoim zespołem sukcesy w eksperymencie CASP (http://predictioncenter.org), bed acym najważniejszym wydarzeniem i głównym źródłem wiedzy o postepie w badaniach nad predykcja struktury białek. 2

2 Metoda lokalnych deskryptorów Rysunek 1: Schemat tworzenia deskryptorów. Dla dowolnego białka o znanej strukturze i dowolnego aminokwasu w tym białku (A) znajdowane sa aminokwasy bliskie strukturalnie (B), które nastepnie rozszerza sie poprzez dodanie z obu stron dwóch najbliższych sekwencyjnie sasiadów (C): w efekcie powstaje deskryptor niosacy informacje zarówno strukturalna, jak i sekwencyjna (D). Punktem wyjścia niniejszej pracy jest zaproponowane przez Krzysztofa Fidelisa [6] nowatorskie podejście do definiowania motywów białkowych, pozwalajace na identyfikacje i charakterystyke regularności w sekwencji i strukturze białek. Główna idea tego podejścia jest analizowanie nie tylko sasiaduj acych w białku aminokwasów (jak robi to miedzy innymi David Baker), ale również kontaktów dalekiego zasiegu miedzy aminokwasami. Owocuje to konstrukcja lokalnych deskryptorów, czyli zbiorów ciagłych fragmentów białkowych zwanych segmentami. Schemat tworzenia deskryptorów opisujacych lokalne otoczenie przestrzenne dowolnego aminokwasu w dowolnym białku przedstawiono na rysunku 1. 3

Utworzone na podstawie wszystkich białek o znanej strukturze lokalne deskryptory moga być wykorzystane do przewidywania struktury przestrzennej białek (stosowana tu metode można traktować jako swego rodzaju uogólnienie modelowania komparatywnego, polegajace na korzystaniu z wielu wzorców). Po połaczeniu podobnych strukturalnie deskryptorów w grupy, wewnatrz każdej z nich wykrywana jest zależność sekwencyjno-strukturalna. Zależności tej czyli sygnału sekwencyjnego używa si e do znajdowania przypisań grup do sekwencji danego białka (o nieznanej strukturze), które to przypisania ze znacznym prawdopodobieństwem opisuja poprawnie lokalna strukture białka. Nastepny krok to przewidywanie jego globalnej struktury poprzez zidentyfikowanie możliwie dużego zbioru zgodnych strukturalnie przypisań. 3 Znajdowanie i uzgadnianie przypisań Pierwszym krokiem było wprowadzenie matematycznego formalizmu opisujacego deskryptory i grupy deskryptorowe. Wprowadzono też kluczowe dla dalszych rozważań poj ecie przypisania: przypisanie danej grupy deskryptorowej g do dowolnego białka s to przyporzadkowanie segmentom należacym do g rozłacznych spójnych fragmentów białka s tej samej długości co przypisywane segmenty. Każde takie przypisanie wyznacza pewien hipotetyczny lokalny opis sekwencji i struktury białka s indukowany przez grup e g. Z każdym przypisaniem zwiazać można jego jakość: gdy znana jest struktura białka, wyrażamy te jakość przy pomocy kryteriów strukturalnych (funkcja RMSD określona na ciagach punktów przestrzeni trójwymiarowej); gdy znana jest natomiast jedynie sekwencja białka, jakość te wyrażamy przy pomocy kryteriów sekwencyjnych (funkcja sygnału sekwencyjnego pozwala określić w terminach probabilistycznych podobieństwo macierzy aminokwasów do sekwencji aminokwasów). Dzi eki temu możemy sformułować w każdym przypadku problem znajdowania najlepszych przypisań analizowanej grupy do dowolnej sekwencji. Niestety oba rozważane problemy okazały si e złożone obliczeniowo: udowodniliśmy NP-zupełność decyzyjnej wersji zarówno problemu znajdowania najlepszych przypisań strukturalnych (poprzez redukcj e silnie NP-zupełnego problemu pakowania koszyków), jak i problemu najlepszych przypisań sekwencyjnych (poprzez 4

redukcj e problemu spełnialności pewnych formuł logicznych), mimo przyj ecia w tym ostatnim przypadku upraszczajacego założenia o addytywności funkcji sygnału sekwencyjnego (założenie to mówi, że jakość przypisania grupy g może być obliczona jako suma jakości przypisań wszystkich segmentów należacych do g). Wykazana NP-zupełność oznacza, że nie można spodziewać sie wielomianowego ze wzgl edu na liczb e segmentów w rozważanej grupie algorytmu rozwiazuj acego postawione problemy. Okazuje sie jednak, że do ich rozwiazania nie jest konieczne analizowanie przestrzeni wszystkich przypisań grupy deskryptorowej do analizowanego białka (przypisań takich jest Θ(n k ), gdzie n to długość białka: od kilkudziesi eciu do kilku tysi ecy aminokwasów, a k liczba segmentów w analizowanej grupie, przy czym k 10 dla wszystkich analizowanych grup deskryptorowych). Zaproponowaliśmy dokładne algorytmy pozwalajace efektywnie rozwiazywać oba problemy w odniesieniu do rozważanych danych: w przypadku przypisań sekwencyjnych zastosowano programowanie dynamiczne (co pozwala znajdować najlepsze addytywne przypisanie sekwencyjne w czasie O(k2 k )O(n)), natomiast w przypadku przypisań strukturalnych znacznie ograniczono przestrzeń poszukiwań, wykorzystujac pewne własności funkcji RM SD. Przypisania grup deskryptorowych do ustalonego białka opisuja lokalnie jego strukture. Przedstawiliśmy efektywny algorytm pozwalajacy uzgadniać takie opisy, tak by mógł powstać opis globalny. Sformułowaliśmy wreszcie problem znajdowania optymalnego globalnego opisu (czyli predykcji gdy nie jest znana struktura białka, albo też rekonstrukcji struktury) na podstawie danego zbioru przypisań grup deskryptorowych. Również w tym przypadku udowodniliśmy jego NP-zupełność (redukcja problemu kliki), proponujac do rozwiazania tego problemu algorytm heurystyczny oparty o programowanie zachłanne. 4 Zastosowania Sformułowanie i rozwiazanie przedstawionych problemów teoretycznych pozwoliło przystapić do praktycznych zastosowań biologicznych zaproponowanej przez nas metody. Na poczatek pokazano, jak spośród wszystkich grup deskryptorowych wybrać niewielki podzbiór opisujacy przestrzeń wszystkich białek otrzymano w ten sposób siedem baz grup deskryptorowych. Aby wykazać ich przydatność 5

do opisu wystepuj acych w przyrodzie białek, użyto każdej z baz do rekonstrukcji struktury białek z pewnego zbioru testowego w oparciu o przypisania strukturalne. Pokazano, jak przypisania te moga być użyte do przewidywania sekwencji białek na podstawie ich struktury (uzyskane wyniki pozwalaja myśleć o prezentowanej metodzie przewidywania sekwencji białek jako o pierwszym kroku w kierunku projektowania leków białkowych). Nast epnie przeanalizowano, jak rozważane bazy grup deskryptorowych i różne funkcje sygnału pozwalaja przewidywać lokalna strukture białek ze zbioru testowego. Na koniec przedstawiono główny wynik eksperymentalny niniejszej pracy: przewidywanie struktury przestrzennej białek na podstawie ich sekwencji wykorzystano do tego najlepsza (w świetle przeprowadzonych testów) z rozważanych baz grup deskryptorowych i najlepsza funkcje sygnału. Przykładowa predykcje uzyskana nasza metoda przedstawia rysunek 2. Rysunek 2: Przykładowa predykcja domeny o symbolu T 0202 1 (z eksperymentu CASP 6): kolorem czerwonym zaznaczono prawdziwa strukture, a kolorem granatowym strukture przewidziana przy użyciu metody lokalnych deskryptorów. Otrzymane w całkowicie zautomatyzowany sposób predykcje struktury białek porównano z predykcjami otrzymanymi przez inne zespoły badawcze. Okazało si e, że w przypadku trudnych białek (dla których nie jest możliwe wskazanie wzorca strukturalnego przy pomocy technik sekwencyjnych) uzyskane przez nas wyniki porównywalne sa z uzyskiwanymi przez najlepsze serwery (dla 8 z 23 białek testowych nasze predykcje okazały sie lepsze niż predykcje serwera Robetta 6

[7], uchodzacego za zdecydowanie najlepszy serwer przewidujacy strukture trudnych białek). Choć przedstawione wyniki przewidywania struktury przestrzennej białek uznać należy za bardzo wartościowe, to jednak nie należy ich traktować jako wyników ostatecznych prezentowanej metody. Rozważać można bowiem kilka modyfikacji stosowanego podejścia, które choć nie zostały uwzgl ednione w niniejszej pracy, powinny owocować jeszcze lepszym przewidywaniem konformacji białek. Literatura [1] R. Sanchez, A. Sali (1997). Advances in comparative protein-structure modeling. Structural Biology 7, 206 214. [2] C. Venclovas (2001). Comparative modeling of CASP4 target proteins: combining results of sequence search with three-dimensional structure assessment. Proteins Suppl. 5, 47 54. [3] R. Thiele, R. Zimmer, T. Lengauer (1999). Protein Threading by Recursive Dynamic Programming. J. Mol. Biol. 290, 757 779. [4] A. Koliński, M. R. Betancourt, D. Kihara, P. Rotkiewicz, J. Skolnick (2001). Generalized Comparative Modeling (GENECOMP): A Combination of Sequence Comparison, Threading, and Lattice Modeling for Protein Structure Prediction and Refinement. PROTEINS: Structure, Function, and Genetics 44, 133 149. [5] C. Bystroff, D. Baker (1998). Prediction of local structure in proteins using a library of sequence-structure motifs. J. Mol. Biol. 281, 565 577. [6] T. R. Hvidsten, A. Kryshtafovych, J. Komorowski, K. Fidelis (2003). A novel approach to fold recognition using sequence-derived properties from sets of structurally similar local fragments of proteins. Bioinformatics 19, II81 II91. [7] R. Bonneau, J. Tsai, I. Ruczinski, D. Chivian, C. Rohl, C. E. Strauss, D. Baker (2001). ROBETTA in CASP4: Progress in ab initio protein structure prediction. Proteins Suppl. 5, 119 126. 7