Algorytmiczne aspekty modelowania i ewaluacji biomolekuł Algorithmic aspects of modeling and evaluation of biomolecules

Algorytmiczne aspekty modelowania i ewaluacji biomolekuł Algorithmic aspects of modeling and evaluation of biomolecules Maciej Antczak Streszczenie Rozprawy Doktorskiej Promotor: dr hab inż. Marta Kasprzak, prof. nadzw. Promotor pomocniczy: dr inż. Piotr Łukasiak Politechnika Poznańska Instytut Informatyki Poznań, 2013

1 Wprowadzenie Sposób kształtowania się cząsteczek biologicznych (takich jak RNA i białka), zwany zwijaniem strukturalnym, jest procesem ściśle regulowanych reakcji chemicznych o zróżnicowanym charakterze, zachodzących w komórkach organizmów żywych. W ogólności życie to pewnego rodzaju wypadkowa wszystkich interakcji zachodzących pomiędzy cząsteczkami biologicznymi w komórce. Dezorganizacja interakcji międzycząsteczkowych najczęściej prowadzi do patologii funkcjonowania komórki. W związku z powyższym jednym z podstawowych celów badań w obszarze biologii molekularnej jest eksperymentalna analiza interakcji wewnątrzkomórkowych, która umożliwia badanie funkcjonowania procesów komórkowych na poziomie molekularnym. Kwasy nukleinowe RNA i białka są liniowymi polimerami zwijającymi się w konformację natywną podyktowaną fizycznymi i chemicznymi właściwościami łańcucha odpowiednio nukleotydowego i aminokwasowego. W ogólności organizacja strukturalna takich cząsteczek biologicznych obejmuje kilka poziomów: struktura pierwszorzędowa określona jest przez liniową sekwencję nukleotydów albo aminokwasów, struktura drugorzędowa opisuje lokalnie uporządkowane motywy, które są wynikiem wiązań wodorowych zachodzących w cząsteczce, a struktura trzeciorzędowa reprezentuje specyficzny kształt przestrzenny cząsteczki, który jest zbudowany ze zbioru atomów opisywanych przez koordynaty przestrzenne. W przypadku białek można wyszczególnić jeszcze strukturę czwartorzędową, która pozwala na analizę interakcji pomiędzy całymi jednostkami polimerowymi. Odkrywanie struktur trzeciorzędowych cząsteczek biologicznych stało się możliwe dzięki rozwojowi metod eksperymentalnych, np. krystalografii rentgenowskiej, jądrowego rezonansu magnetycznego. Aktualnie stosowane biologiczne metody eksperymentalne przejawiają trudne do przezwyciężenia ograniczenia, które nie pozwalają na osiągnięcie zamierzonego celu w krótkim czasie oraz bez dużych nakładów finansowych. Dodatkowo naturalna dynamika cząsteczek biologicznych powoduje, że dla wielu cząsteczek uzyskanie struktury przestrzennej z wykorzystaniem podejść eksperymentalnych jest trudne, a nawet niemożliwe. Z każdym rokiem od połowy lat 90-tych coraz bardziej poszerzała się przepaść pomiędzy liczbą niescharakteryzowanych sekwencji cząsteczek biologicznych (UniProt [Bairoch 1991]) a niewielkim odsetkiem z nich, dla których struktura przestrzenna została zdeponowana w PDB [Bernstein i in. 1977]. Zaobserwowana tendencja wciąż się utrzymuje, a nawet można powiedzieć, że rośnie w efekcie udoskonaleń technologicznych, np. nowych technologii sekwencjowania. Analiza strukturalna białek i kwasów nukleinowych przyczynia się do wyjaśniania ich funkcji biologicznej oraz charakterystycznych własności składowych komponentów leków, pestycydów, mikroorganizmów, które de facto bezpośrednio wynikają ze struktur budujących je cząsteczek biologicznych. Analiza taka ma na celu identyfikację nieznanych chorób, udoskonalanie roślin, aby mogły wzrastać nawet na mniej żyznych glebach, projektowanie nowych leków i rozwiązań terapeutycznych oraz umiejętne sterowanie potencjałem mikroorganizmów, co może pozwolić odnieść szerokie i dalekosiężne skutki dla środowiska, zdrowia, źródeł pozyskiwania energii i zastosowań przemysłowych. Obecnie w badaniach dużych cząsteczek RNA łatwo zauważyć ogromne zapotrzebowanie na wydajne podejścia obliczeniowe realizujące przewidywanie struktur trzeciorzędowych cząsteczek RNA,

charakteryzujących się wysoką rozdzielczością, prawidłową geometrią i stereochemią kwasów nukleinowych. Do tej pory żadna z dostępnych metod nie osiągnęła stadium pełnej automatyzacji oraz nie udostępnia efektywnej metody przewidywania struktur trzeciorzędowych dużych cząsteczek RNA przy jednoczesnej optymalizacji czasu przetwarzania [Popenda i in. 2012]. Ponadto, przewidywanie struktur trzeciorzędowych dużych cząsteczek RNA nawet z zastosowaniem dodatkowej informacji o strukturze drugorzędowej, nadal pozostaje poważnym wyzwaniem [Seetin i Mathews 2011]. Z problemem przewidywania struktur przestrzennych biocząsteczek jest nierozerwalnie skojarzony problem ich ewaluacji, który w ostatnim czasie znacznie przybiera na istotności, ponieważ pojawia się coraz więcej różnych podejść obliczeniowych rozwiązujących pierwszy z tych problemów. Struktury przestrzenne cząsteczek biologicznych uzyskane metodami obliczeniowymi zwykle są niedokładne i wykazują znaczne odchylenia od struktury referencyjnej. W związku z powyższym ewaluacja prawidłowości strukturalnej modelu przestrzennego jest kluczowa dla praktycznego jego wykorzystania, np. w eksperymentach biochemicznych lub podczas projektowania leków. Biologowie pracując z modelami uzyskanymi metodami obliczeniowymi postulują, żeby wraz z przewidzianym modelem przestrzennym cząsteczki biologicznej otrzymać jego ograniczenia strukturalne (np. poprzez identyfikację potencjalnie nieprawidłowych motywów strukturalnych) [Kihara i in. 2009]. W przypadku ewaluacji prawidłowości strukturalnej cząsteczek biologicznych można wyszczególnić dwie grupy podejść: ewaluacja prawidłowości modeli strukturalnych w oparciu o strukturę referencyjną oraz podejście znacznie trudniejsze, które nie wymaga znajomości struktury referencyjnej podczas procesu oceny. Dodatkowo należałoby wspomnieć, że ewaluacja struktur przestrzennych może być dokonywana w ogólności na dwóch poziomach szczegółowości. Analiza globalna polega na wyznaczeniu jednej mierzalnej wartości szacującej prawidłowość strukturalną całego modelu. Natomiast analiza lokalna, która obecnie staje się coraz bardziej potrzebna, polega na szacowaniu prawidłowości strukturalnej lokalnego otoczenia poszczególnych elementów składowych łańcucha głównego cząsteczki biologicznej. Nie istniało do tej pory podejście, które pozwalałoby na wizualną ewaluację modelu przestrzennego cząsteczki biologicznej w oparciu o strukturę referencyjną i brało pod uwagę wektor poziomów szczegółowości analizy definiowany z wykorzystaniem wiedzy eksperckiej badacza oraz podstawowych własności analizowanej cząsteczki (np. objętość, długość sekwencji). Kolejnym, dużo trudniejszym problemem jest ewaluacja prawidłowości strukturalnej białek bez znajomości struktury referencyjnej, ponieważ nie jest znany wzorzec strukturalny, w oparciu o który mogłaby zostać dokonana ocena wiarygodności strukturalnej. Istnienie wiarygodnych metod pozwalających na rozróżnianie pomiędzy prawidłowymi i nieprawidłowymi strukturami przestrzennymi białek pozwoliłoby na znaczny postęp dalszych badań, ponieważ kosztowne metody eksperymentalne mogłyby skoncentrować się na odkrywaniu zupełnie nowych, nieznanych dotąd, struktur białkowych. Natomiast metody obliczeniowe mogłyby z powodzeniem zwiększyć swój udział w uzyskiwaniu struktur przestrzennych białek, które podejrzewa się o to, że są homologiczne. Obecnie nie istnieją metody, które rozpoznawałyby nieprawidłowości w strukturach przestrzennych białek wynikające z niedoskonałości zarówno w łańcuchu głównym, jak i łańcuchach bocznych, oraz potrafiłyby szacować lokalną prawidłowość strukturalną modelu przestrzennego bez potrzeby posiadania dodatkowych informacji. 2

Niestety, problemy kombinatoryczne inspirowane zastosowaniami biologicznymi najczęściej są bardzo złożone i trudne obliczeniowo. Zastosowania praktyczne są ciągłą motywacją do projektowania nowych, bardziej efektywnych podejść algorytmicznych i metod obliczeniowych charakteryzujących się wysoką jakością, użytecznością w zastosowaniach biologicznych i medycznych oraz akceptowalnym w praktyce czasem przetwarzania. 1.1 Cel i zakres pracy Celem pracy jest analiza problemów zasygnalizowanych powyżej, skojarzonych z przewidywaniem struktur trzeciorzędowych cząsteczek RNA oraz ewaluacją strukturalną modeli przestrzennych biomolekuł, oraz propozycja nowych, efektywnych obliczeniowo algorytmów, wzbogacających analizę strukturalną cząsteczek biologicznych. Po pierwsze, opracowane zostało nowe podejście obliczeniowe realizujące przewidywanie struktury przestrzennej RNA w oparciu o sekwencję i strukturę drugorzędową (w notacji kropkowonawiasowej), obejmujące projekt i implementację dedykowanej obiektowo-relacyjnej bazy danych bloków strukturalnych oraz zestawu algorytmów składowych zintegrowanych w jeden w pełni funkcjonalny system. Wersja sekwencyjna systemu została poddana testom wydajnościowym, które pozwoliły określić złożone obliczeniowo fragmenty systemu. Wnioski uzyskane z przeprowadzonych eksperymentów pozwoliły na opracowanie równoległych wersji algorytmów dokładnych, w celu optymalizacji czasu przetwarzania oraz wykorzystania dostępnych zasobów systemu operacyjnego (takich jak liczba jednostek przetwarzających oraz aktualnie dostępny rozmiar pamięci operacyjnej). Dodatkowo przeprowadzone zostały eksperymenty obliczeniowe pozwalające na ocenę użyteczności metody oraz efektów wynikających z zastosowania algorytmów współbieżnych. Po drugie, po analizie wielu narzędzi służących ewaluacji struktur przestrzennych cząsteczek biologicznych w oparciu o strukturę referencyjną, pojawiła się koncepcja nowej metody wspomagającej identyfikację prawidłowych/nieprawidłowych motywów strukturalnych w analizowanym modelu z wykorzystaniem wektora poziomów szczegółowości analizy definiowanego przez eksperta. Opracowana metoda, udostępniając zestaw dwu/trójwymiarowych wizualizacji, pozwala z jednej strony zidentyfikować nieprawidłowe motywy strukturalne, które powinny zostać poddane szerszej analizie i procesowi udoskonalania, z drugiej prawidłowe motywy strukturalne nawet w modelach, które globalnie zostały zakwalifikowane jako bardzo odległe od struktury referencyjnej. Po trzecie, opracowana została nowa metoda obliczeniowa umożliwiająca ewaluację prawidłowości strukturalnej modeli przestrzennych białek bez potrzeby posiadania struktury referencyjnej oraz jakiejkolwiek dodatkowej informacji, na dwóch poziomach szczegółowości analizy (lokalnym i globalnym). Zaproponowana metoda opiera się na paradygmacie lokalnych deskryptorów struktur białkowych, gdzie deskryptor reprezentuje lokalny motyw strukturalny opisujący otoczenie przestrzenne wybranego aminokwasu [Hvidsten i in. 2003, Hvidsten i in. 2009a]. Przeprowadzone badania obejmowały opracowanie biblioteki grup deskryptorowych oraz zestawu algorytmów pozwalających m. in. na strukturalne porównywanie deskryptorów i ewaluację prawidłowości strukturalnej analizowanego modelu w oparciu o tę bibliotekę. Algorytm budowania biblioteki grup deskryptorowych oraz niektóre składowe elementy procedury ewaluacyjnej zostały poddane analizie i optymalizacji z wykorzystaniem mechanizmów współbieżności, co znacząco zmniejszyło czas przetwarzania oraz 3

pozwoliło na efektywniejsze wykorzystanie dostępnych zasobów serwera obliczeniowego. W efekcie przeprowadzonych badań dokonana została analiza użyteczności, w kontekście ewaluacji strukturalnej, bibliotek grup deskryptorowych w zależności od minimalnej liczby deskryptorów tworzących grupę. Ostatecznie zostały przeprowadzone eksperymenty obliczeniowe pozwalające oszacować użyteczność proponowanych metod oraz efektów wynikających z zastosowania algorytmów współbieżnych na różnych etapach analizy. 2 Nowe rozwiązania informatyczne dla modelowania struktur przestrzennych RNA 2.1 Definicja problemu badawczego Cząsteczki RNA są zaangażowane w wiele podstawowych procesów biologicznych. Zrozumienie mechanizmów ich funkcjonowania wymaga znajomości struktury trzeciorzędowej. Obecnie w badaniach dużych cząsteczek RNA łatwo zauważyć ogromne zapotrzebowanie na wydajne metodyki obliczeniowe pozwalające na przewidywanie struktur trzeciorzędowych cząsteczek RNA, charakteryzujących się wysoką rozdzielczością, prawidłową geometrią i stereochemią kwasów nukleinowych. W efekcie zastosowania różnych metod obliczeniowych przewidywanie in silico struktury drugorzędowej cząsteczki RNA [Jacobson i Zuker 1993, Mathews i Turner 2006, Xu i in. 2012] ostatnio zostało wzmocnione dzięki uwzględnieniu wiązań strukturalnych wynikających z chemicznego próbkowania [Mathews i in. 2004], głównie dzięki metodzie SHAPE [Merino i in. 2005]. Jednakże ostateczny cel, jakim jest przewidywanie struktury trzeciorzędowej dużych cząsteczek RNA z zastosowaniem dodatkowej informacji o strukturze drugorzędowej, nadal pozostaje poważnym wyzwaniem [Seetin i Mathews 2011]. Pierwsze metody, które umożliwiały modelowanie struktur trzeciorzędowych RNA polegały na modelowaniu manualnym dokonywanym przez ekspertów poprzez ręczne manipulowanie motywami strukturalnymi pochodzącymi z różnych znanych struktur przestrzennych RNA. Przykładowe aplikacje opracowane do tego celu obejmują: ERNA-3D [Zwieb i Müller 1997], RNA2D3D [Martinez i in. 2008], S2S/Assemble [Jossinet i in. 2010]. Kolejnym możliwym podejściem jest modelowanie ab initio, które polega na symulacji procesu zwijania się cząsteczki jako procesu minimalizacji pewnej funkcji energii swobodnej wynikającej bezpośrednio z zasad biofizycznych. Do tej klasy można zakwalifikować zautomatyzowane metody wykorzystujące dynamikę molekularną modeli przestrzennych o rozdzielczości gruboziarnistej, a mianowicie NAST [Jonikas i in. 2009a] (proces symulacji kierowany potencjałem statystycznym; każdy nukleotyd jest reprezentowany przez jeden wirtualny atom) oraz ifoldrna [Sharma i in. 2008] (każdy nukleotyd jest reprezentowany przez trzy wirtualne atomy). W efekcie prowadzonych badań zaobserwowano, że struktury przestrzenne cząsteczek biologicznych, które są ze sobą ewolucyjnie powiązane, zwykle zachowują podobny kształt przestrzenny pomimo istnienia rozbieżności na poziomie sekwencyjnym. Ta obserwacja leży u podstaw metod modelowania homologicznego struktur przestrzennych cząsteczek biologicznych. Przykładem narzędzia tego typu jest ModeRNA [Rother i in. 2011], gdzie modelowanie struktury przestrzennej RNA wymaga zdefiniowania znanej struktury przestrzennej cząsteczki homologicznej, która określana jest jako szablon, oraz jednoznacznego dopasowania sekwencyjnego pomiędzy cząsteczką przewidywaną a strukturą homologiczną. Do tej klasy należy również RNABuilder [Flores i in. 2011], który 4

w dziedzinie przewidywania struktur trzeciorzędowych RNA jest narzędziem odpowiadającym Modellerowi, który został opracowany dla białek. Połączenie metod bazujących na wiedzy z podejściami opartymi na zależnościach biofizycznych doprowadziło do rozwoju metod przewidywania struktur przestrzennych de novo, gdzie model wynikowy jest budowany na podstawie przeszukiwania przestrzeni konformacyjnej, podobnie jak w przypadku metod typu ab initio. W metodach tych liczba stopni swobody jest ograniczona dzięki wykorzystywaniu ograniczonego zbioru niewielkich motywów przestrzennych pochodzących ze znanych struktur cząsteczek biologicznych, które nie muszą charakteryzować się homologią z cząsteczką przewidywaną. Do tej klasy można zakwalifikować następujące metody: FARNA/FARFAR [Das i Baker 2007], MC-Fold/MC-Sym [Parisien i Major 2008]. Podsumowując, w przypadku sekwencji RNA o średnich i dużych rozmiarach (50 130 nukleotydów) nawet najlepsze metody przewidywania prowadzą do dużych wartości RMSD (średnio 20 Å) [Laing i Schlick 2011]. Żadna z dostępnych aktualnie metod nie osiągnęła stadium pełnej automatyzacji oraz nie udostępnia efektywnej metody przewidywania struktur trzeciorzędowych dużych cząsteczek RNA przy jednoczesnej optymalizacji czasu przetwarzania [Popenda i in. 2012]. Udowodniono, że problem optymalizacyjny prowadzący do znalezienia konformacji przestrzennej charakteryzującej się minimalną wartością energii swobodnej, zarówno dla dwu- jak i trójwymiarowego modelu matematycznego opisującego proces zwijania się białek, jest NP-trudny [Unger i Moult 1993]. Większa strukturalna różnorodność cząsteczek RNA w porównaniu do białek powoduje, że przewidywanie struktury przestrzennej RNA z rozdzielczością atomową jest problemem z pewnością nie łatwiejszym niż w przypadku białek [Laing i Schlick 2011]. Mimo wszystko nie istnieje w literaturze żaden dowód formalny, który ostatecznie rozwiałby wszelkie wątpliwości co do złożoności obliczeniowej procesu zwijania się cząsteczek RNA, co oznacza, że problem ten nadal jest problemem otwartym. Na bazie obserwacji podstawowych cech innych rozwiązań stworzone zostało nowe narzędzie, RNAComposer, które pozwala na w pełni automatyczne przewidywanie struktury przestrzennej cząsteczki RNA opisanej przez sekwencję i strukturę drugorzędową. W wyniku procesu predykcji badacz uzyskuje model strukturalny w rozdzielczości atomowej, który charakteryzuje się prawidłowością stereochemiczną i energetyczną [Popenda i in. 2012]. Dodatkowym bardzo istotnym wymaganiem pozafunkcjonalnym jest optymalizacja czasu przetwarzania, ponieważ system udostępnia możliwość uruchomienia procesu predykcji dla pakietów zadań, na które składa się multiplikacja wielu sekwencji, wielu struktur drugorzędowych (uzyskanych np. z wykorzystaniem różnych narzędzi do predykcji struktury drugorzędowej) i rodzin modeli wynikowych (więcej niż jeden) zbudowanych w oparciu o zbiory alternatywnych bloków strukturalnych. 2.2 Architektura systemu RNAComposer Architektura systemu RNAComposer składa się z dwóch głównych komponentów: serwera obliczeniowego oraz serwera aplikacji. Serwer obliczeniowy udostępnia metodę pozwalającą na przewidywanie struktury przestrzennej RNA w oparciu o sekwencję i strukturę drugorzędową w notacji kropkowo-nawiasowej. Na serwerze aplikacji udostępniana jest aplikacja internetowa charakteryzująca się intuicyjnym interfejsem pozwalającym na efektywne ko- 5

rzystanie z systemu RNAComposer. System jest publicznie dostępny dla społeczności naukowej pod poniższymi adresami internetowymi: http://rnacomposer.cs.put.poznan.pl, http://rnacomposer.ibch.poznan.pl. Struktura drugorzędowa, zdefiniowana przez użytkownika, jest poddawana procesowi fragmentacji, w wyniku którego uzyskiwane są elementy struktury drugorzędowej takie jak dupleksy, pętle i pojedyncze nici współdzielące między sobą na końcach parę kanoniczną. W dalszej analizie uzyskane elementy struktury drugorzędowej pełnią rolę wzorców wykorzystywanych podczas automatycznego wyszukiwania odpowiadających im motywów przestrzennych w bazie bloków strukturalnych FraBabe. Bloki strukturalne z bazy danych są wyszukiwane w oparciu o zgodność topologii struktury drugorzędowej; maksymalne podobieństwo sekwencyjne; maksymalną kompatybilność puryn/pirymidyn; minimalną rozdzielczość eksperymentalną struktury, z której pochodzi blok strukturalny; minimalny współczynnik energetyczny. Jeżeli sekwencje pomiędzy poszukiwanym elementem struktury drugorzędowej a znalezionym blokiem przestrzennym w bazie danych (który charakteryzuje się poszukiwaną topologią) różnią się, wtedy zasady powodujące konflikt zostają podmienione. Niekiedy zdarza się, że nie udaje się znaleźć w bazie danych bloków strukturalnych motywu przestrzennego charakteryzującego się określoną topologią struktury drugorzędowej. W tym przypadku uruchamiane są dodatkowe mechanizmy, które pozwalają na wygenerowanie brakujących motywów strukturalnych o określonej sekwencji i topologii struktury drugorzędowej (brakujące dupleksy i pojedyncze nici są generowane z wykorzystaniem narzędzia NAB [Leontis i Santa Lucia 1998] w oparciu o parametry strukturalne A-RNA, natomiast pętle są generowane w przestrzeni kątów torsyjnych z wykorzystaniem narzędzia CYANA [Güntert i in. 1997]). W następnym kroku model przestrzenny przewidywanej cząsteczki jest budowany z wykorzystaniem zależności zachodzących pomiędzy elementami struktury drugorzędowej, wynikających z grafu struktury drugorzędowej cząsteczki wejściowej. Bloki strukturalne są poddawane procesowi przestrzennej superpozycji z wykorzystaniem współdzielonych par kanonicznych i łączone ze sobą w celu stworzenia modelu przestrzennego przewidywanej cząsteczki RNA. Superpozycja pomiędzy dwoma zbiorami atomów jest dokonywana z wykorzystaniem technik Wolfganga Kabscha [Kabsch 1976]. Po uzyskaniu kompletnego modelu przestrzennego cząsteczki wszystkie atomy i nukleotydy są przenumerowywane w celu zapewnienia zgodności z sekwencją wejściową. W ostatnim kroku początkowy model przestrzenny jest poddawany procesowi minimalizacji energetycznej w przestrzeni zarówno kątów torsyjnych (z wykorzystaniem narzędzia CYANA [Güntert i in. 1997], biorąc pod uwagę ograniczenia wynikające z wiązań wodorowych) jak i kartezjańskiej (z wykorzystaniem pola siłowego CHARMM zintegrowanego w narzędziu XPLOR-NIH [Schwieters i in. 2003], biorąc pod uwagę ograniczenia wynikające z wiązań wodorowych oraz planarności par zasad) w celu udoskonalenia własności stereochemicznych i energetycznych finalnej struktury. Metoda pozwala na wygenerowanie rodziny ściśle związanych modeli przestrzennych (do 10). W takim przypadku pierwszy model jest generowany z uwzględnieniem wszystkich kryteriów wyboru bloków strukturalnych zdefiniowanych powyżej. Pozostałe modele są generowane z bloków strukturalnych wybieranych losowo, które spełniają większość powyższych kryteriów z wyjątkiem rozdzielczości eksperymentalnej i współczynnika energetycznego. 6

2.3 Nowe rozwiązania informatyczne w systemie RNAComposer Badania rozpoczęły się od stworzenia dedykowanej systemowi RNAComposer wersji obiektoworelacyjnej bazy danych bloków strukturalnych (nazwanej FraBabe) na podstawie istniejących struktur kwasów nukleinowych przechowywanych w bazie RNA FRABASE [Popenda i in. 2010]. Procedura tworzenia bazy motywów strukturalnych FraBabe, zapisana formalnie w pseudokodzie, została zawarta w rozprawie. Każdy blok opisany jest przez sekwencję nukleotydów, sekwencję puryn/pirymidyn, topologię struktury drugorzędowej, motyw przestrzenny przechowywany w taki sposób, aby zapewnić ich optymalne wykorzystanie podczas procesu obliczeniowego przewidywania struktury trzeciorzędowej RNA. Relacje zachodzące pomiędzy zbiorami analizowanych danych oraz wymaganie dotyczące optymalizacji czasu wyszukiwania informacji w konkretnej postaci były główną przyczyną prowadzącą do stworzenia projektu relacyjnej bazy danych, której schemat w postaci diagramu związków encji został przedstawiony na rysunku 1. Rysunek 1: Diagram związków encji bazy danych FraBabe. Obecnie w bazie przechowywanych jest 14464 różnych topologii struktur drugorzędowych, z którymi skojarzonych jest 190928 motywów przestrzennych. Rozkład bloków strukturalnych przechowywanych w bazie danych FraBabe, w zależności od topologii struktur drugorzędowych skojarzonych z nimi sekwencji oraz motywów przestrzennych, został przedstawiony w rozprawie. Po wykonaniu projektu bazy danych bloków strukturalnych rozpoczął się proces projektowania szeregu rozwiązań algorytmicznych integrowanych w jądrze systemu pozwalających przetransfor- 7

mować informacje w postaci sekwencji i struktury drugorzędowej na model przestrzenny o rozdzielczości atomowej zapisany w formacie PDB. Do zbioru najważniejszych algorytmów należałoby zaliczyć: Fragmentację struktury drugorzędowej cząsteczki wejściowej z wykorzystaniem wyrażeń regularnych. Efektywne wielokryterialne wyszukiwanie bloków strukturalnych w bazie FraBabe dedykowane poszczególnym elementom struktury drugorzędowej (dupleksy, pętle, pojedyncze nici), ponieważ każdy z nich charakteryzuje się specyficzną topologią. Dla każdego typu bloku strukturalnego uzyskanego w wyniku fragmentacji wejściowej struktury drugorzędowej wyszukiwane są bloki strukturalne wyposażone w motywy przestrzenne w bazie danych Fra- Babe, charakteryzujące się identyczną topologią struktury drugorzędowej oraz maksymalną zgodnością sekwencyjną, maksymalną zgodnością puryn/pirymidyn, minimalną rozdzielczością eksperymentalną cząsteczki, z której pochodzi dany blok strukturalny, minimalną wartością współczynnika energetycznego. Systematyczne łączenie motywów przestrzennych wybranych bloków strukturalnych w większe fragmenty strukturalne (ostatecznie model przestrzenny) z wykorzystaniem algorytmu optymalnej superpozycji [Kabsch 1976] dwóch odpowiadających sobie zbiorów atomów. Zbiory atomów definiowane są na podstawie współdzielonych par kanonicznych nukleotydów (w przypadku pojedynczych nici znajdujących się na początku lub końcu cząsteczki wspólny jest jeden nukleotyd) dwóch bloków strukturalnych, w oparciu o reprezentację grafową struktury drugorzędowej. Stosowane jest przy tym kryterium minimalizacji możliwych uszkodzeń strukturalnych poprzez zapewnienie, aby zawsze mniejsze motywy przestrzenne (tzn. składające się z mniejszej liczby atomów) były dołączane do większych fragmentów strukturalnych. Integracja szeregu aspektów (np. wykorzystywanie wielu narzędzi zewnętrznych, projekt spójnego słownika nazw atomów na podstawie wielu formatów wykorzystywanych narzędzi, stworzenie mechanizmów pozwalających na efektywne przełączanie się pomiędzy różnymi fragmentami przetwarzania) w jeden w pełni funkcjonalny system. Szczegółowy opis algorytmów obejmujący formalny zapis z wykorzystaniem pseudokodu został zawarty w rozprawie. 2.4 Optymalizacja wydajności systemu RNAComposer z wykorzystaniem mechanizmów współbieżności Po przeprowadzeniu testów wydajnościowych wersji sekwencyjnej systemu RNAComposer zauważono ogromną potrzebę opracowania równoległych wersji niektórych algorytmów składowych, w celu optymalizacji czasu przetwarzania oraz wykorzystania aktualnie dostępnych zasobów systemu operacyjnego, takich jak liczba jednostek przetwarzających oraz rozmiar pamięci operacyjnej. Najbardziej kosztownym narzędziem pod względem zarówno złożoności obliczeniowej jak i żądań zasobowych skojarzonych z pamięcią operacyjną jest CYANA [Güntert i in. 1997], ponieważ 8

dokonuje optymalizacji modelu przestrzennego cząsteczki RNA w przestrzeni kątów torsyjnych. Tego typu minimalizacja jest złożona, ponieważ potrafi nie tylko poprawić długości wiązań pomiędzy atomami, ale również udoskonalić lokalizację przestrzenną oraz obrót pewnych fragmentów strukturalnych modelu, jeżeli ich obecne umiejscowienie jest nieprawidłowe. Przeprowadzone eksperymenty pozwoliły na wyznaczenie wielomianowej funkcji interpolującej (szeroki zakres różnych funkcji był brany pod uwagę), która służy w systemie do szacowania ograniczeń zasobowych związanych z wykorzystaniem pamięci operacyjnej. Ma to istotny wpływ na szeregowanie zadań, które mogą być przetwarzane współbieżnie. W kolejnym kroku sekwencyjna wersja systemu została przeanalizowana i pewne fragmenty, które pozwalają na współbieżną realizację zostały zidentyfikowane i przeprojektowane, aby zapewnić maksymalną możliwą równoległość przetwarzania. Inspekcja kodu obejmowała optymalizację przepływu w systemie poprzez współbieżne wykonywanie operacji I/O, współbieżne wykonywanie zapytań do obiektowo-relacyjnej bazy bloków strukturalnych FraBabe. Ostatnim elementem, na który warto zwrócić uwagę, ponieważ ma ogromny wpływ na poprawę wydajności działania systemu, jest współbieżna realizacja zadań w ramach pojedynczego pakietu (wsadu). Łatwo zauważyć, że przy cząsteczce charakteryzującej się niewielkim rozmiarem uda się upakować w pamięci wszystkie możliwe zadania, a jedynym ograniczeniem współbieżności przetwarzania będzie liczba dostępnych jednostek obliczeniowych. Jeżeli żądania zasobowe dotyczące pamięci operacyjnej wzrosną znacząco, wtedy wąskim gardłem stanie się dostępność tego zasobu. W celu rozwiązania powyższego problemu został zaproponowany sposób szeregowania zadań do wykonania w pakiecie w taki sposób, aby próbować wykorzystać maksymalną liczbę aktualnie dostępnych jednostek przetwarzających przy jednoczesnym niedopuszczeniu do przepełnienia dostępnej pamięci operacyjnej. Rozwiązywany problem został przetransformowany do problemu plecakowego, gdzie zadania utożsamiane są z przedmiotami a rozmiar plecaka to rozmiar dostępnej pamięci operacyjnej. W efekie powyższych wniosków zostały opracowane współbieżne wersje rozwiązań algorytmicznych zastosowanych w systemie RNAComposer. Wszystkie zadania są dzielone na podpakiety, które są uruchamiane współbieżnie z wykorzystaniem mechanizmów wielowątkowości w języku Java zawartych w pakiecie java.util.concurrency, i realizowane algorytmem programowania dynamicznego rozwiązującego problem plecakowy biorący pod uwagę dostępne zasoby maszyny obliczeniowej (liczbę rdzeni obliczeniowych i rozmiar pamięci operacyjnej). 2.5 Eksperymenty obliczeniowe 2.5.1 Ocena modeli wynikowych W jednym z eksperymentów obliczeniowych analizowana była jakość przewidywanych modeli przestrzennych (w sensie zgodności topologii struktury drugorzędowej oraz stereochemicznych i energetycznych własności modelu przestrzennego) w porównaniu z odpowiadającymi im strukturami referencyjnymi. Dobrany został reprezentatywny zbiór 40 cząsteczek RNA różniących się znacząco zarówno z punktu widzenia złożoności topologii struktury drugorzędowej jak i długości sekwencji w zakresie od 30 do 161 nukleotydów. Obejmował tylko cząsteczki RNA, których struktury przestrzenne są kompletne z punktu widzenia występowania ciężkich atomów. Należy podkreślić, że podczas przeprowadzonego eksperymentu wszystkie motywy przestrzenne pochodzące z przewidy- 9

wanych cząsteczek zostały wykluczone z bazy danych bloków strukturalnych. Stereochemiczna prawidłowość modeli przestrzennych uzyskiwanych z wykorzystaniem systemu RNAComposer była mierzona za pomocą następujących narzędzi: XPLOR-NIH [Schwieters i in. 2003], MolProbity [Davis i in. 2007]. Standardem porównywania modelu przestrzennego i struktury referencyjnej jest użycie miary globalnego RMSD [Kabsch 1976]. Kolejną wykorzystaną miarą była Interaction Network Fidelity (INF) [Parisien i in. 2009], która reprezentuje współczynnik wierności odwzorowania sieci interakcji przestrzennych zachodzących w modelu w stosunku do struktury referencyjnej. Modele budowane z bloków strukturalnych charakteryzujących się wysokim podobieństwem sekwencyjnym wykazują wysoką jakość uzyskiwanych predykcji, co odzwierciedlają zarówno miara globalnego RMSD jak i oceny opisujące wierność odwzorowania interakcji przestrzennych pomiędzy modelem a strukturą referencyjną. Modele przestrzenne uzyskane dla cząsteczek RNA zawierających elementy charakteryzujące się topologią struktury drugorzędowej, której nie udało się zlokalizować w bazie danych bloków strukturalnych, lub dla których podobieństwo sekwencyjne znalezionych bloków strukturalnych jest niewielkie, mogą charakteryzować się niską jakością predykcji. Uśredniona wartość globalnego RMSD wyznaczonego dla całego reprezentatywnego zbioru cząsteczek RNA poddanych analizie wynosi 5,1 Å. Wartości miar INF wskazują, że znacząca większość kanonicznych i niekanonicznych interakcji pomiędzy parami zasad oraz interakcji typu stacking została prawidłowo odtworzona w przewidzianych modelach przestrzennych. Analiza dokonana z wykorzystaniem MolProbity [Davis i in. 2007] pozwala zaobserwować, że większość modeli charakteryzuje się prawidłowością strukturalną. Niewielka liczba zidentyfikowanych nieprawidłowości dotyczących długości wiązań i kątów wskazuje, że modele przestrzenne uzyskane z wykorzystaniem systemu RNAComposer wykazują często wyższą prawidłowość stereochemiczną aniżeli struktury krystalograficzne charakteryzujące się wysoką rozdzielczością. 2.5.2 Porównanie z innymi narzędziami W literaturze można znaleźć trzy w pełni automatyczne metody obliczeniowe przewidywania struktur trzeciorzędowych RNA, które są publicznie dostępne w postaci aplikacji internetowych, a mianowicie MC-Fold/MC-Sym [Parisien i Major 2008], ifoldrna [Sharma i in. 2008] i ModeRNA [Rother i in. 2011]. Przeprowadzony został eksperyment obliczeniowy w celu dokonania porównania opisywanego rozwiązania z metodami wspomnianymi powyżej z wyjątkiem ModeRNA, ponieważ jest metodą wymagającą znajomości szablonu struktury homologicznej. Wyniki porównania dotyczącego zbioru ośmiu cząsteczek RNA zostały zaprezentowane w rozprawie. Ze względu na ograniczenia innych narzędzi eksperyment mógł zostać przeprowadzony jedynie dla cząsteczek RNA o rozmiarze z zakresu od 36 do 81 nukleotydów. Jako dane wejściowe w przypadku RNAComposera i MC-Fold/MC-Sym wykorzystana została sekwencja i struktura drugorzędowa uzyskana z bazy RNA FRABASE [Popenda i in. 2010]. Niestety w przypadku systemu ifoldrna, który nie pozwala na wprowadzenie struktury drugorzędowej, jako dane wejściowe wykorzystana została jedynie sekwencja nukleotydowa. W każdym przypadku RNAComposer wykazuje wysoką wydajność zarówno z punktu widzenia stereochemicznej poprawności, jak i zbieżności strukturalnej modelu i struktury referencyjnej. Uśredniona wartość globalnego RMSD uzyskanego przez nasz program wynosi około 10

3,7 Å, gdzie dla tych samych danych MC-Fold/MC-Sym osiąga 10,2 Å, a ifoldrna 12,0 Å. Uśredniona wartość miary określającej wierność odwzorowania interakcji przestrzennych między wszystkimi parami zasad w modelu (INF all ) wynosi odpowiednio 0,8 dla RNAComposera, 0,71 dla MC- Fold/MC-Sym i 0,52 dla ifoldrna. Uśredniony wskaźnik konserwatywności kanonicznych par zasad (INF cbp ) wynosi 1,0 zarówno dla RNAComposera jak i MC-Fold/MC-Sym. Natomiast w przypadku ifoldrna wskaźnik ten wynosi 0,64. Jakość uzyskiwanych modeli została również przeanalizowana z wykorzystaniem MolProbity [Davis i in. 2007]. Uśredniona wartość miary przestrzennego nakładania się atomów w modelu (ang. ClashScore) w przypadku RNAComposera wynosi mniej niż 15, natomiast w przypadku modeli uzyskanych z wykorzystaniem pozostałych metod przekracza 100. Ponadto w przypadku RNAComposera w żadnym z wynikowych modeli przestrzennych nie zostały zidentyfikowane jakiekolwiek reszty charakteryzujące się nieprawidłowymi długościami wiązań lub kątów. Natomiast w przypadku MC-Fold/MC-Sym modele średnio w 66% reszt posiadały nieprawidłowe długości wiązań i w 93% nieprawidłowe kąty. Modele uzyskane z wykorzystaniem ifoldrna wykazywały średnio w 22% reszt nieprawidłowe długości wiązań, a w 74% nieprawidłowe kąty. Dodatkowo należy podkreślić, że w praktyce czas przetwarzania proponowanej metody jest znacznie krótszy w porównaniu z innymi dostępnymi rozwiązaniami. 2.5.3 RNAComposer w RNA-Puzzles Użyteczność systemu RNAComposer była testowana w konkursie RNA-Puzzles [Cruz i in. 2012], który jest eksperymentem międzynarodowym, którego zadaniem jest ocenianie aktualnie dostępnych metod przewidywania struktur przestrzennych RNA. Nasza grupa brała udział w wyzwaniu nr 4, którego zadaniem było określenie struktury trójwymiarowej cząsteczki RNA znajdującej się w kompleksie z białkiem. W rozprawie zostały zawarte wyniki, przy czym dla każdej grupy wybrany został model charakteryzujący się najniższą wartością globalnego RMSD. Biorąc pod uwagę ranking grup biorących udział w konkursie pod względem miar RMSD [Kabsch 1976], DI all [Parisien i in. 2009] i ClashScore [Davis i in. 2007] można stwierdzić, że nasz model znajduje się w środku stawki, ponieważ zajmuje odpowiednio 4, 6 i 5 miejsce na 9 drużyn. Przedstawione wyniki wskazują, że należy postawić szczególny nacisk na mechanizmy pozwalające na odzwierciedlanie wierności interakcji przestrzennych zachodzących między parami zasad w przewidywanych strukturach przestrzennych. W celu zbadania wydajności zaproponowanego rozwiązania współbieżnego zostały przeprowadzone dwa eksperymenty obliczeniowe. Obliczenia były dokonywane na maszynie wyposażonej w procesor czterordzeniowy Intel Core i7 2,66 GHz oraz 8 GB pamięci operacyjnej, gdzie platformą systemową było Ubuntu 12.04. Procesor jest wyposażony w technologię Hyper-Threading, która umożliwia jednoczesne wykonywanie wielu niekolidujących ze sobą wątków obliczeniowych. 2.5.4 Analiza wydajności współbieżnej wersji systemu RNAComposer Proponowana metoda ma charakter heterogeniczny, wykorzystując wybraną funkcjonalność różnych narzędzi zewnętrznych, np. systemu zarządzania bazą danych lub narzędzi dedykowanych procesowi minimalizacji energetycznej, które najczęściej uruchamiane są jako osobne procesy zarządzane przez system operacyjny maszyny obliczeniowej. Rosnąca liczba zadań do wykonania w pakiecie 11

powoduje, że czas przetwarzania rośnie ale jednocześnie obciążenie systemu się stabilizuje i równoważy straty wynikające z wykonywania operacji I/O wymaganych podczas komunikacji między zintegrowanymi narzędziami oraz samego przęłączania się między nimi. Niestety w przypadku pakietów zadań o niewielkim rozmiarze straty wynikające ze współdziałania wielu osobnych narzędzi w systemie operacyjnym znacząco obniżają efektywność przetwarzania. W celu zbadania wydajności zaproponowanego rozwiązania współbieżnego zostały przeprowadzone dwa eksperymenty obliczeniowe. Obliczenia były dokonywane na maszynie wyposażonej w procesor czterordzeniowy Intel Core i7 2,66 GHz oraz 8 GB pamięci operacyjnej, gdzie platformą systemową było Ubuntu 12.04. W pierwszym eksperymencie pokazano, że jeżeli żądania zasobowe dotyczące pamięci operacyjnej będą niezauważalnie mniejsze w porównaniu z aktualnym rozmiarem dostępnej pamięci operacyjnej, wtedy przetwarzanie współbieżne powinno być realizowane przez wszystkie dostępne jednostki obliczeniowe. Cząsteczka została powielona w kolejnych pakietach, których rozmiar znajdował się w zakresie od 1 do 1024. Łatwo zauważyć na rysunku 2, że przyspieszenie wynikające z zastosowania mechanizmów współbieżności, które udało się osiągnąć, zbliża się do liczby aktualnie dostępnych jednostek obliczeniowych (zbliża się do 4). Rysunek 2: Wizualizacja zaobserwowanego przyspieszenia podczas eksperymentu, gdy rozmiar dostępnej pamięci operacyjnej jest wystarczający, aby zaspokoić żądania zasobowe wynikające z przetwarzania wszystkich dostępnych jednostek obliczeniowych. Podczas drugiego eksperymentu do analizy został wybrany najtrudniejszy przypadek, gdzie rozmiar pojedynczej cząsteczki RNA jest tak duży, że żądania zasobowe (ok 1 GB) nie pozwalają na wykorzystanie wszystkich jednostek przetwarzających ze względu na brak dostępnej pamięci operacyjnej. Cząsteczka została powielona w kolejnych pakietach, których rozmiar znajdował się w zakresie od 1 do 1024. Podczas przeprowadzanych eksperymentów raportowany był aktualny rozmiar pamięci operacyjnej dostępnej dla narzędzi do minimalizacji, który wynosił ok. 4 GB. 12

Na rysunku 3 można zaobserwować, że przyspieszenie wynikające z zastosowania mechanizmów współbieżności, które udało się osiągnąć, jest ograniczone aktualnie dostępnym rozmiarem pamięci operacyjnej (zbliża się do 3). Rysunek 3: Wizualizacja zaobserwowanego przyspieszenia w eksperymencie, gdy rozmiar dostępnej pamięci operacyjnej jest głównym ograniczeniem współbieżności przetwarzania. Podsumowując, podstawową zaletą proponowanego rozwiązania obliczeniowego jest możliwość rozwiązywania struktur przestrzennych dużych cząsteczek RNA (o rozmiarze do 500 nukleotydów), które są poza zasięgiem innych aktualnie dostępnych metod ze względu na złożoność obliczeniową (w przypadku metod de novo) lub brak znanych szablonów przestrzennych (w przypadku metod komparatywnych). Kolejną cechą jest krótki czas przetwarzania wymagany do uzyskania modelu przestrzennego przewidywanej cząsteczki RNA. Dzięki temu metoda jest bardzo dobrym rozwiązaniem dla użytkowników dysponujących strukturami drugorzędowymi dużych cząsteczek RNA udokładnionymi eksperymentalnie. Dokładność predykcji będzie rosła znacząco wraz z rozwojem bazy danych bloków strukturalnych, wskutek wzrostu liczby znanych struktur przestrzennych RNA uzyskanych eksperymentalnie. W przyszłości serwer RNAComposer będzie dalej rozbudowywany w celu umożliwienia przewidywania pseudowęzłów z wyższą efektywnością, wprowadzania dodatkowych ograniczeń dotyczących kątów torsyjnych, optymalizacji przewidywania długich odcinków jednoniciowych i udostępnienia użytkownikowi mechanizmu wprowadzania własnych motywów przestrzennych wygenerowanych przy użyciu innych metod. 3 Wizualna ewaluacja struktur przestrzennych biomolekuł w oparciu o strukturę referencyjną Nierozerwalnie z problemem przewidywania struktur przestrzennych cząsteczek biologicznych jest skojarzony problem ich ewaluacji, który w ostatnim czasie staje się coraz bardziej istotny, ponieważ stale pojawiają się nowe, różne metody obliczeniowe realizujące przewidywanie struktur 13

przestrzennych. 3.1 Definicja problemu badawczego Rosnąca liczba dostępnych narzędzi do przewidywania struktur przestrzennych cząsteczek biologicznych stwarza potrzebę ich obiektywnej oceny i porównania. Niecałe dwadzieścia lat temu został powołany międzynarodowy eksperyment Critical Assessment of protein Structure Prediction (CASP), którego zadaniem jest kompleksowa ewaluacja aktualnie dostępnych metod przewidywania struktur przestrzennych białek [Moult i in. 1995]. Rok temu został powołany do życia podobny eksperyment międzynarodowy RNA-Puzzles oceniający aktualnie dostępne metody przewidywania struktur przestrzennych RNA [Cruz i in. 2012]. Istnieje wiele różnych metod pozwalających na globalną ewaluację prawidłowości strukturalnej modelu w oparciu o strukturę referencyjną, zarówno dla białek jak i cząsteczek RNA. Popularnym sposobem oceny jakości modelu cząsteczki biologicznej przy założeniu, że znana jest struktura referencyjna, jest obliczenie RMSD wyznaczonego w oparciu o dwa zbiory atomów po dokonaniu optymalnej superpozycji z wykorzystaniem technik Wolfganga Kabscha i Andrew McLachlana [McLachlan 1972, Kabsch 1976]. Kolejną, bardziej dokładną miarą jest Global Distance Test (GDT), która określa największą możliwą liczbę aminokwasów, dla których odległości wyznaczone między atomami C α odpowiadających sobie aminokwasów pomiędzy modelem a strukturą referencyjną są nie większe niż określony próg odcięcia. Liczba aminokwasów spełniająca powyższą zależność jest przedstawiana jako procent długości struktury referencyjnej. Z tej miary wywodzi się bezpośrednio Global Distance Test Total Score (GDT TS), który wyznaczany jest w postaci średniej czterech wartości GDT skojarzonych z następującymi progami odcięć: 1,0, 2,0, 4,0, 8,0 Å. Bardziej dokładną i rygorystyczną wersją miary GDT TS jest Global Distance Test High Accuracy (GDT HA), gdzie progi odcięć zostały zmniejszone o połowę (0,5, 1,0, 2,0, 4,0) [Zemla i in. 1999]. Zamiast typowej miary RMSD można zastosować jedno z podejść LGscore [Cristobal i in. 2001], MaxSub [Siew i in. 2000], TM-score [Zhang i Skolnick 2004], gdzie wartość RMSD jest wyznaczana na podstawie strukturalnie wspólnych segmentów pomiędzy modelem a strukturą referencyjną i skalowana między 0,0 a 1,0. W przeciwieństwie do RMSD miary oparte na kontaktach, np. TouchScore [Bujnicki i in. 2001], nie są wrażliwe na błędy występujące w niewielkim fragmencie całej struktury. Z wykorzystaniem miar opierających się na kontaktach łatwiej analizuje się wielodomenowe białka, ponieważ metody są mniej wrażliwe na względne pozycje domen. W przypadku cząsteczek RNA miara RMSD pozwala na uchwycenie ogólnego kształtu przestrzennego, natomiast bardzo niewiele można dowiedzieć się na temat wierności odwzorowania w modelu interakcji przestrzennych związanych z parowaniem (ang. base-pairing) lub wzajemną orientacją przestrzenną par zasad (ang. base-stacking). Zrodziła się pilna potrzeba zdefiniowania nowych miar, a mianowicie współczynnika deformacji (ang. Deformation Index) (DI) oraz profilu deformacji (ang. Deformation Profile) (DP), które będą analizowały jak dobrze modele przestrzenne uzyskiwane różnymi metodami obliczeniowymi radzą sobie z odtwarzaniem specyficznych własności strukturalnych RNA [Parisien i in. 2009]. 14

Prawidłowość stereochemiczną modeli strukturalnych najczęściej ocenia się z wykorzystaniem miar udostępnianych przez narzędzie MolProbity [Davis i in. 2007]. Jako pojedynczą miarę stereochemicznej prawidłowości można wykorzystać ClashScore, która opisuje liczbę sferycznych kolizji atomów zidentyfikowanych w modelu przeskalowaną w stosunku do 1000 atomów. W przypadku szacowania prawidłowości strukturalnej lokalnego otoczenia reszt, zarówno w przypadku białek jak i RNA, stosowana jest miara wyznaczająca odchylenie przestrzenne łańcucha głównego analizowanego modelu od struktury referencyjnej, oddająca odległość euklidesową pomiędzy wybranym atomem (np. P dla RNA a C α dla białek [Cozzetto i in. 2009]) dla każdej reszty w strukturze referencyjnej i w analizowanym modelu. Złożoność obliczeniowa algorytmu ewaluacji struktur przestrzennych cząsteczek biologicznych w oparciu o strukturę referencyjną zależy od złożoności dwóch elementów składowych: optymalnej superpozycji wykonanej pomiędzy dwoma równolicznymi zbiorami atomów (metodą najmniejszych kwadratów dopasowań (ang. least squares fit) zaproponowaną przez Kabscha i McLachlana [McLachlan 1972, Kabsch 1976] - wielomianowa złożoność obliczeniowa), odpowiednio modelu i struktury referencyjnej, oraz wyznaczenia funkcji oceny na podstawie odległości pomiędzy atomami w przestrzeni (wielomianowa złożoność obliczeniowa wszystkich przytoczonych tutaj funkcji oceny). W związku z powyższym można stwierdzić, że problem ewaluacji struktur przestrzennych cząsteczek biologicznych w oparciu o strukturę referencyjną, przy założeniu znajomości jednoznacznego odwzorowania przestrzennego pomiędzy porównywanymi zbiorami atomów, należy do klasy problemów łatwych obliczeniowo. Natomiast jeżeli jednoznaczne odwzorowanie pomiędzy zbiorami porównywanych atomów nie byłoby dane a priori, wtedy problem optymalnej superpozycji byłby NP-trudny [Lathrop 1994], ale takim problemem nie będziemy się zajmować. 3.2 Nowa metoda wizualnej ewaluacji struktury przestrzennej biomolekuł Pomimo wielu postępów w tej dziedzinie wciąż jest brak możliwości identyfikacji strukturalnie prawidłowych/nieprawidłowych regionów modelu w oparciu o pełne spektrum poziomów szczegółowości analizy. W wyniku doświadczeń z wieloma istniejącymi miarami została zaproponowana nowa metoda, która pozwala na wizualną ewaluację struktur przestrzennych cząsteczek biologicznych w oparciu o znaną strukturę referencyjną i wektor poziomów szczegółowości definiowany przez badacza. Projektowane rozwiązanie pozwala na kompleksową inspekcję przestrzenną modeli (szybką identyfikację nieregularnych motywów strukturalnych) w porównaniu ze strukturą natywną z wykorzystaniem dedykowanych mechanizmów wizualizacyjnych, będąc pewnego rodzaju uzupełnieniem tradycyjnych miar (np. GDT TS). System dla białek o nazwie SphereGrinder [Fidelis i in. 2013] (http://spheregrinder.cs.put.poznan.pl), zrealizowany przy współpracy z Protein Structure Prediction Center z Uniwersytetu Kalifornijskiego w Davis, został po raz pierwszy wykorzystany podczas CASP9, który miał miejsce dwa lata temu. W oparciu o doświadczenia zdobyte podczas analiz białek stworzyliśmy również system dedykowany strukturom RNA, o nazwie RNAlyzer [Łukasiak i in. 2013] (http://rnalyzer.cs.put.poznan.pl). Większość diagramów i wszystkie procedury algorytmiczne skojarzone z opisywaną metodą zostały zawarte w rozprawie. Ogólna idea porównywania struktur przestrzennych jest następująca: użytkownik na wejściu definiuje struktury przestrzenne w formacie PDB [Bernstein i in. 1977] zarówno dla struktury refe- 15

rencyjnej, jak i zbioru modeli poddawanych analizie. Następnie wybierany jest konkretny typ atomu, który dla każdego aminokwasu bądź nukleotydu będzie pełnił rolę centrum sfery. W kolejnym kroku należy podjąć decyzję dotyczącą trybu dokonywania obliczeń: wyznaczanie funkcji oceny w oparciu o wszystkie atomy zidentyfikowane w sferze niezależnie od ich typu lub ograniczenie obliczeń jedynie do zbiorów atomów centralnych. W ostatnim kroku użytkownik definiuje zdyskretyzowany wektor promieni sfer, które odpowiadają wektorowi poziomów szczegółowości analizy. Jest to kluczowy aspekt dokonywanej konfiguracji, ponieważ poziomy szczegółowości analizy znacząco zależą od specyfiki i wielkości porównywanych struktur oraz wiedzy eksperckiej i doświadczenia badacza przeprowadzającego analizę. Po dokonaniu konfiguracji uruchamiany jest proces obliczeniowy, który obejmuje następujące fazy. Dla każdego aminokwasu/nukleotydu wzdłuż łańcucha głównego struktury referencyjnej oraz dla każdego promienia sfery znajdującego się w wektorze poziomów analizy budowane są kolejne sfery. Dla każdej zbudowanej sfery określany jest zbiór atomów struktury referencyjnej, który został w niej zlokalizowany. W kolejnym kroku struktura modelu jest przeszukiwana w celu identyfikacji zbioru atomów w modelu, które odpowiadają jednoznacznie poszczególnym atomom danej sfery w strukturze referencyjnej. Następnie odpowiadające sobie zbiory atomów skojarzone z daną sferą ze struktury referencyjnej oraz modelu, których liczność jest spójna, są optymalnie przestrzennie nakładane na siebie z wykorzystaniem technik Kabscha i McLachlana. Uzyskane w taki sposób dopasowanie strukturalne jest oceniane wybraną funkcją oceny (obecnie system uwzględnia miarę RMSD). Aktualna wersja systemu udostępnia pięć różnych typów wizualizacji, pogrupowanych w cztery kategorie wspomniane poniżej. Wszystkie wykresy prezentowane w rozdziale zostały wygenerowane z wykorzystaniem narzędzia Gnuplot [Williams i Kelley 2010]. 1. Liniowy wykres integrujący wyniki wielu analizowanych modeli (ang. multiple models plot), gdzie każda krzywa opisuje wartości funkcji oceny skojarzone z dokładnie jednym analizowanym modelem. Z każdym modelem jest skojarzony inny kolor. Wartość funkcji oceny na osi Y (obecnie RMSD) jest obliczana dla sfery o określonym promieniu zbudowanej wokół każdej reszty wzdłuż łańcucha głównego cząsteczki (oś X). Wykres ten w sposób zrozumiały udziela odpowiedzi na pytanie, jak bardzo oddalone jest otoczenie strukturalne rozważanego aminokwasu/nukleotydu w modelu od odpowiadającego mu otoczenia strukturalnego w strukturze referencyjnej, przy założeniu danego poziomu szczegółowości analizy reprezentowanego przez wybrany promień sfery. 2. Mapa 2D (ang. colored 2D map) i krajobraz 3D (ang. colored 3D plot) są wizualizacjami pozwalającymi na identyfikację nieprawidłowości strukturalnych odkrytych w pojedynczym modelu dla pełnego zestawu poziomów szczegółowości zdefiniowanych przez użytkownika (rysunek 4). Łatwo zauważyć, że mapa powstała w oparciu o widok zaobserwowany podczas rzutu z góry dokonanego na wizualizację krajobrazu trójwymiarowego. W przypadku obu wykresów oś X reprezentuje sekwencję reszt wzdłuż łańcucha głównego analizowanej cząsteczki. Natomiast oś Y w obu wizualizacjach dotyczy wektora poziomów szczegółowości zdefiniowanych przez użytkownika. Na podstawie przeprowadzonych eksperymentów polegających na analizie wielu modeli o różnej prawidłowości strukturalnej zdefiniowane zostało widmo kolorów 16

dla miary RMSD wykorzystywanej do ewaluacji sfer w zakresie od 0,0 Å do 15,0 Å, gdzie kolor na tej skali zmienia się od niebieskiego (który reprezentuje potencjalnie prawidłowe motywy strukturalne) do czerwonego (który reprezentuje znacząco nieprawidłowe motywy strukturalne). Krajobraz trójwymiarowy wprowadza dodatkową oś Z, która reprezentuje wyniki miary RMSD uzyskane podczas procesu porównywania modelu i struktury referencyjnej dla sfer budowanych wokół kolejnych reszt o promieniach identyfikowanych w wektorze poziomów szczegółowości analizy. 3. Wykres liniowy prezentujący uśredniony współczynnik jakości wielu analizowanych modeli (ang. average quality plot) to kolejny typ wykresu liniowego, w którym każda krzywa opisuje uśrednioną wartość funkcji oceny dla dokładnie jednego modelu. Oś Y rozpatrywanego wykresu reprezentuje średnią miarę jakości spośród wszystkich reszt wzdłuż łańcucha głównego cząsteczki dla sfery o określonym promieniu. Wykres odzwierciedla, w jaki sposób uśredniona miara jakości zmienia się dla danego modelu wraz ze wzrostem wartości promienia sfery. W ogólności można stwierdzić, że dany wykres pozwala zaobserwować jak zmienia się jakość predykcji modelu w całej przestrzeni analizy (od lokalnej do globalnej). 4. Wykres liniowy prezentujący procent reszt rozważanej cząsteczki charakteryzujących się strukturalnie prawidłowym lokalnym otoczeniem w oparciu o określony próg precyzji zwany odcięciem (ang. cutoff plot). Obliczenia są dokonywane w oparciu o próg odcięcia definiowany przez użytkownika dla sfer o promieniach zdefiniowanych w wektorze szczegółowości analizy. W wyniku użytkownik uzyskuje wartość procentową reszt, których lokalne otoczenie strukturalne nie jest oddalone od odpowiadającego otoczenia strukturalnego w strukturze referencyjnej (RMSD) o więcej niż próg odcięcia. Użytkownik może iteracyjnie zmieniać próg odcięcia podczas analizy. Narzędzie pozwala na wyłączenie z analizy niekompletnych lub nieprzewidzianych regionów struktury referencyjnej. Kolejną ciekawą funkcjonalnością prezentowanej metody jest możliwość rozpoznawania fragmentów potencjalnie prawidłowych w modelach, które globalnie zostały zaklasyfikowane jako zupełnie nieprawidłowe. Na rysunku 5 zaprezentowane są dwie krzywe: kolorem niebieskim jest oznaczony model globalnie najlepszy, natomiast kolorem czerwonym model globalnie znacząco gorszy. Promień sfery wynosi 28 Å. Łatwo zauważyć, że motyw strukturalny wokół nukleotydu 42 jest bardziej nieprawidłowy w modelu globalnie najlepszym niż w przypadku modelu globalnie znacznie gorszego (różnica w mierze RMSD między tymi fragmentami wynosi ok. 2 Å). System jest ciągle rozwijany. Aktualnie pracujemy nad integracją nowych miar charakterystycznych dla poszczególnych typów cząsteczek. 17

Rysunek 4: Przykładowa wizualizacja mapy 2D (ang. 2D map) i trójwymiarowego krajobrazu (ang. 3D plot) dla trzech wybranych modeli nadesłanych w celu rozwiązania wyzwania nr 3 w konkursie RNA-Puzzles (górny model to Chen model 1, środkowy model to Major model 2, dolny model to Das model 3). Oś X reprezentuje sekwencję nukleotydów. Oś Y reprezentuje promień sfery. Skala kolorów oraz oś Z w przypadku krajobrazu trójwymiarowego reprezentuje wartość RMSD. 18

19 Rysunek 5: Przykładowa wizualizacja stereo pozwalająca zaobserwować motyw strukturalny bardziej prawidłowy w modelu niżej sklasyfikowanym w globalnym rankingu (Das model 4 oznaczony kolorem czerwonym), aniżeli w modelu znajdującym się wyżej w globalnym rankingu (Bujnicki model 1 oznaczony kolorem niebieskim). Promień sfery jest równy 28 A.

4 Ewaluacja struktury przestrzennej białka tylko w oparciu o strukturę wejściową 4.1 Definicja problemu badawczego Wcelu rozwiązania problemu ewaluacji prawidłowości strukturalnej białek bez znajomości struktury referencyjnej wiele metod zostało zaproponowanych, można je podzielić na dwie główne grupy: podejścia wyznaczające ocenę jakości/prawidłowości w oparciu o pojedynczy model i podejścia oparte na konsensusie [Bujnicki 2009]. Opracowanie metody pozwalającej na dokonanie ewaluacji pojedycznego modelu jest znacznie bardziej wymagającym zadaniem. W tej grupie można wyszczególnić dwa podstawowe typy analizy: podejście globalne, gdzie wyznaczana jest jedna mierzalna wartość, która reprezentuje ocenę jakości/prawidłowości analizowanego modelu (Verify3D [Eisenberg i in. 1997], PROSAII [Sippl 1993], ANOLEA [Melo i Feytmans 1998], Errat [Colovos i Yeates 1993], TUNE [Lin i in. 2002], PROVE [Pontius i in. 1996], REFINER [Boniecki i in. 2003], ProQ [Wallner i Elofsson 2003]) oraz podejście lokalne, w którym wyznaczane są mierzalne wartości dla każdego lokalnego otoczenia strukturalnego poszczególnych aminokwasów znajdujących się w łańcuchu głównym (ProQlocal [Wallner i Elofsson 2006, Wallner i in. 2007b]). Ostatnim typem metod są metametody, które integrują w sobie wiele różnych narzędzi do ewaluacji struktury przestrzennej (MetaMQAPII [Pawlowski i in. 2008], QA-ModFOLD [McGuffin 2007]). W CASP9 najlepsza metoda ewaluująca pojedynczy model została sklasyfikowana w środku stawki kategorii dotyczącej globalnej analizy jakości [Kryshtafovych i in. 2011a]. Metody oparte na konsensusie są najczęściej wykorzystywane do budowania rankingu zaufania wśród wielu alternatywnych modeli strukturalnych, uzyskanych z wykorzystaniem różnych metod obliczeniowych, które zostały przewidziane dla jednego docelowego białka. Jako reprezentantów tej klasy należałoby wymienić 3D-Jury [Ginalski i in. 2003], Pcons, Pcons local [Wallner i Elofsson 2007a], ModFOLDclust [McGuffin 2008], QMEANclust [Benkert i in. 2009]. Wymienione narzędzia są wykorzystywane zarówno do globalnej, jak i lokalnej ewaluacji przestrzennej białek. Najnowsze analizy narzędzi biorących udział w CASPie [Kryshtafovych i in. 2011a] wskazują, że metody oparte na konsensusie radzą sobie dość dobrze w rozróżnianiu pomiędzy potencjalnie strukturalnie prawidłowymi i nieprawidłowymi modelami. Niestety w praktycznych zastosowaniach biologowie najczęściej zainteresowani są uzyskaniem ewaluacji pojedynczego modelu, co nie pozwala na zastosowanie podejść opartych na konsensusie. Dostępne metody koncentrują się głównie na rozpoznawaniu nieprawidłowego kształtu łańcucha głównego białka reprezentowanego w postaci uproszczonej, opartej tylko na wykorzystaniu atomu C α. W bieżącym rozdziale zaprezentowana została nowa metoda lokalnej/globalnej ewaluacji struktur białkowych bez potrzeby posiadania dodatkowych informacji, która rozpoznaje nieprawidłowości strukturalne wynikające zarówno z niedoskonałości w łańcuchu głównym, jak i łańcuchach bocznych [Antczak i in. 2013]. Większość diagramów i wszystkie procedury algorytmiczne skojarzone z opisywaną metodą zostały zawarte w rozprawie. Złożoność obliczeniowa problemu ewaluacji struktury przestrzennej białka tylko w oparciu o strukturę wejściową jest najprawdopodobniej wciąż problemem otwartym. Podczas analizy problemu nasuwają się trzy istotne pytania, na które projektując nową me- 20

todę należy znaleźć odpowiedź. W jaki sposób uzyskać wzorzec strukturalny, który posłużyłby jako kontekst (substytut struktury referencyjnej) w procesie oceny? Jakie cechy strukturalne modelu lub istniejące molekularne funkcje oceny powinny zostać wykorzystane w celu rozróżniania prawidłowych/nieprawidłowych geometrii przestrzennych? Jaki poziom szczegółowości analizy powinien zostać zastosowany w celu osiągnięcia sukcesu jakie typy interakcji strukturalnych powinny być rozpatrywane? 4.2 Budowa biblioteki grup deskryptorowych W celu rozwiązania pierwszego problemu, czyli zdefiniowania odpowiedniego wzorca strukturalnego, zostało zastosowane podejście deskryptorowe [Hvidsten i in. 2003, Hvidsten i in. 2009a]. Deskryptor to motyw strukturalny opisujący otoczenie wybranego aminokwasu obejmujące zbiór tylko tych segmentów łańcucha głównego białka, które znajdują się w lokalnym otoczeniu przestrzennym analizowanego aminokwasu. Podczas procesu budowy deskryptora brane są pod uwagę zarówno lokalizacja łańcucha głównego, jak i orientacja łańcuchów bocznych. Każdy deskryptor jest identyfikowany przez liczbę składowych elementów, segmentów oraz aminokwasów, z których się składa. W naszym przypadku deskryptor jest podstawową jednostką opisującą konformację przestrzenną reprezentującą specyficzny kształt. Badania rozpoczęły się od opracowania mechanizmów pozwalających na stworzenie biblioteki grup deskryptorowych na podstawie reprezentatywnego zbioru znanych struktur białkowych, który był traktowany jako podstawowa baza wiedzy. Analizie poddany został zbiór struktur przestrzennych niehomologicznych domen białkowych (sklasyfikowanych w SCOP [Murzin i in. 1995]) przechowywanych w bazie ASTRAL 1.75A [Brenner i in. 2000]. Ostatecznie uzyskane zostały 1,663,333 deskryptory składające się z przynajmniej jednego ciągłego fragmentu łańcucha głównego (zwanego segmentem), którego długość wynosi przynajmniej pięć aminokwasów. Biblioteka grup deskryptorowych została zbudowana w oparciu o deskryptory co najmniej trójsegmentowe, ponieważ deskryptory charakteryzujące się takimi własnościami przestrzennymi są obserwowane głównie w bardzo konserwatywnym rdzeniu białka. Po odfiltrowaniu deskryptorów jedno- i dwusegmentowych pozostało 847,416 deskryptorów co najmniej trójsegmentowych, które posłużyły do dalszych badań. Cały zbiór deskryptorów został podzielony na podzbiory deskryptorów charakteryzujących się równą liczbą elementów (15 podzbiorów deskryptorów od 3 do 17). 4.2.1 Algorytmy strukturalnego porównywania deskryptorów Koncepcja strukturalnego porównywania deskryptorów została opisana w literaturze [Hvidsten i in. 2003, Hvidsten i in. 2009a] i przytoczona w rozprawie. Ogólnie rzecz biorąc, aby znaleźć grupy charakteryzujące się wspólnym kształtem przestrzennym należy dokonać strukturalnych porównań pomiędzy wszystkimi potencjalnie podobnymi deskryptorami. W celu rozwiązania tego problemu zostało zaprojektowanych i przetestowanych wiele różnego rodzaju algorytmów: heurystycznych (bazujących na iteracyjnym lokalnym przeszukiwaniu, przeszukiwaniu tabu, algorytmie genetycznym) i algorytmów dokładnych opartych na inteligentnym przeszukiwaniu drzewa możliwych rozwiązań. Ostatecznie w praktyce wykorzystywany jest algorytm dokładny z powracaniem, ponieważ w przypadku ewaluacji bardzo istotnym aspektem jest jakość 21

uzyskiwanego dopasowania strukturalnego. W takim przypadku uzyskiwane dopasowanie strukturalne zbudowane dla porównywanych deskryptorów jest rozwiązaniem optymalnym. Niestety wraz ze wzrostem liczby elementów (powyżej 10) nawet inteligentnie dokonywane przeszukiwanie przestrzeni rozwiązań dopuszczalnych trwa zbyt długo i wtedy należy zadowolić się jednym z rozwiązań dopuszczalnych zamiast optymalnego. 4.2.2 Algorytmy budowy biblioteki grup deskryptorów Po opracowaniu algorytmów pozwalających na strukturalne porównywanie deskryptorów kolejnym krokiem stało sie grupowanie deskryptorów w zbiory (zwane grupami) charakteryzujące się zbliżonym kształtem przestrzennym. Grupa deskryptorowa to zbiór deskryptorów strukturalnie podobnych do jednego deskryptora założycielskiego. Jak widać na rysunku 6 (po lewej mamy wizualizację tylko łańcucha głównego a po prawej struktur drugorzędowych w oparciu o optymalną superpozycję strukturalną dla jednej grupy deskryptorowej) struktury przestrzenne deskryptorów zakwalifikowanych do tej samej grupy są bardzo do siebie podobne. Rysunek 6: Wizualizacja optymalnej superpozycji strukturalnej wyznaczonej na podstawie grupy deskryptorowej o liczoności równej osiem, której deskryptorem założycielskim jest d1p1da2 A 206 LEU. W tabeli 1 zawarte zostało dopasowanie sekwencyjne uzyskane na podstawie analizowanej grupy. Każda grupa deskryptorów reprezentuje względnie inny geometryczny kształt uzyskany na podstawie reprezentatywnego zbioru struktur białkowych. Aby znaleźć grupy deskryptorowe charakteryzujące się wspólnym kształtem przestrzennym, należy dokonać strukturalnych porównań pomiędzy wszystkimi kombinacjami par deskryptorów w zbiorze potencjalnie podobnych deskryptorów z wykorzystaniem algorytmu przedstawionego w rozprawie. 22