Algorytmiczne aspekty modelowania i ewaluacji biomolekuł Algorithmic aspects of modeling and evaluation of biomolecules

Wielkość: px
Rozpocząć pokaz od strony:

Download "Algorytmiczne aspekty modelowania i ewaluacji biomolekuł Algorithmic aspects of modeling and evaluation of biomolecules"

Transkrypt

1 Algorytmiczne aspekty modelowania i ewaluacji biomolekuł Algorithmic aspects of modeling and evaluation of biomolecules Maciej Antczak Streszczenie Rozprawy Doktorskiej Promotor: dr hab inż. Marta Kasprzak, prof. nadzw. Promotor pomocniczy: dr inż. Piotr Łukasiak Politechnika Poznańska Instytut Informatyki Poznań, 2013

2 1 Wprowadzenie Sposób kształtowania się cząsteczek biologicznych (takich jak RNA i białka), zwany zwijaniem strukturalnym, jest procesem ściśle regulowanych reakcji chemicznych o zróżnicowanym charakterze, zachodzących w komórkach organizmów żywych. W ogólności życie to pewnego rodzaju wypadkowa wszystkich interakcji zachodzących pomiędzy cząsteczkami biologicznymi w komórce. Dezorganizacja interakcji międzycząsteczkowych najczęściej prowadzi do patologii funkcjonowania komórki. W związku z powyższym jednym z podstawowych celów badań w obszarze biologii molekularnej jest eksperymentalna analiza interakcji wewnątrzkomórkowych, która umożliwia badanie funkcjonowania procesów komórkowych na poziomie molekularnym. Kwasy nukleinowe RNA i białka są liniowymi polimerami zwijającymi się w konformację natywną podyktowaną fizycznymi i chemicznymi właściwościami łańcucha odpowiednio nukleotydowego i aminokwasowego. W ogólności organizacja strukturalna takich cząsteczek biologicznych obejmuje kilka poziomów: struktura pierwszorzędowa określona jest przez liniową sekwencję nukleotydów albo aminokwasów, struktura drugorzędowa opisuje lokalnie uporządkowane motywy, które są wynikiem wiązań wodorowych zachodzących w cząsteczce, a struktura trzeciorzędowa reprezentuje specyficzny kształt przestrzenny cząsteczki, który jest zbudowany ze zbioru atomów opisywanych przez koordynaty przestrzenne. W przypadku białek można wyszczególnić jeszcze strukturę czwartorzędową, która pozwala na analizę interakcji pomiędzy całymi jednostkami polimerowymi. Odkrywanie struktur trzeciorzędowych cząsteczek biologicznych stało się możliwe dzięki rozwojowi metod eksperymentalnych, np. krystalografii rentgenowskiej, jądrowego rezonansu magnetycznego. Aktualnie stosowane biologiczne metody eksperymentalne przejawiają trudne do przezwyciężenia ograniczenia, które nie pozwalają na osiągnięcie zamierzonego celu w krótkim czasie oraz bez dużych nakładów finansowych. Dodatkowo naturalna dynamika cząsteczek biologicznych powoduje, że dla wielu cząsteczek uzyskanie struktury przestrzennej z wykorzystaniem podejść eksperymentalnych jest trudne, a nawet niemożliwe. Z każdym rokiem od połowy lat 90-tych coraz bardziej poszerzała się przepaść pomiędzy liczbą niescharakteryzowanych sekwencji cząsteczek biologicznych (UniProt [Bairoch 1991]) a niewielkim odsetkiem z nich, dla których struktura przestrzenna została zdeponowana w PDB [Bernstein i in. 1977]. Zaobserwowana tendencja wciąż się utrzymuje, a nawet można powiedzieć, że rośnie w efekcie udoskonaleń technologicznych, np. nowych technologii sekwencjowania. Analiza strukturalna białek i kwasów nukleinowych przyczynia się do wyjaśniania ich funkcji biologicznej oraz charakterystycznych własności składowych komponentów leków, pestycydów, mikroorganizmów, które de facto bezpośrednio wynikają ze struktur budujących je cząsteczek biologicznych. Analiza taka ma na celu identyfikację nieznanych chorób, udoskonalanie roślin, aby mogły wzrastać nawet na mniej żyznych glebach, projektowanie nowych leków i rozwiązań terapeutycznych oraz umiejętne sterowanie potencjałem mikroorganizmów, co może pozwolić odnieść szerokie i dalekosiężne skutki dla środowiska, zdrowia, źródeł pozyskiwania energii i zastosowań przemysłowych. Obecnie w badaniach dużych cząsteczek RNA łatwo zauważyć ogromne zapotrzebowanie na wydajne podejścia obliczeniowe realizujące przewidywanie struktur trzeciorzędowych cząsteczek RNA,

3 charakteryzujących się wysoką rozdzielczością, prawidłową geometrią i stereochemią kwasów nukleinowych. Do tej pory żadna z dostępnych metod nie osiągnęła stadium pełnej automatyzacji oraz nie udostępnia efektywnej metody przewidywania struktur trzeciorzędowych dużych cząsteczek RNA przy jednoczesnej optymalizacji czasu przetwarzania [Popenda i in. 2012]. Ponadto, przewidywanie struktur trzeciorzędowych dużych cząsteczek RNA nawet z zastosowaniem dodatkowej informacji o strukturze drugorzędowej, nadal pozostaje poważnym wyzwaniem [Seetin i Mathews 2011]. Z problemem przewidywania struktur przestrzennych biocząsteczek jest nierozerwalnie skojarzony problem ich ewaluacji, który w ostatnim czasie znacznie przybiera na istotności, ponieważ pojawia się coraz więcej różnych podejść obliczeniowych rozwiązujących pierwszy z tych problemów. Struktury przestrzenne cząsteczek biologicznych uzyskane metodami obliczeniowymi zwykle są niedokładne i wykazują znaczne odchylenia od struktury referencyjnej. W związku z powyższym ewaluacja prawidłowości strukturalnej modelu przestrzennego jest kluczowa dla praktycznego jego wykorzystania, np. w eksperymentach biochemicznych lub podczas projektowania leków. Biologowie pracując z modelami uzyskanymi metodami obliczeniowymi postulują, żeby wraz z przewidzianym modelem przestrzennym cząsteczki biologicznej otrzymać jego ograniczenia strukturalne (np. poprzez identyfikację potencjalnie nieprawidłowych motywów strukturalnych) [Kihara i in. 2009]. W przypadku ewaluacji prawidłowości strukturalnej cząsteczek biologicznych można wyszczególnić dwie grupy podejść: ewaluacja prawidłowości modeli strukturalnych w oparciu o strukturę referencyjną oraz podejście znacznie trudniejsze, które nie wymaga znajomości struktury referencyjnej podczas procesu oceny. Dodatkowo należałoby wspomnieć, że ewaluacja struktur przestrzennych może być dokonywana w ogólności na dwóch poziomach szczegółowości. Analiza globalna polega na wyznaczeniu jednej mierzalnej wartości szacującej prawidłowość strukturalną całego modelu. Natomiast analiza lokalna, która obecnie staje się coraz bardziej potrzebna, polega na szacowaniu prawidłowości strukturalnej lokalnego otoczenia poszczególnych elementów składowych łańcucha głównego cząsteczki biologicznej. Nie istniało do tej pory podejście, które pozwalałoby na wizualną ewaluację modelu przestrzennego cząsteczki biologicznej w oparciu o strukturę referencyjną i brało pod uwagę wektor poziomów szczegółowości analizy definiowany z wykorzystaniem wiedzy eksperckiej badacza oraz podstawowych własności analizowanej cząsteczki (np. objętość, długość sekwencji). Kolejnym, dużo trudniejszym problemem jest ewaluacja prawidłowości strukturalnej białek bez znajomości struktury referencyjnej, ponieważ nie jest znany wzorzec strukturalny, w oparciu o który mogłaby zostać dokonana ocena wiarygodności strukturalnej. Istnienie wiarygodnych metod pozwalających na rozróżnianie pomiędzy prawidłowymi i nieprawidłowymi strukturami przestrzennymi białek pozwoliłoby na znaczny postęp dalszych badań, ponieważ kosztowne metody eksperymentalne mogłyby skoncentrować się na odkrywaniu zupełnie nowych, nieznanych dotąd, struktur białkowych. Natomiast metody obliczeniowe mogłyby z powodzeniem zwiększyć swój udział w uzyskiwaniu struktur przestrzennych białek, które podejrzewa się o to, że są homologiczne. Obecnie nie istnieją metody, które rozpoznawałyby nieprawidłowości w strukturach przestrzennych białek wynikające z niedoskonałości zarówno w łańcuchu głównym, jak i łańcuchach bocznych, oraz potrafiłyby szacować lokalną prawidłowość strukturalną modelu przestrzennego bez potrzeby posiadania dodatkowych informacji. 2

4 Niestety, problemy kombinatoryczne inspirowane zastosowaniami biologicznymi najczęściej są bardzo złożone i trudne obliczeniowo. Zastosowania praktyczne są ciągłą motywacją do projektowania nowych, bardziej efektywnych podejść algorytmicznych i metod obliczeniowych charakteryzujących się wysoką jakością, użytecznością w zastosowaniach biologicznych i medycznych oraz akceptowalnym w praktyce czasem przetwarzania. 1.1 Cel i zakres pracy Celem pracy jest analiza problemów zasygnalizowanych powyżej, skojarzonych z przewidywaniem struktur trzeciorzędowych cząsteczek RNA oraz ewaluacją strukturalną modeli przestrzennych biomolekuł, oraz propozycja nowych, efektywnych obliczeniowo algorytmów, wzbogacających analizę strukturalną cząsteczek biologicznych. Po pierwsze, opracowane zostało nowe podejście obliczeniowe realizujące przewidywanie struktury przestrzennej RNA w oparciu o sekwencję i strukturę drugorzędową (w notacji kropkowonawiasowej), obejmujące projekt i implementację dedykowanej obiektowo-relacyjnej bazy danych bloków strukturalnych oraz zestawu algorytmów składowych zintegrowanych w jeden w pełni funkcjonalny system. Wersja sekwencyjna systemu została poddana testom wydajnościowym, które pozwoliły określić złożone obliczeniowo fragmenty systemu. Wnioski uzyskane z przeprowadzonych eksperymentów pozwoliły na opracowanie równoległych wersji algorytmów dokładnych, w celu optymalizacji czasu przetwarzania oraz wykorzystania dostępnych zasobów systemu operacyjnego (takich jak liczba jednostek przetwarzających oraz aktualnie dostępny rozmiar pamięci operacyjnej). Dodatkowo przeprowadzone zostały eksperymenty obliczeniowe pozwalające na ocenę użyteczności metody oraz efektów wynikających z zastosowania algorytmów współbieżnych. Po drugie, po analizie wielu narzędzi służących ewaluacji struktur przestrzennych cząsteczek biologicznych w oparciu o strukturę referencyjną, pojawiła się koncepcja nowej metody wspomagającej identyfikację prawidłowych/nieprawidłowych motywów strukturalnych w analizowanym modelu z wykorzystaniem wektora poziomów szczegółowości analizy definiowanego przez eksperta. Opracowana metoda, udostępniając zestaw dwu/trójwymiarowych wizualizacji, pozwala z jednej strony zidentyfikować nieprawidłowe motywy strukturalne, które powinny zostać poddane szerszej analizie i procesowi udoskonalania, z drugiej prawidłowe motywy strukturalne nawet w modelach, które globalnie zostały zakwalifikowane jako bardzo odległe od struktury referencyjnej. Po trzecie, opracowana została nowa metoda obliczeniowa umożliwiająca ewaluację prawidłowości strukturalnej modeli przestrzennych białek bez potrzeby posiadania struktury referencyjnej oraz jakiejkolwiek dodatkowej informacji, na dwóch poziomach szczegółowości analizy (lokalnym i globalnym). Zaproponowana metoda opiera się na paradygmacie lokalnych deskryptorów struktur białkowych, gdzie deskryptor reprezentuje lokalny motyw strukturalny opisujący otoczenie przestrzenne wybranego aminokwasu [Hvidsten i in. 2003, Hvidsten i in. 2009a]. Przeprowadzone badania obejmowały opracowanie biblioteki grup deskryptorowych oraz zestawu algorytmów pozwalających m. in. na strukturalne porównywanie deskryptorów i ewaluację prawidłowości strukturalnej analizowanego modelu w oparciu o tę bibliotekę. Algorytm budowania biblioteki grup deskryptorowych oraz niektóre składowe elementy procedury ewaluacyjnej zostały poddane analizie i optymalizacji z wykorzystaniem mechanizmów współbieżności, co znacząco zmniejszyło czas przetwarzania oraz 3

5 pozwoliło na efektywniejsze wykorzystanie dostępnych zasobów serwera obliczeniowego. W efekcie przeprowadzonych badań dokonana została analiza użyteczności, w kontekście ewaluacji strukturalnej, bibliotek grup deskryptorowych w zależności od minimalnej liczby deskryptorów tworzących grupę. Ostatecznie zostały przeprowadzone eksperymenty obliczeniowe pozwalające oszacować użyteczność proponowanych metod oraz efektów wynikających z zastosowania algorytmów współbieżnych na różnych etapach analizy. 2 Nowe rozwiązania informatyczne dla modelowania struktur przestrzennych RNA 2.1 Definicja problemu badawczego Cząsteczki RNA są zaangażowane w wiele podstawowych procesów biologicznych. Zrozumienie mechanizmów ich funkcjonowania wymaga znajomości struktury trzeciorzędowej. Obecnie w badaniach dużych cząsteczek RNA łatwo zauważyć ogromne zapotrzebowanie na wydajne metodyki obliczeniowe pozwalające na przewidywanie struktur trzeciorzędowych cząsteczek RNA, charakteryzujących się wysoką rozdzielczością, prawidłową geometrią i stereochemią kwasów nukleinowych. W efekcie zastosowania różnych metod obliczeniowych przewidywanie in silico struktury drugorzędowej cząsteczki RNA [Jacobson i Zuker 1993, Mathews i Turner 2006, Xu i in. 2012] ostatnio zostało wzmocnione dzięki uwzględnieniu wiązań strukturalnych wynikających z chemicznego próbkowania [Mathews i in. 2004], głównie dzięki metodzie SHAPE [Merino i in. 2005]. Jednakże ostateczny cel, jakim jest przewidywanie struktury trzeciorzędowej dużych cząsteczek RNA z zastosowaniem dodatkowej informacji o strukturze drugorzędowej, nadal pozostaje poważnym wyzwaniem [Seetin i Mathews 2011]. Pierwsze metody, które umożliwiały modelowanie struktur trzeciorzędowych RNA polegały na modelowaniu manualnym dokonywanym przez ekspertów poprzez ręczne manipulowanie motywami strukturalnymi pochodzącymi z różnych znanych struktur przestrzennych RNA. Przykładowe aplikacje opracowane do tego celu obejmują: ERNA-3D [Zwieb i Müller 1997], RNA2D3D [Martinez i in. 2008], S2S/Assemble [Jossinet i in. 2010]. Kolejnym możliwym podejściem jest modelowanie ab initio, które polega na symulacji procesu zwijania się cząsteczki jako procesu minimalizacji pewnej funkcji energii swobodnej wynikającej bezpośrednio z zasad biofizycznych. Do tej klasy można zakwalifikować zautomatyzowane metody wykorzystujące dynamikę molekularną modeli przestrzennych o rozdzielczości gruboziarnistej, a mianowicie NAST [Jonikas i in. 2009a] (proces symulacji kierowany potencjałem statystycznym; każdy nukleotyd jest reprezentowany przez jeden wirtualny atom) oraz ifoldrna [Sharma i in. 2008] (każdy nukleotyd jest reprezentowany przez trzy wirtualne atomy). W efekcie prowadzonych badań zaobserwowano, że struktury przestrzenne cząsteczek biologicznych, które są ze sobą ewolucyjnie powiązane, zwykle zachowują podobny kształt przestrzenny pomimo istnienia rozbieżności na poziomie sekwencyjnym. Ta obserwacja leży u podstaw metod modelowania homologicznego struktur przestrzennych cząsteczek biologicznych. Przykładem narzędzia tego typu jest ModeRNA [Rother i in. 2011], gdzie modelowanie struktury przestrzennej RNA wymaga zdefiniowania znanej struktury przestrzennej cząsteczki homologicznej, która określana jest jako szablon, oraz jednoznacznego dopasowania sekwencyjnego pomiędzy cząsteczką przewidywaną a strukturą homologiczną. Do tej klasy należy również RNABuilder [Flores i in. 2011], który 4

6 w dziedzinie przewidywania struktur trzeciorzędowych RNA jest narzędziem odpowiadającym Modellerowi, który został opracowany dla białek. Połączenie metod bazujących na wiedzy z podejściami opartymi na zależnościach biofizycznych doprowadziło do rozwoju metod przewidywania struktur przestrzennych de novo, gdzie model wynikowy jest budowany na podstawie przeszukiwania przestrzeni konformacyjnej, podobnie jak w przypadku metod typu ab initio. W metodach tych liczba stopni swobody jest ograniczona dzięki wykorzystywaniu ograniczonego zbioru niewielkich motywów przestrzennych pochodzących ze znanych struktur cząsteczek biologicznych, które nie muszą charakteryzować się homologią z cząsteczką przewidywaną. Do tej klasy można zakwalifikować następujące metody: FARNA/FARFAR [Das i Baker 2007], MC-Fold/MC-Sym [Parisien i Major 2008]. Podsumowując, w przypadku sekwencji RNA o średnich i dużych rozmiarach ( nukleotydów) nawet najlepsze metody przewidywania prowadzą do dużych wartości RMSD (średnio 20 Å) [Laing i Schlick 2011]. Żadna z dostępnych aktualnie metod nie osiągnęła stadium pełnej automatyzacji oraz nie udostępnia efektywnej metody przewidywania struktur trzeciorzędowych dużych cząsteczek RNA przy jednoczesnej optymalizacji czasu przetwarzania [Popenda i in. 2012]. Udowodniono, że problem optymalizacyjny prowadzący do znalezienia konformacji przestrzennej charakteryzującej się minimalną wartością energii swobodnej, zarówno dla dwu- jak i trójwymiarowego modelu matematycznego opisującego proces zwijania się białek, jest NP-trudny [Unger i Moult 1993]. Większa strukturalna różnorodność cząsteczek RNA w porównaniu do białek powoduje, że przewidywanie struktury przestrzennej RNA z rozdzielczością atomową jest problemem z pewnością nie łatwiejszym niż w przypadku białek [Laing i Schlick 2011]. Mimo wszystko nie istnieje w literaturze żaden dowód formalny, który ostatecznie rozwiałby wszelkie wątpliwości co do złożoności obliczeniowej procesu zwijania się cząsteczek RNA, co oznacza, że problem ten nadal jest problemem otwartym. Na bazie obserwacji podstawowych cech innych rozwiązań stworzone zostało nowe narzędzie, RNAComposer, które pozwala na w pełni automatyczne przewidywanie struktury przestrzennej cząsteczki RNA opisanej przez sekwencję i strukturę drugorzędową. W wyniku procesu predykcji badacz uzyskuje model strukturalny w rozdzielczości atomowej, który charakteryzuje się prawidłowością stereochemiczną i energetyczną [Popenda i in. 2012]. Dodatkowym bardzo istotnym wymaganiem pozafunkcjonalnym jest optymalizacja czasu przetwarzania, ponieważ system udostępnia możliwość uruchomienia procesu predykcji dla pakietów zadań, na które składa się multiplikacja wielu sekwencji, wielu struktur drugorzędowych (uzyskanych np. z wykorzystaniem różnych narzędzi do predykcji struktury drugorzędowej) i rodzin modeli wynikowych (więcej niż jeden) zbudowanych w oparciu o zbiory alternatywnych bloków strukturalnych. 2.2 Architektura systemu RNAComposer Architektura systemu RNAComposer składa się z dwóch głównych komponentów: serwera obliczeniowego oraz serwera aplikacji. Serwer obliczeniowy udostępnia metodę pozwalającą na przewidywanie struktury przestrzennej RNA w oparciu o sekwencję i strukturę drugorzędową w notacji kropkowo-nawiasowej. Na serwerze aplikacji udostępniana jest aplikacja internetowa charakteryzująca się intuicyjnym interfejsem pozwalającym na efektywne ko- 5

7 rzystanie z systemu RNAComposer. System jest publicznie dostępny dla społeczności naukowej pod poniższymi adresami internetowymi: Struktura drugorzędowa, zdefiniowana przez użytkownika, jest poddawana procesowi fragmentacji, w wyniku którego uzyskiwane są elementy struktury drugorzędowej takie jak dupleksy, pętle i pojedyncze nici współdzielące między sobą na końcach parę kanoniczną. W dalszej analizie uzyskane elementy struktury drugorzędowej pełnią rolę wzorców wykorzystywanych podczas automatycznego wyszukiwania odpowiadających im motywów przestrzennych w bazie bloków strukturalnych FraBabe. Bloki strukturalne z bazy danych są wyszukiwane w oparciu o zgodność topologii struktury drugorzędowej; maksymalne podobieństwo sekwencyjne; maksymalną kompatybilność puryn/pirymidyn; minimalną rozdzielczość eksperymentalną struktury, z której pochodzi blok strukturalny; minimalny współczynnik energetyczny. Jeżeli sekwencje pomiędzy poszukiwanym elementem struktury drugorzędowej a znalezionym blokiem przestrzennym w bazie danych (który charakteryzuje się poszukiwaną topologią) różnią się, wtedy zasady powodujące konflikt zostają podmienione. Niekiedy zdarza się, że nie udaje się znaleźć w bazie danych bloków strukturalnych motywu przestrzennego charakteryzującego się określoną topologią struktury drugorzędowej. W tym przypadku uruchamiane są dodatkowe mechanizmy, które pozwalają na wygenerowanie brakujących motywów strukturalnych o określonej sekwencji i topologii struktury drugorzędowej (brakujące dupleksy i pojedyncze nici są generowane z wykorzystaniem narzędzia NAB [Leontis i Santa Lucia 1998] w oparciu o parametry strukturalne A-RNA, natomiast pętle są generowane w przestrzeni kątów torsyjnych z wykorzystaniem narzędzia CYANA [Güntert i in. 1997]). W następnym kroku model przestrzenny przewidywanej cząsteczki jest budowany z wykorzystaniem zależności zachodzących pomiędzy elementami struktury drugorzędowej, wynikających z grafu struktury drugorzędowej cząsteczki wejściowej. Bloki strukturalne są poddawane procesowi przestrzennej superpozycji z wykorzystaniem współdzielonych par kanonicznych i łączone ze sobą w celu stworzenia modelu przestrzennego przewidywanej cząsteczki RNA. Superpozycja pomiędzy dwoma zbiorami atomów jest dokonywana z wykorzystaniem technik Wolfganga Kabscha [Kabsch 1976]. Po uzyskaniu kompletnego modelu przestrzennego cząsteczki wszystkie atomy i nukleotydy są przenumerowywane w celu zapewnienia zgodności z sekwencją wejściową. W ostatnim kroku początkowy model przestrzenny jest poddawany procesowi minimalizacji energetycznej w przestrzeni zarówno kątów torsyjnych (z wykorzystaniem narzędzia CYANA [Güntert i in. 1997], biorąc pod uwagę ograniczenia wynikające z wiązań wodorowych) jak i kartezjańskiej (z wykorzystaniem pola siłowego CHARMM zintegrowanego w narzędziu XPLOR-NIH [Schwieters i in. 2003], biorąc pod uwagę ograniczenia wynikające z wiązań wodorowych oraz planarności par zasad) w celu udoskonalenia własności stereochemicznych i energetycznych finalnej struktury. Metoda pozwala na wygenerowanie rodziny ściśle związanych modeli przestrzennych (do 10). W takim przypadku pierwszy model jest generowany z uwzględnieniem wszystkich kryteriów wyboru bloków strukturalnych zdefiniowanych powyżej. Pozostałe modele są generowane z bloków strukturalnych wybieranych losowo, które spełniają większość powyższych kryteriów z wyjątkiem rozdzielczości eksperymentalnej i współczynnika energetycznego. 6

8 2.3 Nowe rozwiązania informatyczne w systemie RNAComposer Badania rozpoczęły się od stworzenia dedykowanej systemowi RNAComposer wersji obiektoworelacyjnej bazy danych bloków strukturalnych (nazwanej FraBabe) na podstawie istniejących struktur kwasów nukleinowych przechowywanych w bazie RNA FRABASE [Popenda i in. 2010]. Procedura tworzenia bazy motywów strukturalnych FraBabe, zapisana formalnie w pseudokodzie, została zawarta w rozprawie. Każdy blok opisany jest przez sekwencję nukleotydów, sekwencję puryn/pirymidyn, topologię struktury drugorzędowej, motyw przestrzenny przechowywany w taki sposób, aby zapewnić ich optymalne wykorzystanie podczas procesu obliczeniowego przewidywania struktury trzeciorzędowej RNA. Relacje zachodzące pomiędzy zbiorami analizowanych danych oraz wymaganie dotyczące optymalizacji czasu wyszukiwania informacji w konkretnej postaci były główną przyczyną prowadzącą do stworzenia projektu relacyjnej bazy danych, której schemat w postaci diagramu związków encji został przedstawiony na rysunku 1. Rysunek 1: Diagram związków encji bazy danych FraBabe. Obecnie w bazie przechowywanych jest różnych topologii struktur drugorzędowych, z którymi skojarzonych jest motywów przestrzennych. Rozkład bloków strukturalnych przechowywanych w bazie danych FraBabe, w zależności od topologii struktur drugorzędowych skojarzonych z nimi sekwencji oraz motywów przestrzennych, został przedstawiony w rozprawie. Po wykonaniu projektu bazy danych bloków strukturalnych rozpoczął się proces projektowania szeregu rozwiązań algorytmicznych integrowanych w jądrze systemu pozwalających przetransfor- 7

9 mować informacje w postaci sekwencji i struktury drugorzędowej na model przestrzenny o rozdzielczości atomowej zapisany w formacie PDB. Do zbioru najważniejszych algorytmów należałoby zaliczyć: Fragmentację struktury drugorzędowej cząsteczki wejściowej z wykorzystaniem wyrażeń regularnych. Efektywne wielokryterialne wyszukiwanie bloków strukturalnych w bazie FraBabe dedykowane poszczególnym elementom struktury drugorzędowej (dupleksy, pętle, pojedyncze nici), ponieważ każdy z nich charakteryzuje się specyficzną topologią. Dla każdego typu bloku strukturalnego uzyskanego w wyniku fragmentacji wejściowej struktury drugorzędowej wyszukiwane są bloki strukturalne wyposażone w motywy przestrzenne w bazie danych Fra- Babe, charakteryzujące się identyczną topologią struktury drugorzędowej oraz maksymalną zgodnością sekwencyjną, maksymalną zgodnością puryn/pirymidyn, minimalną rozdzielczością eksperymentalną cząsteczki, z której pochodzi dany blok strukturalny, minimalną wartością współczynnika energetycznego. Systematyczne łączenie motywów przestrzennych wybranych bloków strukturalnych w większe fragmenty strukturalne (ostatecznie model przestrzenny) z wykorzystaniem algorytmu optymalnej superpozycji [Kabsch 1976] dwóch odpowiadających sobie zbiorów atomów. Zbiory atomów definiowane są na podstawie współdzielonych par kanonicznych nukleotydów (w przypadku pojedynczych nici znajdujących się na początku lub końcu cząsteczki wspólny jest jeden nukleotyd) dwóch bloków strukturalnych, w oparciu o reprezentację grafową struktury drugorzędowej. Stosowane jest przy tym kryterium minimalizacji możliwych uszkodzeń strukturalnych poprzez zapewnienie, aby zawsze mniejsze motywy przestrzenne (tzn. składające się z mniejszej liczby atomów) były dołączane do większych fragmentów strukturalnych. Integracja szeregu aspektów (np. wykorzystywanie wielu narzędzi zewnętrznych, projekt spójnego słownika nazw atomów na podstawie wielu formatów wykorzystywanych narzędzi, stworzenie mechanizmów pozwalających na efektywne przełączanie się pomiędzy różnymi fragmentami przetwarzania) w jeden w pełni funkcjonalny system. Szczegółowy opis algorytmów obejmujący formalny zapis z wykorzystaniem pseudokodu został zawarty w rozprawie. 2.4 Optymalizacja wydajności systemu RNAComposer z wykorzystaniem mechanizmów współbieżności Po przeprowadzeniu testów wydajnościowych wersji sekwencyjnej systemu RNAComposer zauważono ogromną potrzebę opracowania równoległych wersji niektórych algorytmów składowych, w celu optymalizacji czasu przetwarzania oraz wykorzystania aktualnie dostępnych zasobów systemu operacyjnego, takich jak liczba jednostek przetwarzających oraz rozmiar pamięci operacyjnej. Najbardziej kosztownym narzędziem pod względem zarówno złożoności obliczeniowej jak i żądań zasobowych skojarzonych z pamięcią operacyjną jest CYANA [Güntert i in. 1997], ponieważ 8

10 dokonuje optymalizacji modelu przestrzennego cząsteczki RNA w przestrzeni kątów torsyjnych. Tego typu minimalizacja jest złożona, ponieważ potrafi nie tylko poprawić długości wiązań pomiędzy atomami, ale również udoskonalić lokalizację przestrzenną oraz obrót pewnych fragmentów strukturalnych modelu, jeżeli ich obecne umiejscowienie jest nieprawidłowe. Przeprowadzone eksperymenty pozwoliły na wyznaczenie wielomianowej funkcji interpolującej (szeroki zakres różnych funkcji był brany pod uwagę), która służy w systemie do szacowania ograniczeń zasobowych związanych z wykorzystaniem pamięci operacyjnej. Ma to istotny wpływ na szeregowanie zadań, które mogą być przetwarzane współbieżnie. W kolejnym kroku sekwencyjna wersja systemu została przeanalizowana i pewne fragmenty, które pozwalają na współbieżną realizację zostały zidentyfikowane i przeprojektowane, aby zapewnić maksymalną możliwą równoległość przetwarzania. Inspekcja kodu obejmowała optymalizację przepływu w systemie poprzez współbieżne wykonywanie operacji I/O, współbieżne wykonywanie zapytań do obiektowo-relacyjnej bazy bloków strukturalnych FraBabe. Ostatnim elementem, na który warto zwrócić uwagę, ponieważ ma ogromny wpływ na poprawę wydajności działania systemu, jest współbieżna realizacja zadań w ramach pojedynczego pakietu (wsadu). Łatwo zauważyć, że przy cząsteczce charakteryzującej się niewielkim rozmiarem uda się upakować w pamięci wszystkie możliwe zadania, a jedynym ograniczeniem współbieżności przetwarzania będzie liczba dostępnych jednostek obliczeniowych. Jeżeli żądania zasobowe dotyczące pamięci operacyjnej wzrosną znacząco, wtedy wąskim gardłem stanie się dostępność tego zasobu. W celu rozwiązania powyższego problemu został zaproponowany sposób szeregowania zadań do wykonania w pakiecie w taki sposób, aby próbować wykorzystać maksymalną liczbę aktualnie dostępnych jednostek przetwarzających przy jednoczesnym niedopuszczeniu do przepełnienia dostępnej pamięci operacyjnej. Rozwiązywany problem został przetransformowany do problemu plecakowego, gdzie zadania utożsamiane są z przedmiotami a rozmiar plecaka to rozmiar dostępnej pamięci operacyjnej. W efekie powyższych wniosków zostały opracowane współbieżne wersje rozwiązań algorytmicznych zastosowanych w systemie RNAComposer. Wszystkie zadania są dzielone na podpakiety, które są uruchamiane współbieżnie z wykorzystaniem mechanizmów wielowątkowości w języku Java zawartych w pakiecie java.util.concurrency, i realizowane algorytmem programowania dynamicznego rozwiązującego problem plecakowy biorący pod uwagę dostępne zasoby maszyny obliczeniowej (liczbę rdzeni obliczeniowych i rozmiar pamięci operacyjnej). 2.5 Eksperymenty obliczeniowe Ocena modeli wynikowych W jednym z eksperymentów obliczeniowych analizowana była jakość przewidywanych modeli przestrzennych (w sensie zgodności topologii struktury drugorzędowej oraz stereochemicznych i energetycznych własności modelu przestrzennego) w porównaniu z odpowiadającymi im strukturami referencyjnymi. Dobrany został reprezentatywny zbiór 40 cząsteczek RNA różniących się znacząco zarówno z punktu widzenia złożoności topologii struktury drugorzędowej jak i długości sekwencji w zakresie od 30 do 161 nukleotydów. Obejmował tylko cząsteczki RNA, których struktury przestrzenne są kompletne z punktu widzenia występowania ciężkich atomów. Należy podkreślić, że podczas przeprowadzonego eksperymentu wszystkie motywy przestrzenne pochodzące z przewidy- 9

11 wanych cząsteczek zostały wykluczone z bazy danych bloków strukturalnych. Stereochemiczna prawidłowość modeli przestrzennych uzyskiwanych z wykorzystaniem systemu RNAComposer była mierzona za pomocą następujących narzędzi: XPLOR-NIH [Schwieters i in. 2003], MolProbity [Davis i in. 2007]. Standardem porównywania modelu przestrzennego i struktury referencyjnej jest użycie miary globalnego RMSD [Kabsch 1976]. Kolejną wykorzystaną miarą była Interaction Network Fidelity (INF) [Parisien i in. 2009], która reprezentuje współczynnik wierności odwzorowania sieci interakcji przestrzennych zachodzących w modelu w stosunku do struktury referencyjnej. Modele budowane z bloków strukturalnych charakteryzujących się wysokim podobieństwem sekwencyjnym wykazują wysoką jakość uzyskiwanych predykcji, co odzwierciedlają zarówno miara globalnego RMSD jak i oceny opisujące wierność odwzorowania interakcji przestrzennych pomiędzy modelem a strukturą referencyjną. Modele przestrzenne uzyskane dla cząsteczek RNA zawierających elementy charakteryzujące się topologią struktury drugorzędowej, której nie udało się zlokalizować w bazie danych bloków strukturalnych, lub dla których podobieństwo sekwencyjne znalezionych bloków strukturalnych jest niewielkie, mogą charakteryzować się niską jakością predykcji. Uśredniona wartość globalnego RMSD wyznaczonego dla całego reprezentatywnego zbioru cząsteczek RNA poddanych analizie wynosi 5,1 Å. Wartości miar INF wskazują, że znacząca większość kanonicznych i niekanonicznych interakcji pomiędzy parami zasad oraz interakcji typu stacking została prawidłowo odtworzona w przewidzianych modelach przestrzennych. Analiza dokonana z wykorzystaniem MolProbity [Davis i in. 2007] pozwala zaobserwować, że większość modeli charakteryzuje się prawidłowością strukturalną. Niewielka liczba zidentyfikowanych nieprawidłowości dotyczących długości wiązań i kątów wskazuje, że modele przestrzenne uzyskane z wykorzystaniem systemu RNAComposer wykazują często wyższą prawidłowość stereochemiczną aniżeli struktury krystalograficzne charakteryzujące się wysoką rozdzielczością Porównanie z innymi narzędziami W literaturze można znaleźć trzy w pełni automatyczne metody obliczeniowe przewidywania struktur trzeciorzędowych RNA, które są publicznie dostępne w postaci aplikacji internetowych, a mianowicie MC-Fold/MC-Sym [Parisien i Major 2008], ifoldrna [Sharma i in. 2008] i ModeRNA [Rother i in. 2011]. Przeprowadzony został eksperyment obliczeniowy w celu dokonania porównania opisywanego rozwiązania z metodami wspomnianymi powyżej z wyjątkiem ModeRNA, ponieważ jest metodą wymagającą znajomości szablonu struktury homologicznej. Wyniki porównania dotyczącego zbioru ośmiu cząsteczek RNA zostały zaprezentowane w rozprawie. Ze względu na ograniczenia innych narzędzi eksperyment mógł zostać przeprowadzony jedynie dla cząsteczek RNA o rozmiarze z zakresu od 36 do 81 nukleotydów. Jako dane wejściowe w przypadku RNAComposera i MC-Fold/MC-Sym wykorzystana została sekwencja i struktura drugorzędowa uzyskana z bazy RNA FRABASE [Popenda i in. 2010]. Niestety w przypadku systemu ifoldrna, który nie pozwala na wprowadzenie struktury drugorzędowej, jako dane wejściowe wykorzystana została jedynie sekwencja nukleotydowa. W każdym przypadku RNAComposer wykazuje wysoką wydajność zarówno z punktu widzenia stereochemicznej poprawności, jak i zbieżności strukturalnej modelu i struktury referencyjnej. Uśredniona wartość globalnego RMSD uzyskanego przez nasz program wynosi około 10

12 3,7 Å, gdzie dla tych samych danych MC-Fold/MC-Sym osiąga 10,2 Å, a ifoldrna 12,0 Å. Uśredniona wartość miary określającej wierność odwzorowania interakcji przestrzennych między wszystkimi parami zasad w modelu (INF all ) wynosi odpowiednio 0,8 dla RNAComposera, 0,71 dla MC- Fold/MC-Sym i 0,52 dla ifoldrna. Uśredniony wskaźnik konserwatywności kanonicznych par zasad (INF cbp ) wynosi 1,0 zarówno dla RNAComposera jak i MC-Fold/MC-Sym. Natomiast w przypadku ifoldrna wskaźnik ten wynosi 0,64. Jakość uzyskiwanych modeli została również przeanalizowana z wykorzystaniem MolProbity [Davis i in. 2007]. Uśredniona wartość miary przestrzennego nakładania się atomów w modelu (ang. ClashScore) w przypadku RNAComposera wynosi mniej niż 15, natomiast w przypadku modeli uzyskanych z wykorzystaniem pozostałych metod przekracza 100. Ponadto w przypadku RNAComposera w żadnym z wynikowych modeli przestrzennych nie zostały zidentyfikowane jakiekolwiek reszty charakteryzujące się nieprawidłowymi długościami wiązań lub kątów. Natomiast w przypadku MC-Fold/MC-Sym modele średnio w 66% reszt posiadały nieprawidłowe długości wiązań i w 93% nieprawidłowe kąty. Modele uzyskane z wykorzystaniem ifoldrna wykazywały średnio w 22% reszt nieprawidłowe długości wiązań, a w 74% nieprawidłowe kąty. Dodatkowo należy podkreślić, że w praktyce czas przetwarzania proponowanej metody jest znacznie krótszy w porównaniu z innymi dostępnymi rozwiązaniami RNAComposer w RNA-Puzzles Użyteczność systemu RNAComposer była testowana w konkursie RNA-Puzzles [Cruz i in. 2012], który jest eksperymentem międzynarodowym, którego zadaniem jest ocenianie aktualnie dostępnych metod przewidywania struktur przestrzennych RNA. Nasza grupa brała udział w wyzwaniu nr 4, którego zadaniem było określenie struktury trójwymiarowej cząsteczki RNA znajdującej się w kompleksie z białkiem. W rozprawie zostały zawarte wyniki, przy czym dla każdej grupy wybrany został model charakteryzujący się najniższą wartością globalnego RMSD. Biorąc pod uwagę ranking grup biorących udział w konkursie pod względem miar RMSD [Kabsch 1976], DI all [Parisien i in. 2009] i ClashScore [Davis i in. 2007] można stwierdzić, że nasz model znajduje się w środku stawki, ponieważ zajmuje odpowiednio 4, 6 i 5 miejsce na 9 drużyn. Przedstawione wyniki wskazują, że należy postawić szczególny nacisk na mechanizmy pozwalające na odzwierciedlanie wierności interakcji przestrzennych zachodzących między parami zasad w przewidywanych strukturach przestrzennych. W celu zbadania wydajności zaproponowanego rozwiązania współbieżnego zostały przeprowadzone dwa eksperymenty obliczeniowe. Obliczenia były dokonywane na maszynie wyposażonej w procesor czterordzeniowy Intel Core i7 2,66 GHz oraz 8 GB pamięci operacyjnej, gdzie platformą systemową było Ubuntu Procesor jest wyposażony w technologię Hyper-Threading, która umożliwia jednoczesne wykonywanie wielu niekolidujących ze sobą wątków obliczeniowych Analiza wydajności współbieżnej wersji systemu RNAComposer Proponowana metoda ma charakter heterogeniczny, wykorzystując wybraną funkcjonalność różnych narzędzi zewnętrznych, np. systemu zarządzania bazą danych lub narzędzi dedykowanych procesowi minimalizacji energetycznej, które najczęściej uruchamiane są jako osobne procesy zarządzane przez system operacyjny maszyny obliczeniowej. Rosnąca liczba zadań do wykonania w pakiecie 11

13 powoduje, że czas przetwarzania rośnie ale jednocześnie obciążenie systemu się stabilizuje i równoważy straty wynikające z wykonywania operacji I/O wymaganych podczas komunikacji między zintegrowanymi narzędziami oraz samego przęłączania się między nimi. Niestety w przypadku pakietów zadań o niewielkim rozmiarze straty wynikające ze współdziałania wielu osobnych narzędzi w systemie operacyjnym znacząco obniżają efektywność przetwarzania. W celu zbadania wydajności zaproponowanego rozwiązania współbieżnego zostały przeprowadzone dwa eksperymenty obliczeniowe. Obliczenia były dokonywane na maszynie wyposażonej w procesor czterordzeniowy Intel Core i7 2,66 GHz oraz 8 GB pamięci operacyjnej, gdzie platformą systemową było Ubuntu W pierwszym eksperymencie pokazano, że jeżeli żądania zasobowe dotyczące pamięci operacyjnej będą niezauważalnie mniejsze w porównaniu z aktualnym rozmiarem dostępnej pamięci operacyjnej, wtedy przetwarzanie współbieżne powinno być realizowane przez wszystkie dostępne jednostki obliczeniowe. Cząsteczka została powielona w kolejnych pakietach, których rozmiar znajdował się w zakresie od 1 do Łatwo zauważyć na rysunku 2, że przyspieszenie wynikające z zastosowania mechanizmów współbieżności, które udało się osiągnąć, zbliża się do liczby aktualnie dostępnych jednostek obliczeniowych (zbliża się do 4). Rysunek 2: Wizualizacja zaobserwowanego przyspieszenia podczas eksperymentu, gdy rozmiar dostępnej pamięci operacyjnej jest wystarczający, aby zaspokoić żądania zasobowe wynikające z przetwarzania wszystkich dostępnych jednostek obliczeniowych. Podczas drugiego eksperymentu do analizy został wybrany najtrudniejszy przypadek, gdzie rozmiar pojedynczej cząsteczki RNA jest tak duży, że żądania zasobowe (ok 1 GB) nie pozwalają na wykorzystanie wszystkich jednostek przetwarzających ze względu na brak dostępnej pamięci operacyjnej. Cząsteczka została powielona w kolejnych pakietach, których rozmiar znajdował się w zakresie od 1 do Podczas przeprowadzanych eksperymentów raportowany był aktualny rozmiar pamięci operacyjnej dostępnej dla narzędzi do minimalizacji, który wynosił ok. 4 GB. 12

14 Na rysunku 3 można zaobserwować, że przyspieszenie wynikające z zastosowania mechanizmów współbieżności, które udało się osiągnąć, jest ograniczone aktualnie dostępnym rozmiarem pamięci operacyjnej (zbliża się do 3). Rysunek 3: Wizualizacja zaobserwowanego przyspieszenia w eksperymencie, gdy rozmiar dostępnej pamięci operacyjnej jest głównym ograniczeniem współbieżności przetwarzania. Podsumowując, podstawową zaletą proponowanego rozwiązania obliczeniowego jest możliwość rozwiązywania struktur przestrzennych dużych cząsteczek RNA (o rozmiarze do 500 nukleotydów), które są poza zasięgiem innych aktualnie dostępnych metod ze względu na złożoność obliczeniową (w przypadku metod de novo) lub brak znanych szablonów przestrzennych (w przypadku metod komparatywnych). Kolejną cechą jest krótki czas przetwarzania wymagany do uzyskania modelu przestrzennego przewidywanej cząsteczki RNA. Dzięki temu metoda jest bardzo dobrym rozwiązaniem dla użytkowników dysponujących strukturami drugorzędowymi dużych cząsteczek RNA udokładnionymi eksperymentalnie. Dokładność predykcji będzie rosła znacząco wraz z rozwojem bazy danych bloków strukturalnych, wskutek wzrostu liczby znanych struktur przestrzennych RNA uzyskanych eksperymentalnie. W przyszłości serwer RNAComposer będzie dalej rozbudowywany w celu umożliwienia przewidywania pseudowęzłów z wyższą efektywnością, wprowadzania dodatkowych ograniczeń dotyczących kątów torsyjnych, optymalizacji przewidywania długich odcinków jednoniciowych i udostępnienia użytkownikowi mechanizmu wprowadzania własnych motywów przestrzennych wygenerowanych przy użyciu innych metod. 3 Wizualna ewaluacja struktur przestrzennych biomolekuł w oparciu o strukturę referencyjną Nierozerwalnie z problemem przewidywania struktur przestrzennych cząsteczek biologicznych jest skojarzony problem ich ewaluacji, który w ostatnim czasie staje się coraz bardziej istotny, ponieważ stale pojawiają się nowe, różne metody obliczeniowe realizujące przewidywanie struktur 13

15 przestrzennych. 3.1 Definicja problemu badawczego Rosnąca liczba dostępnych narzędzi do przewidywania struktur przestrzennych cząsteczek biologicznych stwarza potrzebę ich obiektywnej oceny i porównania. Niecałe dwadzieścia lat temu został powołany międzynarodowy eksperyment Critical Assessment of protein Structure Prediction (CASP), którego zadaniem jest kompleksowa ewaluacja aktualnie dostępnych metod przewidywania struktur przestrzennych białek [Moult i in. 1995]. Rok temu został powołany do życia podobny eksperyment międzynarodowy RNA-Puzzles oceniający aktualnie dostępne metody przewidywania struktur przestrzennych RNA [Cruz i in. 2012]. Istnieje wiele różnych metod pozwalających na globalną ewaluację prawidłowości strukturalnej modelu w oparciu o strukturę referencyjną, zarówno dla białek jak i cząsteczek RNA. Popularnym sposobem oceny jakości modelu cząsteczki biologicznej przy założeniu, że znana jest struktura referencyjna, jest obliczenie RMSD wyznaczonego w oparciu o dwa zbiory atomów po dokonaniu optymalnej superpozycji z wykorzystaniem technik Wolfganga Kabscha i Andrew McLachlana [McLachlan 1972, Kabsch 1976]. Kolejną, bardziej dokładną miarą jest Global Distance Test (GDT), która określa największą możliwą liczbę aminokwasów, dla których odległości wyznaczone między atomami C α odpowiadających sobie aminokwasów pomiędzy modelem a strukturą referencyjną są nie większe niż określony próg odcięcia. Liczba aminokwasów spełniająca powyższą zależność jest przedstawiana jako procent długości struktury referencyjnej. Z tej miary wywodzi się bezpośrednio Global Distance Test Total Score (GDT TS), który wyznaczany jest w postaci średniej czterech wartości GDT skojarzonych z następującymi progami odcięć: 1,0, 2,0, 4,0, 8,0 Å. Bardziej dokładną i rygorystyczną wersją miary GDT TS jest Global Distance Test High Accuracy (GDT HA), gdzie progi odcięć zostały zmniejszone o połowę (0,5, 1,0, 2,0, 4,0) [Zemla i in. 1999]. Zamiast typowej miary RMSD można zastosować jedno z podejść LGscore [Cristobal i in. 2001], MaxSub [Siew i in. 2000], TM-score [Zhang i Skolnick 2004], gdzie wartość RMSD jest wyznaczana na podstawie strukturalnie wspólnych segmentów pomiędzy modelem a strukturą referencyjną i skalowana między 0,0 a 1,0. W przeciwieństwie do RMSD miary oparte na kontaktach, np. TouchScore [Bujnicki i in. 2001], nie są wrażliwe na błędy występujące w niewielkim fragmencie całej struktury. Z wykorzystaniem miar opierających się na kontaktach łatwiej analizuje się wielodomenowe białka, ponieważ metody są mniej wrażliwe na względne pozycje domen. W przypadku cząsteczek RNA miara RMSD pozwala na uchwycenie ogólnego kształtu przestrzennego, natomiast bardzo niewiele można dowiedzieć się na temat wierności odwzorowania w modelu interakcji przestrzennych związanych z parowaniem (ang. base-pairing) lub wzajemną orientacją przestrzenną par zasad (ang. base-stacking). Zrodziła się pilna potrzeba zdefiniowania nowych miar, a mianowicie współczynnika deformacji (ang. Deformation Index) (DI) oraz profilu deformacji (ang. Deformation Profile) (DP), które będą analizowały jak dobrze modele przestrzenne uzyskiwane różnymi metodami obliczeniowymi radzą sobie z odtwarzaniem specyficznych własności strukturalnych RNA [Parisien i in. 2009]. 14

16 Prawidłowość stereochemiczną modeli strukturalnych najczęściej ocenia się z wykorzystaniem miar udostępnianych przez narzędzie MolProbity [Davis i in. 2007]. Jako pojedynczą miarę stereochemicznej prawidłowości można wykorzystać ClashScore, która opisuje liczbę sferycznych kolizji atomów zidentyfikowanych w modelu przeskalowaną w stosunku do 1000 atomów. W przypadku szacowania prawidłowości strukturalnej lokalnego otoczenia reszt, zarówno w przypadku białek jak i RNA, stosowana jest miara wyznaczająca odchylenie przestrzenne łańcucha głównego analizowanego modelu od struktury referencyjnej, oddająca odległość euklidesową pomiędzy wybranym atomem (np. P dla RNA a C α dla białek [Cozzetto i in. 2009]) dla każdej reszty w strukturze referencyjnej i w analizowanym modelu. Złożoność obliczeniowa algorytmu ewaluacji struktur przestrzennych cząsteczek biologicznych w oparciu o strukturę referencyjną zależy od złożoności dwóch elementów składowych: optymalnej superpozycji wykonanej pomiędzy dwoma równolicznymi zbiorami atomów (metodą najmniejszych kwadratów dopasowań (ang. least squares fit) zaproponowaną przez Kabscha i McLachlana [McLachlan 1972, Kabsch 1976] - wielomianowa złożoność obliczeniowa), odpowiednio modelu i struktury referencyjnej, oraz wyznaczenia funkcji oceny na podstawie odległości pomiędzy atomami w przestrzeni (wielomianowa złożoność obliczeniowa wszystkich przytoczonych tutaj funkcji oceny). W związku z powyższym można stwierdzić, że problem ewaluacji struktur przestrzennych cząsteczek biologicznych w oparciu o strukturę referencyjną, przy założeniu znajomości jednoznacznego odwzorowania przestrzennego pomiędzy porównywanymi zbiorami atomów, należy do klasy problemów łatwych obliczeniowo. Natomiast jeżeli jednoznaczne odwzorowanie pomiędzy zbiorami porównywanych atomów nie byłoby dane a priori, wtedy problem optymalnej superpozycji byłby NP-trudny [Lathrop 1994], ale takim problemem nie będziemy się zajmować. 3.2 Nowa metoda wizualnej ewaluacji struktury przestrzennej biomolekuł Pomimo wielu postępów w tej dziedzinie wciąż jest brak możliwości identyfikacji strukturalnie prawidłowych/nieprawidłowych regionów modelu w oparciu o pełne spektrum poziomów szczegółowości analizy. W wyniku doświadczeń z wieloma istniejącymi miarami została zaproponowana nowa metoda, która pozwala na wizualną ewaluację struktur przestrzennych cząsteczek biologicznych w oparciu o znaną strukturę referencyjną i wektor poziomów szczegółowości definiowany przez badacza. Projektowane rozwiązanie pozwala na kompleksową inspekcję przestrzenną modeli (szybką identyfikację nieregularnych motywów strukturalnych) w porównaniu ze strukturą natywną z wykorzystaniem dedykowanych mechanizmów wizualizacyjnych, będąc pewnego rodzaju uzupełnieniem tradycyjnych miar (np. GDT TS). System dla białek o nazwie SphereGrinder [Fidelis i in. 2013] ( zrealizowany przy współpracy z Protein Structure Prediction Center z Uniwersytetu Kalifornijskiego w Davis, został po raz pierwszy wykorzystany podczas CASP9, który miał miejsce dwa lata temu. W oparciu o doświadczenia zdobyte podczas analiz białek stworzyliśmy również system dedykowany strukturom RNA, o nazwie RNAlyzer [Łukasiak i in. 2013] ( Większość diagramów i wszystkie procedury algorytmiczne skojarzone z opisywaną metodą zostały zawarte w rozprawie. Ogólna idea porównywania struktur przestrzennych jest następująca: użytkownik na wejściu definiuje struktury przestrzenne w formacie PDB [Bernstein i in. 1977] zarówno dla struktury refe- 15

17 rencyjnej, jak i zbioru modeli poddawanych analizie. Następnie wybierany jest konkretny typ atomu, który dla każdego aminokwasu bądź nukleotydu będzie pełnił rolę centrum sfery. W kolejnym kroku należy podjąć decyzję dotyczącą trybu dokonywania obliczeń: wyznaczanie funkcji oceny w oparciu o wszystkie atomy zidentyfikowane w sferze niezależnie od ich typu lub ograniczenie obliczeń jedynie do zbiorów atomów centralnych. W ostatnim kroku użytkownik definiuje zdyskretyzowany wektor promieni sfer, które odpowiadają wektorowi poziomów szczegółowości analizy. Jest to kluczowy aspekt dokonywanej konfiguracji, ponieważ poziomy szczegółowości analizy znacząco zależą od specyfiki i wielkości porównywanych struktur oraz wiedzy eksperckiej i doświadczenia badacza przeprowadzającego analizę. Po dokonaniu konfiguracji uruchamiany jest proces obliczeniowy, który obejmuje następujące fazy. Dla każdego aminokwasu/nukleotydu wzdłuż łańcucha głównego struktury referencyjnej oraz dla każdego promienia sfery znajdującego się w wektorze poziomów analizy budowane są kolejne sfery. Dla każdej zbudowanej sfery określany jest zbiór atomów struktury referencyjnej, który został w niej zlokalizowany. W kolejnym kroku struktura modelu jest przeszukiwana w celu identyfikacji zbioru atomów w modelu, które odpowiadają jednoznacznie poszczególnym atomom danej sfery w strukturze referencyjnej. Następnie odpowiadające sobie zbiory atomów skojarzone z daną sferą ze struktury referencyjnej oraz modelu, których liczność jest spójna, są optymalnie przestrzennie nakładane na siebie z wykorzystaniem technik Kabscha i McLachlana. Uzyskane w taki sposób dopasowanie strukturalne jest oceniane wybraną funkcją oceny (obecnie system uwzględnia miarę RMSD). Aktualna wersja systemu udostępnia pięć różnych typów wizualizacji, pogrupowanych w cztery kategorie wspomniane poniżej. Wszystkie wykresy prezentowane w rozdziale zostały wygenerowane z wykorzystaniem narzędzia Gnuplot [Williams i Kelley 2010]. 1. Liniowy wykres integrujący wyniki wielu analizowanych modeli (ang. multiple models plot), gdzie każda krzywa opisuje wartości funkcji oceny skojarzone z dokładnie jednym analizowanym modelem. Z każdym modelem jest skojarzony inny kolor. Wartość funkcji oceny na osi Y (obecnie RMSD) jest obliczana dla sfery o określonym promieniu zbudowanej wokół każdej reszty wzdłuż łańcucha głównego cząsteczki (oś X). Wykres ten w sposób zrozumiały udziela odpowiedzi na pytanie, jak bardzo oddalone jest otoczenie strukturalne rozważanego aminokwasu/nukleotydu w modelu od odpowiadającego mu otoczenia strukturalnego w strukturze referencyjnej, przy założeniu danego poziomu szczegółowości analizy reprezentowanego przez wybrany promień sfery. 2. Mapa 2D (ang. colored 2D map) i krajobraz 3D (ang. colored 3D plot) są wizualizacjami pozwalającymi na identyfikację nieprawidłowości strukturalnych odkrytych w pojedynczym modelu dla pełnego zestawu poziomów szczegółowości zdefiniowanych przez użytkownika (rysunek 4). Łatwo zauważyć, że mapa powstała w oparciu o widok zaobserwowany podczas rzutu z góry dokonanego na wizualizację krajobrazu trójwymiarowego. W przypadku obu wykresów oś X reprezentuje sekwencję reszt wzdłuż łańcucha głównego analizowanej cząsteczki. Natomiast oś Y w obu wizualizacjach dotyczy wektora poziomów szczegółowości zdefiniowanych przez użytkownika. Na podstawie przeprowadzonych eksperymentów polegających na analizie wielu modeli o różnej prawidłowości strukturalnej zdefiniowane zostało widmo kolorów 16

18 dla miary RMSD wykorzystywanej do ewaluacji sfer w zakresie od 0,0 Å do 15,0 Å, gdzie kolor na tej skali zmienia się od niebieskiego (który reprezentuje potencjalnie prawidłowe motywy strukturalne) do czerwonego (który reprezentuje znacząco nieprawidłowe motywy strukturalne). Krajobraz trójwymiarowy wprowadza dodatkową oś Z, która reprezentuje wyniki miary RMSD uzyskane podczas procesu porównywania modelu i struktury referencyjnej dla sfer budowanych wokół kolejnych reszt o promieniach identyfikowanych w wektorze poziomów szczegółowości analizy. 3. Wykres liniowy prezentujący uśredniony współczynnik jakości wielu analizowanych modeli (ang. average quality plot) to kolejny typ wykresu liniowego, w którym każda krzywa opisuje uśrednioną wartość funkcji oceny dla dokładnie jednego modelu. Oś Y rozpatrywanego wykresu reprezentuje średnią miarę jakości spośród wszystkich reszt wzdłuż łańcucha głównego cząsteczki dla sfery o określonym promieniu. Wykres odzwierciedla, w jaki sposób uśredniona miara jakości zmienia się dla danego modelu wraz ze wzrostem wartości promienia sfery. W ogólności można stwierdzić, że dany wykres pozwala zaobserwować jak zmienia się jakość predykcji modelu w całej przestrzeni analizy (od lokalnej do globalnej). 4. Wykres liniowy prezentujący procent reszt rozważanej cząsteczki charakteryzujących się strukturalnie prawidłowym lokalnym otoczeniem w oparciu o określony próg precyzji zwany odcięciem (ang. cutoff plot). Obliczenia są dokonywane w oparciu o próg odcięcia definiowany przez użytkownika dla sfer o promieniach zdefiniowanych w wektorze szczegółowości analizy. W wyniku użytkownik uzyskuje wartość procentową reszt, których lokalne otoczenie strukturalne nie jest oddalone od odpowiadającego otoczenia strukturalnego w strukturze referencyjnej (RMSD) o więcej niż próg odcięcia. Użytkownik może iteracyjnie zmieniać próg odcięcia podczas analizy. Narzędzie pozwala na wyłączenie z analizy niekompletnych lub nieprzewidzianych regionów struktury referencyjnej. Kolejną ciekawą funkcjonalnością prezentowanej metody jest możliwość rozpoznawania fragmentów potencjalnie prawidłowych w modelach, które globalnie zostały zaklasyfikowane jako zupełnie nieprawidłowe. Na rysunku 5 zaprezentowane są dwie krzywe: kolorem niebieskim jest oznaczony model globalnie najlepszy, natomiast kolorem czerwonym model globalnie znacząco gorszy. Promień sfery wynosi 28 Å. Łatwo zauważyć, że motyw strukturalny wokół nukleotydu 42 jest bardziej nieprawidłowy w modelu globalnie najlepszym niż w przypadku modelu globalnie znacznie gorszego (różnica w mierze RMSD między tymi fragmentami wynosi ok. 2 Å). System jest ciągle rozwijany. Aktualnie pracujemy nad integracją nowych miar charakterystycznych dla poszczególnych typów cząsteczek. 17

19 Rysunek 4: Przykładowa wizualizacja mapy 2D (ang. 2D map) i trójwymiarowego krajobrazu (ang. 3D plot) dla trzech wybranych modeli nadesłanych w celu rozwiązania wyzwania nr 3 w konkursie RNA-Puzzles (górny model to Chen model 1, środkowy model to Major model 2, dolny model to Das model 3). Oś X reprezentuje sekwencję nukleotydów. Oś Y reprezentuje promień sfery. Skala kolorów oraz oś Z w przypadku krajobrazu trójwymiarowego reprezentuje wartość RMSD. 18

20 19 Rysunek 5: Przykładowa wizualizacja stereo pozwalająca zaobserwować motyw strukturalny bardziej prawidłowy w modelu niżej sklasyfikowanym w globalnym rankingu (Das model 4 oznaczony kolorem czerwonym), aniżeli w modelu znajdującym się wyżej w globalnym rankingu (Bujnicki model 1 oznaczony kolorem niebieskim). Promień sfery jest równy 28 A.

21 4 Ewaluacja struktury przestrzennej białka tylko w oparciu o strukturę wejściową 4.1 Definicja problemu badawczego Wcelu rozwiązania problemu ewaluacji prawidłowości strukturalnej białek bez znajomości struktury referencyjnej wiele metod zostało zaproponowanych, można je podzielić na dwie główne grupy: podejścia wyznaczające ocenę jakości/prawidłowości w oparciu o pojedynczy model i podejścia oparte na konsensusie [Bujnicki 2009]. Opracowanie metody pozwalającej na dokonanie ewaluacji pojedycznego modelu jest znacznie bardziej wymagającym zadaniem. W tej grupie można wyszczególnić dwa podstawowe typy analizy: podejście globalne, gdzie wyznaczana jest jedna mierzalna wartość, która reprezentuje ocenę jakości/prawidłowości analizowanego modelu (Verify3D [Eisenberg i in. 1997], PROSAII [Sippl 1993], ANOLEA [Melo i Feytmans 1998], Errat [Colovos i Yeates 1993], TUNE [Lin i in. 2002], PROVE [Pontius i in. 1996], REFINER [Boniecki i in. 2003], ProQ [Wallner i Elofsson 2003]) oraz podejście lokalne, w którym wyznaczane są mierzalne wartości dla każdego lokalnego otoczenia strukturalnego poszczególnych aminokwasów znajdujących się w łańcuchu głównym (ProQlocal [Wallner i Elofsson 2006, Wallner i in. 2007b]). Ostatnim typem metod są metametody, które integrują w sobie wiele różnych narzędzi do ewaluacji struktury przestrzennej (MetaMQAPII [Pawlowski i in. 2008], QA-ModFOLD [McGuffin 2007]). W CASP9 najlepsza metoda ewaluująca pojedynczy model została sklasyfikowana w środku stawki kategorii dotyczącej globalnej analizy jakości [Kryshtafovych i in. 2011a]. Metody oparte na konsensusie są najczęściej wykorzystywane do budowania rankingu zaufania wśród wielu alternatywnych modeli strukturalnych, uzyskanych z wykorzystaniem różnych metod obliczeniowych, które zostały przewidziane dla jednego docelowego białka. Jako reprezentantów tej klasy należałoby wymienić 3D-Jury [Ginalski i in. 2003], Pcons, Pcons local [Wallner i Elofsson 2007a], ModFOLDclust [McGuffin 2008], QMEANclust [Benkert i in. 2009]. Wymienione narzędzia są wykorzystywane zarówno do globalnej, jak i lokalnej ewaluacji przestrzennej białek. Najnowsze analizy narzędzi biorących udział w CASPie [Kryshtafovych i in. 2011a] wskazują, że metody oparte na konsensusie radzą sobie dość dobrze w rozróżnianiu pomiędzy potencjalnie strukturalnie prawidłowymi i nieprawidłowymi modelami. Niestety w praktycznych zastosowaniach biologowie najczęściej zainteresowani są uzyskaniem ewaluacji pojedynczego modelu, co nie pozwala na zastosowanie podejść opartych na konsensusie. Dostępne metody koncentrują się głównie na rozpoznawaniu nieprawidłowego kształtu łańcucha głównego białka reprezentowanego w postaci uproszczonej, opartej tylko na wykorzystaniu atomu C α. W bieżącym rozdziale zaprezentowana została nowa metoda lokalnej/globalnej ewaluacji struktur białkowych bez potrzeby posiadania dodatkowych informacji, która rozpoznaje nieprawidłowości strukturalne wynikające zarówno z niedoskonałości w łańcuchu głównym, jak i łańcuchach bocznych [Antczak i in. 2013]. Większość diagramów i wszystkie procedury algorytmiczne skojarzone z opisywaną metodą zostały zawarte w rozprawie. Złożoność obliczeniowa problemu ewaluacji struktury przestrzennej białka tylko w oparciu o strukturę wejściową jest najprawdopodobniej wciąż problemem otwartym. Podczas analizy problemu nasuwają się trzy istotne pytania, na które projektując nową me- 20

22 todę należy znaleźć odpowiedź. W jaki sposób uzyskać wzorzec strukturalny, który posłużyłby jako kontekst (substytut struktury referencyjnej) w procesie oceny? Jakie cechy strukturalne modelu lub istniejące molekularne funkcje oceny powinny zostać wykorzystane w celu rozróżniania prawidłowych/nieprawidłowych geometrii przestrzennych? Jaki poziom szczegółowości analizy powinien zostać zastosowany w celu osiągnięcia sukcesu jakie typy interakcji strukturalnych powinny być rozpatrywane? 4.2 Budowa biblioteki grup deskryptorowych W celu rozwiązania pierwszego problemu, czyli zdefiniowania odpowiedniego wzorca strukturalnego, zostało zastosowane podejście deskryptorowe [Hvidsten i in. 2003, Hvidsten i in. 2009a]. Deskryptor to motyw strukturalny opisujący otoczenie wybranego aminokwasu obejmujące zbiór tylko tych segmentów łańcucha głównego białka, które znajdują się w lokalnym otoczeniu przestrzennym analizowanego aminokwasu. Podczas procesu budowy deskryptora brane są pod uwagę zarówno lokalizacja łańcucha głównego, jak i orientacja łańcuchów bocznych. Każdy deskryptor jest identyfikowany przez liczbę składowych elementów, segmentów oraz aminokwasów, z których się składa. W naszym przypadku deskryptor jest podstawową jednostką opisującą konformację przestrzenną reprezentującą specyficzny kształt. Badania rozpoczęły się od opracowania mechanizmów pozwalających na stworzenie biblioteki grup deskryptorowych na podstawie reprezentatywnego zbioru znanych struktur białkowych, który był traktowany jako podstawowa baza wiedzy. Analizie poddany został zbiór struktur przestrzennych niehomologicznych domen białkowych (sklasyfikowanych w SCOP [Murzin i in. 1995]) przechowywanych w bazie ASTRAL 1.75A [Brenner i in. 2000]. Ostatecznie uzyskane zostały 1,663,333 deskryptory składające się z przynajmniej jednego ciągłego fragmentu łańcucha głównego (zwanego segmentem), którego długość wynosi przynajmniej pięć aminokwasów. Biblioteka grup deskryptorowych została zbudowana w oparciu o deskryptory co najmniej trójsegmentowe, ponieważ deskryptory charakteryzujące się takimi własnościami przestrzennymi są obserwowane głównie w bardzo konserwatywnym rdzeniu białka. Po odfiltrowaniu deskryptorów jedno- i dwusegmentowych pozostało 847,416 deskryptorów co najmniej trójsegmentowych, które posłużyły do dalszych badań. Cały zbiór deskryptorów został podzielony na podzbiory deskryptorów charakteryzujących się równą liczbą elementów (15 podzbiorów deskryptorów od 3 do 17) Algorytmy strukturalnego porównywania deskryptorów Koncepcja strukturalnego porównywania deskryptorów została opisana w literaturze [Hvidsten i in. 2003, Hvidsten i in. 2009a] i przytoczona w rozprawie. Ogólnie rzecz biorąc, aby znaleźć grupy charakteryzujące się wspólnym kształtem przestrzennym należy dokonać strukturalnych porównań pomiędzy wszystkimi potencjalnie podobnymi deskryptorami. W celu rozwiązania tego problemu zostało zaprojektowanych i przetestowanych wiele różnego rodzaju algorytmów: heurystycznych (bazujących na iteracyjnym lokalnym przeszukiwaniu, przeszukiwaniu tabu, algorytmie genetycznym) i algorytmów dokładnych opartych na inteligentnym przeszukiwaniu drzewa możliwych rozwiązań. Ostatecznie w praktyce wykorzystywany jest algorytm dokładny z powracaniem, ponieważ w przypadku ewaluacji bardzo istotnym aspektem jest jakość 21

23 uzyskiwanego dopasowania strukturalnego. W takim przypadku uzyskiwane dopasowanie strukturalne zbudowane dla porównywanych deskryptorów jest rozwiązaniem optymalnym. Niestety wraz ze wzrostem liczby elementów (powyżej 10) nawet inteligentnie dokonywane przeszukiwanie przestrzeni rozwiązań dopuszczalnych trwa zbyt długo i wtedy należy zadowolić się jednym z rozwiązań dopuszczalnych zamiast optymalnego Algorytmy budowy biblioteki grup deskryptorów Po opracowaniu algorytmów pozwalających na strukturalne porównywanie deskryptorów kolejnym krokiem stało sie grupowanie deskryptorów w zbiory (zwane grupami) charakteryzujące się zbliżonym kształtem przestrzennym. Grupa deskryptorowa to zbiór deskryptorów strukturalnie podobnych do jednego deskryptora założycielskiego. Jak widać na rysunku 6 (po lewej mamy wizualizację tylko łańcucha głównego a po prawej struktur drugorzędowych w oparciu o optymalną superpozycję strukturalną dla jednej grupy deskryptorowej) struktury przestrzenne deskryptorów zakwalifikowanych do tej samej grupy są bardzo do siebie podobne. Rysunek 6: Wizualizacja optymalnej superpozycji strukturalnej wyznaczonej na podstawie grupy deskryptorowej o liczoności równej osiem, której deskryptorem założycielskim jest d1p1da2 A 206 LEU. W tabeli 1 zawarte zostało dopasowanie sekwencyjne uzyskane na podstawie analizowanej grupy. Każda grupa deskryptorów reprezentuje względnie inny geometryczny kształt uzyskany na podstawie reprezentatywnego zbioru struktur białkowych. Aby znaleźć grupy deskryptorowe charakteryzujące się wspólnym kształtem przestrzennym, należy dokonać strukturalnych porównań pomiędzy wszystkimi kombinacjami par deskryptorów w zbiorze potencjalnie podobnych deskryptorów z wykorzystaniem algorytmu przedstawionego w rozprawie. 22

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński MultiSETTER: web server for multiple RNA structure comparison Sandra Sobierajska Uniwersytet Jagielloński Wprowadzenie Budowa RNA: - struktura pierwszorzędowa sekwencja nukleotydów w łańcuchu: A, U, G,

Bardziej szczegółowo

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Plan wykładu 1. Sieci jako modele interakcji

Bardziej szczegółowo

RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych

RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych Joanna Wiśniewska Promotor: dr inż. P. Łukasiak Spis treści 1. Zakres pracy magisterskiej 2. Struktura białka 3. Struktura kwasów nukleionowych

Bardziej szczegółowo

Bioinformatyka II Modelowanie struktury białek

Bioinformatyka II Modelowanie struktury białek Bioinformatyka II Modelowanie struktury białek 1. Który spośród wymienionych szablonów wybierzesz do modelowania dla każdego z podanych przypadków? Dlaczego? Struktura krystaliczną czy NMR (to samo białko,

Bardziej szczegółowo

Skalowalność obliczeń równoległych. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1

Skalowalność obliczeń równoległych. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1 Skalowalność obliczeń równoległych Krzysztof Banaś Obliczenia Wysokiej Wydajności 1 Skalowalność Przy rozważaniu wydajności przetwarzania (obliczeń, komunikacji itp.) często pojawia się pojęcie skalowalności

Bardziej szczegółowo

Bioinformatyka II Modelowanie struktury białek

Bioinformatyka II Modelowanie struktury białek Bioinformatyka II Modelowanie struktury białek 1. Który spośród wymienionych szablonów wybierzesz do modelowania? Dlaczego? Struktura krystaliczną czy NMR (to samo białko, ta sama rozdzielczość)? Strukturę

Bardziej szczegółowo

Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk

Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA Marta Szachniuk Plan prezentacji Wprowadzenie do tematyki badań Teoretyczny model problemu Złożoność

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie... 3. 2 Wprowadzenie do biologicznych baz danych...

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie... 3. 2 Wprowadzenie do biologicznych baz danych... Przedmowa... XI Część pierwsza Wprowadzenie i biologiczne bazy danych 1 Wprowadzenie... 3 Czym jest bioinformatyka?... 5 Cele... 5 Zakres zainteresowań... 6 Zastosowania... 7 Ograniczenia... 8 Przyszłe

Bardziej szczegółowo

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych autor: Robert Drab opiekun naukowy: dr inż. Paweł Rotter 1. Wstęp Zagadnienie generowania trójwymiarowego

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

na podstawie artykułu: Modeling Complex RNA Tertiary Folds with Rosetta Clarence Yu Cheng, Fang-Chieh Chou, Rhiju Das

na podstawie artykułu: Modeling Complex RNA Tertiary Folds with Rosetta Clarence Yu Cheng, Fang-Chieh Chou, Rhiju Das na podstawie artykułu: Modeling Complex RNA Tertiary Folds with Rosetta Clarence Yu Cheng, Fang-Chieh Chou, Rhiju Das wykonała: Marta Szynczewska bioinformatyka Uniwersytet Jagielloński Struktura I-rzędowa

Bardziej szczegółowo

Zadania badawcze prowadzone przez Zakład Technik Programowania:

Zadania badawcze prowadzone przez Zakład Technik Programowania: Zadania badawcze prowadzone przez Zakład Technik Programowania: - Opracowanie metod zrównoleglania programów sekwencyjnych o rozszerzonym zakresie stosowalności. - Opracowanie algorytmów obliczenia tranzytywnego

Bardziej szczegółowo

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl Komputerowe Systemy Przemysłowe: Modelowanie - UML Arkadiusz Banasik arkadiusz.banasik@polsl.pl Plan prezentacji Wprowadzenie UML Diagram przypadków użycia Diagram klas Podsumowanie Wprowadzenie Języki

Bardziej szczegółowo

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański BIOINFORMATYKA edycja 2016 / 2017 wykład 11 RNA dr Jacek Śmietański jacek.smietanski@ii.uj.edu.pl http://jaceksmietanski.net Plan wykładu 1. Rola i rodzaje RNA 2. Oddziaływania wewnątrzcząsteczkowe i struktury

Bardziej szczegółowo

zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych

zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych Grupa efektów kierunkowych: Matematyka stosowana I stopnia - profil praktyczny (od 17 października 2014) Matematyka Stosowana I stopień spec. Matematyka nowoczesnych technologii stacjonarne 2015/2016Z

Bardziej szczegółowo

Bioinformatyka wykład 8, 27.XI.2012

Bioinformatyka wykład 8, 27.XI.2012 Bioinformatyka wykład 8, 27.XI.2012 białkowa bioinformatyka strukturalna c.d. krzysztof_pawlowski@sggw.pl 2013-01-21 1 Plan wykładu regiony nieuporządkowane sposoby przedstawienia struktur białkowych powierzchnia

Bardziej szczegółowo

Bioinformatyka wykład 10

Bioinformatyka wykład 10 Bioinformatyka wykład 10 21.XII.2010 białkowa bioinformatyka strukturalna, c.d. krzysztof_pawlowski@sggw.pl 2011-01-17 1 Regiony nieuporządkowane disordered regions trudna definicja trudne do przewidzenia

Bardziej szczegółowo

Programowanie współbieżne Wykład 2. Iwona Kochańska

Programowanie współbieżne Wykład 2. Iwona Kochańska Programowanie współbieżne Wykład 2 Iwona Kochańska Miary skalowalności algorytmu równoległego Przyspieszenie Stały rozmiar danych N T(1) - czas obliczeń dla najlepszego algorytmu sekwencyjnego T(p) - czas

Bardziej szczegółowo

Dopasowanie sekwencji (sequence alignment)

Dopasowanie sekwencji (sequence alignment) Co to jest alignment? Dopasowanie sekwencji (sequence alignment) Alignment jest sposobem dopasowania struktur pierwszorzędowych DNA, RNA lub białek do zidentyfikowanych regionów w celu określenia podobieństwa;

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań TABELA ODNIESIEŃ EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA PROGRAMU KSZTAŁCENIA DO EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA OBSZARU KSZTAŁCENIA I PROFILU STUDIÓW PROGRAM KSZTAŁCENIA: POZIOM KSZTAŁCENIA: PROFIL KSZTAŁCENIA:

Bardziej szczegółowo

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania 2/32 Cel analizy Celem fazy określania wymagań jest udzielenie odpowiedzi na pytanie:

Bardziej szczegółowo

Maciej Piotr Jankowski

Maciej Piotr Jankowski Reduced Adder Graph Implementacja algorytmu RAG Maciej Piotr Jankowski 2005.12.22 Maciej Piotr Jankowski 1 Plan prezentacji 1. Wstęp 2. Implementacja 3. Usprawnienia optymalizacyjne 3.1. Tablica ekspansji

Bardziej szczegółowo

DLA SEKTORA INFORMATYCZNEGO W POLSCE

DLA SEKTORA INFORMATYCZNEGO W POLSCE DLA SEKTORA INFORMATYCZNEGO W POLSCE SRK IT obejmuje kompetencje najważniejsze i specyficzne dla samego IT są: programowanie i zarządzanie systemami informatycznymi. Z rozwiązań IT korzysta się w każdej

Bardziej szczegółowo

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Autoreferat do rozprawy doktorskiej OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Michał Mazur Gliwice 2016 1 2 Montaż samochodów na linii w

Bardziej szczegółowo

Przykładowe sprawozdanie. Jan Pustelnik

Przykładowe sprawozdanie. Jan Pustelnik Przykładowe sprawozdanie Jan Pustelnik 30 marca 2007 Rozdział 1 Sformułowanie problemu Tematem pracy jest porównanie wydajności trzech tradycyjnych metod sortowania: InsertionSort, SelectionSort i BubbleSort.

Bardziej szczegółowo

Problemy niezawodnego przetwarzania w systemach zorientowanych na usługi

Problemy niezawodnego przetwarzania w systemach zorientowanych na usługi Problemy niezawodnego przetwarzania w systemach zorientowanych na usługi Jerzy Brzeziński, Anna Kobusińska, Dariusz Wawrzyniak Instytut Informatyki Politechnika Poznańska Plan prezentacji 1 Architektura

Bardziej szczegółowo

Model referencyjny doboru narzędzi Open Source dla zarządzania wymaganiami

Model referencyjny doboru narzędzi Open Source dla zarządzania wymaganiami Politechnika Gdańska Wydział Zarządzania i Ekonomii Katedra Zastosowań Informatyki w Zarządzaniu Zakład Zarządzania Technologiami Informatycznymi Model referencyjny Open Source dla dr hab. inż. Cezary

Bardziej szczegółowo

EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW

EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW WYDZIAŁ KIERUNEK z obszaru nauk POZIOM KSZTAŁCENIA FORMA STUDIÓW PROFIL JĘZYK STUDIÓW Podstawowych Problemów Techniki Informatyka technicznych 6 poziom, studia inżynierskie

Bardziej szczegółowo

Załącznik Nr 1. Istotne warunki zamówienia do przetargu nieograniczonego na wykonanie pakietu usług programistycznych

Załącznik Nr 1. Istotne warunki zamówienia do przetargu nieograniczonego na wykonanie pakietu usług programistycznych Załącznik Nr 1 Do pisma IMP PAN l.dz. ZDN/1234/2007 z 2007-06-19 o ogłoszeniu przetargu nieograniczonego na pakiet usług programistycznych, których wartość nie przekracza progu, od którego obowiązuje prawo

Bardziej szczegółowo

EFEKTY UCZENIA SIĘ DLA KIERUNKU INŻYNIERIA DANYCH W ODNIESIENIU DO EFEKTÓW UCZENIA SIĘ PRK POZIOM 6

EFEKTY UCZENIA SIĘ DLA KIERUNKU INŻYNIERIA DANYCH W ODNIESIENIU DO EFEKTÓW UCZENIA SIĘ PRK POZIOM 6 EFEKTY UCZENIA SIĘ DLA KIERUNKU INŻYNIERIA DANYCH W ODNIESIENIU DO EFEKTÓW UCZENIA SIĘ PRK POZIOM 6 studia pierwszego stopnia o profilu ogólnoakademickim Symbol K_W01 Po ukończeniu studiów pierwszego stopnia

Bardziej szczegółowo

Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym

Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym konceptualnym modelem danych jest tzw. model związków encji (ERM

Bardziej szczegółowo

Wzorcowe efekty kształcenia dla kierunku studiów biotechnologia studia pierwszego stopnia profil ogólnoakademicki

Wzorcowe efekty kształcenia dla kierunku studiów biotechnologia studia pierwszego stopnia profil ogólnoakademicki Załącznik nr 2 do Uchwały Rady Wydziału Biochemii, Biofizyki i Biotechnologii UJ z dnia 19 czerwca 2018 r. w sprawie programu i planu studiów na kierunku BIOTECHNOLOGIA na poziomie studiów pierwszego stopnia

Bardziej szczegółowo

Spis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08

Spis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08 Spis treści Wstęp.............................................................. 7 Część I Podstawy analizy i modelowania systemów 1. Charakterystyka systemów informacyjnych....................... 13 1.1.

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Program Obliczeń Wielkich Wyzwań Nauki i Techniki (POWIEW)

Program Obliczeń Wielkich Wyzwań Nauki i Techniki (POWIEW) Program Obliczeń Wielkich Wyzwań Nauki i Techniki (POWIEW) Maciej Cytowski, Maciej Filocha, Maciej E. Marchwiany, Maciej Szpindler Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego

Bardziej szczegółowo

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO Bogumil Konopka 1, Jean-Christophe Nebel 2, Malgorzata Kotulska 1 * 1 Politechnika

Bardziej szczegółowo

Podsumowanie wyników ankiety

Podsumowanie wyników ankiety SPRAWOZDANIE Kierunkowego Zespołu ds. Programów Kształcenia dla kierunku Informatyka dotyczące ankiet samooceny osiągnięcia przez absolwentów kierunkowych efektów kształcenia po ukończeniu studiów w roku

Bardziej szczegółowo

Usługa: Testowanie wydajności oprogramowania

Usługa: Testowanie wydajności oprogramowania Usługa: Testowanie wydajności oprogramowania testerzy.pl przeprowadzają kompleksowe testowanie wydajności różnych systemów informatycznych. Testowanie wydajności to próba obciążenia serwera, bazy danych

Bardziej szczegółowo

Krystalografia. Analiza wyników rentgenowskiej analizy strukturalnej i sposób ich prezentacji

Krystalografia. Analiza wyników rentgenowskiej analizy strukturalnej i sposób ich prezentacji Krystalografia Analiza wyników rentgenowskiej analizy strukturalnej i sposób ich prezentacji Opis geometrii Symetria: kryształu: grupa przestrzenna cząsteczki: grupa punktowa Parametry geometryczne współrzędne

Bardziej szczegółowo

Zagadnienia (1/3) Data-flow diagramy przepływów danych ERD diagramy związków encji Diagramy obiektowe w UML (ang. Unified Modeling Language)

Zagadnienia (1/3) Data-flow diagramy przepływów danych ERD diagramy związków encji Diagramy obiektowe w UML (ang. Unified Modeling Language) Zagadnienia (1/3) Rola modelu systemu w procesie analizy wymagań (inżynierii wymagań) Prezentacja różnego rodzaju informacji o systemie w zależności od rodzaju modelu. Budowanie pełnego obrazu systemu

Bardziej szczegółowo

Wykład Ćwiczenia Laboratorium Projekt Seminarium

Wykład Ćwiczenia Laboratorium Projekt Seminarium WYDZIAŁ ELEKTRONIKI KARTA PRZEDMIOTU Nazwa w języku polskim Języki programowania Nazwa w języku angielskim Programming languages Kierunek studiów (jeśli dotyczy): Informatyka - INF Specjalność (jeśli dotyczy):

Bardziej szczegółowo

Tom 6 Opis oprogramowania

Tom 6 Opis oprogramowania Część 4 Narzędzie do wyliczania wielkości oraz wartości parametrów stanu Diagnostyka stanu nawierzchni - DSN Generalna Dyrekcja Dróg Krajowych i Autostrad Warszawa, 30 maja 2012 Historia dokumentu Nazwa

Bardziej szczegółowo

Bioinformatyka wykład 3.I.2008

Bioinformatyka wykład 3.I.2008 Bioinformatyka wykład 3.I.2008 Białkowa bioinformatyka strukturalna c.d. krzysztof_pawlowski@sggw.pl 2008-01-03 1 Plan wykładu analiza i porównywanie struktur białek. doświadczalne metody badania struktur

Bardziej szczegółowo

Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1.

Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1. Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1. Grażyna Koba MIGRA 2019 Spis treści (propozycja na 2*32 = 64 godziny lekcyjne) Moduł A. Wokół komputera i sieci komputerowych

Bardziej szczegółowo

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology

Bardziej szczegółowo

Optymalizacja optymalizacji

Optymalizacja optymalizacji 7 maja 2008 Wstęp Optymalizacja lokalna Optymalizacja globalna Algorytmy genetyczne Badane czasteczki Wykorzystane oprogramowanie (Algorytm genetyczny) 2 Sieć neuronowa Pochodne met-enkefaliny Optymalizacja

Bardziej szczegółowo

Algorytmy i Struktury Danych

Algorytmy i Struktury Danych POLITECHNIKA KRAKOWSKA - WIEiK KATEDRA AUTOMATYKI i TECHNIK INFORMACYJNYCH Algorytmy i Struktury Danych www.pk.edu.pl/~zk/aisd_hp.html Wykładowca: dr inż. Zbigniew Kokosiński zk@pk.edu.pl Wykład 12: Wstęp

Bardziej szczegółowo

REFERAT PRACY DYPLOMOWEJ

REFERAT PRACY DYPLOMOWEJ REFERAT PRACY DYPLOMOWEJ Temat pracy: Projekt i implementacja środowiska do automatyzacji przeprowadzania testów aplikacji internetowych w oparciu o metodykę Behavior Driven Development. Autor: Stepowany

Bardziej szczegółowo

W poszukiwaniu sensu w świecie widzialnym

W poszukiwaniu sensu w świecie widzialnym W poszukiwaniu sensu w świecie widzialnym Andrzej Śluzek Nanyang Technological University Singapore Uniwersytet Mikołaja Kopernika Toruń AGH, Kraków, 28 maja 2010 1 Podziękowania Przedstawione wyniki powstały

Bardziej szczegółowo

!!!!!!!!!!! PORTFOLIO: Analiza zachowań użytkowników serwisów internetowych. Autorzy: Marek Zachara

!!!!!!!!!!! PORTFOLIO: Analiza zachowań użytkowników serwisów internetowych. Autorzy: Marek Zachara PORTFOLIO: Analiza zachowań użytkowników serwisów internetowych Autorzy: Marek Zachara Opis merytoryczny Cel naukowy (jaki problem wnioskodawca podejmuje się rozwiązać, co jest jego istotą, co uzasadnia

Bardziej szczegółowo

Recenzja pracy doktorskiej mgr Tomasza Świsłockiego pt. Wpływ oddziaływań dipolowych na własności spinorowego kondensatu rubidowego

Recenzja pracy doktorskiej mgr Tomasza Świsłockiego pt. Wpływ oddziaływań dipolowych na własności spinorowego kondensatu rubidowego Prof. dr hab. Jan Mostowski Instytut Fizyki PAN Warszawa Warszawa, 15 listopada 2010 r. Recenzja pracy doktorskiej mgr Tomasza Świsłockiego pt. Wpływ oddziaływań dipolowych na własności spinorowego kondensatu

Bardziej szczegółowo

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji. Bioinformatyka Ocena wiarygodności dopasowania sekwencji www.michalbereta.pl Załóżmy, że mamy dwie sekwencje, które chcemy dopasować i dodatkowo ocenić wiarygodność tego dopasowania. Interesujące nas pytanie

Bardziej szczegółowo

Kierunkowe efekty kształcenia (wiedza, umiejętności, kompetencje) Kierunek Informatyka

Kierunkowe efekty kształcenia (wiedza, umiejętności, kompetencje) Kierunek Informatyka Załącznik 2 Opis kierunkowych efektów kształcenia w odniesieniu do efektów w obszarze kształcenia nauk ścisłych profil ogólnoakademicki Kierunek informatyka, I stopień tryb stacjonarny. Oznaczenia efektów

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

Przygotowanie kilku wersji kodu zgodnie z wymogami wersji zadania,

Przygotowanie kilku wersji kodu zgodnie z wymogami wersji zadania, Przetwarzanie równoległe PROJEKT OMP i CUDA Temat projektu dotyczy analizy efektywności przetwarzania równoległego realizowanego przy użyciu komputera równoległego z procesorem wielordzeniowym z pamięcią

Bardziej szczegółowo

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.

Bardziej szczegółowo

WPROWADZENIE DO UML-a

WPROWADZENIE DO UML-a WPROWADZENIE DO UML-a Maciej Patan Instytut Sterowania i Systemów Informatycznych Dlaczego modelujemy... tworzenie metodologii rozwiązywania problemów, eksploracja różnorakich rozwiązań na drodze eksperymentalnej,

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

Pojęcie bazy danych. Funkcje i możliwości.

Pojęcie bazy danych. Funkcje i możliwości. Pojęcie bazy danych. Funkcje i możliwości. Pojęcie bazy danych Baza danych to: zbiór informacji zapisanych według ściśle określonych reguł, w strukturach odpowiadających założonemu modelowi danych, zbiór

Bardziej szczegółowo

Moduły kształcenia. Efekty kształcenia dla programu kształcenia (kierunku) MK_06 Krystalochemia. MK_01 Chemia fizyczna i jądrowa

Moduły kształcenia. Efekty kształcenia dla programu kształcenia (kierunku) MK_06 Krystalochemia. MK_01 Chemia fizyczna i jądrowa Matryca efektów kształcenia określa relacje między efektami kształcenia zdefiniowanymi dla programu kształcenia (efektami kierunkowymi) i efektami kształcenia zdefiniowanymi dla poszczególnych modułów

Bardziej szczegółowo

Analiza efektywności przetwarzania współbieżnego. Wykład: Przetwarzanie Równoległe Politechnika Poznańska Rafał Walkowiak Grudzień 2015

Analiza efektywności przetwarzania współbieżnego. Wykład: Przetwarzanie Równoległe Politechnika Poznańska Rafał Walkowiak Grudzień 2015 Analiza efektywności przetwarzania współbieżnego Wykład: Przetwarzanie Równoległe Politechnika Poznańska Rafał Walkowiak Grudzień 2015 Źródła kosztów przetwarzania współbieżnego interakcje między procesami

Bardziej szczegółowo

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych) Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych) Funkcja uwikłana (równanie nieliniowe) jest to funkcja, która nie jest przedstawiona jawnym przepisem, wzorem wyrażającym zależność wartości

Bardziej szczegółowo

Program MC. Obliczyć radialną funkcję korelacji. Zrobić jej wykres. Odczytać z wykresu wartość radialnej funkcji korelacji w punkcie r=

Program MC. Obliczyć radialną funkcję korelacji. Zrobić jej wykres. Odczytać z wykresu wartość radialnej funkcji korelacji w punkcie r= Program MC Napisać program symulujący twarde kule w zespole kanonicznym. Dla N > 100 twardych kul. Gęstość liczbowa 0.1 < N/V < 0.4. Zrobić obliczenia dla 2,3 różnych wartości gęstości. Obliczyć radialną

Bardziej szczegółowo

Opracowanie systemu monitorowania zmian cen na rynku nieruchomości

Opracowanie systemu monitorowania zmian cen na rynku nieruchomości Opracowanie systemu monitorowania zmian cen na rynku nieruchomości Ogólne założenia planowanego projektu Firma planuje realizację projektu związanego z uruchomieniem usługi, która będzie polegała na monitorowaniu

Bardziej szczegółowo

RECENZJA rozprawy doktorskiej Mgr inż. Macieja Antczaka pt. Algorytmiczne aspekty modelowania i ewaluacji biomolekuł

RECENZJA rozprawy doktorskiej Mgr inż. Macieja Antczaka pt. Algorytmiczne aspekty modelowania i ewaluacji biomolekuł Data: Toruń, 20 kwietnia, 2013 L. Dz. Prof. dr hab. Wiesław Nowak Zespół Teoretycznej Biofizyki Molekularnej Instytut Fizyki Uniwersytetu M. Kopernika w Toruniu Wydział Fizyki, Astronomii i Informatyki

Bardziej szczegółowo

Zaawansowane programowanie w języku C++

Zaawansowane programowanie w języku C++ Kod szkolenia: Tytuł szkolenia: C/ADV Zaawansowane programowanie w języku C++ Dni: 3 Opis: Uczestnicy szkolenia zapoznają się z metodami wytwarzania oprogramowania z użyciem zaawansowanych mechanizmów

Bardziej szczegółowo

Podstawy programowania III WYKŁAD 4

Podstawy programowania III WYKŁAD 4 Podstawy programowania III WYKŁAD 4 Jan Kazimirski 1 Podstawy UML-a 2 UML UML Unified Modeling Language formalny język modelowania systemu informatycznego. Aktualna wersja 2.3 Stosuje paradygmat obiektowy.

Bardziej szczegółowo

Zagadnienia egzaminacyjne INFORMATYKA. Stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ

Zagadnienia egzaminacyjne INFORMATYKA. Stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ (INT) Inżynieria internetowa 1. Tryby komunikacji między procesami w standardzie Message Passing Interface 2. HTML DOM i XHTML cel i charakterystyka 3. Asynchroniczna komunikacja serwerem HTTP w technologii

Bardziej szczegółowo

Zarządzanie pamięcią w systemie operacyjnym

Zarządzanie pamięcią w systemie operacyjnym Zarządzanie pamięcią w systemie operacyjnym Cele: przydział zasobów pamięciowych wykonywanym programom, zapewnienie bezpieczeństwa wykonywanych procesów (ochrona pamięci), efektywne wykorzystanie dostępnej

Bardziej szczegółowo

Tom 6 Opis oprogramowania

Tom 6 Opis oprogramowania Część 9 Narzędzie do wyliczania wskaźników statystycznych Diagnostyka Stanu Nawierzchni - DSN Generalna Dyrekcja Dróg Krajowych i Autostrad Warszawa, 31 maja 2012 Historia dokumentu Nazwa dokumentu Nazwa

Bardziej szczegółowo

System zarządzający grami programistycznymi Meridius

System zarządzający grami programistycznymi Meridius System zarządzający grami programistycznymi Meridius Instytut Informatyki, Uniwersytet Wrocławski 20 września 2011 Promotor: prof. Krzysztof Loryś Gry komputerowe a programistyczne Gry komputerowe Z punktu

Bardziej szczegółowo

Tom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania

Tom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli Diagnostyka stanu nawierzchni - DSN Generalna Dyrekcja Dróg Krajowych i Autostrad Warszawa, 21 maja 2012 Historia dokumentu

Bardziej szczegółowo

Projekt: Współpraca i Rozwój wzrost potencjału firm klastra INTERIZON

Projekt: Współpraca i Rozwój wzrost potencjału firm klastra INTERIZON Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego Projekt: Współpraca i Rozwój wzrost potencjału firm klastra INTERIZON Opis szkoleń z obszaru INFORMATYKA planowanych

Bardziej szczegółowo

Aerotriangulacja. 1. Aerotriangulacja z niezależnych wiązek. 2. Aerotriangulacja z niezależnych modeli

Aerotriangulacja. 1. Aerotriangulacja z niezależnych wiązek. 2. Aerotriangulacja z niezależnych modeli Aerotriangulacja 1. Aerotriangulacja z niezależnych wiązek 2. Aerotriangulacja z niezależnych modeli Definicja: Cel: Kameralne zagęszczenie osnowy fotogrametrycznej + wyznaczenie elementów orientacji zewnętrznej

Bardziej szczegółowo

Praktyczne aspekty stosowania metody punktów funkcyjnych COSMIC. Jarosław Świerczek

Praktyczne aspekty stosowania metody punktów funkcyjnych COSMIC. Jarosław Świerczek Praktyczne aspekty stosowania metody punktów funkcyjnych COSMIC Jarosław Świerczek Punkty funkcyjne Punkt funkcyjny to metryka złożoności oprogramowania wyznaczana w oparciu o określające to oprogramowanie

Bardziej szczegółowo

Funkcje systemu infokadra

Funkcje systemu infokadra System Informacji Zarządczej - infokadra jest rozwiązaniem skierowanym dla kadry zarządzającej w obszarze administracji publicznej. Jest przyjaznym i łatwym w użyciu narzędziem analityczno-raportowym,

Bardziej szczegółowo

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot

Bardziej szczegółowo

Kurs programowania. Wykład 12. Wojciech Macyna. 7 czerwca 2017

Kurs programowania. Wykład 12. Wojciech Macyna. 7 czerwca 2017 Wykład 12 7 czerwca 2017 Czym jest UML? UML składa się z dwóch podstawowych elementów: notacja: elementy graficzne, składnia języka modelowania, metamodel: definicje pojęć języka i powiazania pomiędzy

Bardziej szczegółowo

A. Arkusz standardowy GM-A1, B1, C1 oraz arkusze przystosowane: GM-A4, GM-A5, GM-A6 1.

A. Arkusz standardowy GM-A1, B1, C1 oraz arkusze przystosowane: GM-A4, GM-A5, GM-A6 1. GM Charakterystyka arkuszy egzaminacyjnych A. Arkusz standardowy GM-A1, B1, C1 oraz arkusze przystosowane: GM-A4, GM-A5, GM-A6 1. Zestaw egzaminacyjny z zakresu przedmiotów matematyczno-przyrodniczych

Bardziej szczegółowo

Modelowanie i analiza systemów informatycznych

Modelowanie i analiza systemów informatycznych Modelowanie i analiza systemów informatycznych MBSE/SysML Wykład 11 SYSMOD Wykorzystane materiały Budapest University of Technology and Economics, Department of Measurement and InformaJon Systems: The

Bardziej szczegółowo

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych - Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,

Bardziej szczegółowo

B3.5 Koncentracja. Raport pochodzi z portalu

B3.5 Koncentracja. Raport pochodzi z portalu B3.5 Koncentracja System PIK umożliwia wyznaczanie potencjału gospodarczego regionu z wykorzystaniem wskaźników lokacji i wskaźników przesunięć. Jest to dalszy logiczny krok analizy zaraz po modułach B3.1

Bardziej szczegółowo

TECHNOLOGIE OBIEKTOWE WYKŁAD 2. Anna Mroczek

TECHNOLOGIE OBIEKTOWE WYKŁAD 2. Anna Mroczek TECHNOLOGIE OBIEKTOWE WYKŁAD 2 Anna Mroczek 2 Diagram czynności Czym jest diagram czynności? 3 Diagram czynności (tak jak to definiuje język UML), stanowi graficzną reprezentację przepływu kontroli. 4

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

Opis efektów uczenia się dla kwalifikacji na poziomie 7 Polskiej Ramy Kwalifikacji

Opis efektów uczenia się dla kwalifikacji na poziomie 7 Polskiej Ramy Kwalifikacji Załącznik nr 2 do Uchwały nr 103/2018-2019 Senatu UP w Lublinie z dnia 28 czerwca 2019 r. Opis efektów uczenia się dla kierunku studiów Nazwa kierunku studiów: Biologia Poziom: studia drugiego stopnia

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Bioinformatyka wykład 11, 11.I.2011 Białkowa bioinformatyka strukturalna c.d.

Bioinformatyka wykład 11, 11.I.2011 Białkowa bioinformatyka strukturalna c.d. Bioinformatyka wykład 11, 11.I.2011 Białkowa bioinformatyka strukturalna c.d. krzysztof_pawlowski@sggw.pl 11.01.11 1 Dopasowanie strukturalne (alignment) odległość: d ij = (x i -x J ) 2 + (y i -y J ) 2

Bardziej szczegółowo

2. Struktura programu MotorSolve. Paweł Witczak, Instytut Mechatroniki i Systemów Informatycznych PŁ

2. Struktura programu MotorSolve. Paweł Witczak, Instytut Mechatroniki i Systemów Informatycznych PŁ 2. Struktura programu MotorSolve Zakres zastosowań Program MotorSolve pozwala na projektowanie 3 rodzajów silników prądu przemiennego: synchronicznych wzbudzanych magnesami trwałymi lub elektromagnetycznie,

Bardziej szczegółowo

Dokowanie molekularne. Karol Kamel Uniwersytet Warszawski

Dokowanie molekularne. Karol Kamel Uniwersytet Warszawski molekularne Wstęp Dokowanie metoda modelowania molekularnego, pozwalająca na znalezienie położenia (i konformacji) liganda w miejscu wiążącym receptora. Informacja ta pozwala na ocenę energii swobodnej

Bardziej szczegółowo

Recenzja. Warszawa, dnia 22 października 2018 r.

Recenzja. Warszawa, dnia 22 października 2018 r. Warszawa, dnia 22 października 2018 r. Dr hab. Sebastian Kmiecik Wydział Chemii, Centrum Nauk Biologiczno-Chemicznych, Uniwersytet Warszawski, Pasteura 1, Warszawa email: sekmi@chem.uw.edu.pl Recenzja

Bardziej szczegółowo

Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy

Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy Wykorzystane materiały: Zadanie W dalszej części prezentacji będzie omawiane zagadnienie rozpoznawania twarzy Problem ten można jednak uogólnić

Bardziej szczegółowo

MODELOWANIE SIECI DYSTRYBUCYJNEJ DO OBLICZEŃ STRAT ENERGII WSPOMAGANE SYSTEMEM ZARZĄDZANIA MAJĄTKIEM SIECIOWYM

MODELOWANIE SIECI DYSTRYBUCYJNEJ DO OBLICZEŃ STRAT ENERGII WSPOMAGANE SYSTEMEM ZARZĄDZANIA MAJĄTKIEM SIECIOWYM Katedra Systemów, Sieci i Urządzeń Elektrycznych MODELOWANIE SIECI DYSTRYBUCYJNEJ DO OBLICZEŃ STRAT ENERGII Dariusz Jeziorny, Daniel Nowak TAURON Dystrybucja S. A. Barbara Kaszowska, Andrzej Włóczyk Politechnika

Bardziej szczegółowo

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott Struktury danych i złożoność obliczeniowa Wykład 7 Prof. dr hab. inż. Jan Magott Problemy NP-zupełne Transformacją wielomianową problemu π 2 do problemu π 1 (π 2 π 1 ) jest funkcja f: D π2 D π1 spełniająca

Bardziej szczegółowo

Obliczenia osiągów dyszy aerospike przy użyciu pakietu FLUENT Michał Folusiaak

Obliczenia osiągów dyszy aerospike przy użyciu pakietu FLUENT Michał Folusiaak Obliczenia osiągów dyszy aerospike przy użyciu pakietu FLUENT Michał Folusiaak WSTĘP Celem przeprowadzonych analiz numerycznych było rozpoznanie możliwości wykorzystania komercyjnego pakietu obliczeniowego

Bardziej szczegółowo

Definicje. Algorytm to:

Definicje. Algorytm to: Algorytmy Definicje Algorytm to: skończony ciąg operacji na obiektach, ze ściśle ustalonym porządkiem wykonania, dający możliwość realizacji zadania określonej klasy pewien ciąg czynności, który prowadzi

Bardziej szczegółowo

SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD

SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD Dr inż. Jacek WARCHULSKI Dr inż. Marcin WARCHULSKI Mgr inż. Witold BUŻANTOWICZ Wojskowa Akademia Techniczna SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD Streszczenie: W referacie przedstawiono możliwości

Bardziej szczegółowo

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 6 SYSTEMY ROZMYTE TYPU MAMDANIEGO

Bardziej szczegółowo

tel. (+4861) fax. (+4861)

tel. (+4861) fax. (+4861) dr hab. inż. Michał Nowak prof. PP Politechnika Poznańska, Instytut Silników Spalinowych i Transportu Zakład Inżynierii Wirtualnej ul. Piotrowo 3 60-965 Poznań tel. (+4861) 665-2041 fax. (+4861) 665-2618

Bardziej szczegółowo

Metody badań w naukach ekonomicznych

Metody badań w naukach ekonomicznych Metody badań w naukach ekonomicznych Tomasz Poskrobko Metodyka badań naukowych Metody badań ilościowe jakościowe eksperymentalne Metody badań ilościowe jakościowe eksperymentalne Metody ilościowe metody

Bardziej szczegółowo