Metody teoretyczne przewidywania struktury białek oraz ich kompleksów z peptydami

Wielkość: px
Rozpocząć pokaz od strony:

Download "Metody teoretyczne przewidywania struktury białek oraz ich kompleksów z peptydami"

Transkrypt

1 Maciej Błaszczyk Metody teoretyczne przewidywania struktury białek oraz ich kompleksów z peptydami Praca doktorska wykonana w Pracowni Teorii Biopolimerów Wydziału Chemii Uniwersytetu Warszawskiego Promotor pracy: prof. dr hab. Andrzej Koliński Promotor pomocniczy: dr hab. Sebastian Kmiecik Warszawa, listopad 2015

2

3 Dziękuję moim Promotorom: profesorowi Andrzejowi Kolińskiemu i doktorowi habilitowanemu Sebastianowi Kmiecikowi za życzliwość, cierpliwość i wsparcie.

4

5 Pracę dedykuję mojej Żonie oraz dzieciom: Emilii, Róży, Janowi, Jerzemu i Jonatanowi. Jesteście najlepszą motywacją do działania i rozwoju.

6

7 SPIS TREŚCI Wyjaśnienie skrótów stosowanych w pracy WSTĘP CZĘŚĆ TEORETYCZNA Metody eksperymentalne wyznaczania struktury białek i ich ograniczenia Krystalografia rentgenowska Spektroskopia magnetycznego rezonansu jądrowego Ograniczenia metod eksperymentalnych Metody teoretyczne przewidywania struktury białek Metody porównawcze Przyrównania sekwencji Przewlekanie Modele gruboziarniste Model CABS Analiza wyników otrzymanych metodami gruboziarnistymi Analiza skupień Odbudowa reprezentacji pełnoatomowej Optymalizacja modeli WYNIKI PRAC BioShell Threader serwer internetowy do modelowania porównawczego Metoda Dane początkowe i strona wynikowa Wyniki Predykcja struktury przy użyciu modelu CABS Procedura Selekcja modeli początkowych Więzy odległości Modelowanie programem CABS Analiza skupień Rekonstrukcja modeli pełnoatomowych i ich optymalizacja Ocena modeli CABS-fold serwer do przewidywania struktury trzeciorzędowej białek Dane początkowe Dane wyjściowe...48

8 Wyniki Eksperyment CASP CASP9 analiza wyników eksperymentu CASP9 przykłady Modelowanie de-novo Dynamika stanów okołonatywnych CABS-dock serwer do przewidywania struktury kompleksów białek z peptydami PODSUMOWANIE I WNIOSKI BIBLIOGRAFIA PRACE STANOWIĄCE PODSTAWĘ ROZPRAWY Praca 1 (P1) Praca 2 (P2) Praca 3 (P3) Praca 4 (P4) Praca 5 (P5) Praca 6 (P6) Praca 7 (P7) Praca 8 (P8) Praca 9 (P9) Praca 10 (P10) Praca 11 (P11)

9 Wyjaśnienie skrótów stosowanych w pracy Å Angstrem; jednostka długości równa m BBQ ang. Backbone Building from Quadrilaterals; algorytm służący do rekonstrukcji łańcucha głównego białka na podstawie położeń atomów Cα BLAST ang. Basic Local Alignment Search Tool; algorytm pozwalający na przyrównywanie sekwencji aminokwasów białek lub nukleotydów DNA BLOSUM ang. BLOcks SUbstitution Matrix; rodzaj macierzy podstawień używanej do przyrównywania sekwencji aminokwasowych CABS akronim od ang. nazw pseudoatomów reprezentujących strukturę białka w modelu: C-Alpha, C-Beta, Side Chain; gruboziarnisty model siatkowy służący do modelowania białek CASP ang. Critical Assessment of Techniques for Protein Structure Prediction; odbywający się co dwa lata eksperyment pozwalający na zbadanie i porównanie skuteczności metod służących do przewidywania struktury białek FASTA format służący do zapisu sekwencji białek i kwasów nukleinowych; także program do przyrównywania sekwencji FM ang. Free Modeling (modelowanie bez użycia szablonów) HMM ang. Hidden Markov Models (ukryte modele Markova) GDT_TS ang. Global Distance Test Total Score; miara używana do oceny podobieństwa strukturalnego struktur białkowych o identycznych sekwencjach aminokwasowych, podstawowa miara używana do oceny jakości modeli w ramach konkursu CASP. Miara zdefiniowana jest jako: GDT_TS=(P1+P2+P4+P8)/4 gdzie: Pn oznacza procent atomów (w przypadku tej pracy jedynie Cα) w ocenianej strukturze odległych o nie więcej niż nå od odpowiadających im atomów w strukturze referencyjnej (po optymalnym nałożeniu struktur) GDT_HA ang. Global Distance Test High Accuraccy; miara używana do oceny podobieństwa strukturalnego modeli białkowych o identycznych sekwencjach aminokwasowych, opracowana z myślą o modelach o wysokiej dokładności; miara używana do oceny jakości modeli w kategorii optymalizacji struktur (TR) w ramach konkursu CASP.

10 Miara zdefiniowana jest jako: GDT_HA = (P0,5+P1+P2+P4)/4 gdzie: Pn oznacza procent atomów (w przypadku tej pracy jedynie Cα) w ocenianej strukturze odległych o nie więcej niż nå od odpowiadających im atomów w strukturze referencyjnej (po optymalnym nałożeniu struktur) LTB ang. Laboratory of Theory of Biopolymers; Pracownia Teorii Biopolimerów, a także nazwa grupy Autora, która wzięła udział w eksperymencie CASP9 MC metoda Monte Carlo MD ang. Molecular Dynamics (dynamika molekularna) MSA ang. Multiple Sequence Alignment (metody przyrównania wielu sekwencji) MQAP ang. Model Quality Assessment Program (program do oceny jakości struktur białkowych) NMR ang. Nuclear Magnetic Resonance (spektroskopia magnetycznego rezonansu jądrowego) PDB ang. Protein Data Bank; baza danych zawierająca struktury białkowe; także format pliku stosowany do zapisu danych (w tym współrzędnych atomów) dotyczących struktur białkowych PSI-BLAST ang. Position-Specific Iterative Basic Local Alignment Search Tool; program oparty na algorytmie BLAST wykorzystujący profile sekwencyjne REMC ang. Replica Exchange Monte Carlo (metoda wymiany replik Monte Carlo) RMSD ang. Root Mean Square Deviation (średnie odchylenie kwadratowe); miara używana do oceny podobieństwa struktur białkowych. RMSD obliczany jest w następujący sposób: n RMSD = 1 N d i 2 gdzie: N jest liczbą odpowiadających sobie atomów (w przypadku tej pracy jedynie Cα), a d i odległością między nimi (po optymalnym nałożeniu struktur) ROC ang. Receiver Operating Characteristic; krzywa pozwalająca na ocenę działania klasyfikatorów SAXS ang. Small Angle X- Ray Scattering (małokątowe rozpraszanie promieniowania rentgenowskiego) i=1 10

11 SCOP ang. Structural Classification of Proteins; baza danych klasyfikacji znanych struktur białkowych SCWRL program do odbudowy grup bocznych na podstawie modelu zawierającego łańcuch główny TBM ang. Template Based Modeling (modelowanie z użyciem szablonów) TR ang. Target Refinement; optymalizacja struktur, jedna z dyscyplin w ramach CASP TS ang. Tertiary Structure Prediction (przewidywanie struktur białkowych); podstawowa dyscyplina w ramach CASP UniProt ang. Universal Protein Resource; baza sekwencji białkowych 11

12

13 1. WSTĘP Zrozumienie funkcji białek na poziomie molekularnym wymaga poznania ich przestrzennej struktury. Struktura białka jest natomiast zdeterminowana przez jego sekwencję aminokwasową oraz jego otoczenie. Istnieje ponadto sprzężenie zwrotne sekwencja białek jest modyfikowana w toku ewolucji, tak aby białko mogło lepiej pełnić określone funkcje. Zależności te zaprezentowano schematycznie na rysunku 1. Rysunek 1. Ilustracja zależności: sekwencja struktura funkcja białka Poznanie struktury przestrzennej białek ma kluczowe znaczenie dla badań nad nowymi metodami terapii różnych chorób. Dokładne modele mogą pomóc w powstaniu nowych leków, które poprzez oddziaływanie z białkami wywołują określony efekt terapeutyczny (Service 2008). Uważa się na przykład, że konsekwencją niewłaściwego uformowania struktury białkowej jest wiele poważnych schorzeń, takich jak choroby Alzheimera czy Creutzfeldta-Jakoba. Zrozumienie, jaki jest mechanizm zwijania białek, może doprowadzić do znalezienia przyczyny nieprawidłowego formowania ich struktury a także wskazać rozwiązania tego problemu.

14 Przedmiotem niniejszej pracy jest przede wszystkim opracowanie nowych metod przewidywania zależności pomiędzy sekwencją a strukturą białek. Wedle hipotezy Anfinsena sekwencja białka (przynajmniej dla małych białek globularnych) jednoznacznie determinuje jego strukturę 1 (Anfinsen 1973). Anfinsen stwierdził, że struktura natywna odpowiada zazwyczaj minimum energii swobodnej układu, w którym znajduje się białko. Jednakże ze względu na duży rozmiar cząsteczki białka znalezienie takiego minimum nie jest łatwe. Ponad 45 lat temu Levinthal sformułował słynny paradoks: wykazał, że nawet w przypadku małego białka proces poszukiwania przestrzeni konformacyjnej poprzez losowe sprawdzenie możliwych konformacji zająłby więcej czasu niż wiek wszechświata (Levinthal 1969). Dodatkowo zagadnienia odnajdywania minimum energii swobodnej nie ułatwia fakt, że różnice energii pomiędzy konformacją rozwiniętą a strukturą natywną są bardzo małe: odpowiadają zazwyczaj energii zaledwie kilku wiązań wodorowych (Fersht i Daggett 2002). Białko w stanie zdenaturowanym posiada bowiem więcej kontaktów z cząsteczkami rozpuszczalnika niż białko w stanie natywnym, co niemalże kompensuje dodatkowe oddziaływania wewnątrzcząsteczkowe formy zwiniętej. Metody przewidywania struktury trzeciorzędowej białek muszą zatem sprostać dwóm trudnym do jednoczesnego spełnienia wymaganiom: z jednej strony mierzyć się z olbrzymią przestrzenią konformacyjną, z drugiej zaś być czułe na niewielkie różnice energetyczne. Wydaje się, że kompromisowym rozwiązaniem tego problemu są metody gruboziarniste. Przykładem jest model CABS (Kolinski 2004), w którym ograniczenie liczby stopni swobody pozwala na wielokrotnie szybsze próbkowanie przestrzeni konformacyjnej. Natomiast dzięki zastosowaniu potencjałów statystycznych stworzonych na podstawie analizy regularności strukturalnych obserwowanych w poznanych zwojach białek możliwe jest stworzenie stosunkowo dokładnej miary pozwalającej na porównywanie energii otrzymywanych konformacji. Przewidywanie struktury białek nie byłoby w większości przypadków możliwe jedynie na podstawie ich sekwencji. Na szczęście okazuje się, że w toku ewolucji struktura przestrzenna białek o podobnej sekwencji jest stosunkowo silnie zachowywana. 1 Wyjątek stanowią np. białka pozbawione struktury trzeciorzędowej (ang. intrinsically disordered proteins). 14

15 Stanowi to podstawę teoretyczną tak zwanego modelowania porównawczego. Pierwszym krokiem wszystkich metod modelowania porównawczego jest więc poszukiwanie podobnego sekwencyjnie (czasem to podobieństwo może być bardzo małe) szablonu czyli białka o znanej strukturze, prawdopodobnie zbliżonej do modelowanej. Jak pokazano na rysunku 1 znajomość struktury białka otwiera drogę do poznania jego funkcji, która jest często związana z tworzeniem kompleksów białek z innymi cząsteczkami. Do takich cząsteczek należą peptydy, których oddziaływania z białkami są obecnie w centrum zainteresowania wielu badań biomedycznych i przemysłu farmaceutycznego (Fosgerau i Hoffmann 2015). Celem niniejszej pracy było opracowanie ogólnodostępnych, łatwych w użyciu narzędzi modelowania molekularnego pozwalających na przewidywanie struktury przestrzennej białek oraz kompleksów białek z peptydami. Opracowane narzędzia do przewidywania struktury białek umożliwiają modelowanie w oparciu wyłącznie o sekwencję aminokwasową modelowanego białka, a także wykorzystanie dodatkowych informacji o jego strukturze (np. alternatywnych modeli pochodzących z innych metod czy fragmentarycznych danych doświadczalnych). Opracowana metoda do przewidywania struktury kompleksów białek z peptydami pozwala na dokowanie molekularne peptydów z uwzględnieniem pełnej giętkości peptydu i umiarkowanej giętkości całej struktury receptora białkowego. Co ważne, wysoka wydajność metody pozwala na dokowanie bez konieczności posiadania wiedzy o miejscu wiązania peptydu. 15

16

17 2. CZĘŚĆ TEORETYCZNA 2.1. Metody eksperymentalne wyznaczania struktury białek i ich ograniczenia Spośród ponad 110 tysięcy struktur zdeponowanych w bazie PDB 2 (ang. Protein Data Bank) blisko 99% zostało wyznaczonych przy użyciu jednej z dwóch metod: spektroskopii rentgenowskiej lub spektroskopii NMR (magnetycznego rezonansu jądrowego, ang. Nuclear Magnetic Resonance) (rysunek 2). Tabela 1 przedstawia krótkie porównanie wymienionych technik uwzględniające zakres ich zastosowań oraz ograniczenia. Krystalografia rentgenowska (89,1%) NMR w roztworze (9,8%) Mikroskopia elektronowa (0,8%) Inne (0,3%) Rysunek 2. Metody eksperymentalne zastosowane do wyznaczenia struktur białek dostępnych w bazie PDB (dane z 6 listopada 2015 roku) 2 Za: dostęp: 6 listopada 2015 r.

18 Tabela 1. Porównanie dwóch głównych metod eksperymentalnych służących wyznaczaniu struktury białek Krystalografia rentgenowska Spektroskopia NMR Stan fizyczny próbki Rozmiar białka Czas badania Zalety metody Wady metody Forma krystaliczna Dowolny Długi czas przygotowania, szybka analiza danych Wysoka rozdzielczość Konieczność rozwiązywania problemu fazowego, trudności z przygotowaniem próbki, proces krystalizacji może zmieniać konformację badanej cząsteczki 18 Buforowany roztwór Ograniczony (do ok. 50 kda) Szybkie przygotowanie próbki, długi czas analizy otrzymywanych danych Stan w rozpuszczalniku jest bliższy naturalnemu, możliwość badania dynamiki Ograniczenia w wielkości badanych białek, problem z niestabilnością układu podczas badania Na podstawie: dostęp: 20 czerwca 2015 r Krystalografia rentgenowska Początki krystalografii rentgenowskiej datuje się na rok Wtedy to Max von Laue odkrył, że promieniowanie rentgenowskie ulega dyfrakcji na kryształach (za odkrycie to w 1914 roku przyznano mu nagrodę Nobla). W krystalografii rentgenowskiej na podstawie obrazów dyfrakcyjnych tworzone są mapy gęstości elektronowej, a następnie, dzięki analizie matematycznej (obecnie przy użyciu odpowiedniego oprogramowania), ustalana jest struktura badanej cząsteczki. Pierwszym białkiem, którego strukturę udało się rozwiązać przy użyciu metod krystalograficznych, była mioglobina kaszalota (Kendrew i inni 1958). Obecnie w bazie danych PDB znajduje się ponad 100 tysięcy struktur białek rozwiązanych przy użyciu krystalografii rentgenowskiej. Na popularność tej metody wpływ mają jej niewątpliwe zalety, wśród których wymienić należy przede wszystkim możliwość badania nawet bardzo dużych układów i stosunkowo wysoką dokładność otrzymywanych modeli strukturalnych. Metoda krystalograficzna posiada jednak pewne ograniczenia, związane przede wszystkim z koniecznością otrzymania dużych i nieposiadających defektów kryształów oraz z problemami z rozdzielczością map elektronowych. Mimo olbrzymich nakładów

19 pracy i prób automatyzacji procedury (Stevens i Wilson 2001) wyznaczanie struktury białek metodami krystalograficznymi jest wciąż czasochłonne i kosztowne Spektroskopia magnetycznego rezonansu jądrowego Prekursorami zastosowania metod NMR do rozwiązywania struktury białek byli Richard Ernst i Kurt Wüthrich (Kumar i inni 1981; Wuthrich i inni 1982). Spektroskopia NMR opiera się na magnetycznych właściwościach jąder o niezerowym spinie, które w polu magnetycznym absorbują rezonansowo promieniowanie elektromagnetyczne o częstościach radiowych (Bloch 1946; Bloembergen i inni 1947). Energia rezonansu zależna jest od otoczenia chemicznego jąder, dzięki czemu zarejestrowane widma pozwalają na uzyskanie parametrów dotyczących badanej cząsteczki, takich jak odległości pomiędzy atomami czy miary kątów dwuściennych. Są one następnie używane jako więzy do modelowania w celu otrzymania reprezentacji trójwymiarowej struktury cząsteczki (Markwick i inni 2008). Wraz ze wzrostem rozmiaru badanych cząsteczek interpretacja widm staje się jednak coraz trudniejsza (m.in. ze względu na nakładanie się sygnałów), dlatego wykorzystanie metod do większych białek (od ok aminokwasów) staje się problematyczne Ograniczenia metod eksperymentalnych W pracy porównującej struktury otrzymane przy użyciu różnych technik eksperymentalnych (Sikic i inni 2010) pokazano, że struktury uzyskane metodami krystalograficznymi mogą różnić się znacząco od tych uzyskanych metodami spektroskopii NMR (średnie odchylenie kwadratowe (RMSD) po najlepszym nałożeniu obu struktur wynosi ok. 2,0 Å). To zróżnicowanie struktur można uzasadnić w dwojaki sposób: błędami metod oraz ruchliwością białek w stanie natywnym. Metody krystalograficzne uważa się powszechnie za bardziej dokładne niż metody NMR, jednak nie są wolne od wad. Na przykład większość struktur krystalograficznych wyznaczana jest w warunkach kriogenicznych. Pokazano, że zamrażanie może wprowadzać błędy związane z upakowaniem atomów i prowadzić do powstania struktur znacząco różniących się od tych występujących w warunkach fizjologicznych (Eyal i inni 2005). 19

20 Struktury białek wyznaczane za pomocą spektroskopii NMR są określane za pomocą zestawu mniej lub bardziej różniących się modeli (najczęściej 20). Z tego powodu metody NMR są często wybierane do analizy dynamiki stanów bliskich strukturze natywnej (Markwick i inni 2008). Naukowcy nie są zgodni co do poziomu precyzji i dokładności metod NMR (Spronk i inni 2003). Niewątpliwie zależą one nie tylko od jakości zgromadzonych danych, ale także od zastosowanych metod obliczeniowych służących stworzeniu i wyborowi modeli przestrzennych odpowiadających danym eksperymentalnym. Ponadto, jak wskazano wyżej, wadą metod NMR jest spadek dokładności wyników wraz ze wzrostem rozmiarów badanych białek. Metody eksperymentalne pozwoliły na wyznaczenie około 110 tysięcy struktur białkowych. Liczba ta stanowi około 2 promile sekwencji białkowych dostępnych obecnie w bazie UniProt (Wu i inni 2006). Ta olbrzymia (i wciąż powiększająca się) dysproporcja wskazuje na konieczność rozwijania innych metod służących rozwiązywaniu struktur białek Metody teoretyczne przewidywania struktury białek Opisane wyżej ograniczenia i wysokie koszty metod eksperymentalnych stanowią dobrą motywację do rozwijania alternatywnych rozwiązań jakimi są metody teoretyczne przewidywania struktury. Metody te można podzielić na dwie główne grupy: metody wykorzystujące prawa fizyki i metody modelowania porównawczego. 3 Metody wykorzystujące prawa fizyki opierają się na hipotezie Anfinsena, że konformacja struktury natywnej białka odpowiada minimum energii swobodnej układu, w którym się ono znajduje. Niestety, ze względu na ogromną liczbę stopni swobody dużych cząsteczek, jakimi są białka, modelowanie procesu ich zwijania przy użyciu metod pełnoatomowych (np. dynamiki molekularnej) jest bardzo kosztowne obliczeniowo, a dla większości białek niemożliwe. Rozwiązaniem tego problemu jest zastosowanie pewnych uproszczeń modelowanych układów poprzez zastosowanie modeli gruboziarnistych. 3 Zaprezentowany tu podział ma charakter umowny. W praktyce wiele metod wykorzystuje zarówno prawa fizyki, jak i pewne dane pochodzące z obserwacji właściwości znanych struktur. Np. wiele metod gruboziarnistych wykorzystuje przewidzianą strukturę drugorzędową białek (otrzymaną przy użyciu metod porównawczych). 20

21 Drugą grupę metod stanowią metody modelowania porównawczego. Opierają się one na obserwacji, że w toku ewolucji struktura przestrzenna białek jest silniej zachowywana niż ich sekwencja aminokwasowa. Dzięki temu możliwe jest wykorzystanie wiedzy o białkach o znanej strukturze. W praktyce stosuje się najczęściej kombinację tych dwóch podejść (rysunek 3). Pierwszym etapem jest z reguły próba odnalezienia szablonów za pomocą metod porównawczych. Szablony te są zazwyczaj stosowane jako wzorce do modelowania metodami, które próbkują przestrzeń konformacyjną z wykorzystaniem praw fizyki. Rysunek 3. Typowy schemat procedury przewidywania struktury na podstawie sekwencji aminokwasowej. Sposób działania zależny jest od możliwości pozyskania dodatkowych danych ze źródeł takich jak bazy znanych struktur białek (przyrównania sekwencyjne i przewlekanie) czy z (najczęściej fragmentarycznych) danych eksperymentalnych dotyczących rozważanej sekwencji Poniższe podrozdziały stanowią krótką prezentację różnych podejść teoretycznych do przewidywania struktury białek Metody porównawcze Punktem wyjścia w metodach modelowania porównawczego jest sekwencja aminokwasowa białka o nieznanej jeszcze strukturze, czyli tzw. sekwencja celu. Podstawą modelowania porównawczego jest obserwacja, że w trakcie ewolucji struktury sekwencja aminokwasowa białek jest bardziej zmienna niż ich struktury przestrzenne (trójwymiarowe). Często nawet niewielkie podobieństwo sekwencyjne świadczy o znacznym podobieństwie strukturalnym białek (Rost 1999; Pearson 2013). Warto też zauważyć, że porównywanie sekwencji jest dużo prostszym zadaniem obliczeniowym niż porównywanie struktur. 21

22 Celem metod modelowania porównawczego jest: 1. identyfikacja szablonów, czyli białek o znanej strukturze, które potencjalnie wykazują podobieństwo strukturalne do białka o danej sekwencji celu; 2. przyrównanie (dopasowanie) sekwencji celu do sekwencji odnalezionego szablonu; 3. zbudowanie modelu białka na podstawie szablonu i jego przyrównania do sekwencji celu. Istnieje wiele metod modelowania porównawczego wykorzystujących różne sposoby poszukiwania podobieństwa sekwencyjno-strukturalnego: od różnorodnych metod przyrównujących sekwencje parami (Lipman i Pearson 1985; Altschul i inni 1990; Karplus 2009), poprzez takie, które przyrównują wiele sekwencji aminokwasowych (Lipman i inni 1989; Thompson i inni 1994; Notredame i inni 2000), aż po metody przewlekania (Godzik i inni 1992; Jones i inni 1992; Gniewek i inni 2014), które wykorzystują wiedzę na temat cech budowy przestrzennej Przyrównania sekwencji Jak wspomniano wcześniej, struktura białek jest w toku ewolucji zachowywana znacznie silniej niż jego sekwencja aminokwasowa. Powszechnie przyjmuje się, że podobieństwo dwóch sekwencji na poziomie 30% (mierzone odsetkiem identycznych aminokwasów) wskazuje na znaczne podobieństwo ich struktur, choć w wielu przypadkach struktury są podobne, gdy podobieństwo sekwencji jest znacznie niższe (Rost 1999; Pearson 2013). Stąd rozwój coraz bardziej czułych metod przyrównania sekwencji, które pozwalają na odnajdywanie podobieństw między sekwencjami. Najbardziej oczywistym podejściem jest przyrównywanie (najlepsze dopasowanie, ang. alignment) sekwencji parami. Sekwencje wyrazić można jako ciąg liter, z których każda odpowiada jednemu aminokwasowi. Przyrównanie sekwencji polega więc na porównaniu dwóch ciągów liter i próbie optymalnego ich dopasowania. Dla pojedynczej reszty możliwe są następujące przypadki: 1. znak z sekwencji szablonu jest taki sam jak odpowiadający mu znak z sekwencji celu (ewolucyjnie można interpretować to jako zakonserwowanie danej reszty); 2. danej reszcie zostaje przypisany inny aminokwas (substytucja); 3. zostaje wprowadzona przerwa w dopasowaniu (insercja lub delecja). Aby ocenić przyrównanie sekwencji wprowadza się ocenę punktową. Oczywiście najbardziej preferowany jest przypadek 1., kiedy reszty z sekwencji celu i szablonu są 22

23 identyczne. Ocena sytuacji opisanej w przypadku 2. zależy od pary rozważanych aminokwasów. Zamiany zachodzą zwykle pomiędzy aminokwasami o podobnych właściwościach fizykochemicznych. W celu liczbowej oceny dopasowania poszczególnych aminokwasów stworzone zostały tzw. macierze podstawień. Są to tablice o wymiarze 20 x 20 komórek, które zawierają punktową ocenę dla każdej z możliwych par aminokwasów. Istnieją dwa zasadnicze podejścia w tworzeniu takich macierzy. Pierwsze opiera się na właściwościach aminokwasów lub wymienności kodu genetycznego. Drugie, które w praktyce prowadzi do lepszych rezultatów, to podejście empiryczne. W podejściu tym wartości macierzy wyprowadzane są na podstawie przyrównań wysoce spokrewnionych sekwencji i obserwacji występujących substytucji. W ten sposób ocenia się prawdopodobieństwo poszczególnych zamian, które znajduje odzwierciedlenie w wartościach zamieszczonych w macierzach podstawień. Często stosowaną grupą macierzy, będącą przedstawicielem drugiego z opisywanych podejść, są macierze BLOSUM (ang. BLOcks SUbstitution Matrix) (Henikoff i Henikoff 1992). Macierze te zostały stworzone na podstawie dopasowania 2000 bloków przyrównań sekwencyjnych o długości mniejszej niż 60 aminokwasów reprezentujących 500 grup spokrewnionych białek. Poszczególne elementy macierzy obliczane są na podstawie częstości substytucji aminokwasów w ramach bloków, jako logarytm o podstawie 10 ilorazu obserwowanej substytucji określonej reszty i oczekiwanego prawdopodobieństwa jej wystąpienia. Otrzymane wartości są zaokrąglane do liczb całkowitych. Dodatnie wartości odpowiadają zatem substytucjom, których prawdopodobieństwo jest większe niż prawdopodobieństwo zdarzenia losowego, natomiast wartości ujemne substytucjom o niższym prawdopodobieństwie. Macierze z rodziny BLOSUM stworzone zostały dla sekwencji o różnym poziomie dywergencji. I tak np. przedstawiona na rysunku 4 macierz BLOSUM62 została utworzona na podstawie sekwencji, które są przeciętnie w 62% identyczne. Inne odmiany macierzy BLOSUM to BLOSUM45 obliczona na podstawie bardziej odległych ewolucyjnie białek oraz BLOSUM80 stworzona na podstawie białek o wysokiej identyczności struktury. 23

24 Rysunek 4. Macierz podstawień BLOSUM62 Źródło opracowania graficznego macierzy: dostęp: 20 września 2015 r. Wprowadzenie przerw w przyrównaniu sekwencji również podlega punktowej ocenie. Ponieważ ewolucyjnie przerwy odpowiadają insercjom i delecjom, których prawdopodobieństwo jest stosunkowo niskie, wartości takiej oceny są ujemne i noszą nazwę kar za przerwy. Ustalona macierz podstawień oraz wysokość kar za przerwy stanowią komplet parametrów potrzebnych do oceny konkretnego przyrównania: N s = f( S 1 (i), S 2 (i)) + G 0 + G E L(j)) i=1 M j=1 gdzie s jest miarą przyrównania, f(s 1 (i), S 2 (i)) jest funkcją oceny dopasowania aminokwasów z obu sekwencji (S 1, S 2 ) występujących na i-tej pozycji (wziętą z macierzy podstawień), M liczbą przerw w przyrównaniu, G 0 karą za wprowadzenie przerwy, G E karą za kontynuację przerwy, natomiast L(j) długością j-tej przerwy. Poszukiwanie optymalnego przyrównania sprowadza się do maksymalizacji miary przyrównania s zdefiniowanej w równaniu powyżej, co może być osiągnięte dzięki zastosowaniu programowania dynamicznego (Needleman i Wunsch 1970). W metodzie tej przyrównanie sekwencyjne dokonywane jest w dwóch etapach: 1. Każdy z aminokwasów z pierwszej sekwencji (o długości N reszt) jest przyrównywany do każdego z aminokwasów z drugiej sekwencji (posiadającej 24

25 M reszt). Punktowa ocena przyrównań jest następnie zapisywana w macierzy o rozmiarach N x M. 2. Algorytm przeszukuje ścieżki w stworzonej macierzy, obliczając wartość punktową dla każdej z nich. Wybierana jest ścieżka posiadająca najwyższą ocenę punktową, która odpowiada optymalnemu przyrównaniu. Istotną zaletą metod programowania dynamicznego jest pewność otrzymania najwyżej punktowanego przyrównania. Natomiast wadą jest stosunkowo wysoka złożoność obliczeniowa, która przekłada się na długi czas obliczeń. Odpowiedzią na to ograniczenie są metody heurystyczne, które nie dają pewności otrzymania najlepszego z możliwych przyrównań, pozwalają natomiast na wielokrotnie szybsze obliczenia. Przykładami takich algorytmów są metody BLAST (Altschul i inni 1990) oraz FASTA (Lipman i Pearson 1985). Rozważane powyżej metody dotyczyły przyrównywania sekwencji parami. Okazuje się, że w praktyce warto porównywać równolegle wiele spokrewnionych sekwencji, czyli stosować metody przyrównania wielu sekwencji (ang. Multiple Sequence Alignment MSA). Takie przyrównanie pozwala na łatwiejszą analizę, np. pozwala na obserwację zakonserwowanych fragmentów w całej rodzinie białek. Przyrównywanie wielu sekwencji jest jednak kosztowne obliczeniowo w przypadku zastosowania metod programowania dynamicznego czas obliczeń wzrasta wykładniczo z liczbą przyrównywanych sekwencji (Wareham 1995; Gotoh 1996). Dlatego też najczęściej stosowaną strategią jest tworzenie algorytmów opartych o przyrównania sekwencji parami (Barton i Sternberg 1987; Subbiah i Harrison 1989; Feng i Doolittle 1996) lub w oparciu o tzw. profile sekwencyjne (Gribskov i inni 1987). Popularną metodą wykorzystującą profile sekwencyjne jest program PSI-BLAST (Altschul i inni 1997). W metodzie tej klasyczna macierz podstawień o wymiarze 20 x 20 zastąpiona zostaje profilem sekwencyjnym czyli macierzą o wymiarach N x 20, gdzie N jest długością sekwencji celu. Macierze takie buduje się w oparciu o obserwację prawdopodobieństwa wystąpienia poszczególnych typów aminokwasów na określonych pozycjach sekwencji. Dzięki temu profil sekwencyjny opisuje całą rodzinę białek a nie tylko pojedynczą sekwencję, co zwiększa szanse na odnalezienie białka homologicznego. Następnie dokonuje się przyrównań profilu sekwencyjnego do sekwencji dostępnych w sekwencyjnych bazach danych, co jest zagadnieniem podobnym (także jeśli chodzi o złożoność obliczeniową) do przyrównań sekwencji parami (Ginalski i inni 2005). 25

26 Jeszcze większą zdolność odnajdywania podobieństwa sekwencyjnego posiadają metody, w których dokonuje się przyrównań profili parami: utworzonych zarówno dla sekwencji celu, jak i dla sekwencji pochodzących z baz danych (Rychlewski i inni 2000; Panchenko 2003; Sadreyev i Grishin 2003). Inną metodą, obecnie bardzo popularną, wykorzystującą przyrównania profili (w tym przypadku profili ukrytych modeli Markova HMM) jest program HHPred (Soding 2005; Soding i inni 2005). Metody oparte wyłącznie na analizie sekwencji w wielu przypadkach są wystarczające do odnalezienia białek o podobnej strukturze, które mogą być wykorzystane do zbudowania prawidłowego modelu. Ich zastosowanie jest jednak ograniczone do sytuacji, w których jest możliwe odnalezienie podobieństwa między sekwencjami Przewlekanie W poprzednim podrozdziale przedstawiono przegląd metod opartych na analizie sekwencji aminokwasowych. Jednakże wykrywalne podobieństwo sekwencji nie jest koniecznym warunkiem istnienia podobieństwa struktur. Inaczej mówiąc, istnieje wiele przykładów białek o znaczącym podobieństwie strukturalnym, które nie wykazują istotnego podobieństwa sekwencji. W odnalezieniu szablonów w takich przypadkach pomocne może być tzw. przewlekanie (ang. threading), w którym wykorzystuje się poznane struktury przestrzenne białek. Po raz pierwszy termin przewlekanie został użyty w 1992 roku (Jones i inni 1992). W zaproponowanej metodzie sekwencja celu była dopasowywana do struktur potencjalnych szablonów. Ponieważ w metodach tego typu wykorzystuje się informację o ułożeniu w przestrzeni poszczególnych atomów szablonu, klasyfikuje się je jako przewlekanie 3D. W praktyce, istotnym ograniczeniem w konstruowaniu takich narzędzi jest ich wysoki koszt obliczeniowy (Lathrop 1994). Zagadnienie można uprościć wykorzystując jedynie pewne, łatwe do opisania cechy strukturalne (np. hydrofobowość, zagrzebanie, struktura drugorzędowa). Dopasowywanie dokonywane jest w tym przypadku nie do pełnej struktury trójwymiarowej, a jedynie do zbioru pewnych parametrów, dlatego metody takie nazywane są często przewlekaniem 1D. W wielu metodach tego typu tworzy się profile pewnych cech (analogiczne do profili sekwencyjnych), a następnie dokonuje się ich przyrównania do spodziewanej 26

27 cechy sekwencji celu. Takimi metodami są np. MUSTER (Wu i Zhang 2008), ORFeus (Ginalski i inni 2003b) czy opisana w pracy P2 metoda BioShell Threader (Gront i inni 2012). Szacuje się, że metody porównawcze pozwalają na odnalezienie szablonów o tym samym zwoju (ang. fold) w przypadku ok. 50% sekwencji celu, dla których nie jest zauważalne znaczące podobieństwa sekwencyjne. Dodatkowo, metody takie ograniczone są do zwojów już zawartych w bazach danych struktur białkowych, a w nich wciąż pojawiają się nowe zwoje (Ginalski i inni 2005) Modele gruboziarniste Jak wspominano wcześniej, teoretycznie znajomość sekwencji aminokwasowej białka powinna pozwolić na ustalenie jego struktury dzięki odnalezieniu konformacji o najniższej energii. W przypadku niewielkich cząsteczek powszechnie w tym celu używa się technik pełnoatomowej dynamiki molekularnej (MD ang. Molecular Dynamics). W ostatnich latach metody MD pozwoliły na symulowanie procesu zwijania białek od zdenaturowanej do zwiniętej formy, jednak dotyczyło to jedynie małych białek (o długości od kilkunastu do kilkudziesięciu aminokwasów) i wymagało użycia wyspecjalizowanego klastra obliczeniowego 4 (Shaw i inni 2010; Lindorff-Larsen i inni 2011). Wysoki koszt obliczeniowy wynika z olbrzymiej liczby stopni swobody, która jest proporcjonalna do liczby atomów. Przyspieszenie obliczeń można zatem osiągnąć poprzez zastąpienie pewnych grup atomów pojedynczymi pseudoatomami. Metody skonstruowane w ten sposób nazywamy zredukowanymi lub gruboziarnistymi. Omówienie ogólnych cech jak i przedstawienie kilku modeli gruboziarnistych (Levitt i Warshel 1975; Kolinski i Skolnick 1998; Rohl i inni 2004; Liwo i inni 2011) zawarto w pracy P1. Poniżej znajduje się nieco rozszerzony opis modelu CABS (Kolinski 2004), który jest podstawą metod CABS-fold (Blaszczyk i inni 2013) i CABS-dock (Blaszczyk i inni 2015; Kurcinski i inni 2015) opisanych w rozdziale 3 niniejszej rozprawy. 4 Obliczeń dokonano na maszynie Anton, która jest około 180 razy szybsza niż dostępne superkomputery do ogólnych zastosowań. Żródło: dostęp: 20. maja 2015 r. 27

28 Model CABS Reprezentacja Nazwa modelu CABS nawiązuje do typów atomów (lub pseudoatomów), których użyto do reprezentacji każdej z reszt: CA (atom Cα), CB (atom Cβ), pseudoatom odpowiadający środkowi ciężkości grupy bocznej (ang. Side Group). Czwarty z pseudoatomów położony jest w środku geometrycznym pseudowiązania Cα Cα (rysunek 5). Rysunek 5. Reprezentacja gruboziarnista w modelu CABS. Na rysunku zaprezentowano też jeden z ruchów wykorzystywanych w algorytmie CABS do próbkowania przestrzeni konformacyjnej (więcej możliwych ruchów pokazano na rysunku 7) Pozycje atomów Cα położone są w węzłach prostej sieci kubicznej o stałej sieciowej równej 0,61 Å. Średnia dokładność rzutowania (RMSD do struktury eksperymentalnej) na siatkę wynosi 0,35 Å (rysunek 6). Kolejne w łańcuchu atomy Cα oddalone są od siebie od 29 do 49 jednostek siatkowych (3,28 Å 4,27 Å), co oznacza, że istnieje 800 różnych wektorów łączących kolejne atomy Cα. Ograniczona liczba umożliwia wcześniejsze obliczenie i stabelaryzowanie wielu wartości, które są następnie (bez konieczności dodatkowych obliczeń) wykorzystywane podczas symulacji, co znacząco przyspiesza jej przebieg. 28

29 Rysunek 6. Nałożenie fragmentów struktury doświadczalnej białka (w kolorze fioletowym) i modelu utworzonego w wyniku rzutowania na siatkę zastosowaną w modelu CABS (kolor zielony). Wizualizacja dla fragmentu białka 2GB1 o długości 8 aminokwasów. Na rysunku pokazano wyłącznie ślad atomów Cα Położenia pozostałych pseudoatomów nie są ograniczone do węzłów siatki a ich współrzędne oblicza się na podstawie położeń atomów Cα oraz typu aminokwasu. Pseudoatom położony w środku geometrycznym pseudowiązania Cα-Cα wykorzystywany jest do definicji wiązań wodorowych pomiędzy atomami łańcucha. Pole siłowe W modelu CABS (tak jak w wielu modelach gruboziarnistych) stosuje się potencjały statystyczne, które konstruowane są na podstawie obserwacji pewnych cech w bazie znanych struktur. Energię oblicza się w oparciu o tzw. rozkład Boltzmanna, który określa zależność pomiędzy liczbą obsadzonych stanów (N 1, N 2 ) a różnicą energii ( E) między nimi: gdzie: k stała Boltzmana, T temperatura. E = ktln ( N 1 N 2 ) Unikalną cechą pola siłowego modelu CABS jest to, że w opartych na wiedzy potencjałach statystycznych (ang. knowledge-based statistical force field) uwzględniono złożony kontekst oddziaływań wielociałowych. Na przykład średnia energia oddziaływań grup bocznych z uwzględnieniem rozpuszczalnika potraktowanego w sposób niejawny zależy od ich wzajemnej orientacji oraz lokalnej geometrii łańcucha głównego. W ten sposób możliwe jest zakodowanie w prostym potencjale kontaktowym uśrednionego efektu wielu oddziaływań. Szczegóły zawierają wcześniejsze publikacje (Kolinski 2004), 29

30 a odpowiednie tablice potencjału CABS są dostępne na stronie LTB 5. Tu przedstawiono tylko podstawowe założenia modelu CABS. Konformacje symulowanych cząsteczek oceniane są przy użyciu pseudoenergii sumy członów związanych z energią oddziaływań różnego typu, które tworzą tzw. pole siłowe. W modelu CABS wyróżnić można następujące komponenty pola siłowego: potencjały bliskiego zasięgu 6 niezależne od sekwencji (w tym m.in. potencjały odpowiedzialne za zachowanie sztywności łańcucha oraz formowanie struktury drugorzędowej), potencjały bliskiego zasięgu zależne od sekwencji (potencjały statystyczne związane z lokalną geometrią poszczególnych par aminokwasów), oddziaływania dalekiego zasięgu 7 (potencjały statystyczne dla par aminokwasów zależne od ich typu, konformacji oddziałujących fragmentów łańcucha, a także wzajemnej orientacji grup bocznych), potencjały odpowiadające wiązaniom wodorowym (w związku z gruboziarnistą reprezentacją zdefiniowane jako bezpośrednie oddziaływania pomiędzy pseudoatomami), oddziaływania odpychające zapobiegające niefizycznemu zbliżaniu się pseudoatomów. Próbkowanie dynamika Monte Carlo Metoda CABS działa w oparciu o mechanikę Monte Carlo (MC) (Metropolis i Ulam 1949). W metodach MC konieczne jest zdefiniowanie zestawu modyfikacji układu oraz sformułowanie kryterium akceptacji nowopowstałej konformacji. W modelu CABS zaimplementowano pięć różnych typów ruchów lokalnych, w tym trzy lokalne obejmujące 2-3 wiązania oraz dwa obejmujące większe fragmenty zawierające od 4 do 22 wiązań (rysunek 7). 5 Na: dostęp: 10 października 2015 r. 6 Dla reszt oddalonych od siebie o 2,3 lub 4 pozycje w łańcuchu. 7 Dla reszt oddalonych od siebie o więcej niż 4 pozycje w łańcuchu. 30

31 Rysunek 7. Przykładowe zmiany konformacji łańcucha w algorytmie CABS. W nawiasie podano liczbę prób dokonania ruchu danego typu w pojedynczym kroku MC. Na rysunku pokazano wyłącznie ślad atomów Cα Źródło: (Kolinski 2004). W każdym kroku symulacji MC podejmowana jest określona liczba prób wykonania ruchu danego typu. Prawdopodobieństwo akceptacji zmiany konformacji ze stanu o energii E 1 do stanu o energii E 2 określa kryterium Metropolisa (jest to tzw. asymetryczny schemat Metropolisa) (Metropolis i inni 1953): 1 gdy E 2 E 1 P = { exp ( E 2 E 1 kt gdy E 2 > E 1 gdzie: T temperatura, k stała Boltzmana. (2) Zgodnie z asymetrycznym schematem Metropolisa w algorytmie CABS losowana jest liczba z przedziału [0,1]. Jeśli wylosowana liczba jest mniejsza lub równa obliczonemu prawdopodobieństwu P dany ruch jest akceptowany. W przeciwnym przypadku cząsteczka pozostaje w pierwotnej konformacji. W konsekwencji ruch jest akceptowany zawsze, gdy nie zwiększa on energii układu, ale istnieje również możliwość zmiany konformacji, która powoduje wzrost energii. W modelu CABS zaimplementowano metodę wymiany replik Monte Carlo (REMC ang. Replica Exchange Monte Carlo) (Swendsen i Wang 1986). W ramach REMC symulacje prowadzi się niezależnie w różnych temperaturach na zbiorze replik (najczęściej kilkudziesięciu). W określonych odstępach czasu następuje próba wymiany losowo wybranej pary replik (technicznie dokonywana jest jedynie zamiana ich 31

32 temperatur). Prawdopodobieństwo zamiany repliki o temperaturze T 1 i energii E 1 z repliką o T 2 i energii E 2 zdefiniowane jest w następujący sposób: gdzie 1 gdy 0 P = { exp ( ) gdy > 0 = ( 1 kt 1 1 kt 2 ) (E 1 E 2 ), a k to stała Boltzmana. Wykazano, że metoda REMC jest znacznie skuteczniejsza w odnajdywaniu globalnego minimum energii układu niż klasyczna metoda MC (Hansmann i Okamoto 1999). W modelu CABS dynamika układu jest symulowana poprzez losowe, niewielkie ruchy łańcucha białkowego. Krótkie serie takich ruchów nie odtwarzają w sposób poprawny rzeczywistej dynamiki białek. Natomiast ich długie serie pozwalają na realistyczne odtworzenie dynamiki procesów o dużej skali czasowej, np. mechanizmu zwijania białek od stanu zdenaturowanego do zwiniętego (Kmiecik i Kolinski 2007; Kmiecik i Kolinski 2008) Analiza wyników otrzymanych metodami gruboziarnistymi W wyniku symulacji metodami gruboziarnistymi otrzymuje się zbiór modeli (najczęściej trajektorię) zawierającą wiele setek lub tysięcy modeli w uproszczonej reprezentacji. Konieczna jest zatem selekcja mniejszej liczby modeli (często używa się w tym celu metod analizy skupień), a także odbudowa modeli do pełnoatomowej reprezentacji. Końcowym etapem jest poprawienie elementów modeli i ich ocena w celu stworzenie rankingu modeli końcowych (rysunek 8). (3) Zbiór modeli gruboziarnistych Analiza skupień Odbudowa do modeli pełnoatomowych Optymalizacja i ocena modeli Modele końcowe Rysunek 8. Schemat typowego postępowania ze zbiorem modeli otrzymanych przy użyciu metod gruboziarnistych 32

33 Analiza skupień Metody analizy skupień (ang. clustering) w zastosowaniu do analizy modeli białkowych służą grupowaniu struktur w zbiory (skupienia). Każdy ze zbiorów składa się ze wzajemnie podobnych modeli, które jednocześnie różnią się znacznie od modeli z pozostałych zbiorów. Następnie z każdego zbioru wybierana jest struktura reprezentująca to skupienie (najczęściej medoid, czyli model, którego średnie podobieństwo do wszystkich modeli ze zbioru jest największe). Wyróżnić można dwie grupy metod analizy skupień. Pierwszą z nich stanowią metody hierarchiczne, w których początkowo każdy model stanowi oddzielne skupienie. W kolejnych krokach procedury najbardziej podobne do siebie modele (np. wg miary RMSD) łączone są w pary i tworzą nowe skupienia. Liczba skupień zatem staje się coraz mniejsza, podczas gdy średnia liczba modeli w skupieniach coraz większa (aż do powstania jednego skupienia zawierającego wszystkie modele). Kluczowym zagadnieniem jest ustalenie pewnego kryterium w postaci miary podobieństwa między skupieniami, po którego spełnieniu procedura zostanie zakończona (Gront i Kolinski 2005). Drugą grupą metod są algorytmy oparte na podziale. W odróżnieniu od metod hierarchicznych w algorytmach tych użytkownik określa liczbę skupień, na które ma być dokonany podział. Przykładem jest metoda K-średnich (ang. K-means clustering) (MacQueen 1967), w której procedura rozpoczyna się od losowego podziału na zadaną liczbę skupień. Następnie zmienia się przypisanie modeli do poszczególnych skupień w celu maksymalizacji (lub minimalizacji np. w przypadku RMSD) funkcji oceny, która jest związana z podobieństwem modeli. Procedura trwa dopóty, dopóki zmianie ulega skład skupień i uzyskuje się poprawę funkcji oceny Odbudowa reprezentacji pełnoatomowej Uproszczone modele uzyskane przy użyciu metod gruboziarnistych wymagają odbudowy do modeli pełnoatomowych. Jak pokazano na rysunku 9 procedura odbudowy przeprowadzana jest najczęściej w dwóch etapach: (1) odbudowa łańcucha głównego, (2) odbudowa grup bocznych. 33

34 Rysunek 9. Ilustracja dwuetapowej procedury odbudowy modeli gruboziarnistych: od reprezentacji Cα do modeli pełnoatomowych Źródło: praca P1. Dostępnych jest wiele algorytmów służących do odbudowy modeli białkowych (Payne 1993; Kazmierkiewicz i inni 2002; Kazmierkiewicz i inni 2003; Adcock 2004; Gront i inni 2007; Heath i inni 2007; Krivov i inni 2009). Prezentacja kilku popularnych, ogólnodostępnych narzędzi została zamieszczona w rozdziale 4 pracy P Optymalizacja modeli W przypadku zastosowania metod gruboziarnistych bardzo istotne jest dokonanie optymalizacji otrzymanych modeli. Uproszczona reprezentacja powoduje bowiem często powstanie lokalnych błędów w geometrii łańcucha (Xu i Zhang 2011). Metody odbudowy (szczególnie te wykorzystujące fragmenty ze znanych struktur) częściowo rozwiązują takie problemy, jednak wciąż potrzebna jest dalsza optymalizacja, której celem jest m.in. poprawa upakowania grup bocznych czy optymalne wymodelowanie kształtu pętli łączących elementy struktury drugorzędowej. Nierzadko też niedoskonałości w otrzymanych modelach mają bardziej globalny charakter wynikający np. z nieoptymalnego przyrównania sekwencji na etapie modelowania porównawczego. Jeszcze poważniejsze błędy w otrzymanych strukturach mają miejsce w przypadku niewłaściwego doboru szablonu do modelowania porównawczego czy modelowania de-novo (bez użycia szablonu). Pełnoatomowa dynamika molekularna w zastosowaniu do poprawiania struktur wydaje się naturalnym wyborem, jednakże ze względu na wysoki koszt obliczeniowy jest ona użyteczna głównie w przypadku optymalizacji małych lub średnich struktur 34

35 białkowych, dla których modele początkowe reprezentują zwój odpowiadający strukturze natywnej (Fan i Mark 2004). W przypadku konieczności dokonania istotnych zmian konformacyjnych pomocne są algorytmy, które wykorzystują potencjały statystyczne zbudowane w oparciu o znane struktury białkowe. W takich przypadkach do próbkowania przestrzeni konformacyjnej często wykorzystuje się metody dynamiki Monte Carlo. Jak pokazała kategoria optymalizacji struktur w ramach 9. edycji eksperymentu CASP (MacCallum i inni 2011), wśród metod, które wykazują się najwyższą skutecznością, są zarówno takie, które opierają się na metodach dynamiki molekularnej, np. grupa Schroeder Lab, jak i takie, które wykorzystują przede wszystkim potencjały statystyczne: Rosetta (Leaver-Fay i inni 2011) i KoBaMIN (Rodrigues i inni 2012). Szersza analiza wyników optymalizacji struktur w ramach eksperymentu CASP, a także przegląd metod służących optymalizacji struktur zostały zawarte w pracy P5. 35

36

37 3. WYNIKI PRAC Celem badań zaprezentowanych w tej rozprawie było opracowanie teoretycznych narzędzi do przewidywania struktury białek i kompleksów białek z peptydami. Opracowane metody realizują kilka etapów przewidywania struktury białek (w nawiasach podano odpowiednie nazwy stworzonych narzędzi oraz odnośniki do odpowiednich prac będących częścią rozprawy): 1. identyfikacja szablonu i przyrównanie sekwencji (BioShell Threader, praca P2); 2. próbkowanie przestrzeni konformacyjnej (CABS-fold, prace P3, P4); 3. wybór, odbudowa i optymalizacja modeli (CABS-fold, prace P4, P5). Opracowano także metodę dokowania peptydów do białek, która pozwala podczas dokowania na pełną giętkość struktury peptydów, ograniczoną giętkość receptora, a także nieograniczone poszukiwanie miejsca wiązania peptydów (CABS-dock, prace P6, P7). W kolejnych podrozdziałach znajduje się opis wyżej wymienionych narzędzi BioShell Threader serwer internetowy do modelowania porównawczego W sekcji zaprezentowano krótki przegląd metod modelowania porównawczego. Autor pracy współtworzył serwer BioShell Threader, który zakwalifikować należy do metod przewlekania 1D. Poniżej przedstawiono skrócony opis narzędzia (więcej szczegółów znaleźć można w pracy P2) Metoda Jedynymi danymi wymaganymi przez serwer jest sekwencja aminokwasowa w formacie FASTA (sekwencja celu). Zastosowana procedura składa się z trzech zasadniczych kroków: 1. Obliczenie profilu sekwencyjnego dla sekwencji celu narzędziem PSI-BLAST (Altschul i inni 1997). 2. Obliczenie profili struktury drugorzędowej przy użyciu trzech metod przewidywania struktury drugorzędowej: PSIPRED (Jones 1999), Porter (Pollastri i McLysaght 2005) i SAM (Katzman i inni 2008). Profile struktury drugorzędowej dla każdej z reszt określają prawdopodobieństwo wystąpienia określonej struktury drugorzędowej (helisa, beta-kartka, pętla).

38 3. Dopasowywanie czterech opisanych wyżej profili do profili utworzonych wcześniej dla każdej domeny z bazy SCOP (Murzin i inni 1995). Ocena dopasowania i-tej reszty z sekwencji celu j-tą resztą szablonu zdefiniowana jest jako: S(i,j) = Picasso3(i,j) + W PSIPRED L 1 (i,j) + W PORTER L 1 (i,j) + W SAM L 1 (i,j) gdzie Picasso3(i,j) jest oceną podobieństwa profili sekwencyjnych za pomocą miary Picasso3 (Mittelman i inni 2003), natomiast podobieństwo struktury drugorzędowej oceniane jest za pomocą miary L 1. W PSIPRED, W PORTER, W SAM są wagami, z jakimi brane są pod uwagę predykcje poszczególnych metod. Parametry te, podobnie jak kary za otwarcie i kontynuacje przerw w dopasowaniu, zostały ustalone podczas optymalizacji metody (szerzej o zastosowanych miarach i optymalizacji metody napisano w pracy: (Gniewek i inni 2012) Dane początkowe i strona wynikowa Jedynymi danymi wymaganymi przez serwer jest sekwencja aminokwasowa (sekwencja celu) w formacie FASTA. Jako rezultat użytkownik otrzymuje stronę wynikową zawierającą zbiór najwyżej ocenionych szablonów, przyrównanie sekwencyjne w formacie FASTA i Edinburgh oraz przewleczenia (częściowe modele) w formacie PDB utworzone na podstawie tych przyrównań. Przykładowa strona wynikowa wraz z wyjaśnieniami poszczególnych funkcjonalności została pokazana na rysunku

39 Rysunek 10. Przykładowa strona wynikowa serwera Bioshell Threader wraz z objaśnieniami Źródło: praca P2. 39

40 Wyniki Testy metody wykonano przy użyciu podzbioru 935 domen białkowych z bazy SCOP. Badana była poprawność dopasowania sekwencji do rodziny białek wg klasyfikacji SCOP. Porównano następujące metody: 1. TM-align, która jest jedną z wiodących metod służących dopasowywaniu struktur białkowych (Zhang i Skolnick 2005). 2. HHpred (Soding 2005; Soding i inni 2005), która opiera się na metodzie ukrytych modeli Markowa. 3. Bioshell Threader z użyciem samych profili sekwencyjnych. 4. Bioshell Threader z użyciem profili sekwencyjnych oraz profili struktury drugorzędowej. Do testu wykorzystano ponad 400 domen z bazy SCOP. Wyniki zestawiono w tabeli 2. Tabela 2. Porównanie poprawności przypisania do rodziny SCOP wg serwera BioShell Threader z innymi metodami Metoda W jakiej części przypadków modele zostały przypisane do właściwej rodziny SCOP TM-align 75,2% HHpred 75,6% BioShell Threader (tylko profile sekwencyjne) 74,8% BioShell Threader (profile sekwencyjne i profile 78,8% struktury drugorzędowej) Źródło: praca P2. Czułość metody została oceniona za pomocą powierzchni pod krzywą ROC (rysunek 11). Według tego kryterium metoda TM-align okazała się nieco lepsza niż BioShell Threader. 40

41 Rysunek 11. Krzywe ROC dla przypisania sekwencji celu do właściwej rodziny SCOP. Porównanie trzech metod: dopasowania profili sekwencyjnych (Pic), dopasowania profili sekwencyjnych oraz profili struktury drugorzędowej (Pic-SS), dopasowania strukturalnego (TM). Powierzchnia pod krzywą ROC to odpowiednio: 0.955, i Źródło: praca P2. Najważniejszą cechą wyróżniającą procedurę BioShell Threader spośród innych metod porównawczych jest fakt zastosowania kilku narzędzi do przewidywania struktury drugorzędowej. O ile dla sekwencji celu posiadających wiele, łatwych do identyfikacji homologów różne metody właściwie przypisują strukturę drugorzędową, o tyle dla sekwencji celu, dla których odnalezienie białek homologicznych jest trudniejsze, pojawiają się błędy. Dokładność poszczególnych metod jest dość podobna (tabela 3), jednakże ich wyniki dość słabo korelują ze sobą. Zatem zastosowanie kilku różnych metod zwiększa szanse prawidłowego wyboru szablonu. Tabela 3. Porównanie wyników metod do predykcji struktury drugorzędowej (PSIPRED, Porter oraz SAM) używanych przez serwer BioShell Threader. Kolumna Q3 prezentuje dokładność predykcji (w nawiasach podano odchylenie standardowe), natomiast pozostałe wzajemną korelację metod. Do definicji struktury drugorzędowej został zastosowany algorytm DSSP Metoda Q3 DSSP PSIPRED Porter SAM DSSP 1,00 0,73 0,68 0,64 PSIPRED 80,8% (7,7%) 0,73 1,00 0,67 0,68 Porter 77,4% (8,8%) 0,68 0,67 1,00 0,60 SAM 76,8% (8,1%) 0,64 0,64 0,60 1,00 Źródło: praca P2. 41

42 Istotnym ograniczeniem metody BioShell Threader jest zastosowanie bazy SCOP, której ostatnia aktualizacja dokonana została w 2009 roku (wersja 1.75). W praktyce oznacza to, że pokrywa ona jedynie około połowy zawartości bazy PDB. W związku z tym konieczna jest rozbudowa bazy domen. Obecnie w Pracowni Teorii Biopolimerów trwają prace nad stworzeniem kompletnej i systematycznie aktualizowanej bazy Predykcja struktury przy użyciu modelu CABS W roku 2010 Autor uczestniczył w dziewiątej edycji konkursu CASP (więcej o CASP w sekcji ) używając procedury, której centralnym elementem jest model CABS. Metoda zastosowana podczas konkursu została opisana w pracy P3. Następnie, po pewnych modyfikacjach, wykorzystano ją w udostępnionym w sieci Internet serwisie CABS-fold (praca P4). Niniejszy rozdział stanowi syntezę obu prac uzupełnioną o nieopublikowane dane Procedura W ostatnim czasie w dziedzinie przewidywania struktury białek popularne stało się używanie tzw. metod konsensusowych, tj. takich, które używają zbioru alternatywnych narzędzi służących przewidywaniu struktury białek. Wyniki ostatnich eksperymentów CASP potwierdzają tezę, że metody konsensusowe są skuteczniejsze niż poszczególne metody, z których one korzystają (Ginalski i inni 2003a). Często stosowanymi reprezentantami metod konsensusowych są meta-serwery (Kurowski i Bujnicki 2003; Wallner i Elofsson 2005), które agregują i oceniają wyniki z szeregu serwerów służących do predykcji struktur białek. Istnieje także grupa narzędzi MQAP (ang. Model Quality Assessment Program) pozwalających ocenić zbiór modeli początkowych dostarczonych przez użytkownika (McGuffin 2008; Pawlowski i inni 2008; Benkert i inni 2009; Ray i inni 2012). Naturalnym ograniczeniem takich metod jest jakość najlepszego modelu. Metodą, która przekracza to ograniczenie, jest QA- RecombineIt (Pawlowski i inni 2013). W pierwszym kroku tej metody ocenia się zestaw modeli, by w kolejnym etapie wykorzystać ich fragmenty w celu utworzenia zestawu modeli końcowych. W pracach P3 i P4 zaprezentowano metodę, która także umożliwia utworzenie modelu na podstawie zestawu modeli początkowych. W tym przypadku modele 42

43 początkowe użyte są do ograniczenia przestrzeni konformacyjnej, która jest następnie próbkowana przy użyciu programu CABS. Zadanie to jest złożone i wymaga zastosowania szeregu narzędzi. Ideowy schemat procedury przedstawiono na rysunku 12, a poszczególne etapy opisano w kolejnych sekcjach. Sekwencja celu Selekcja modeli początkowych Utworzenie więzów odległości Modelowanie CABS Analiza skupień Rekonstrukcja Optymalizacja Ocena modeli Modele końcowe Rysunek 12. Schemat procedury zastosowanej podczas eksperymentu CASP Selekcja modeli początkowych Właściwy dobór modeli początkowych jest kluczowy dla jakości otrzymanych wyników. W procedurze opisanej w pracy P3 podstawowym kryterium wyboru źródeł modeli była ocena wiarygodności automatycznych serwerów w oparciu o wyniki wcześniejszych edycji eksperymentu CASP. Użyte struktury pochodziły z 5 niezależnych (przygotowanych przez różne grupy badawcze) serwerów sklasyfikowanych najwyżej w CASP8. Struktury te stanowiły podstawę do oceny modeli wygenerowanych przez inne serwery i uzupełnienia zestawu modeli początkowych o 3 do 5 dodatkowych modeli. Wybór dodatkowych modeli następował w oparciu o ocenę modeli dokonaną za pomocą 43

44 narzędzia 3D-jury (Kajan i Rychlewski 2007). Metoda ta najwyżej ocenia modele, które są średnio najbardziej podobne do całego zestawu ocenianych modeli Więzy odległości Ważnym i nietrywialnym zagadnieniem jest sposób przekazania informacji o strukturze modeli początkowych do programu CABS. Dzieje się to za pomocą więzów odległości pomiędzy parami atomów Cα, które ograniczają przestrzeń konformacyjną próbkowaną przez algorytm, a tym samym znacząco zwiększają prawdopodobieństwo otrzymania dokładnych struktur. Zastosowane więzy mają postać zakresów odległości. Gdy para atomów znajduje się w odległości zawartej w zadanym zakresie, wkład energii programu CABS wynikający z tego więzu wynosi 0. Natomiast wyjście poza zakres powoduje powstanie kary proporcjonalnej do różnicy odległości pomiędzy bliższą granicą zakresu i obserwowaną odległością oraz wagą więzu. Informacja dotycząca więzów jest przekazywana do programu CABS w postaci pliku tekstowego. Na przykład zapis w postaci: oznacza, że dla reszt o numerach 12 i 117 preferowana odległość wynosi od 13,2 Å do 19,0 Å oraz przyjęto standardową wartość wagi więzu (1,0). W pierwszym podejściu (praca P3) granice więzów były generowane na podstawie ekstremalnych odległości obserwowanych dla danej pary atomów występujących w szablonach. Dolna granica więzu była zdefiniowana jako najmniejsza z obserwowanych odległości i analogicznie górna granica jako największa z odległości. Wadą takiej definicji była możliwość bardzo dużego rozszerzenia zakresu odległości w wyniku zastosowania niepoprawnego szablonu. Aby tego uniknąć, dla każdej z par aminokwasów szeregowano obserwowane wartości odległości od najmniejszej do największej, a następnie wybierano drugą i przedostatnią z nich. Opisana metoda działała dość dobrze w przypadku modeli początkowych o dobrej jakości i niewielkim zróżnicowaniu. Natomiast w przypadku modeli znacznie różniących się od siebie korzystniejsza okazała się analiza dystrybucji odległości pomiędzy atomami. Na podstawie tej obserwacji zaproponowano następujący sposób definicji więzów (praca P4): aby określić wzajemne podobieństwo szablonów, obliczona zostaje miara GDT_TS pomiędzy każdą z par szablonów, a zmiennej GDT min przypisuje się najniższą 44

45 z obserwowanych wartości. Zakresy odległości więzów dla aminokwasów w pozycjach i oraz j definiuje się jako: { [D ij min, D ij max ] jeżeli GDT min 0.3 [D ij σ ij, D ij + σ ij ] jeżeli GDT min < 0.3 gdzie: D ij min jest najmniejszą odległością pomiędzy atomami Cα w pozycjach i oraz j obserwowaną w zbiorze szablonów (analogicznie D max ij jest największą obserwowaną odległością), D ij jest średnią z obserwowanych odległości dla wszystkich szablonów, a σ ij jest odchyleniem standardowym Modelowanie programem CABS W kolejnym etapie następuje modelowanie przy użyciu programu CABS (opis modelu znajduje się w rozdziale ). Struktury startowe oraz więzy odległości tworzone są na podstawie modeli początkowych. Dodatkowo przekazywana jest przewidywana struktura drugorzędowa wygenerowana za pomocą narzędzia PSIPRED (Jones 1999). Próbkowanie przeprowadzane jest metodą wymiany replik Monte Carlo (REMC) z 20 replikami, dla których symulacje prowadzone są w różnych temperaturach. Czas symulacji zależy przede wszystkim od długości sekwencji i wynosi od 3 do 18 godzin na pojedynczym procesorze. Testy wykazały, że dalsze wydłużanie czasu symulacji nie wpływa na poprawę wyników. Warto natomiast przeprowadzić kilka równoległych symulacji (rozpoczynając od różnych liczb losowych), aby sprawdzić, czy przestrzeń konformacyjna jest wystarczająco dobrze próbkowana Analiza skupień Wynikiem działania algorytmu CABS jest pseudotrajektoria zawierająca przeciętnie kilkaset klatek. Każdą z nich można traktować jako odrębną strukturę. Istotnym zagadnieniem jest wybór struktury końcowej (lub też zestawu kilku alternatywnych struktur). Teoretycznie wyboru takiego można byłoby dokonać na podstawie przypisanej energii wynikającej z pola siłowego CABS. Jednakże zastosowane przybliżenia powodują, że energia CABS nie jest najlepszą miarą jakości modelu. Lepszym rozwiązaniem okazuje się zastosowanie metody analizy skupień (strukturalnej klasteryzacji). W pracach P3 i P4 użyto metody K-średnich. 45

46 Niewątpliwą zaletą zastosowania analizy skupień jest wielokrotne zmniejszenie liczby rozpatrywanych modeli w dalszej obróbce wykorzystuje się jedynie reprezentantów poszczególnych klastrów. Co więcej, każdy z klastrów opisany jest zestawem parametrów, takich jak liczność, wielkość czy gęstość. Parametry te pomagają w późniejszej analizie i wyborze ostatecznych modeli Rekonstrukcja modeli pełnoatomowych i ich optymalizacja Model CABS stosuje gruboziarnistą reprezentację aminokwasów i jako wynik zwraca modele zawierające jedynie położenia atomów Cα. Konieczna jest zatem odbudowa pozostałych atomów łańcucha. Jak pokazano w rozdziale 2.2.3, proces ten można podzielić na dwa etapy. Podczas CASP9 pierwszy etap, czyli odbudowę łańcucha głównego, przeprowadzono przy użyciu algorytmu BBQ (Gront i inni 2007), natomiast etap drugi odbudowę grup bocznych za pomocą programu SCWRL4 (Krivov i inni 2009). Wynikowe struktury (m.in. z powodu siatkowej przestrzeni w modelu CABS czy błędów odbudowy) nie mają z reguły optymalnej geometrii. Aby ją poprawić, zastosowano program Modeller (Eswar i inni 2007). W kolejnym etapie, głównie w celu poprawy położeń atomów grup bocznych, przeprowadzono krótkie symulacje dynamiki molekularnej, stosując pakiet GROMACS (Van Der Spoel i inni 2005). Ze względu na ograniczenia licencji programów SCWRL4, Modeller oraz GROMACS w serwerze CABS-fold (praca P4) zamiast tych programów zastosowano metodę ModRefiner (Xu i Zhang 2011). Testy wykazały zbliżoną dokładność otrzymywanych wyników Ocena modeli Ostatnim etapem jest utworzenie rankingu powstałych modeli. W opisanej procedurze zastosowano dwa kryteria: 1. Gęstość klastra z którego pochodzi reprezentant (im wyższa tym wyższa ocena). 2. Podobieństwo danego modelu do modeli z innych symulacji mierzona przy użyciu miary GDT_TS. W tym celu prowadzono dwie odrębne symulacje i porównywano podobieństwo modeli pomiędzy symulacjami. Najwyżej oceniano parę o najwyższym GDT_TS (czyli najwyższym podobieństwie). Kryteria stosowano z różnym priorytetem w zależności od typu symulacji. W przypadku symulacji dla łatwych sekwencji celu (dla których szablony cechowały się 46

47 dużym podobieństwem) kierowano się przede wszystkim kryterium 1, natomiast w przypadku trudniejszych sekwencji celu podstawowym było kryterium CABS-fold serwer do przewidywania struktury trzeciorzędowej białek Opracowana metoda przewidywania struktury białek opisana w poprzednim rozdziale (3.2.1) została skonstruowana z ogólnodostępnych narzędzi. Jednak konieczność ich instalowania, optymalizacji i nauki obsługi każdego z nich w sposób istotny ograniczała grono użytkowników opisanych rozwiązań. Dlatego też stworzono łatwy w użyciu serwer CABS-fold (opisany w pracy P4), który dostępny jest pod adresem Dane początkowe Serwer umożliwia modelowanie w dwóch trybach (rysunek 13): 1. modelowanie de-novo, bez użycia modeli początkowych, tj. wyłącznie na podstawie sekwencji celu; 2. modelowanie konsensusowe w oparciu o zestaw modeli początkowych (najczęściej uzyskanych przy użyciu innych metod modelowania porównawczego). Szczególnym przypadkiem modelowania w drugim z trybów jest modelowanie z jednym, niekompletnym modelem początkowym. W takiej sytuacji brakujące fragmenty modelu początkowego modelowane są w trybie de-novo. Taki przypadek odpowiada np. modelowaniu brakujących pętli. 47

48 Rysunek 13. Ilustracja procedury zastosowanej w serwerze CABS-fold Źródło: praca P Dane wyjściowe W serwerze CABS-fold każdej z symulacji przyporządkowana jest strona internetowa, która dostępna jest pod unikalnym adresem wygenerowanym podczas wysyłania zadania. Dane umieszczone zostały w kilku zakładkach (rysunek 14). Pierwsze dwie zakładki ( Summary i Templates ) tworzone są w momencie rozpoczęcia obliczeń i zawierają wszystkie parametry wysłanego zadania. Kolejne dwie zakładki zawierają wyniki symulacji. W zakładce Trajectory umieszczono trzy wykresy prezentujące zmiany energii programu CABS, odległości pomiędzy końcami oraz promieniem żyracji (nie pokazane na rysunku, dostępne na dole zakładki). Plik prezentujący trajektorię (reprezentacja Cα) może zostać pobrany w formacie PDB. Dzięki użyciu aplikacji Jmol możliwe jest także wyświetlenie w przeglądarce animacji prezentującej przebieg symulacji. Zakładka Structure prediction zawiera wizualizacje 48

49 pełnoatomowych modeli wynikowych, które można pobrać w formacie PDB. Oprócz tego dostępne są szczegółowe dane dotyczące klasteryzacji i analiza porównawcza zaproponowanych modeli. Rysunek 14. Strony wynikowe serwera CABS-fold 49

50 Wyniki Eksperyment CASP CASP (ang. Critical Assessment of protein Structure Prediction) to międzynarodowy eksperyment organizowany co dwa lata od 1994 roku. Jego celem jest umożliwienie obiektywnej oceny metod służących przewidywaniu struktury białek. Podczas trwania każdej edycji eksperymentu organizatorzy wskazują zbiór białek (tzw. sekwencji celu), dla których doświadczalne struktury nie zostały jeszcze opublikowane. Każda z grup biorących udział w eksperymencie ma możliwość przesłania rozwiązań w postaci plików PDB. Następnie organizatorzy oceniają nadesłane modele, porównując je ze strukturami doświadczalnymi CASP9 analiza wyników eksperymentu W 2010 roku odbyła się 9. edycja eksperymentu CABS, w której Autor brał udział jako kierujący grupą o nazwie LTB. Szczegółowe wyniki eksperymentu dostępne są pod adresem W opublikowanym tam rankingu grupa LTB zajęła 28 miejsce spośród 174 grup biorących udział w CASP9. W klasyfikacji CASP9, a także w dalszej analizie wyników w niniejszym podrozdziale, brane są pod uwagę jedynie modele oznaczone przez grupy jako pierwsze (dla każdej sekwencji celu można wysłać do pięciu modeli, numerując je od najlepszego do najgorszego). Po zakończeniu konkursu, gdy znane są już struktury doświadczalne, organizatorzy dzielą sekwencje celu na domeny i oceniają (przede wszystkim za pomocą miary GDT_TS) każdy z nadesłanych modeli. W tabeli 4 umieszczono porównanie wyników grupy LTB ze uśrednionymi wynikami uzyskanymi przez wszystkie grupy oraz z wynikiem modelu o najwyższym GDT_TS. 50

51 Tabela 4. Zestawienie wyników CASP9 dla poszczególnych domen. W kolejnych kolumnach zaprezentowano wynik grupy LTB, średni wynik dla wszystkich grup oraz najlepszy wynik dla danej domeny (z pominięciem wyniku LTB) Domena kategoria długość sekwencji długość domeny GDT_TS (%) modelu LTB średni GDT_TS (%) najlepszy GDT_TS (%) 515-D1 TBM ,41 57,37 72, D1 TBM ,16 55,00 69, D1 TBM ,17 68,52 78, D1 TBM ,48 68,52 89, D1 TBM ,50 57,86 75, D1 FM ,63 8,70 11, D2 TBM ,60 23,91 46, D1 FM ,57 27,36 43, D1 FM ,91 17,10 29, D2 FM ,90 16,57 24, D1 FM ,31 15,85 37, D2 FM ,29 36,00 57, D1 TBM ,72 45,52 68, D1 TBM ,88 58,17 86, D2 TBM ,67 62,28 86, D3 TBM ,77 58,45 78, D4 TBM ,89 39,57 56, D1 FM ,74 24,90 38, D1 TBM ,28 43,68 69, D2 TBM ,26 64,86 77, D3 FM ,70 30,79 61, D4 FM ,82 36,67 68, D1 FM/TBM ,50 21,52 49, D2 FM ,82 13,60 26, D1 FM ,76 43,79 71, D2 FM ,99 38,69 65, D1 TBM ,39 39,09 56, D1 FM ,79 23,67 39, D1 TBM ,12 40,13 68, D1 TBM ,53 62,95 75, D1 TBM ,83 28,91 44, D1 TBM ,59 42,89 77, D1 FM/TBM ,18 20,66 41, D2 FM ,41 17,72 35, D1 TBM ,49 39,57 62, D1 TBM ,32 35,75 66, D1 FM ,79 19,25 28,72 51

52 Domena kategoria długość sekwencji długość domeny GDT_TS (%) modelu LTB średni GDT_TS (%) najlepszy GDT_TS (%) 579-D1 TBM ,25 41,83 70, D2 TBM ,38 42,92 71, D1 TBM ,57 70,82 90, D1 FM ,86 24,87 70, D1 TBM ,31 60,59 74, D1 TBM ,38 81,49 94, D2 TBM ,18 76,35 91, D1 TBM ,14 36,95 47, D1 TBM ,69 64,44 81, D1 TBM ,34 63,20 75, D1 TBM ,61 72,97 85, D1 TBM ,98 83,86 96, D2 TBM ,54 52,19 67, D1 TBM ,21 50,04 66, D1 TBM ,64 79,92 94, D1 FM ,50 34,18 67, D2 TBM ,72 44,89 58, D3 FM ,05 12,08 17, D1 TBM ,35 66,39 97, D1 TBM ,25 45,89 73, D1 FM ,12 21,98 39, D2 TBM ,70 50,41 65, D1 TBM ,74 61,27 73, D1 TBM ,51 63,10 91, D1 FM/TBM ,41 28,35 40, D1 FM ,22 23,45 39, D1 TBM ,15 69,72 91, D1 FM ,86 14,49 30, D1 TBM ,29 52,88 68, D1 FM ,30 31,49 56, D1 TBM ,21 55,95 72, D1 TBM ,25 50,78 68, D1 TBM ,22 36,82 50, D2 TBM ,18 36,27 57, D1 TBM ,83 61,81 85, D2 FM ,59 11,05 14, D1 TBM ,87 41,30 70, D1 TBM ,53 46,83 67,12 52

53 Porównanie z modelami wysłanymi przez wszystkie grupy na CASP9 wykazało, że w pięciu przypadkach (domen: T0540-D1, T0586-D1, T0594-D1, T0622-D1, T0628-D1) model LTB był najbliższy strukturze doświadczalnej. Jak pokazano w tabeli 5 tylko jedna grupa biorąca udział w CASP9 (PRMLS) zdołała wygenerować więcej najlepszych modeli. Należy jednak stwierdzić, że przewaga jakości modelu LTB w tych przypadkach jest stosunkowo nieduża. Tabela 5. Ranking grup biorących udział w CASP9 pod względem liczby zadań, w których wysłane modele okazały się najbliższe strukturze doświadczalnej Numer grupy Nazwa grupy Liczba najlepszych modeli 65 PRMLS LTB BAKER ZHANG_AB_INITIO FEIG MUFOLD BUJNICKI-KOLINSKI JONES-UCL 3 Ponieważ modelowanie odbywało się w oparciu o struktury modeli początkowych (uzyskanych przy użyciu innych metod), istotne wydaje się porównanie ich jakości ze strukturami wynikowymi. Jak pokazano na rysunku 15 (wykres po lewej stronie), GDT_TS otrzymanych modeli jest prawie zawsze wyższy niż średni GDT_TS modeli początkowych. W 5 przypadkach (dla których wyniki uzyskane przez LTB były najlepsze spośród wyników wszystkich grup) jakość modelu była wyższa niż najlepszego z modeli początkowych (rysunek 15, wykres po prawej stronie). 53

54 Rysunek 15. Porównanie dokładności otrzymanych modeli z dokładnością użytych szablonów Źródło: praca P3. Dalsza analiza wyników pozwoliła sformułować wnioski dotyczące słabych i mocnych stron zastosowanej metodologii. Jak pokazano na rysunku 16, dla wszystkich trzech kategorii trudności FM (najwyższy stopień trudności), TBM (cele najłatwiejsze) oraz TBM/FM (o średnim stopniu trudności) średni GDT_TS modeli przygotowanych przez grupę LTB był wyższy niż uśredniony GDT_TS modeli przygotowanych przez wszystkie grupy. Najniższa jakość otrzymywanych wyników w przypadku celów najtrudniejszych (kategoria FM) spowodowana jest bardzo dużym zróżnicowaniem szablonów dla tych przypadków i niewystarczającym próbkowaniem przestrzeni konformacyjnej przez algorytm CABS. 54

55 Rysunek 16. Uśredniona różnica pomiędzy średnim GDT_TS modeli wysłanych przez wszystkie grupy a GDT_TS modeli przygotowanymi przez LTB w zależności od kategorii trudności, do której przypisane były domeny. Uzyskane tu wartości dodatnie oznaczają, że modele LTB miały wyższe GDT_TS niż średnie GDT_TS modeli wysłanych przez wszystkie grupy Z kolei dla kategorii o średnim stopniu trudności (TBM/FM) otrzymano największą poprawę względem średniej. Najczęściej w przypadkach tych szablony są dla większości struktury dość podobne do siebie, a w pozostałych fragmentach (np. pętle) bardziej zróżnicowane. W takich okolicznościach symulacja programem CABS służy przede wszystkim do próbkowania przestrzeni konformacyjnej, głównie tych nieokreślonych fragmentów, pozostawiając resztę bez większych zmian. Podobnie można uzasadnić dobre wyniki uzyskiwane dla kategorii TBM. W przypadkach tych istotne zmiany konformacyjne modeli podczas symulacji ograniczają się zazwyczaj do pętli. Wskazać należy, że wszystkie sekwencje celu, dla których grupa LTB uzyskała najlepsze wyniki, należały właśnie do tej kategorii. Przykładem jest cel oznaczony jako T0594, opisany szerzej w następnym paragrafie (por. rysunek 18). Interesująca jest również analiza zależności wyników grupy LTB od liczby reszt modelowanych białek. Jak pokazano na rysunku 17, wraz z wzrostem rozmiaru modelowanych białek jakość struktur wyraźne pogarsza się (w porównaniu ze średnimi wynikami grup na CASP9). Przyczyn tego faktu można dopatrywać się w etapie modelowania programem CABS. Białka są wprowadzane do niego w całości, bez podziału na mniejsze domeny. Tymczasem CABS został zooptymalizowany głównie dla 55

56 niedużych, jednodomenowych białek. W przyszłości wskazane wydaje się przewidywanie podziału na domeny dłuższych sekwencji celu i modelowanie każdej z domen osobno. Rysunek 17. Uśredniona różnica w zależności od długości sekwencji celu pomiędzy średnim GDT_TS modeli wysłanych przez wszystkie grupy a modelem przygotowanym przez LTB. Wartości dodatnie oznaczają, że modele LTB miały wyższe GDT_TS niż średnie GDT_TS modeli wysłanych przez wszystkie grupy. Dla najdłuższych sekwencji model LTB był gorszy niż przeciętny model wysyłany przez wszystkie grupy, podczas gdy dla sekwencji krótszych niż 600 aminokwasów model LTB był lepszy niż przeciętny model Podsumowując, należy podkreślić dużą rozbieżność jakości uzyskiwanych wyników. W większości przypadków wyniki są zadowalające i co ważne przewidziane modele są bardziej podobne do struktury doświadczalnej niż użyte modele początkowe (niekiedy są nawet lepsze niż którykolwiek z modeli początkowych). Niestety, w niektórych przypadkach jakość otrzymanych modeli jest niska. Największe ryzyko otrzymania niezadowalających wyników dotyczy białek o bardzo różnorodnych modelach początkowych (kategoria FM) oraz o dużych rozmiarach (białka wielodomenowe). 56

57 MODELE POCZĄTKOWE CASP9 przykłady T0594 przypadek wykorzystania kilku szablonów Jednym z przypadków, dla których uzyskano najlepszy wynik podczas CASP, była sekwencja celu o długości 140 aminokwasów oznaczona przez organizatorów numerem T0594. Do wyprowadzenia więzów odległości użyto 8 modeli początkowych. Porównanie dokładności użytych modeli oraz modelu końcowego zamieszczono w tabeli 6. Ocena modelu wynikowego jest znacząco lepsza niż średnia dla modeli początkowych (dla miary RMSD różnica wynosi prawie 1,4 Å), a także nieco lepsza niż najlepszy z użytych modeli (różnica prawie 0,3 Å). Tabela 6. Porównanie ocen modeli początkowych z oceną modelu grupy LTB. Wizualizacje modeli pokazano na rysunku 18 NAZWA METODY GDT_TS (%) RMSD (Å) BAKER-ROSETTASERVER 71,61 3,22 HHpredB 81,79 2,79 MULTICOM-REFINE 78,21 3,27 MUSTER 78,75 3,91 Phyre2 75,71 3,11 pro-sp3-tasser 80,89 1,78 RaptorX 79,82 2,93 Zhang-Server 84,11 1,78 Średnia 78,86 2,85 LTB 86,61 1,49 Na rysunku 18 pokazano nałożenie śladów Cα modeli początkowych, przewidzianego modelu oraz struktury doświadczalnej. Pomimo zróżnicowania modeli początkowych w niektórych fragmentach (a zatem stosunkowo szerokim zakresom więzów odległości) modelowanie programem CABS pozwoliło na otrzymanie modelu bardzo bliskiego strukturze doświadczalnej. 57

58 Rysunek 18. Nałożenie struktury doświadczalnej, modelu LTB oraz modeli początkowych dla sekwencji celu T0594. Modele początkowe używane są do wygenerowania więzów odległości, które ograniczają przestrzeń konformacyjną próbkowaną przez CABS. W tym przypadku model LTB jest bardziej podobny do struktury doświadczalnej niż którykolwiek z modeli początkowych (tabela 6) T0622 przypadek wykorzystania jednego modelu początkowego z brakującym fragmentem W ramach eksperymentu CASP, oprócz opisanej wyżej kategorii przewidywania struktury trzeciorzędowej białek (ang. Tertiary Structure predictions TS), istnieje kilka innych dyscyplin. Jedną z nich jest kategoria optymalizacji struktur (ang. Target Refinement TR). W ramach tej kategorii organizatorzy wybierają jeden (lub więcej) z modeli nadesłanych w ramach kategorii TS do poprawy w kategorii TR. Z reguły ogłoszenie sekwencji celu kategorii TR następuje dopiero po zakończeniu możliwości nadsyłania rozwiązań dla danej sekwencji w ramach kategorii TS. Inaczej stało się w przypadku sekwencji celu oznaczonej jako T0622. Proponowany model początkowy został opublikowany wcześniej, co pozwoliło na jego wykorzystanie przez uczestników biorących udział w przewidywaniu struktur w ramach kategorii TS. Dodatkowo organizatorzy zamieścili następujące wskazówki: 58

59 Starting MODEL GDT_TS=67. This is quite an accurate model up to res. 91 (even though some loops still can be improved). The most challenging area for the refinement is the C-terminal region starting from residue 97, where the model essentially departs from the native structure. The two chains of the structure have quite extensive contact interface but residues 103 and further are not part of this interface. The experimental structure misses residues , which are also trimmed from the starting model. 8 Model zaproponowany przez organizatorów wykorzystano jako model początkowy w procedurze LTB. Przy generowaniu więzów pominięto C-końcowy fragment począwszy od reszty 97. Algorytm CABS miał zatem pełną swobodę w modelowaniu tej części białka. W wyniku modelowania otrzymano strukturę, której GDT_TS do struktury eksperymentalnej poprawił się o ponad 3 punkty procentowe (z 66,8% do 70,3%), natomiast RMSD o około 3,4 A (z 7,5 A do 4,1 A ). Model ten okazał się najlepszy spośród wysłanych przez wszystkie grupy biorące udział w przewidywaniu tej struktury. Na rysunku 19 przedstawiono wykres pochodzący ze strony CASP będący porównaniem wyników otrzymanych przez grupę Autora z pozostałymi grupami. 8 Źródło: dostęp: 30 września 2015 r. 59

60 Rysunek 19. Porównanie jakości modeli nadesłanych przez poszczególne grupy dla sekwencji celu T0622. Analiza GDT: procent reszt (pozycji węgli α), które znajdują się nie dalej niż określone odcięcie (0.5Å, 1.0 Å, 1.5Å,..., 10.0Å) od odpowiadających im reszt ze struktury doświadczalnej (po optymalnym nałożeniu). Na czerwono zaznaczono model grupy LTB, na pomarańczowo modele pozostałych grup Źródło: dostęp: 30 września 2015 r. W tabeli 7 zaprezentowano zestawienie ocen modeli wysłanych przez grupy biorące udział w kategorii TR oraz oceny modelu LTB z kategorii TS. Z zestawienia tego wynika, że tylko dwa modele uzyskały ocenę wyższą niż model LTB. Zwraca też uwagę fakt, że tylko 10 spośród 29 grup zdołało poprawić model startowy. Przypadek ten pokazuje, że dzięki zastosowaniu więzów metoda CABS może zostać także z powodzeniem użyta do zadań z jednym modelem początkowym, w których istotnych zmian wymaga jedynie część struktury (np. modelowanie pętli, czy jak w tym przykładzie końca). 60

61 Tabela 7. Wyniki w kategorii optymalizacji struktur (TR) dla sekwencji celu TR622. W zestawieniu umieszczono dodatkowo oceny modelu początkowego oraz modelu zaproponowanego przez grupę LTB w ramach kategorii TS dla celu T0622 Pozycja Nr grupy GDT_HA (%) 1 TR622TS172 55,94 2 TR622TS353 51,23 3 LTB 50,41 4 TR622TS033 50,20 5 TR622TS147 49,80 6 TR622TS429 49,39 7 TR622TS127 49,39 8 TR622TS477 49,18 9 TR622TS242 49,18 10 TR622TS096 48,98 11 TR622TS484 48,57 12 Struktura 48,57 początkowa 13 TR622TS295 48,36 14 TR622TS228 48,36 15 TR622TS402 48,16 16 TR622TS189 48,16 17 TR622TS273 47,13 18 TR622TS365 45,90 19 TR622TS236 45,70 20 TR622TS114 45,70 21 TR622TS056 45,49 22 TR622TS319 44,06 23 TR622TS001 42,21 24 TR622TS104 41,80 25 TR622TS360 41,19 26 TR622TS170 39,14 27 TR622TS458 38,93 28 TR622TS356 38,52 29 TR622TS408 38,32 30 TR622TS296 31,76 31 TR622TS403 26, Modelowanie de-novo Opisana metoda znajduje zastosowanie także w przypadku modelowania de-novo. Dotyczyć może to fragmentów, jak w opisanym powyżej przykładzie (T0622), lub całych białek. Niestety, w przypadku całych białek prawdopodobieństwo otrzymania modeli zbliżonych do struktury natywnej maleje wraz z długością sekwencji celu. Dla krótszych 61

62 białek (zawierających kilkadziesiąt aminokwasów) możliwe jest otrzymanie struktury o poprawnym zwoju. Przykładem może być białko o symbolu 1BDD, dla którego przy użyciu serwera CABS-fold uzyskano model o dokładności 2,95 Å (rysunek 20). Rysunek 20. Nałożenie struktury otrzymanej przy użyciu serwera CABS-fold (kolor fioletowy) i struktury doświadczalnej (kolory od niebieskiego do czerwonego wzdłuż łańcucha) dla białka 1BDD Dynamika stanów okołonatywnych Opisane wyżej badania skupiały się na przewidywaniu statycznej struktury białka. Jednakże wiadomo, że dynamika struktury ma często decydujący wpływ na funkcję białek. W związku z tym białka powinny być definiowane raczej poprzez zestaw różnorodnych konformacji niż przez pojedynczą strukturę (Orozco 2014). Istotną rolę w badaniu dynamiki białek odgrywają metody teoretyczne, przede wszystkim dynamika molekularna, która dla wielkich cząsteczek, jakimi są białka, jest jednak mało efektywna i pozwala badać zjawiska o ograniczonej skali czasowej. Alternatywą są modele gruboziarniste, w tym model CABS. Znajduje on zastosowanie w badaniach ruchów o różnej skali czasowej. Pokazano na przykład, że dla krótkich białek przewidziany mechanizm zwijania przewidziany modelem CABS odpowiada danym eksperymentalnym (Kmiecik i Kolinski 2007; Kmiecik i Kolinski 2008). Program CABS jest także podstawowym elementem metody CABS-flex (Jamroz i inni 2013a), która pozwala na przewidywanie dynamiki stanów okołonatywnych. Zastosowana procedura pozwala na otrzymanie wyników o dokładności podobnej do wyników uzyskanych za pomocą metod dynamiki molekularnej przy wielokrotnie (ok. 6 tysięcy razy) krótszym czasie obliczeniowym (Jamroz i inni 2013b). Przewidywane za pomocą metody CABS-flex fluktuacje poszczególnych reszt aminokwasowych 62

63 wykazują także wysoką korelację z fluktuacjami wyznaczonymi na podstawie danych eksperymentalnych NMR (Jamroz i inni 2014). Pewnym ograniczeniem metody CABS-flex jest konieczność zastosowania jako modeli początkowych struktur, które nie posiadają przerw w łańcuchu. Tymczasem wiele struktur wyznaczonych metodami eksperymentalnymi posiada takie przerwy. Odpowiedzią na to ograniczenie może być zastosowanie serwera CABS-fold do modelowania brakujących fragmentów. Następnie model wynikowy posłużyć może jako model startowy dla protokołu CABS-flex. Przykładowy schemat takiego postępowania przedstawiono poniżej na przykładzie białka yqgf z pałeczki okrężnicy. W strukturze białka yqgf wyznaczonej metodami krystalografii rentgenowskiej (kod PDB: 1NMN), znajduje się przerwa w łańcuchu o długości 19 aminokwasów. Ta niepełna struktura została użyta jako model początkowy w serwerze CABS-fold. Podczas procesu modelowania brakujący fragment oraz inne części białka o nieokreślonej strukturze drugorzędowej pozbawione były więzów, na pozostałe części nałożone zostały więzy odległości obliczone na podstawie struktury rentgenowskiej. Następnie wykonano symulacje przy użyciu serwera CABSflex. Jako model początkowy dla metody CABS-flex posłużył jeden z modeli otrzymanych w wyniku symulacji przy użyciu narzędzia CABS-fold (rysunek 21). Rysunek 21. Kolejne etapy modelowania przy użyciu metod CABS-fold i CABS-flex Otrzymane wyniki porównano z zestawem modeli wyznaczonych metodą NMR (kod PDB: 1OVQ). Na rysunku 22 pokazano profile fluktuacji dla zbioru danych NMR, trajektorii CABS-flex oraz CABS-fold. Zgodnie z oczekiwaniami fluktuacje z symulacji metodą CABS-flex dobrze korelują z fluktuacjami obliczonymi na podstawie danych NMR. Co ciekawe, symulacje wykonane metodą CABS-fold pozwoliły na wyznaczenie 63

64 profilu fluktuacji jeszcze bardziej zbliżonego do danych eksperymentalnych (niewielka rozbieżność pomiędzy wynikami CABS-fold i CABS-flex wynika z różnicy w parametrach symulacji oraz w zastosowaniu różnych więzów przestrzennych). Rysunek 22. Profile fluktuacji (RMSF) obliczone na podstawie danych NMR, trajektorii otrzymanych metodami CABS-flex oraz CABS-fold (w nawiasie podano współczynnik korelacji rang Spearmana do danych NMR). RMSF (ang. Root Mean Square Fluctuation) to średnia kwadratowa odchyleń położeń poszczególnych reszt obliczona na podstawie trajektorii CABS-flex, CABS-fold lub zespołu struktur NMR Na podstawie pojedynczego przykładu nie można wysnuwać daleko idących wniosków dotyczących metody, jednak przedstawione tu wyniki wskazują, że metoda CABS-fold może być użyteczna nie tylko do predykcji struktury białek, ale także do badania ich dynamiki CABS-dock serwer do przewidywania struktury kompleksów białek z peptydami Niniejszy rozdział stanowi streszczenie prac P6 i P7, które opisują metodę CABSdock 9 służącą do modelowania kompleksów białek z peptydami. Jak podkreślono we wstępie niniejszej pracy, znajomość struktury przestrzennej białek otwiera drogę do poznania ich funkcji, która jest najczęściej powiązana z tworzeniem kompleksów. Wśród wielu różnych cząsteczek, które mogą wiązać się z białkami, na szczególną uwagę zasługują peptydy. Dotychczas zidentyfikowano ponad 7000 naturalnie występujących peptydów, z których wiele pełni istotne funkcje. Peptydy są zatem ważnymi obiektami zainteresowania przemysłu farmaceutycznego. Obecnie 9 Metoda CABS-dock została udostępniona w postaci serwisu internetowego pod adresem: 64

65 w USA zarejestrowanych jest ok. 60 leków opartych na peptydach, a ok. 140 kolejnych podlega obecnie badaniom klinicznym (Fosgerau i Hoffmann 2015). Peptydy cechują się wysoką giętkością strukturalną, a ich oddziaływania z białkami mają nietrwały charakter. Z tego powodu skuteczność metod doświadczalnych w określaniu detali strukturalnych oddziaływań białek z peptydami jest mocno ograniczona (London i inni 2013b). Alternatywą dla metod eksperymentalnych są metody dokowania molekularnego, których celem jest poszukiwanie optymalnego miejsca i sposobu wiązania liganda z receptorem. Jednakże popularne metody dokowania białek do peptydów, takie jak Rosetta FlexPepDock (London i inni 2011; Raveh i inni 2011), HADDOCK (Trellet i inni 2013; Trellet i inni 2015), czy PepCrawler (Donsky i Wolfson 2011), wymagają wcześniejszego zdefiniowania rejonu wiązania peptydu z białkiem. Inaczej jest w przypadku stworzonej ostatnio w naszym laboratorium metody CABS-dock, która umożliwia próbkowanie całej powierzchni białka przez peptyd (rysunek 23B). Dodatkowo zapewniona jest pełna giętkość łańcucha peptydu oraz ograniczona giętkość struktury receptora. Metoda ta opiera się na modelu CABS, który został rozbudowany o możliwość wprowadzenia kilku łańcuchów. Symulacja rozpoczyna się od zbioru 10 kopii systemu (replik), każda ze strukturą peptydu o losowej konformacji i w losowym położeniu oraz ze strukturą receptora określoną przez użytkownika (rysunek 23A). W wyniku filtrowania i analizy skupień struktur z trajektorii przygotowywany jest zestaw 10 modeli końcowych (rysunek 23C). 65

66 Rysunek 23. Ilustracja najważniejszych etapów modelowania przy użyciu metody CABS-dock. (A) 10 modeli początkowych, (B) 10 tysięcy modeli będących wynikiem dokowania, (C) 10 modeli końcowych. Receptor został przedstawiony jako szara powierzchnia, peptyd natomiast pokazano w kolorze błękitnym Źródło : praca P7. Metoda została przetestowana na największym dostępnym zbiorze znanych struktur kompleksów białek z peptydami, w którym znajdują się 103 struktury receptorów w formie związanej z peptydem i 68 struktur receptorów w formie niezwiązanej z peptydem. Dla każdego z przypadków dokonano serii 3 symulacji z ustawieniami domyślnymi serwera CABS-dock. Pełne wyniki zostały zaprezentowane na jednej z podstron serwisu. 10 Jak pokazano na rysunku 24, biorąc pod uwagę wszystkie modele z trajektorii, w ponad 80% przypadków uzyskano poprawne struktury o wysokiej lub średniej dokładności dostęp: 24 września 2015 r. 66

67 Rysunek 24. Wyniki dokowania metodą CABS-dock dla zestawu testowego. W 103 przypadkach użyto doświadczalnej struktury receptora otrzymanej w formie związanej z peptydem, a w 68 przypadkach w formie niezwiązanej. Wykresy przedstawiają dokładność otrzymanych modeli. Jako kryterium dokładności użyto miary RMSD: modele o wysokiej dokładności RMSD<3 Å; średniej dokładności: 3 Å RMSD 5.5 Å; niskiej dokładności: RMSD > 5.5 Å (RMSD wyłącznie na podstawie położeń atomów peptydów, po optymalnym nałożeniu struktur receptorów). Pod uwagę brano najlepszy model z całej trajektorii (wykresy na górze) lub z najwyżej ocenionej 10 modeli (wykresy na dole) Źródło: praca P7. Wyniki jednego z przypadków dokowania ze standardowymi ustawieniami serwera CABS-dock przedstawiono na rysunku

68 Rysunek 25. Modelowanie przy użyciu serwera CABS-dock z domyślnymi ustawieniami. Na rysunku zaprezentowano eksperymentalną strukturę kompleksu (kod PDB: 1T7R; receptor w kolorze szarym, peptyd fioletowym) oraz predykcje położeń i konformacji peptydu uzyskane przy użyciu serwera (pokazane w kolorze błękitnym). Spośród 10 przewidzianych położeń peptydów, 2 znajdują się w miejscu wiązania zgodnym ze strukturą eksperymentalną. Najwyżej z ocenionych modeli (reprezentant najgęstszego klastra) jest najbliższy strukturze doświadczalnej (RMSD pomiędzy modelem a strukturą doświadczalną wyniósł 2.22 Å) Źródło: praca P7. Opcjonalnie narzędzie CABS-dock pozwala na zwiększenie giętkości fragmentu receptora. W pracy P7 Autor zaprezentował użyteczność takiej opcji na przykładzie receptora, w którym właściwe dokowanie peptydu było możliwe dopiero po zmianie konformacji jednej z pętli (rysunek 26). Duża skala możliwych zmian konformacyjnych receptora w trakcie dokowania wyróżnia metodę CABS-dock spośród innych metod dokowania molekularnego (Antunes i inni 2015). 68

69 Rysunek 26. Modelowanie przy użyciu serwera CABS-dock ze zwiększoną giętkością struktury receptora w pobliżu miejsca wiązania. (a) Porównanie struktury eksperymentalnej białka w formie niezwiązanej z peptydem (w kolorze zielonym; struktura początkowa użyta w dokowaniu, kod PDB: 2RTM) ze strukturą w formie związanej z peptydem (kolor fioletowy, kod PDB: 1KL3), oraz uzyskanymi modelami (w kolorze błękitnym). Peptydy są zaprezentowane w postaci grubych linii, podczas gdy pętle białka jako cienkie linie. RMSD obliczony dla peptydów pomiędzy modelem CABS-dock a strukturą doświadczalną wyniósł 2.03 Å. (b) Pętla, dla której zapewniono zwiększoną giętkość podczas modelowania narzędziem CABS-dock. Rysunek przedstawia nałożenie modeli wynikowych (w kolorze błękitnym) ze strukturą receptora w formie niezwiązanej z peptydem (kolor zielony). Fragment pętli o zwiększonej giętkości zaznaczono na czerwono (reszty od 45 do 54) Źródło: praca P7. w pracy P7. Więcej przykładów zastosowania serwera CABS-dock zaprezentowano 69

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI DOPASOWANIE SEKWENCJI 1. Dopasowanie sekwencji - definicja 2. Wizualizacja dopasowania sekwencji 3. Miary podobieństwa sekwencji 4. Przykłady programów

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie... 3. 2 Wprowadzenie do biologicznych baz danych...

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie... 3. 2 Wprowadzenie do biologicznych baz danych... Przedmowa... XI Część pierwsza Wprowadzenie i biologiczne bazy danych 1 Wprowadzenie... 3 Czym jest bioinformatyka?... 5 Cele... 5 Zakres zainteresowań... 6 Zastosowania... 7 Ograniczenia... 8 Przyszłe

Bardziej szczegółowo

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI DOPASOWANIE SEKWENCJI 1. Dopasowanie sekwencji - definicja 2. Wizualizacja dopasowania sekwencji 3. Miary podobieństwa sekwencji 4. Przykłady programów

Bardziej szczegółowo

Bioinformatyka II Modelowanie struktury białek

Bioinformatyka II Modelowanie struktury białek Bioinformatyka II Modelowanie struktury białek 1. Który spośród wymienionych szablonów wybierzesz do modelowania? Dlaczego? Struktura krystaliczną czy NMR (to samo białko, ta sama rozdzielczość)? Strukturę

Bardziej szczegółowo

PRZYRÓWNANIE SEKWENCJI

PRZYRÓWNANIE SEKWENCJI http://theta.edu.pl/ Podstawy Bioinformatyki III PRZYRÓWNANIE SEKWENCJI 1 Sequence alignment - przyrównanie sekwencji Poszukiwanie ciągów znaków (zasad nukleotydowych lub reszt aminokwasowych), które posiadają

Bardziej szczegółowo

Żwirki i Wigury 93, Warszawa TEL.: , FAX: , E- MAIL: Dr hab. Joanna T

Żwirki i Wigury 93, Warszawa TEL.: , FAX: , E- MAIL:   Dr hab. Joanna T Żwirki i Wigury 93, 02-089 Warszawa TEL.: + 48 22 55 40 800, FAX: +48 22 55 40 801, E- MAIL: sekretariat@uw.edu.pl www.cent.uw.edu.pl Dr hab. Joanna Trylska, prof. UW tel. (22) 5540843 e- mail: joanna@cent.uw.edu.pl

Bardziej szczegółowo

Bioinformatyka wykład 8, 27.XI.2012

Bioinformatyka wykład 8, 27.XI.2012 Bioinformatyka wykład 8, 27.XI.2012 białkowa bioinformatyka strukturalna c.d. krzysztof_pawlowski@sggw.pl 2013-01-21 1 Plan wykładu regiony nieuporządkowane sposoby przedstawienia struktur białkowych powierzchnia

Bardziej szczegółowo

Bioinformatyka II Modelowanie struktury białek

Bioinformatyka II Modelowanie struktury białek Bioinformatyka II Modelowanie struktury białek 1. Który spośród wymienionych szablonów wybierzesz do modelowania dla każdego z podanych przypadków? Dlaczego? Struktura krystaliczną czy NMR (to samo białko,

Bardziej szczegółowo

Bioinformatyka wykład 3.I.2008

Bioinformatyka wykład 3.I.2008 Bioinformatyka wykład 3.I.2008 Białkowa bioinformatyka strukturalna c.d. krzysztof_pawlowski@sggw.pl 2008-01-03 1 Plan wykładu analiza i porównywanie struktur białek. doświadczalne metody badania struktur

Bardziej szczegółowo

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Przyrównanie sekwencji Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Sequence alignment - przyrównanie sekwencji Poszukiwanie ciągów znaków (zasad nukleotydowych lub reszt aminokwasowych),

Bardziej szczegółowo

Bioinformatyka wykład 11, 11.I.2011 Białkowa bioinformatyka strukturalna c.d.

Bioinformatyka wykład 11, 11.I.2011 Białkowa bioinformatyka strukturalna c.d. Bioinformatyka wykład 11, 11.I.2011 Białkowa bioinformatyka strukturalna c.d. krzysztof_pawlowski@sggw.pl 11.01.11 1 Dopasowanie strukturalne (alignment) odległość: d ij = (x i -x J ) 2 + (y i -y J ) 2

Bardziej szczegółowo

Bioinformatyka wykład 10

Bioinformatyka wykład 10 Bioinformatyka wykład 10 21.XII.2010 białkowa bioinformatyka strukturalna, c.d. krzysztof_pawlowski@sggw.pl 2011-01-17 1 Regiony nieuporządkowane disordered regions trudna definicja trudne do przewidzenia

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych

RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych Joanna Wiśniewska Promotor: dr inż. P. Łukasiak Spis treści 1. Zakres pracy magisterskiej 2. Struktura białka 3. Struktura kwasów nukleionowych

Bardziej szczegółowo

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński MultiSETTER: web server for multiple RNA structure comparison Sandra Sobierajska Uniwersytet Jagielloński Wprowadzenie Budowa RNA: - struktura pierwszorzędowa sekwencja nukleotydów w łańcuchu: A, U, G,

Bardziej szczegółowo

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania Wprowadzenie do Informatyki Biomedycznej Wykład 2: Metody dopasowywania sekwencji Wydział Informatyki PB Dopasowywanie sekwencji (ang. sequence alignment) Dopasowywanie (przyrównywanie) sekwencji polega

Bardziej szczegółowo

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee Bioinformatyka 2 (BT172) Wykład 5 Progresywne metody wyznaczania MSA: T-coffee Krzysztof Murzyn 14.XI.2005 PLAN WYKŁADU Ostatnio : definicje, zastosowania MSA, złożoność obliczeniowa algorytmu wyznaczania

Bardziej szczegółowo

Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk

Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA Marta Szachniuk Plan prezentacji Wprowadzenie do tematyki badań Teoretyczny model problemu Złożoność

Bardziej szczegółowo

Program MC. Obliczyć radialną funkcję korelacji. Zrobić jej wykres. Odczytać z wykresu wartość radialnej funkcji korelacji w punkcie r=

Program MC. Obliczyć radialną funkcję korelacji. Zrobić jej wykres. Odczytać z wykresu wartość radialnej funkcji korelacji w punkcie r= Program MC Napisać program symulujący twarde kule w zespole kanonicznym. Dla N > 100 twardych kul. Gęstość liczbowa 0.1 < N/V < 0.4. Zrobić obliczenia dla 2,3 różnych wartości gęstości. Obliczyć radialną

Bardziej szczegółowo

Dopasowania par sekwencji DNA

Dopasowania par sekwencji DNA Dopasowania par sekwencji DNA Tworzenie uliniowień (dopasowań, tzw. alignmentów ) par sekwencji PSA Pairwise Sequence Alignment Dopasowania globalne i lokalne ACTACTAGATTACTTACGGATCAGGTACTTTAGAGGCTTGCAACCA

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Recenzja. Warszawa, dnia 22 października 2018 r.

Recenzja. Warszawa, dnia 22 października 2018 r. Warszawa, dnia 22 października 2018 r. Dr hab. Sebastian Kmiecik Wydział Chemii, Centrum Nauk Biologiczno-Chemicznych, Uniwersytet Warszawski, Pasteura 1, Warszawa email: sekmi@chem.uw.edu.pl Recenzja

Bardziej szczegółowo

Badanie długości czynników sieciujących metodami symulacji komputerowych

Badanie długości czynników sieciujących metodami symulacji komputerowych Badanie długości czynników sieciujących metodami symulacji komputerowych Agnieszka Obarska-Kosińska Prof. dr hab. Bogdan Lesyng Promotorzy: Dr hab. Janusz Bujnicki Zakład Biofizyki, Instytut Fizyki Doświadczalnej,

Bardziej szczegółowo

Modelowanie białek ab initio / de novo

Modelowanie białek ab initio / de novo Modelowanie białek ab initio / de novo Słowniczek de novo - od początku, na nowo ab initio - od początku Słowniczek de novo - kategoria metod przewidywania struktury, w których nie używa się wzorców homologicznych

Bardziej szczegółowo

Modelowanie białek ab initio / de novo

Modelowanie białek ab initio / de novo Modelowanie białek ab initio / de novo Słowniczek de novo - od początku, na nowo ab initio - od początku Słowniczek de novo - kategoria metod przewidywania struktury, w których nie używa się wzorców homologicznych

Bardziej szczegółowo

Bioinformatyka wykład 12, 18.I.2011 Białkowa bioinformatyka strukturalna c.d.

Bioinformatyka wykład 12, 18.I.2011 Białkowa bioinformatyka strukturalna c.d. Bioinformatyka wykład 12, 18.I.2011 Białkowa bioinformatyka strukturalna c.d. krzysztof_pawlowski@sggw.pl 18.01.11 1 Struktura natywna minimum energii swobodnej F = U TS Prawdopodobieństwo stanu ~ exp(-f/k

Bardziej szczegółowo

Przewidywanie struktur białek

Przewidywanie struktur białek Łukasz Ołdziejewski Wydział Chemii UW Przewidywanie struktur białek czyli droga do projektowania indywidualnych leków Sprawozdanie studenckie 2007/2008 1 Indywidualność jednostki KaŜdy człowiek jest indywidualnym

Bardziej szczegółowo

Dopasowanie sekwencji (sequence alignment)

Dopasowanie sekwencji (sequence alignment) Co to jest alignment? Dopasowanie sekwencji (sequence alignment) Alignment jest sposobem dopasowania struktur pierwszorzędowych DNA, RNA lub białek do zidentyfikowanych regionów w celu określenia podobieństwa;

Bardziej szczegółowo

Bioinformatyka wykład 10.I.2008

Bioinformatyka wykład 10.I.2008 Bioinformatyka wykład 10.I.2008 Przewidywanie struktur białek krzysztof_pawlowski@sggw.pl 2008-01-10 1 Plan wykładu pole siłowe - opis energetyczny struktur białka proces zwijania się białek przewidywanie

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Krystalografia. Analiza wyników rentgenowskiej analizy strukturalnej i sposób ich prezentacji

Krystalografia. Analiza wyników rentgenowskiej analizy strukturalnej i sposób ich prezentacji Krystalografia Analiza wyników rentgenowskiej analizy strukturalnej i sposób ich prezentacji Opis geometrii Symetria: kryształu: grupa przestrzenna cząsteczki: grupa punktowa Parametry geometryczne współrzędne

Bardziej szczegółowo

Modelowanie białek ab initio / de novo

Modelowanie białek ab initio / de novo Modelowanie białek ab initio / de novo Słowniczek de novo - od początku, na nowo ab initio - od początku Słowniczek de novo - kategoria metod przewidywania struktury, w których nie używa się wzorców homologicznych

Bardziej szczegółowo

Porównywanie i dopasowywanie sekwencji

Porównywanie i dopasowywanie sekwencji Porównywanie i dopasowywanie sekwencji Związek bioinformatyki z ewolucją Wraz ze wzrostem dostępności sekwencji DNA i białek pojawiła się nowa możliwość śledzenia ewolucji na poziomie molekularnym Ewolucja

Bardziej szczegółowo

Statystyczna analiza danych

Statystyczna analiza danych Statystyczna analiza danych ukryte modele Markowa, zastosowania Anna Gambin Instytut Informatyki Uniwersytet Warszawski plan na dziś Ukryte modele Markowa w praktyce modelowania rodzin białek multiuliniowienia

Bardziej szczegółowo

Recenzja rozprawy doktorskiej mgra Mateusza Pikory pt. "Zastosowanie modelu Markova do badania ścieżek zwijania białek"

Recenzja rozprawy doktorskiej mgra Mateusza Pikory pt. Zastosowanie modelu Markova do badania ścieżek zwijania białek 3 września, 2019 Prof. dr hab. Joanna Trylska e-mail: joanna@cent.uw.edu.pl telefon (22) 55 43 683 https://bionano.cent.uw.edu.pl Rada Naukowa Międzyuczelnianego Wydziału Biotechnologii UG i GUMed ul.

Bardziej szczegółowo

Dokowanie molekularne. Karol Kamel Uniwersytet Warszawski

Dokowanie molekularne. Karol Kamel Uniwersytet Warszawski molekularne Wstęp Dokowanie metoda modelowania molekularnego, pozwalająca na znalezienie położenia (i konformacji) liganda w miejscu wiążącym receptora. Informacja ta pozwala na ocenę energii swobodnej

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka Modelowanie jako sposób opisu rzeczywistości Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka 2015 Wprowadzenie: Modelowanie i symulacja PROBLEM: Podstawowy problem z opisem otaczającej

Bardziej szczegółowo

Komputerowe wspomaganie projektowania leków

Komputerowe wspomaganie projektowania leków Komputerowe wspomaganie projektowania leków MECHANIKA MOLEKULARNA I KWANTOWA W MM korzysta się z równań wynikających z praw fizyki klasycznej i stosuje się je do jader atomów z pominięciem elektronów,

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Komputerowe wspomaganie projektowanie leków

Komputerowe wspomaganie projektowanie leków Komputerowe wspomaganie projektowanie leków wykład V Prof. dr hab. Sławomir Filipek Grupa BIOmodelowania Uniwersytet Warszawski, Wydział Chemii oraz Centrum Nauk Biologiczno-Chemicznych Cent-III www.biomodellab.eu

Bardziej szczegółowo

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Plan wykładu 1. Sieci jako modele interakcji

Bardziej szczegółowo

Wykład 4: Statystyki opisowe (część 1)

Wykład 4: Statystyki opisowe (część 1) Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można

Bardziej szczegółowo

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO Bogumil Konopka 1, Jean-Christophe Nebel 2, Malgorzata Kotulska 1 * 1 Politechnika

Bardziej szczegółowo

Wykład 5 Dopasowywanie lokalne

Wykład 5 Dopasowywanie lokalne Wykład 5 Dopasowywanie lokalne Dopasowanie par (sekwencji) Dopasowanie globalne C A T W A L K C A T W A L K C O W A R D C X X O X W X A X R X D X Globalne dopasowanie Schemat punktowania (uproszczony)

Bardziej szczegółowo

Optymalizacja optymalizacji

Optymalizacja optymalizacji 7 maja 2008 Wstęp Optymalizacja lokalna Optymalizacja globalna Algorytmy genetyczne Badane czasteczki Wykorzystane oprogramowanie (Algorytm genetyczny) 2 Sieć neuronowa Pochodne met-enkefaliny Optymalizacja

Bardziej szczegółowo

Algorytm genetyczny (genetic algorithm)-

Algorytm genetyczny (genetic algorithm)- Optymalizacja W praktyce inżynierskiej często zachodzi potrzeba znalezienia parametrów, dla których system/urządzenie będzie działać w sposób optymalny. Klasyczne podejście do optymalizacji: sformułowanie

Bardziej szczegółowo

Wykładnicze grafy przypadkowe: teoria i przykłady zastosowań do analizy rzeczywistych sieci złożonych

Wykładnicze grafy przypadkowe: teoria i przykłady zastosowań do analizy rzeczywistych sieci złożonych Gdańsk, Warsztaty pt. Układy Złożone (8 10 maja 2014) Agata Fronczak Zakład Fizyki Układów Złożonych Wydział Fizyki Politechniki Warszawskiej Wykładnicze grafy przypadkowe: teoria i przykłady zastosowań

Bardziej szczegółowo

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Często dopasować chcemy nie dwie sekwencje ale kilkanaście lub więcej 2 Istnieją dokładne algorytmy, lecz są one niewydajne

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

Wieloskalowe modelowanie molekularne bia³ek

Wieloskalowe modelowanie molekularne bia³ek Osi¹gniêcia Nauki i Techniki Kierunki Rozwoju i Metody KONWERSATORIUM POLITECHNIKI WARSZAWSKIEJ Wk³adka nr 10 do Miesiêcznika Politechniki Warszawskiej nr 2/2007 Redaktor merytoryczny Stanis³aw Janeczko

Bardziej szczegółowo

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Autoreferat do rozprawy doktorskiej OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Michał Mazur Gliwice 2016 1 2 Montaż samochodów na linii w

Bardziej szczegółowo

Przyrównywanie sekwencji

Przyrównywanie sekwencji Instytut Informatyki i Matematyki Komputerowej UJ, opracowanie: mgr Ewa Matczyńska, dr Jacek Śmietański Przyrównywanie sekwencji 1. Porównywanie sekwencji wprowadzenie Sekwencje porównujemy po to, aby

Bardziej szczegółowo

Komputerowe wspomaganie projektowanie leków

Komputerowe wspomaganie projektowanie leków Komputerowe wspomaganie projektowanie leków wykład VI Prof. dr hab. Sławomir Filipek Grupa BIOmodelowania Uniwersytet Warszawski, Wydział Chemii oraz Centrum Nauk Biologiczno-Chemicznych Cent-III www.biomodellab.eu

Bardziej szczegółowo

na podstawie artykułu: Modeling Complex RNA Tertiary Folds with Rosetta Clarence Yu Cheng, Fang-Chieh Chou, Rhiju Das

na podstawie artykułu: Modeling Complex RNA Tertiary Folds with Rosetta Clarence Yu Cheng, Fang-Chieh Chou, Rhiju Das na podstawie artykułu: Modeling Complex RNA Tertiary Folds with Rosetta Clarence Yu Cheng, Fang-Chieh Chou, Rhiju Das wykonała: Marta Szynczewska bioinformatyka Uniwersytet Jagielloński Struktura I-rzędowa

Bardziej szczegółowo

Recenzja pracy doktorskiej mgr Tomasza Świsłockiego pt. Wpływ oddziaływań dipolowych na własności spinorowego kondensatu rubidowego

Recenzja pracy doktorskiej mgr Tomasza Świsłockiego pt. Wpływ oddziaływań dipolowych na własności spinorowego kondensatu rubidowego Prof. dr hab. Jan Mostowski Instytut Fizyki PAN Warszawa Warszawa, 15 listopada 2010 r. Recenzja pracy doktorskiej mgr Tomasza Świsłockiego pt. Wpływ oddziaływań dipolowych na własności spinorowego kondensatu

Bardziej szczegółowo

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW DOPASOWYWANIE SEKWENCJI 1. Miary podobieństwa sekwencji aminokwasów 2. Zastosowanie programów: CLUSTAL OMEGA BLAST Copyright 2013, Joanna Szyda

Bardziej szczegółowo

Projektowanie Nowych Chemoterapeutyków

Projektowanie Nowych Chemoterapeutyków Jan Mazerski Katedra Technologii Leków i Biochemii Wydział Chemiczny Projektowanie Nowych Chemoterapeutyków XV. QSAR 3D QSAR w przestrzeni Rozwój metod ustalania struktury 3D dla białek i ich kompleksów.

Bardziej szczegółowo

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment Dopasowywanie sekwencji Sequence alignment Drzewo filogenetyczne Kserokopiarka zadanie: skopiować 300 stron. Co może pójść źle? 2x ta sama strona Opuszczona strona Nadmiarowa pusta strona Strona do góry

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

WYMAGANIA EDUKACYJNE Z MATEMATYKI 2016/2017 (zakres podstawowy) klasa 3abc

WYMAGANIA EDUKACYJNE Z MATEMATYKI 2016/2017 (zakres podstawowy) klasa 3abc WYMAGANIA EDUKACYJNE Z MATEMATYKI 2016/2017 (zakres podstawowy) klasa 3abc 1, Ciągi zna definicję ciągu (ciągu liczbowego); potrafi wyznaczyć dowolny wyraz ciągu liczbowego określonego wzorem ogólnym;

Bardziej szczegółowo

Komputerowe wspomaganie projektowanie leków

Komputerowe wspomaganie projektowanie leków Komputerowe wspomaganie projektowanie leków wykład IV Prof. dr hab. Sławomir Filipek Grupa BIOmodelowania Uniwersytet Warszawski, Wydział Chemii oraz Centrum Nauk Biologiczno-Chemicznych Cent-III www.biomodellab.eu

Bardziej szczegółowo

Moduły kształcenia. Efekty kształcenia dla programu kształcenia (kierunku) MK_06 Krystalochemia. MK_01 Chemia fizyczna i jądrowa

Moduły kształcenia. Efekty kształcenia dla programu kształcenia (kierunku) MK_06 Krystalochemia. MK_01 Chemia fizyczna i jądrowa Matryca efektów kształcenia określa relacje między efektami kształcenia zdefiniowanymi dla programu kształcenia (efektami kierunkowymi) i efektami kształcenia zdefiniowanymi dla poszczególnych modułów

Bardziej szczegółowo

Wyznaczanie stopnia krystaliczności wybranych próbek polimerów wykorzystanie programu WAXSFIT

Wyznaczanie stopnia krystaliczności wybranych próbek polimerów wykorzystanie programu WAXSFIT 1 ĆWICZENIE 3 Wyznaczanie stopnia krystaliczności wybranych próbek polimerów wykorzystanie programu WAXSFIT Do wyznaczenia stopnia krystaliczności wybranych próbek polimerów wykorzystany zostanie program

Bardziej szczegółowo

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych autor: Robert Drab opiekun naukowy: dr inż. Paweł Rotter 1. Wstęp Zagadnienie generowania trójwymiarowego

Bardziej szczegółowo

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań TABELA ODNIESIEŃ EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA PROGRAMU KSZTAŁCENIA DO EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA OBSZARU KSZTAŁCENIA I PROFILU STUDIÓW PROGRAM KSZTAŁCENIA: POZIOM KSZTAŁCENIA: PROFIL KSZTAŁCENIA:

Bardziej szczegółowo

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Modelowanie motywów łańcuchami Markowa wyższego rzędu Modelowanie motywów łańcuchami Markowa wyższego rzędu Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki 23 października 2008 roku Plan prezentacji 1 Źródła 2 Motywy i ich znaczenie Łańcuchy

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Metody Optymalizacji: Przeszukiwanie z listą tabu

Metody Optymalizacji: Przeszukiwanie z listą tabu Metody Optymalizacji: Przeszukiwanie z listą tabu Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje: wtorek

Bardziej szczegółowo

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Tomasz Tobiasz PLAN WYNIKOWY (zakres podstawowy)

Tomasz Tobiasz PLAN WYNIKOWY (zakres podstawowy) Tomasz Tobiasz PLAN WYNIKOWY (zakres podstawowy) klasa 3. PAZDRO Plan jest wykazem wiadomości i umiejętności, jakie powinien mieć uczeń ubiegający się o określone oceny na poszczególnych etapach edukacji

Bardziej szczegółowo

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych inż. Marek Duczkowski Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych słowa kluczowe: algorytm gradientowy, optymalizacja, określanie wodnicy W artykule

Bardziej szczegółowo

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji Bioinformatyka wykład 5: dopasowanie sekwencji prof. dr hab. inż. Marta Kasprzak Instytut Informatyk Politechnika Poznańska Dopasowanie sekwencji Badanie podobieństwa sekwencji stanowi podstawę wielu gałęzi

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Zastosowanie banku asferycznych pseudoatomów w badaniach oddziaływań elektrostatycznych palców cynkowych z DNA

Zastosowanie banku asferycznych pseudoatomów w badaniach oddziaływań elektrostatycznych palców cynkowych z DNA Prof. dr hab. Sławomir Filipek, Wydział Chemii, Centrum Nauk Biologiczno-Chemicznych, Uniwersytet Warszawski, ul. Pasteura 1, 02-093 Warszawa Tel. 22-55-26405, E-mail: sfilipek@chem.uw.edu.pl Warszawa,

Bardziej szczegółowo

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański BIOINFORMATYKA edycja 2016 / 2017 wykład 11 RNA dr Jacek Śmietański jacek.smietanski@ii.uj.edu.pl http://jaceksmietanski.net Plan wykładu 1. Rola i rodzaje RNA 2. Oddziaływania wewnątrzcząsteczkowe i struktury

Bardziej szczegółowo

Porównywanie i dopasowywanie sekwencji

Porównywanie i dopasowywanie sekwencji Porównywanie i dopasowywanie sekwencji Związek bioinformatyki z ewolucją Wraz ze wzrostem dostępności sekwencji DNA i białek narodziła się nowa dyscyplina nauki ewolucja molekularna Ewolucja molekularna

Bardziej szczegółowo

Zadania ze statystyki, cz.6

Zadania ze statystyki, cz.6 Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji. Bioinformatyka Ocena wiarygodności dopasowania sekwencji www.michalbereta.pl Załóżmy, że mamy dwie sekwencje, które chcemy dopasować i dodatkowo ocenić wiarygodność tego dopasowania. Interesujące nas pytanie

Bardziej szczegółowo

Bioinformatyka wykład 9

Bioinformatyka wykład 9 Bioinformatyka wykład 9 14.XII.21 białkowa bioinformatyka strukturalna krzysztof_pawlowski@sggw.pl 211-1-17 1 Plan wykładu struktury białek dlaczego? struktury białek geometria i fizyka modyfikacje kowalencyjne

Bardziej szczegółowo

Wnioskowanie bayesowskie

Wnioskowanie bayesowskie Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,

Bardziej szczegółowo

Zadania badawcze prowadzone przez Zakład Technik Programowania:

Zadania badawcze prowadzone przez Zakład Technik Programowania: Zadania badawcze prowadzone przez Zakład Technik Programowania: - Opracowanie metod zrównoleglania programów sekwencyjnych o rozszerzonym zakresie stosowalności. - Opracowanie algorytmów obliczenia tranzytywnego

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

WYKŁAD NR 3 OPIS DRGAŃ NORMALNYCH UJĘCIE KLASYCZNE I KWANTOWE.

WYKŁAD NR 3 OPIS DRGAŃ NORMALNYCH UJĘCIE KLASYCZNE I KWANTOWE. 1 WYKŁAD NR 3 OPIS DRGAŃ NORMALNYCH UJĘCIE KLASYCZNE I KWANTOWE. Współrzędne wewnętrzne 2 F=-fq q ξ i F i =-f ij x j U = 1 2 fq2 U = 1 2 ij f ij ξ i ξ j 3 Najczęściej stosowaną metodą obliczania drgań

Bardziej szczegółowo

Definicje. Algorytm to:

Definicje. Algorytm to: Algorytmy Definicje Algorytm to: skończony ciąg operacji na obiektach, ze ściśle ustalonym porządkiem wykonania, dający możliwość realizacji zadania określonej klasy pewien ciąg czynności, który prowadzi

Bardziej szczegółowo

Wydział Matematyki. Testy zgodności. Wykład 03

Wydział Matematyki. Testy zgodności. Wykład 03 Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy

Bardziej szczegółowo

Wyznaczanie stopnia krystaliczności wybranych próbek polimerów wykorzystanie programu WAXSFIT

Wyznaczanie stopnia krystaliczności wybranych próbek polimerów wykorzystanie programu WAXSFIT 1 ĆWICZENIE 3 Wyznaczanie stopnia krystaliczności wybranych próbek polimerów wykorzystanie programu WAXSFIT Do wyznaczenia stopnia krystaliczności wybranych próbek polimerów wykorzystany zostanie program

Bardziej szczegółowo

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych. Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM Bioinformatyka (wykład monograficzny) wykład 5. E. Banachowicz Zakład Biofizyki Molekularnej IF UM http://www.amu.edu.pl/~ewas lgorytmy macierze punktowe (DotPlot) programowanie dynamiczne metody heurystyczne

Bardziej szczegółowo

Rozdział 1 PROGRAMOWANIE LINIOWE

Rozdział 1 PROGRAMOWANIE LINIOWE Wprowadzenie do badań operacyjnych z komputerem Opisy programów, ćwiczenia komputerowe i zadania. T. Trzaskalik (red.) Rozdział 1 PROGRAMOWANIE LINIOWE 1.2 Ćwiczenia komputerowe Ćwiczenie 1.1 Wykorzystując

Bardziej szczegółowo

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) 16.01.2003 Algorytmy i Struktury Danych PIŁA ALGORYTMY ZACHŁANNE czas [ms] Porównanie Algorytmów Rozwiązyjących problem TSP 100 000 000 000,000 10 000 000

Bardziej szczegółowo

7. Identyfikacja defektów badanego obiektu

7. Identyfikacja defektów badanego obiektu 7. Identyfikacja defektów badanego obiektu Pierwszym krokiem na drodze do identyfikacji defektów było przygotowanie tzw. odcisku palca poszczególnych defektów. W tym celu został napisany program Gaussian

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo