Dokonane w latach sześćdziesiątych odkrycie, w

Podobne dokumenty
Bioinformatyka II Modelowanie struktury białek

Bioinformatyka II Modelowanie struktury białek

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Modelowanie białek ab initio / de novo

Modelowanie białek ab initio / de novo

Modelowanie białek ab initio / de novo

Wzorcowe efekty kształcenia dla kierunku studiów biotechnologia studia pierwszego stopnia profil ogólnoakademicki

Materiały pochodzą z Platformy Edukacyjnej Portalu

etyloamina Aminy mają właściwości zasadowe i w roztworach kwaśnych tworzą jon alkinowy

Dopasowanie sekwencji (sequence alignment)

Recenzja pracy doktorskiej mgr Tomasza Świsłockiego pt. Wpływ oddziaływań dipolowych na własności spinorowego kondensatu rubidowego

Przewidywanie struktur białek

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PRZYRÓWNANIE SEKWENCJI

Żwirki i Wigury 93, Warszawa TEL.: , FAX: , E- MAIL: Dr hab. Joanna T

Bioinformatyka wykład 10.I.2008

Generator testów bioinformatyka wer / Strona: 1

Porównywanie i dopasowywanie sekwencji

Wybrane techniki badania białek -proteomika funkcjonalna

Przegląd budowy i funkcji białek

Opis zakładanych efektów kształcenia OPIS ZAKŁADANYCH EFEKTÓW KSZTAŁCENIA

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Wybrane techniki badania białek -proteomika funkcjonalna

166 Wstęp do statystyki matematycznej

Bioinformatyka wykład 9

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Aproksymacja funkcji a regresja symboliczna

ROZPORZĄDZENIE KOMISJI (UE) / z dnia r.

ODWZOROWANIE RZECZYWISTOŚCI

Dokowanie molekularne. Karol Kamel Uniwersytet Warszawski

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Bioinformatyka Laboratorium, 30h. Michał Bereta

Informacje. W sprawach organizacyjnych Slajdy z wykładów

Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk

Przewidywanie struktury białek: od modelowania opartego o szablony. do rekombinacji fragmentów metodą dr Frankensteina

Konspekt do zajęć z przedmiotu Genetyka dla kierunku Położnictwo dr Anna Skorczyk-Werner Katedra i Zakład Genetyki Medycznej

Bioinformatyka wykład 12, 18.I.2011 Białkowa bioinformatyka strukturalna c.d.

STUDIA I STOPNIA NA KIERUNKU ZASTOSOWANIA FIZYKI W BIOLOGII I MEDYCYNIE. specjalność Biofizyka molekularna

Efekty kształcenia dla kierunku studiów CHEMIA studia pierwszego stopnia profil ogólnoakademicki

UCHWAŁA Nr 31/2014 Senatu Uniwersytetu Wrocławskiego z dnia 26 marca 2014 r.

Bioinformatyka Laboratorium, 30h. Michał Bereta

Komputerowe wspomaganie projektowanie leków

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

Efekty kształcenia dla kierunku studiów CHEMIA studia drugiego stopnia profil ogólnoakademicki

Opis efektów uczenia się dla kwalifikacji na poziomie 7 Polskiej Ramy Kwalifikacji

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI

Komputerowe wspomaganie projektowanie leków

Translacja i proteom komórki

ZASTOSOWANIA FIZYKI W BIOLOGII I MEDYCYNIE Specjalność: Biofizyka molekularna. 3-letnie studia I stopnia (licencjackie)

Wprowadzenie do analizy korelacji i regresji

Substancje o Znaczeniu Biologicznym

określone Uchwałą Senatu Uniwersytetu Kazimierza Wielkiego Nr 156/2012/2013 z dnia 25 września 2013 r.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Badanie długości czynników sieciujących metodami symulacji komputerowych

Porównywanie i dopasowywanie sekwencji

Do uzyskania kwalifikacji pierwszego stopnia (studia inżynierskie) na kierunku BIOTECHNOLOGIA wymagane są wszystkie poniższe efekty kształcenia

Algorytmy ewolucyjne NAZEWNICTWO

Efekty uczenia się na kierunku. Logistyka (studia pierwszego stopnia o profilu praktycznym)

Generator testów Bioinformatyka wer / 0 Strona: 1

Wykładnicze grafy przypadkowe: teoria i przykłady zastosowań do analizy rzeczywistych sieci złożonych

Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling

Studia I stopnia kierunek: chemia Załącznik nr 3

Algorytm Genetyczny. zastosowanie do procesów rozmieszczenia stacji raportujących w sieciach komórkowych

Studia podyplomowe: Nauczanie biologii w gimnazjach i szkołach ponadgimnazjalnych

Statystyczna analiza danych

Algorytmy genetyczne. Paweł Cieśla. 8 stycznia 2009

Nowoczesne systemy ekspresji genów

FIZYKA II STOPNIA. TABELA ODNIESIENIA EFEKTÓW KIERUNKOWYCH DO EFEKTÓW PRK POZIOM 7 Symbol Efekty kształcenia dla kierunku studiów FIZYKA.

Bioinformatyka Laboratorium, 30h. Michał Bereta

Informacje dotyczące pracy kontrolnej

Informatyka w medycynie Punkt widzenia kardiologa

modelowania makromolekuł wydawało się interesującym zadaniem. W pewnym sensie tego typu podejście zbliżone było do idei de Gennes a, z jedną jednak

PLAN STUDIÓW PODYPLOMOWYCH: DIAGNOSTYKA MOLEKULARNA W ROKU 2019/2020. Nazwa modułu ECTS Semestr I Semestr II. Liczba godzin z.

SCENARIUSZ LEKCJI BIOLOGII Z WYKORZYSTANIEM FILMU

Algorytm genetyczny (genetic algorithm)-

Algorytmy genetyczne

Algorytmy genetyczne

Dr. habil. Anna Salek International Bio-Consulting 1 Germany

RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych

ZASTOSOWANIA FIZYKI W BIOLOGII I MEDYCYNIE Specjalność: Projektowanie molekularne i bioinformatyka. 2-letnie studia II stopnia (magisterskie)

Komputerowe wspomaganie projektowania leków

Podsumowanie wyników ankiety

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Bioinformatyka Laboratorium, 30h. Michał Bereta

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

ALGORYTMY GENETYCZNE (wykład + ćwiczenia)

Efekty kształcenia dla kierunku Biologia

Proteomika: umożliwia badanie zestawu wszystkich lub prawie wszystkich białek komórkowych

Karta Wskazań Efektywnego Partnerstwa Biznes-NGO

4.1 Hierarchiczna budowa białek

Bioinformatyka wykład 10

Recenzja. Warszawa, dnia 22 października 2018 r.

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Slajd 1. Slajd 2. Proteiny. Peptydy i białka są polimerami aminokwasów połączonych wiązaniem amidowym (peptydowym) Kwas α-aminokarboksylowy aminokwas

KIERUNKOWE EFEKTY KSZTAŁCENIA

Struktura i funkcja białek (I mgr)

Transkrypt:

Dokonane w latach sześćdziesiątych odkrycie, w jaki sposób sekwencja DNA przekłada się na sekwencję białek, spowodowało w biologii prawdziwy przełom intelektualny. Rozbudziło nadzieję na zrozumienie zasad funkcjonowania komórki i organizmu, poznanie mechanizmów rozwoju chorób oraz opracowanie skuteczniejszych metod profilaktyki i terapii. Badacze od początku zdawali sobie sprawę, że do spełnienia ich oczekiwań nie wystarczy znajomość sekwencji genów. DNA jest jednie nośnikiem informacji, a rozmaite funkcje życiowe pełnią zakodowane w nich białka. Jedne są elementami strukturalnymi, inne enzymami przeprowadzającymi rozmaite reakcje chemiczne, jeszcze inne odpowiadają za transport i ruch. Funkcja białka jest ściśle związana z jego strukturą, tak jak przeznaczenie narzędzia zależy od jego kształtu. Białka strukturalne mają zwykle budowę włóknistą, enzymatyczne globularną (podobnie jak białka będące wewnątrzkomórkowymi przekaźnikami sygnałów), z kolei białka błonowe tworzą kanały w błonach lipidowych, przez które odbywa się kontrolowany transport cząsteczek do i z komórki lub jej organelli. Struktura przestrzenna białka jest uwarunkowana sekwencją aminokwasów zakodowaną w genie [ramka na stronie 41]. Białka zbudowane są z nierozgałęzionego łańcucha polipeptydowego zwiniętego w taki sposób, że niektóre aminokwasy ukryte są w środku i zapewniają stabilność kształtu, a pozo- 38 ŚWIAT NAUKI LUTY 2006

Odgadywanie życia Janusz M. Bujnicki Krzysztof Ginalski Andrzej Koliński i Jan Kosiński Zaczyna się nowy etap rozwoju nauk przyrodniczych, w którym metody bioinformatyki i komputerowego modelowania biomolekularnego zadecydują o rozwoju medycyny stałe wystają na zewnątrz i mogą oddziaływać z innymi cząsteczkami. Zrozumienie, jak jakieś białko działa w komórce, możliwe jest zazwyczaj dopiero po poznaniu jego budowy zarówno sposobu zwinięcia tzw. łańcucha głównego, tworzącego rusztowanie, jak i konfiguracji jego grup bocznych na powierzchni. Niestety, badanie struktury i funkcji metodami doświadczalnymi jest żmudne i bardzo kosztowne. Na razie jedynie co czwartemu z około 25 tys. ludzkich białek udało się przypisać określoną rolę w komórce. W przypadku pozostałych znana jest tylko sekwencja aminokwasowa bo tyle dzięki złamaniu pierwszej części kodu genetycznego daje się obecnie wydedukować z sekwencji genu. Nie bez powodu więc złamanie kolejnych części kodu genetycznego, determinujących sposób przekładania sekwencji białek na ich strukturę przestrzenną, a struktury na funkcję, jest dla biologów jak poszukiwanie świętego Graala. Laureat Nagrody Nobla z chemii w 1972 roku, amerykański biochemik norweskiego pochodzenia, Christian B. Anfinsen, wykazał, że struktura białka zależy przede wszystkim od długości łańcucha polipeptydowego oraz rodzaju i kolejności tworzących go aminokwasów. Wynika to z odmiennych właściwości bocznych grup aminokwasów, które wykazują różne powinowactwo do siebie nawzajem oraz do wodnego środowiska komórki. Aby utworzyła się stabilna struktura, potrzebna jest odpowiednia liczba aminokwasów hydrofobowych, które unikają wody i tworzą rdzeń białka, oraz amino- LUTY 2006 ŚWIAT NAUKI 39

kwasów hydrofilowych, chętnie tworzących z cząsteczkami wody wiązania wodorowe. Łańcuch polipeptydowy, składający się z co najmniej 20 aminokwasów, może mieć wystarczającą liczbę aminokwasów obydwu typów, aby spontanicznie zwinąć się w unikatową strukturę przestrzenną. W cząsteczce białka tylko wiązania peptydowe są sztywne, natomiast pozostałe stanowią osie obrotu. Teoretycznie białko jest więc w stanie przyjmować astronomiczną wręcz liczbę alternatywnych kształtów (konformacji). Anfinsen wysunął tezę, że zgodnie z zasadami termodynamiki spośród wszystkich możliwych konformacji białko przyjmuje tę, w której cały układ (białko i jego otoczenie) wykazuje najniższą energię swobodną. Dlatego w danym układzie (np. w środowisku komórki) łańcuchy o identycznej sekwencji zwijają się zawsze w tę samą strukturę przestrzenną, zwaną strukturą natywną. Zwijające się białko nie wypróbowuje jednak wszystkich możliwych konformacji. W latach sześćdziesiątych nieżyjący już amerykański biofizyk Cyrus Levinthal oszacował czas niezbędny do takiego przeszukiwania na dłuższy niż wiek Wszechświata. Przyjmuje się więc, że proces zwijania zachodzi w ograniczonym podzbiorze możliwych konformacji, ale szczegóły mechanizmu odnajdowania natywnej konformacji przez łańcuch aminokwasów są wciąż przedmiotem dociekań i dysput naukowych. Niektóre białka zmieniają swoją konformację wskutek oddziaływań z innymi cząsteczkami. Na przykład prion może zmienić konformację z natywnej na chorobotwórczą na skutek oddziaływania z inną cząsteczką prionu, już zmienioną chorobowo. W ten właśnie sposób przekazywana jest choroba szalonych krów. Niedawno okazało się, że wiele białek (lub ich fragmentów), zwłaszcza takich, które zawierają mało aminokwasów hydrofobowych i nie mogą utworzyć stabilnego rdzenia, wykazuje nieuporządkowanie ich struktura gwałtownie fluktuuje. Stabilizacja takiego białka w konkretnej konformacji następuje dopiero po przyłączeniu się do innej, natywnie stabilnej cząsteczki. Zdecydowana większość białek globularnych ma jednak taką sekwencję aminokwasów, która w środowisku komórki pozwala na utworzenie stabilnej struktury. Stabilność ta bywa tak duża, że struktura nie zmienia się nawet wtedy, gdy białko zostanie wyizolowane z komórki i umieszczone na przykład w probówce, w roztworze wodnym. W takiej sytuacji możliwe jest doświadczalne określenie (specjaliści mówią: rozwiązanie) struktury białka za pomocą magnetycznego rezonansu jądrowego (NMR). Duża stabilność pozwala też uzyskać kryształy białka, tj. duże kompleksy zbudowane Przegląd / Od kodu do kształtu n Pełne zrozumienie mechanizmów działania ludzkiego organizmu będzie możliwe dopiero po poznaniu funkcji i struktury wszystkich białek człowieka. Niestety, ich doświadczalne badania są niezwykle trudne i kosztowne. n Naukowcy pracują zatem nad metodami komputerowego przewidywania struktury na podstawie sekwencji aminokwasowej białka. W metodach tych symuluje się fizyczny proces zwijania łańcucha lub ewolucję jego sekwencji i struktury. n Postępy prac oceniane są co dwa lata w konkursie CASP. W jego ostatnich edycjach wygrywali polscy bioinformatycy, autorzy tego artykułu. z ciasno upakowanych cząsteczek białka, identycznie zorientowanych w przestrzeni. Takie kryształy można prześwietlić promieniami Roentgena i wyliczyć strukturę na podstawie analizy wzoru dyfrakcyjnego, wynikającego z ugięcia promieni na atomach w krysztale. Jednak otrzymanie stężonego roztworu lub kryształu nadającego się do pomiarów nie zawsze się udaje, nawet w przypadku białek globularnych, a tym bardziej włóknistych i błonowych. Doświadczenia takie są czasochłonne i kosztowne, a sam proces rozwiązywania struktury trudny do zautomatyzowania i wymaga skomplikowanej i kosztownej aparatury oraz pracy wysokiej klasy specjalistów. W przeciwieństwie do tego sekwencjonowanie genów i tłumaczenie wyników na sekwencje aminokwasowe kodowanych przez nie białek jest stosunkowo tanie i daje się je w pełni zautomatyzować [patrz: Genom dla każdego, strona 28]. Różnica efektywności obu metod jest tak wielka, że obecnie znamy około 30 mln sekwencji białek (z czego przeważającą większość wydedukowano z sekwencji DNA), podczas gdy struktury udało się rozwiązać doświadczalnie jedynie dla mniej więcej 30 tys. z nich, i mimo ogromnych środków przeznaczonych na badania strukturalne dysproporcja ta stale się powiększa. Dwie szkoły wielkie nadzieje na postęp w tej dziedzinie naukowcy pokładają w komputerowym przewidywaniu struktury białka. Można to robić na dwa sposoby, koncentrując się na dwóch różnych procesach o zupełnie nieporównywalnej skali czasowo-przestrzennej. W jednej metodzie modeluje się zwijanie białka, czyli proces poszukiwania przez łańcuch konformacji o najniższej energii swobodnej, który w komórkach trwa zaledwie ułamki sekundy. Druga polega na rekonstrukcji procesu powstania sekwencji i struktury białka na drodze ewolucji przyrodzie zabiera to miliony lat. Badacze zajmujący się komputerowym przewidywaniem struktury białka zwykle identyfikują się zatem z jedną z dwóch dyscyplin: fizyką statystyczną (ten odłam nazywany jest niekiedy szkołą boltzmannowską ) lub biologią ewolucyjną ( szkoła darwinowska ). Hipoteza Anfinsena, że struktura większości białek jest zdeterminowana wyłącznie przez ich sekwencję aminokwasową oraz odpowiada najmniejszej energii łańcucha białka i cząsteczek roztworu, w którym ono się znajduje, jest powszechnie akceptowana, choć są od niej wyjątki. Tak więc sama znajomość sekwencji aminokwasowej białka powinna pozwolić na określenie jego kształtu. Wystarczyłoby komputerowo wygenerować wszystkie możliwe konformacje łańcucha polipeptydowego, następnie obliczyć energię swobodną tych konformacji w układzie odpowiadającym środowisku komórki i zidentyfikować strukturę o najniższej energii. Niestety, również i do tej sytuacji odnoszą się szacunki Levinthala nawet krótki łańcuch białkowy teoretycznie może zwinąć się na tyle różnych sposobów, że obliczenie ich energii najszybszym współczesnym komputerom zajęłoby więcej czasu, niż upłynęło od początku Wszechświata! Ale to nie koniec problemów. Metodom oceny energii oddziaływań wewnątrz cząsteczki białka oraz między białkiem a jego otoczeniem wciąż daleko do doskonałości. Dlatego mogłoby się zdarzyć, że chociaż komputer wygenerował właściwą (natywną) konformację, to algorytm obliczyłby jej energię tak nieprecyzyjnie, że okazałaby się wyższa od ener- PIOTR PIOTROWSKI (poprzednie strony) 40 ŚWIAT NAUKI LUTY 2006

STRUKTURA BIAŁEK Do budowy białek przyroda wykorzystuje 20 podstawowych aminokwasów. Wszystkie one mają taki sam rdzeń, który składa się z grup karboksylowej i aminowej połączonych atomem węgla. Różnią się natomiast budową łańcucha bocznego (a): może go w ogóle nie być (jak w glicynie G), może być on pierścieniem aromatycznym (np. w histydynie H) albo długim łańcuchem węglowodorowym (np. w leucynie L), niekiedy z dodatkiem drugiej grupy karboksylowej (np. w kwasie asparaginowym A) lub aminowej (np. w lizynie K). Aminokwasy w białku połączone są w nierozgałęziony łańcuch za pomocą wiązań peptydowych, tworzących się między grupą karboksylową jednego aminokwasu i aminową następnego. Kolejność aminokwasów w łańcuchu nazywamy strukturą pierwszorzędową, a determinuje ją sekwencja nukleotydów w genie kodującym białko. Łańcuch białkowy nie jest jednak prosty ani sztywny łańcuchy boczne mogą się obracać wokół osi tworzonej przez a wiązanie peptydowe, a kolejne wiązania peptydowe nie zawsze układają się na jednej prostej. Daje to niezliczoną liczbę wariantów rozmieszczenia przestrzennego aminokwasów w łańcuchu. Jednak oddziaływania między atomami aminokwasów sprawiają, że niektóre warianty są stabilniejsze od innych. Odcinki łańcucha długości kilku lub kilkunastu aminokwasów Helisa (jak pokazany obok peptyd leucyna alanina lizyna seryna kwas asparaginowy walina histydyna glicyna, w skrócie Wstęga LAKSDVHG) mogą układać się w jedną z dwóch podstawowych konformacji: prawoskrętną śrubę (helisę) lub rozciągniętą b Domena 1 Domena 2 wstęgę (a). Nazywamy je strukturami drugorzędowymi. Najtrwalszą i najczęściej spotykaną konformacją helikalną jest a-helisa, stabilizowana przez wiązania wodorowe pomiędzy atomami łańcucha głównego. Wstęga natomiast może być stabilizowana jedynie przez wiązania wodorowe tworzone z innym odcinkiem łańcucha białkowego, dlatego wstęgi układają się zwykle wzdłuż siebie, tworząc tzw. b-kartkę. Odcinki łańcucha formujące helisy i wstęgi przedzielone są fragmentami tworzącymi pętle o różnych, często nieregularnych kształtach, które umożliwiają wzajemne ułożenie helis i wstęg tak, by tworzące je aminokwasy dopasowały się do siebie, stabilizując Zwinięty łańcuch EndA tzw. strukturę trzeciorzędową białka. Łańcuch polipeptydowy może składać się z kilku segmentów c zwanych domenami, które zwijają się niezależnie od siebie i tworzą odrębne kształty. Na przykład łańcuch białka EndA zwija się w dwie domeny (b). Przestrzenne ułożenie elementów struktury drugorzędowej w obrębie domeny nazywa się zwykle zwojem (fold). Białka mogą składać się z wielu oddziałujących ze sobą domen, które pochodzą z jednej lub kilku kopii tego samego łańcucha albo też z kilku różnych łańcuchów. W przypadku EndA funkcjonalne białko składa się z czterech identycznych łańcuchów (c). Wzajemną orientację domen i łańcuchów w białku określa się mianem struktury czwartorzędowej. Funkcjonalne białko EndA JAN KOSIŃSKI gii oszacowanej dla innych (nienatywnych) konformacji. W konsekwencji dobry model zostałby odrzucony. Z tego powodu jeszcze nie udało się opracować metody ab initio, tzn. opierającej się wyłącznie na prawach fizyki, która poprawnie i dokładnie przewidywałaby natywną konformację całego białka. Udaje się w najlepszym razie przewidzieć strukturę peptydów długości kilkunastu aminokwasów, a i tak rzadko można mieć pewność, że jest ona zgodna z rzeczywistą. Symulacja nawet niewielkich zmian konformacyjnych w cząsteczce białka, które w naturze zachodzą w ułamku mikrosekundy, wymaga długotrwałych obliczeń. Tymczasem przejście od rozwiniętej konformacji przypadkowej do globularnej formy, ściśle określonej przez sekwencję aminokwasów, zajmuje rzeczywistemu białku od kilku milisekund do kilku minut. Aby przyśpieszyć obliczenia i umożliwić symulację całego procesu zwijania, już od lat siedemdziesiątych podejmowano próby zastosowania uproszczonych modeli białek, w których unifikuje się grupy atomów (np. łańcuchy boczne), traktując je jako pojedyncze pseudoatomy. Co daje zastosowanie uproszczonej reprezentacji łańcucha białka? Po pierwsze, zmniejsza liczbę oddziaływań, które trzeba obliczyć. Po drugie, wygładza tzw. krajobraz energetyczny, który opisuje minima i maksima w przestrzeni konformacyjnej (przyjmujemy, że najgłębsza jego dolina odpowiada LUTY 2006 ŚWIAT NAUKI 41

a c Fenyloalanina Leucyna b Alanina Glicyna 0.061 nm MODELOWANIE FIZYCZNE z konieczności opiera się na uproszczeniach. W metodzie CABS przed rozpoczęciem symulacji rzeczywisty łańcuch białkowy (a) poddaje się przekształceniom, zastępując każdy aminokwas dwoma lub trzema pseudoatomami, których wzajemne oddziaływania odzwierciedlają uśredniony efekt oddziaływania zamkniętych w nich grup atomów (b). Tę uproszczoną reprezentację łańcucha rozmieszcza się następnie na węzłach trójwymiarowej siatki, zezwalając pseudoatomom wyłącznie na ruch między węzłami (c). O kierunku i zakresie tego ruchu decyduje dynamika Monte Carlo. natywnej strukturze białka). To tak jakby kamieniste i porośnięte krzewami góry zastąpić modelem ze szkła, oddającym ich ogólny kształt, ale ignorującym lokalne przeszkody. W takich modelowych górach łatwiej jest zjechać do najniższego punktu, gdy ma się odpowiedni pojazd. Pojazd ten powinien szybko mknąć w dół, ale też pokonywać niewielkie wzniesienia. Chodzi o to, by nie utknąć w jakiejś małej kotlinie odległej od głównej doliny. Takim pojazdem w modelowaniu białek może być odpowiedni program komputerowy wykorzystujący uproszczoną reprezentację struktury i odpowiedni silnik. Oczywiście po odnalezieniu najgłębszej doliny można odbudować jej szczegółowy model ze wszystkimi istotnymi detalami i za pomocą dokładniejszych narzędzi zbadać systematycznie głębokość wszystkich lokalnych dołków. Przez ostatnie dwa lata w laboratorium jednego z nas (Kolińskiego) powstawał uproszczony model reprezentacji białek o nazwie CABS [ilustracja powyżej]. W modelu tym atomy C-a białka umieszczane są na węzłach trójwymiarowej siatki, co sprawia, że każda para sąsiadujących aminokwasów może przyjmować 800 różnych pozycji. Takie ograniczenie możliwych ruchów znacznie przyśpiesza zarówno przeszukiwanie przestrzeni konformacyjnej, jak i obliczenia energii dla każdej badanej konformacji. Ponadto prowadzi się zwykle wiele równoległych symulacji dla różnych temperatur, co umożliwia przeskakiwanie zarówno niewielkich, jak i dużych barier energetycznych pomiędzy licznymi lokalnymi minimami energetycznymi. Z tego względu symulacje zwijania się białek prowadzone metodą CABS [ilustracja na stronie obok] są kilka rzędów wielkości szybsze od klasycznych metod dynamiki molekularnej. W modelu CABS (podobnie jak w wielu innych metodach) stosuje się dynamikę Monte Carlo (MC), polegającą na przeszukiwaniu przestrzeni konformacyjnej przez losową zmianę fragmentu struktury i obliczanie przybliżonej energii nowej konformacji. Krok prowadzący do konformacji o niższej energii jest zawsze akceptowany, natomiast kroki prowadzące do wzrostu energii są akceptowane lub odrzucane z prawdopodobieństwem zależnym od różnicy energii pomiędzy obydwiema konformacjami i od temperatury, dla jakiej prowadzona jest symulacja. Śladami ewolucji empiryczna reguła stanowiąca, że białka homologiczne [ramka na stronie 44] zachowują podobieństwo struktury, posłużyła do opracowania podejścia zwanego modelowaniem homologicznym. Różni się ono od podejścia fizycznego tym, że nie polega na symulacji zwijania łańcucha, lecz na symulacji ewolucji sekwencji i struktury. W praktyce sprowadza się to do tego, że modelowanie fizyczne bazuje wyłącznie na analizie sekwencji aminokwasowej badanego białka (tzw. celu), podczas gdy homologiczne wymaga dodatkowo znajomości struktury innego spokrewnionego białka, które służy jako tzw. szablon. Znalezienie szablonu jest zatem warunkiem powodzenia całego przedsięwzięcia. MICHAŁ BONIECKI i ANDRZEJ KOLIŃSKI (wzór strukturalny i reprezentacja pseudoatomowa); ANDRZEJ KOLIŃSKI (pseudoatomy na siatce) 42 ŚWIAT NAUKI LUTY 2006

JAN KOSIŃSKI Stuktura wyjściowa Struktura rzeczywista Model końcowy PRZEBIEG MODELOWANIA struktury białka metodą CABS. Rysunek przedstawia jedynie niektóre z milionów etapów pośrednich. W najprostszej sytuacji wystarcza przeszukanie internetowych banków genów za pomocą programów, takich jak bezpłatnie dostępne w Internecie moduły BLAST lub FASTA, które służą do odnajdowania białek o bardzo podobnych sekwencjach. W takim przypadku struktura celu okazuje się zwykle bardzo podobna do struktury szablonu, a jej prognozowanie wymaga jeszcze tylko dwóch kroków. Najpierw trzeba wymodelować proces ewolucji sekwencji poprzez przyrównanie (alignment) sekwencji celu i szablonu tak, by aminokwasy pochodzące od wspólnego przodka znalazły się w parach, a aminokwasy wstawione i usunięte w wyniku insercji i delecji nie miały pary. Jeśli podobieństwo celu i szablonu jest duże, etap ten da się zrealizować za pomocą prostych, w pełni zautomatyzowanych metod. Przyrównanie pozwala określić, które części szablonu i celu są swoimi odpowiednikami. Na tej podstawie tworzy się wstępny model struktury przestrzennej celu, przypisując fragmentom celu strukturę przestrzenną taką, jaką mają odpowiadające im fragmenty szablonu. Następnie model uzupełnia się, wprowadzając charakterystyczne dla celu substytucje, insercje i delecje aminokwasów i optymalizując otrzymaną strukturę tak, by nowe aminokwasy nie nachodziły na siebie, a oddziaływania między nimi przypominały oddziaływania znane z innych białek. Niestety, często nie udaje się odszukać białka o znanej strukturze przestrzennej, które miałoby sekwencję aminokwasową wyraźnie podobną do sekwencji badanego białka. Niekiedy znajduje się coś, co częściowo ją przypomina, ale próby przyrównania nie dają jednoznacznych wyników (nie ma pewności, że poprawnie dopasowano cel do szablonu, a wtedy podczas modelowania wielu fragmentom białka mogłyby zostać nadane nieodpowiednie konformacje). Bywa jednak, że w ogóle nie można wiarygodnie zidentyfikować szablonu. Dzieje się tak dlatego, że nie opracowano jeszcze wiarygodnych modeli matematycznych opisujących ewolucję sekwencji białek, które uwzględniałyby związki między zmianami na poziomie sekwencji a zmianami na poziomie struktury. Nawet gdy porównania sekwencji białka-celu z sekwencjami w bankach danych nie pozwalają na jednoznaczną identyfikację spokrewnionego białka o znanej strukturze, nie należy się poddawać. Wiadomo, że białka o zupełnie niepodobnych sekwencjach mogą tworzyć całkiem podobne struktury. Zawsze zatem warto szukać takich znajomych struktur, należących do odlegle spokrewnionych lub w ogóle niespokrewnionych białek, do których sekwencja celu pasowałaby lepiej niż do innych. Aby to zrobić, należy przyrównać sekwencje aminokwasowe badanego białka do sekwencji lub struktury każdego potencjalnego szablonu i ocenić jakość dopasowania. Operację taką nazywa się rozpoznawaniem zwoju (fold recognition) i można przeprowadzać ją na dwa sposoby. Pierwsze metody tego typu hołdowały zasadom fizyki było to takie przewlekanie (threading) sekwencji aminokwasowych badanego białka przez łańcuch szablonu, aby zminimalizować zgrubnie szacowaną energię oddziaływań pomiędzy aminokwasami celu osadzanymi w miejsce aminokwasów szablonu. W procesie tym ignorowano ewentualne podobieństwo sekwencji celu i szablonu. Praktyka pokazała jednak, że takie metody są mało skuteczne, głównie z powodu niedoskonałości oceny energii oddziaływań, a zwłaszcza kiedy aminokwasy badanego białka przeszczepia się na sztywno na główny łańcuch szablonu. Innym sposobem jest wykorzystanie informacji o sekwencjach homologicznych zarówno do badanego białka, jak i do każdego potencjalnego szablonu, a więc porównanie nie pojedynczych sekwencji celu i szablonu, lecz całych rodzin, do których oba te białka należą. Najbardziej uniwersalne są metody łączące obydwa podejścia. Nastawione są na identyfikację szablonów, których struktury są kompatybilne z sekwencją celu, a przy tym należą do rodzin obejmujących sekwencje choć trochę podobne do sekwencji białek z rodziny zawierającej cel. Niestety, wadą wszystkich metod rozpoznawania zwoju jest ocena przyrównania sekwencji celu i szablonu. Często zdarza się, że chociaż istnieje szablon o strukturze podobnej do prawdziwej struktury białka-celu, to algorytm nie potrafi poprawnie dopasować sekwencji celu do tego szablonu albo omyłkowo ocenia to dopasowanie gorzej niż dopasowanie do innych niepodobnych struktur (błędnych szablonów). Gdy sekwencja celu nie wykazuje statystycznie istotnego podobieństwa do żadnego białka o znanej strukturze, metody rozpoznające zwinięcia białka pozwalają poprawnie zidentyfikować odpowiedni szablon w połowie przypadków. Najważniejszymi etapami modelowania ewolucyjnego są więc wybór szablonu oraz poprawne przyrównanie jego sekwencji do sekwencji celu. Model oparty na źle przyrównanym szablonie praktycznie zawsze będzie błędny. Przyrównanie sekwencji można skorygować, posługując się danymi doświadczalnymi lub oceną modelu pod względem występowania cech charak- LUTY 2006 ŚWIAT NAUKI 43

terystycznych dla dobrze zwiniętych białek. Służą do tego liczne metody, za pomocą których można analizować takie cechy, jak geometria (długości wiązań, wartości kątów itp.) czy też zgodność charakteru fizykochemicznego danego aminokwasu z otoczeniem, w jakim został umieszczony w modelu (np. czy hydrofobowe grupy boczne otoczone są innymi grupami hydrofobowymi i czy naładowane grupy boczne są eksponowane na zewnątrz białka lub sparowane z grupami bocznymi o przeciwnym ładunku). Najczęściej używane metody oceniają, czy analizowany model jest białkopodobny, czy też wykazuje nietypowe cechy, ale nie pozwalają obiektywnie stwierdzić, że jest on poprawny albo błędny. Zresztą ocena poprawności modelu teoretycznego wyłącznie pod względem geometrii ma zwykle niewielki sens. Wartości kątów i długości wiązań w modelach homologicznych są na ogół bardzo zbliżone do ich odpowiedników z szablonu albo wyidealizowane przez program do modelowania. Można łatwo wygenerować model struktury białka, wykazujący doskonałą geometrię i upakowanie, który będzie zupełnie błędny (np. na skutek niewłaściwego przyrównania sekwencji celu do szablonu), jak również model bliski strukturze natywnej, w którym długości i kąty wiązań będą dalekie od idealnych. Ożywić monstrum własną metodę darwinowską opracował jeden z nas (Bujnicki). Polega ona na w pełni zautomatyzowanej konstrukcji wielu wstępnych (i często błędnych) modeli strukturalnych opartych na metodach rozpoznawania zwoju białka, a następnie identyfikacji fragmentów, które najczęściej powtarzają się we wszystkich modelach albo najlepiej spełniają kryteria białkopodobności. Z fragmentów tych konstruowany jest potwór FRankensteina (FR w nazwie jest skrótem od fold recognition). Odcinki niedopasowane do reszty poprawia się następnie tak, aby cały model był jak najbardziej białkopodobny. Jeżeli taką metodą nie udało się ustalić struktury końcowych odcinków łańcucha lub struktury dużych insercji, to można próbować wygenerować ją metodami fizycznymi (np. wspomnianą CABS). Ostateczny model otrzymuje się po zastosowaniu procedury ograniczonej minimalizacji energetycznej, mającej na celu usunięcie ewentualnych zawad sterycznych oraz optymalizację długości i kątów wiązań. Modele wygenerowane za pomocą powyższej procedury są prawie zawsze białkopodobne. Konstruowanie potwora FRankensteina daje najlepsze wyniki w przypadkach, w których różne metody zgodnie i wiarygodnie rozpoznają zwój badanego białka, ale odmiennie przyrównują sekwencje celu do szablonu i nie wiadomo, które aminokwasy szablonu odpowiadają aminokwasom celu. Niemniej jeżeli wśród wielu potencjalnych szablonów wyjściowych znajduje się chociaż jeden o poprawnym zwoju, to jest szansa, że wygenerowany zostanie dobry model, w którym wiele niedokładności występujących w oryginalnym przyrównaniu będzie naprawionych. W przypadkach, kiedy metody rozpoznawania zwoju w ogóle nie są w stanie zidentyfikować właściwego szablonu lub kiedy białko-cel nie ma homologu (ani analogu) o znanej strukturze, żadne metody darwinowskie nie wygenerują poprawnego modelu. Także potwora FRankensteina nie da się w tej sytuacji ożywić i pozostaje jedynie zastosowanie metod fizycznych. EWOLUCJA BIAŁEK Przyjmuje się, że nowe białka powstawały (i nadal powstają) w wieloetapowym procesie, który najczęściej zaczyna się od przypadkowej duplikacji genu kodującego białko macierzyste. Następnie w obu kopiach genu niezależnie pojawiają się mutacje prowadzące do zamiany (substytucji), wstawiania (insercji) i usuwania (delecji) aminokwasów w kodowanych przez te geny białkach. Białka wielodomenowe mogą również powstawać poprzez wymianę i tasowanie fragmentów genów, które kodują poszczególne domeny [patrz: Russell F. Doolittle i Peer Bork Ewolucyjna ruchliwość modułów białek; Świat Nauki, grudzień 1993]. Z czasem oba geny (i kodowane przez nie białka) stają się coraz mniej podobne do siebie. Ten proces, nazywany ewolucją dywergentną, w przyrodzie zachodzi w skali milionów lat. Geny, białka i domeny pochodzące od wspólnego przodka nazywamy homologicznymi. Homologia a Sekwencja A...GDTVIVLSGKGDFLCALQT K... b Duplikacja...GDTVIVLSGKGDFLCALQT K......GDTVIVLSGKGDFLCALQT K... Substytucja Substytucja...GETVIVLSGKGDFLCALQT K......GDTVIVLSGKGDFLCALDT K... Delecja Substytucja...GETVIVLSGDFLCALQT K... Insercja...GETVIVLSGDFLCALQKT K... Sekwencja A1 c...gdsvivlsgkgdflcaldt K... Substytucja...GDSVIVLSGKGDFLCASDT K... Sekwencja A2 Sekwencja A1...GETVIVLSG--DFLCALQKT K... :: : Sekwencja A2...GDSVIVLSGKGDFLCASD-T K... Już w latach siedemdziesiątych niektórym badaczom zdarzało się publikować triumfalne oświadczenia, że udało im się opracować metodę poprawnie przewidującą strukturę białka. Jednak większość z nich dotyczyła struktur, które były wcześniej znane, a zatem trudno było ocenić wiarygodność zarówno samych modeli, jak i stosowanych metod. Aby temu zaradzić, w 1994 roku biochemik John Moult z University of Maryland Biotechnology Institute i jego współpracownicy (m.in. Krzysztof Fidelis z Lawrence Livermore National Laboratory w Kalifornii) zorganizowali konkurs CASP (Critical Assessment of techniques for protein Structure Prediction Krytyczna Ocena Metod Przewidywania Struktury Białek). Najpierw zwrócili się do krystalografów i spektroskopistów NMR o wskazanie białek, których struktury zostały właśnie rozwiązane, ale jeszcze nieujawnione, lub były dopiero rozwiązywane. Następnie sekwencje aminokwasowe tych białek udostępnili uczestnikom otwartego konkursu polegającego na przewidywaniu struktury. Oprócz sekwencji uczestnicy dysponowali niekiedy także informacjami o wynikach różnych doświadczeń dotyczących danego białka, które można było odnaleźć 44 ŚWIAT NAUKI LUTY 2006

jest synonimem pokrewieństwa, a więc cechy jakościowej, opisującej relację historyczną, która nie zanika w miarę upływu czasu. Natomiast podobieństwo jest cechą ilościową, mierzoną na przykład odsetkiem identycznych aminokwasów albo geometryczną odmiennością struktur. Określeń homologia i podobieństwo nie powinno używać się zamiennie. Porównując białka homologiczne, wykazano, że w procesie ewolucji dywergentnej podobieństwo sekwencji aminokwasowej maleje znacznie szybciej niż podobieństwo struktury. Dzieje się tak m.in. dlatego, że mutacje destabilizujące lub znacznie zmieniające strukturę białka często powodują utratę lub drastyczną zmianę jego funkcji, co może doprowadzić do śmierci komórki lub całego organizmu, a więc wyeliminować także zmutowany gen. Z tego względu większość mutacji, które można wydedukować z porównań pojawiających się w przyrodzie wariantów białek, zmieniła strukturę w minimalny sposób. Znanych jest wiele przykładów białek homologicznych, które zachowały uderzające podobieństwo strukturalne pomimo niemal całkowitej utraty podobieństwa sekwencji. Zdarza się, że w niektórych rodzinach białek zachowana jest struktura i tylko kilka aminokwasów niezbędnych dla prawidłowego działania białka, na przykład biorących udział w reakcji enzymatycznej. Obecnie uważa się, że podobieństwo strukturalne jest silną przesłanką świadczącą o homologii, nawet mimo braku podobieństwa sekwencji. Natomiast przypadki analogii powstające na drodze ewolucji konwergentnej, czyli upodobnienia się sekwencji lub struktur niespokrewnionych (niehomologicznych) białek na skutek adaptacji do podobnych wymagań funkcjonalnych, są niezmiernie rzadkie. d RNaza A RNaza 4 1 45 KESRAKAFQRQHMDSDSSPSSSSTYCNQMMRRRNMTQGRCKPVNT QDGMYQRFLRQHVHPEET-GGSDRYCNLMMQRRKMTLYHCKRFNT 1 44 e 46 90 RNaza A FVHEPLVDVQNVCFQEKVTCKNGQGNCYKSNSSMHITDCRLTNGS RNaza 4 FIHEDIWNIRSICSTTNIQCKNGKMNCHEG--VVKVTDCRDTGSS 45 87 91 128 RNaza A RYPNCAYRTSPKERHIIVACEGSPYVPVHFDASVEDST RNaza 4 RAPNCRYRAIASTRRVVIACEGNPQVPVHFDG------ 88 119 RNaza A RNaza 4 EWOLUCJA DYWERGENTNA BIAŁKA zaczyna się zwykle od przypadkowej duplikacji kodującego go genu (a). W obu kopiach dochodzi następnie do losowych zmian powodujących usuwanie, dodawanie lub podmienianie aminokwasów (reprezentowanych na rysunku przez jednoliterowe kolorowe symbole; niebieski oznacza aminokwas naładowany dodatnio, czerwony ujemnie, zielony aminokwas hydrofobowy, czarny pozostałe aminokwasy) (b). Ostatecznie powstają dwa białka znacznie różniące się sekwencją (c). W przypadku rybonukleazy A (RNAzy A), której zwijanie badał Anfinsen, i jej odległego krewnego, rybonukleazy 4 (RNAzy 4), różnice te są ogromne ze 128 aminokwasów bez zmian zachowały się tylko 52 (d). Niemniej struktura przestrzenna białka pozostała niemal niezmieniona (e). JAN KOSIŃSKI w literaturze naukowej. Struktury rozwiązane doświadczalnie ujawniano dopiero po zamknięciu konkursu, a komisja niezależnych ekspertów porównywała je ze zgromadzonymi modelami i ustalała skuteczność poszczególnych metod. Sprawdzian w boju prawda okazała się bolesna: nawet najlepsze modele wyraźnie odbiegały od rzeczywistych struktur (więcej szczegółów na ten temat można znaleźć na stronie internetowej Protein Structure Prediction Center: http://predictioncenter. org/casp1/casp1.html). Ten zimny prysznic miał jednak dobre strony, bo przyniósł otrzeźwienie i nadał pracom impet. Porównanie modeli teoretycznych z rzeczywistymi strukturami umożliwiło wskazanie najbardziej obiecujących podejść oraz wyszczególnienie najczęściej popełnianych błędów metodologicznych. W efekcie już w następnej edycji konkursu, w 1996 roku, odnotowano wyraźną poprawę jakości modeli. Od tego czasu CASP, odbywający się co dwa lata, stał się głównym poligonem badawczym, na którym testuje się możliwości współczesnych programów komputerowych oraz specjalistów od ich zastosowania do budowy modeli struktury białek biologów, fizyków, chemików i informatyków. W CASP może wystartować każdy, nawet nie mając własnej metody wystarczy dostęp do Internetu i umiejętność wykorzystania bezpłatnych, ogólnie dostępnych programów do przewidywania struktury białek. Popularność CASP rośnie. W pierwszej edycji konkursu udział wzięło 35 grup badawczych, które miały odgadnąć strukturę przestrzenną 33 białek. Tymczasem w 2004 roku w ostatniej, szóstej edycji do zawodów stanęło aż 250 grup badawczych z całego świata, m.in. z Europy, Japonii, Chin i Stanów Zjednoczonych, a uczestnicy CASP musieli rozwiązać 87 białkowych zagadek. Coraz więcej też jest metod w pełni automatycznych (często dostępnych jako bezpłatne serwery internetowe), które w ciągu kilku godzin, albo nawet minut, generują model struktury dla zadanej sekwencji aminokwasowej. We wszystkich edycjach konkursu najlepsze wyniki osiągały grupy ekspertów, którzy korzystali z prognoz ogólnie dostępnych metod i poprawiali je na różne sposoby. Niemniej coraz trudniej pokonać automatyczne serwery, a najlepsze z nich znajdują się w pierwszej dziesiątce rankingów. Daniel Fischer (obecnie zatrudniony w Center for Bioinformatics w Buffalo LUTY 2006 ŚWIAT NAUKI 45

University) i Leszek Rychlewski (założyciel instytutu BioInfo- Bank w Poznaniu) zorganizowali niezależne zawody wyłącznie dla serwerów, w których ingerencja człowieka w proces konstrukcji modeli struktury białka jest niedozwolona. CAFASP (Critical Assessment of Fully Automated Structure Prediction Krytyczna Ocena Automatycznych Metod Przewidywania Struktury Białek), bo pod takim skrótem znany jest ten nowy konkurs, rozgrywany jest co dwa lata, równolegle z CASP. Jeszcze inny projekt, LiveBench, służy do regularnego monitorowania skuteczności serwerów, co tydzień zbierając modele generowane dla sekwencji białek, których struktury udostępniane są w bazie struktur białkowych Protein Data Bank (PDB). Chodzi o takie udoskonalenie metod zautomatyzowanych, by do analizy nowo sekwencjonowanych genomów nie trzeba było angażować całej armii naukowców. Rankingi ostatnich konkursów CASP, CAFASP i LiveBench dowodzą, że najlepsze wyniki osiągają tzw. metaserwery programy, które wykorzystują wyniki wygenerowane przez inne programy i ustalają ich ranking (w ten sposób jedynie wybierają jeden z modeli, a nie generują własnego) lub w jakiś sposób łączą części różnych modeli początkowych, aby stworzyć lepszy (tak działa na przykład FRankenstein). Bank rozbity największe nadzieje budzą obecnie metody wiążące podejście darwinowskie z boltzmannowskim. Dobrym przykładem jest metoda ROSETTA, opracowana przez zespół Davida A. Bakera z University of Washington w Seattle. ROSETTA łączy w sobie pewne cechy modelowania homologicznego i symulacji zwijania łańcucha polipeptydowego. Modele budowane są z krótkich, dziewięcio- i trójaminokwasowych fragmentów znanych struktur, tworzących bibliotekę możliwych konformacji. W odróżnieniu od tradycyjnych metod modelowania z użyciem szablonów danemu regionowi sekwencji nie jest przyporządkowywana na stałe jedna konformacja. ROSETTA przeprowadza symulację Monte Carlo, w trakcie której dziewięcio- lub trójaminokwasowe odcinki sekwencji celu przyjmują różne konformacje, wykorzystując model probabilistyczny, opisujący związki między konformacją i sekwencją fragmentów. O AUTORACH JANUSZ BUJNICKI, ANDRZEJ KOLIŃSKI, KRZYSZTOF GINALSKI i JAN KOSIŃSKI odnosili sukcesy w konkursach modelowania białek CASP. Koliński, absolwent Wydziału Chemii Uniwersytetu Warszawskiego, kilkanaście lat spędził w USA, pracując jako profesor m.in. w The Scripps Research Institute w La Jolla. Był stypendystą Howard Hughes Medical Institute. Od 1998 roku kieruje Pracownią Teorii Biopolimerów UW. Bujnicki ukończył Międzywydziałowe Studia Matematyczno-Przyrodnicze (MISMaP) na UW w 1998 roku. W 2002 otrzymał stypendium Young Investigator Programme EMBO i HHMI. Kieruje zespołami w Międzynarodowym Instytucie Biologii Molekularnej i Komórkowej w Warszawie oraz na Uniwersytecie Adama Mickiewicza w Poznaniu. Ginalski, absolwent Wydziału Fizyki UW, kieruje pracownią w Interdyscyplinarnym Centrum Modelowania Matematycznego i Komputerowego UW. Od kilku lat jest związany z BioInfoBankiem i Southwestern Medical Center na University of Texas w USA. Jest laureatem stypendium Polityki Zostańcie z nami. Kosiński, również absolwent MISMaP UW, niemal od początku studiów pracował pod opieką Janusza Bujnickiego, w którego pracowni realizuje projekt doktorski jako stypendysta Studium Medycyny Molekularnej. Lista konformacji dopuszczalnych dla wszystkich odcinków sekwencji ustalana jest na początku symulacji na podstawie lokalnego podobieństwa sekwencji i przewidywanej struktury drugorzędowej celu do sekwencji i obserwowanej konformacji fragmentów tworzących bibliotekę. Fragmenty do budowy modelu pobiera się z niespokrewnionych struktur, których globalna architektura nie musi przypominać celu. Ostateczny model generowany jest na podstawie oceny energii lub przez identyfikację globalnych konformacji, które najczęściej powtarzały się w całej symulacji. ROSETTA Bakera oraz metoda CABS Kolińskiego są jednymi z nielicznych programów, które niekiedy generują model o zgrubnie prawidłowej strukturze bez odniesienia do żadnego specyficznego szablonu, co umożliwia próby przewidywania struktury trzeciorzędowej dla białek niemających homologu o znanej strukturze. Niemniej nawet te najlepsze metody wciąż nie dają gwarancji na otrzymanie prawidłowego modelu de novo ani nie zapewniają wiarygodnej oceny jego poprawności. Jak okazało się podczas ostatniego konkursu CASP, najlepsze wyniki w przewidywaniu struktury białek można uzyskać za pomocą metod darwinowskich do odgadnięcia potencjalnych szablonów i dopasowania do nich całości lub części sekwencji celu, a części brakujące oraz całe struktury bez szablonów modelując de novo. Właśnie to podejście zastosowaliśmy. I wszyscy odnieśliśmy sukces. Ginalski, który w klasyfikacji automatycznej (nieoficjalnej, obejmującej wspólny ranking dla wszystkich celów) zajął pierwsze miejsce, używał szeregu metod konsensusowych, opracowanych wspólnie z Rychlewskim, m.in. metaserwera 3D-Jury, oraz metodę porównywania profili Meta-BASIC do identyfikacji szablonów. Następnie poprawiał przyrównania sekwencji celu z sekwencją i strukturą szablonu poprzez analizę konserwacji sekwencji i oddziaływań między wstępnie wymodelowanymi aminokwasami celu, budował model rdzenia i dodawał brakujące elementy za pomocą metody ROSETTA. Z kolei Koliński i Bujnicki wystartowali wspólnie (zdobywając drugie miejsce), aby połączyć swoje komplementarne metody: metaserwer GeneSilico (Bujnicki) do identyfikacji szablonów i metodę FRankenstein (Bujnicki) do generowania serii początkowych, zróżnicowanych konformacji, które następnie posłużyły jako źródło więzów przestrzennych do symulacji z użyciem modelu CABS (Koliński). Trzecie miejsce zajął zespół Bakera, pracujący przede wszystkim na własnym metaserwerze ROBETTA, który umożliwia konstrukcję całego modelu lub jego części de novo metodą ROSETTA, ale może też wykorzystywać szablon zidentyfikowany przez 3D-Jury. Czwarte miejsce zdobyła grupa Jeffreya Skolnicka, która stosowała własny program do identyfikacji szablonów oraz fragmentów struktury, a następnie uzupełniała brakujące elementy za pomocą modelu zredukowanego ( przodka CABS), opracowanego wspólnie z Kolińskim, piąte zaś grupa GeneSilico studenci Bujnickiego pod przewodnictwem Marcina Federa i Kosińskiego. Ci wykorzystywali metaserwer GeneSilico i potwora FRankensteina do budowy wstępnych modeli, a następnie dodawali brakujące elementy, używając programu ROSETTA. Jak widać, wszystkie zwycięskie grupy posłużyły się programami z tej samej palety, ale w różnych zestawieniach i tylko grupa Skolni- 46 ŚWIAT NAUKI LUTY 2006

cka nie używała metaserwerów. Jedną z istotnych różnic był stopień interwencji człowieka w proces budowy modeli: Ginalski i GeneSilico często posiłkowali się doświadczeniem i intuicją, pozostali zaś kładli nacisk na automatyzację procesu. Modele Rzeczywiste struktury Szablony JAN KOSIŃSKI T0223 T0262 Koncert życzeń pomimo dużego postępu w komputerowym przewidywaniu struktury białek sporo jeszcze zostało do zrobienia. Dość łatwa, i już w tej chwili realizowana, jest automatyzacja metod budowy modeli oraz ich udostępnianie do celów naukowych i komercyjnych. Wiele modeli zbudowanych automatycznymi metodami darwinowskimi jest wystarczająco precyzyjnych, by stać się punktem wyjścia dla inżynierii białek i wspomaganego komputerowo projektowania nowych leków. Trzeba jednak opracować lepsze metody boltzmannowskie, umożliwiające automatyczne poprawianie początkowych modeli, tak aby szczegóły na poziomie konformacji poszczególnych aminokwasów upodobniały się do struktury rzeczywistej białka-celu, a nie były wyłącznie kopią szablonu. Znajomość wielu dobrej jakości struktur pozwoli znacznie zautomatyzować również proces przewidywania funkcji białek. Potrzebne będzie opracowanie nowych baz danych opisujących budowę miejsc aktywnych oraz nowych algorytmów do automatycznej identyfikacji elementów strukturalnych odpowiedzialnych za funkcję białka w komórce tzn. głównie za oddziaływanie z innymi cząsteczkami (białkami, kwasami nukleinowymi, małymi cząsteczkami, błonami lipidowymi itd.). Rozwijanie podejścia boltzmannowskiego jest także konieczne do wiarygodnego przewidywania struktury białka ab initio wyłącznie na podstawie praw fizyki. Wymaga to doskonalenia opisu oddziaływań molekularnych i opracowania wydajniejszych metod przeszukiwania olbrzymiej przestrzeni konformacyjnej biocząsteczek. Metody boltzmannowskie mogą dostarczać nie tylko informacji o strukturze natywnej, ale również opisywać dynamikę biocząsteczek, a w szczególności mechanizm zwijania się białka. Stwarza to zupełnie nowe perspektywy kontrolowania funkcji białek jeszcze na etapie formowania się struktury natywnej. Badania dynamiki białek mają ponadto inny ważny poznawczo i praktycznie aspekt. Dziś komputerowe projektowanie nowych leków polega na dopasowywaniu aktywnych związków chemicznych do statycznej struktury białek receptorowych. Wiadomo jednak, że bardzo często struktura receptora nie jest statyczna i zmienia się po związaniu takich cząsteczek [patrz: Terry Kenakin Nowe pomysły na stare leki ; Świat Nauki grudzień 2005]. Sądzimy, że modelowanie tych zmian konformacyjnych i ich dynamiki jest niezbędne do pełnego zrozumienia mechanizmów molekularnych sterujących metabolizmem komórkowym i umożliwi ich precyzyjną regulację farmakologiczną. Jest olbrzymie zapotrzebowanie na przystosowanie przedstawionych przez nas metod do modelownia białek błonowych i włóknistych, kompleksów pomiędzy białkami oraz T0201 CHWILA PRAWDY: porównanie modeli zgłoszonych do konkursu CASP6 z rzeczywistymi strukturami otrzymanymi doświadczalnie i szablonami użytymi do modelowania. Przewidywanie okazało się łatwe w przypadku białka T0223, średnio trudne w przypadku T0262 i bardzo trudne dla T0201. Modele są bardziej podobne do struktur rzeczywistych niż do struktur szablonów. Od szablonów przejęły wiele drobnych cech, których nie udało się poprawić na dalszych etapach pracy. oddziaływań białek z kwasami nukleinowymi (RNA i DNA) i innymi biocząsteczkami. Z czasem pozwoliłoby to na komputerowe symulowanie całych ścieżek metabolicznych, a w dalszej perspektywie żywych komórek. Praktycznym celem takich przedsięwzięć jest ułatwienie projektowania skuteczniejszych leków, które będą wpływać na wiele węzłów reakcji i sygnalizacji w skomplikowanych sieciach metabolicznych, nie mając jednak działań niepożądanych. Dziś wiele specyfików nie znajduje zastosowania terapeutycznego, ponieważ zdarza się, że są szkodliwe dla niewielkiego, ale znaczącego odsetka ludzi. Tę sytuację mogą poprawić zindywidualizowane badania genetyczne i projektowanie leków na podstawie wymodelowanego komputerowo, dynamicznego systemu oddziaływań między biocząsteczkami w komórce. Dopiero wtedy rozpocznie się zupełnie nowy rozdział medycyny molekularnej: farmakologia zindywidualizowana, która uczyni nasze życie zdrowszym. n JEŚLI CHCESZ WIEDZIEĆ WIĘCEJ Specjalne woluminy czasopisma Proteins poświęcone kolejnym edycjom konkursu CASP: CASP1: tom 23(5), 1995; CASP2: tom S1, 1997; CASP3: tom S3, 1999; CASP4: tom S5, 2001; CASP5: tom S6, 2003; CASP6: tom S7, 2005. Practical Bioinformatics. Red. Janusz Bujnicki, tom 15 w serii Nucleic Acids and Molecular Biology ; Springer-Verlag 2004. Strony internetowe: Protein Structure Prediction Center: http://predictioncenter.org/ Forum dyskusyjne CASP: http://www.forcasp.org/ Metaserwer Bioinfo.pl (zawiera serwer 3D-Jury): http://bioinfo.pl/meta/ Metaserver GeneSilico.pl (zawiera serwer FRankenstein): http://genesilico.pl/meta/ LUTY 2006 ŚWIAT NAUKI 47