Jan Mazerski Katedra Technologii Leków i Biochemii Wydział Chemiczny Projektowanie Nowych Chemoterapeutyków XV. QSAR 3D QSAR w przestrzeni Rozwój metod ustalania struktury 3D dla białek i ich kompleksów. Modelowanie molekularne pozwala na obliczenie najbardziej prawdopodobnej struktury 3D ligandów. Gdańsk Dopasowanie I Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie ligandu do miejsca receptorowego w celu molekularnym Dopasowanie I Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie ligandu do miejsca receptorowego w celu molekularnym Czy znając strukturę miejsca receptorowego można zaprojektować strukturę wiążącego się w nim ligandu?? Dopasowanie II Zgodność oddziaływań Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie ligandu do miejsca receptorowego w celu molekularnym Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie ligandu do miejsca receptorowego w celu molekularnym Czy dysponując serią ligandów o zróżnicowanym powinowactwie można zaprojektować strukturę lepszego ligandu? Dopasowanie dotyczy nie tylko zgodności kształtu (pozytyw - negatyw), ale również zgodności oddziaływań. Każda cząsteczka generuje wokół siebie pole sił danego typu oddziaływań. 1
Dopasowanie polowe Pola wektorowe i skalarne Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie wszystkich oddziaływań polowych ligandu z oddziaływaniami polowymi miejsca receptorowego. Jak opisać pole oddziaływania? Znamy dwa typy pól: pola wektorowe w każdym punkcie pola zdefiniowany jest wektor pola skalarne w każdym punkcie pola zdefiniowana jest wielkość skalarna: liczba Jakie typy oddziaływań uwzględnić? Pola wektorowe wymagają 3 razy więcej danych. Pole oddziaływań Opis pola Trwałość kompleksu ligand-receptor zależy od energii oddziaływań (wielkość skalarna) W technikach QSAR 3D korzysta się z pól energii oddziaływań. Oddziaływań z czym? Powszechnie stosuje się obiekty próbne, np. dla oddziaływań elektrostatycznych jednostkowy ładunek dodatni. Znamy sposoby opisu pól: opis analityczny znana postać funkcji opisującej wartość pola w dowolnym punkcie przestrzeni opis tabelaryczny znane wartości pola w wybranych punktach przestrzeni, węzłach siatki. Analityczny opis pola możliwy jest tylko dla prostych, nieskomplikowanych pól. Tabelaryczny opis pola jest możliwy dla pól o dowolnym stopniu komplikacji. Jakość opisu tabelarycznego zależy od gęstości rozmieszczenia węzłów siatki. Opis tabelaryczny Opis tabelaryczny Tabelaryczny opis pól generuje ogromne tabele danych: Liczba zmiennych objaśniających (deskryptorów) dziesiątki lub setki razy przewyższa liczbę obiektów (ligandów). Liczba zmiennych M: M = N w * N p N w liczba węzłów siatki N p liczba obiektów próbnych (typów oddziaływań) Należy dokonać racjonalnej redukcji wymiarowości zadania analiza czynników. 14 x 11 x 7 = 1078 węzłów siatki dla każdej cząsteczki
Opis pola a aktywność biologiczna Korzyści z modelu zależności Aby powiązać aktywność biologiczną związku z generowanymi przez ten związek polami oddziaływań należy stworzyć wielowymiarowy model zależności. Wymaga to: zestawu kilkudziesięciu związków o zróżnicowanej aktywności dla każdego związku wyznaczenia najbardziej prawdopodobnej struktury 3D ustalenia zasad ustawienia związków względem układu współrzędnych dla każdego związku wyznaczenia wartości pól oddziaływań we wszystkich węzłach siatki konstrukcji modelu zależności oceny zdolności prognostycznych modelu Poprawny model zależności można wykorzystać dwojako: do przewidywania aktywność nowych związków przed ich zsyntetyzowaniem do uzyskania informacji o przestrzennym rozmieszczeniu korzystnych i niekorzystnych pól oddziaływań Metoda CoMFA (ang. Conformational Molecular Field Analysis) Cramer i Milne (1979) porównywanie cząsteczek przez dopasowanie wybranych atomów i generację pól oddziaływań Wold (1986) redukcja wymiarowości zadania w przypadku skorelowanych zmiennych objaśniających technika PLS Cramer, Patterson i Bunce (1988) powstanie CoMFA CoMFA - założenia Aktywność biologiczna zależy od właściwości strukturalnych liganda. Za właściwości strukturalne odpowiedzialne są oddziaływania fizykochemiczne: Van der Waalsa elektrostatyczne wiązania wodorowe oddziaływania hydrofobowe Etapy metody CoMFA Dobór serii związków Metoda CoMFA obejmuje następujące etapy: Zgromadzenie danych seria związków o zróżnicowanej aktywności Ustalenie struktury 3D Określenie zasad dopasowania związków Wyznaczenie wartości oddziaływań w węzłach siatki Konstrukcja modelu regresyjnego Walidacja modelu Zastosowanie modelu przewidywanie aktywności wymogi przestrzenne dla planowania nowych ligandów Seria musi obejmować związki oddziałujące z tym samym celem molekularnym. Związki mogą mieć różnorodną budowę chemiczną! Seria związków powinna zawierać co najmniej kilkadziesiąt związków różniących się aktywnością o 3 jednostki logarytmiczne Z serii należy wydzielić zbiór uczący i zbiór testowy (walidacyjny) 3
Struktura 3D Struktura 3D metody obliczeniowe (I) Należy możliwie poprawnie ustalić strukturę 3D każdego ligandu. Metody obliczeniowe: mechanika molekularna: obliczenia ab initio metody półempiryczne modele empiryczne dynamika molekularna: Metody doświadczalne: dyfrakcyjna analiza monokryształu promieniowanie rentgenowskie promieniowanie neutronowe spektroskopia NMR Mechanika molekularna poszukiwanie pojedynczej struktury o najniższej energii (najbardziej prawdopodobnej). Obliczenia ab initio: rozdzielczość do pojedynczego elektronu dowolna budowa chemiczna poprawnie wyznacza geometrię i rozkład ładunku elektrycznego niezbędna duża moc obliczeniowa ograniczenie do kilkuset elektronów Struktura 3D metody obliczeniowe (II) Struktura 3D metody obliczeniowe (III) Mechanika molekularna poszukiwanie pojedynczej struktury o najniższej energii (najbardziej prawdopodobnej). Obliczenia półempiryczne: rozdzielczość do pojedynczego elektronu poprawnie wyznacza geometrię i rozkład ładunku elektrycznego mniejsze zapotrzebowanie na moc obliczeniową parametryzacja dla typowych grup chemicznych ograniczenie do kilkuset elektronów walencyjnych Mechanika molekularna poszukiwanie pojedynczej struktury o najniższej energii (najbardziej prawdopodobnej). Model empiryczny: rozdzielczość do pojedynczego atomu poprawnie wyznacza geometrię małe zapotrzebowanie na moc obliczeniową parametryzacja dla typowych grup chemicznych potrzebna informacja o ładunkach cząstkowych ograniczenie do kilkuset atomów (problem minimum globalnego) Struktura 3D metody obliczeniowe (IV) Struktura 3D metody doświadczalne (I) Dynamika molekularna generuje zespół geometrii energetycznie dopuszczalnych w danej temperaturze. Model empiryczny: rozdzielczość do pojedynczego atomu możliwość stosowania do układów zawierających nawet kilkadziesiąt tysięcy atomów (obecność rozpuszczalnika, biopolimery) poprawnie wyznacza geometrię małe zapotrzebowanie na moc obliczeniową Analiza dyfrakcyjna monokryształu. bezpośrednia informacja o strukturze 3D bezpośrednia informacja o strukturze 3D tylko gdy substancja tworzy kryształy geometria zamrożona w sieci krystalicznej parametryzacja dla typowych grup chemicznych potrzebna informacja o ładunkach cząstkowych 4
Struktura 3D metody doświadczalne (II) Siatka przestrzenna Spektroskopia NMR. krzywa Carplusa kąty dwuścienne pomiędzy wodorami wicynalnymi efekt Overhausera bliskość przestrzenna dwóch atomów wodoru modelowanie molekularne geometria spełniająca powyższe wymogi Rozmiar oczek siatki determinuje: szczegółowość opisu oddziaływań liczbę zmiennych objaśniających uśredniona struktura w roztworze 14 x 11 x 7 = 1078 węzłów siatki dla każdej cząsteczki Niezbędny jest racjonalny kompromis! Dla małocząsteczkowych ligandów rozmiar oczka zbliżony do długości wiązania. Orientacja ligandów Orientacja ligandów Właściwa orientacja ligandów ma kluczowe znaczenie. Kierunki wiązań wodorowych: Błąd na tym etapie rzutuje na wynik całej analizy. Przy ustalaniu reguł orientacji ważniejsza jest zgodność oddziaływań niż nakładanie się elementów struktury chemicznej. Słaba zgodność! Etap bardzo subiektywny wymaga dużej praktyki. Wykonajmy obrót wokół wiązania C-R Orientacja ligandów Oddziaływania polowe Kierunki wiązań wodorowych: W każdym węźle siatki należy teraz wyznaczyć energię oddziaływań z obiektami próbnymi. Duża zgodność! Do każdego typu oddziaływań zaproponowano odpowiednie obiekty próbne: oddziaływania elektrostatyczne H + oddziaływania steryczne CH 3 oddziaływania hydrofobowe H O donorowe wiązania wodorowe O= akceptorowe wiązania wodorowe HO 5
Redukcja liczby zmiennych Liczba zmiennych objaśniających (deskryptorów) dziesiątki lub setki razy przewyższa liczbę obiektów (ligandów). PCA - przykład 30 pochodnych benzamidu oraz naftylamidu nałożonych na siebie: Należy dokonać redukcji liczby zmiennych analiza czynników. analiza głównych składowych - PCA cząstkowa metoda najmniejszych kwadratów - PLS Obszary w ramkach mają duże udziały w kolejnych głównych składowych. Analiza czynników - PCA Kolejne główne składowe ekstrahują informację wspólną zawartą w tysiącach zmiennych. Do wyekstrahowania większości informacji wspólnej potrzeba zwykle od 10 do 0 głównych składowych. Główne składowe traktowane są jako zmienne objaśniające w modelu regresyjnym - model PCR. Tylko niektóre główne składowe skorelowane są z aktywnością biologiczną metoda odrzucania. Analiza czynników - PLS Kolejne czynniki PLS ekstrahują informację wspólną najsilniej skorelowaną z aktywnością biologiczną. Informacja wspólna nieskorelowana z aktywnością zostaje pominięta. Wystarcza zwykle nie więcej niż 5 czynników dla zbudowania poprawnego modelu regresyjnego. Model regresyjny tworzony jest podczas ekstrakcji informacji. Metoda PLS jest czynnikowym odpowiednikiem metody dołączania. Dobór liczby czynników Kluczowe jest poprawne ustalenie liczby czynników (głównych składowych) w modelu regresyjnym. Ze wzrostem liczby czynników wzrasta jakość dopasowania modelu, ale czy wzrasta jakość prognozy? Miernik jakości dopasowania współczynnik determinacji: ( yi ŷi ) ( yi y) R = 1 100% Miernik jakości prognozy współczynnik walidacji: ( yi ŷip ) ( yi y) Q = 1 100% Walidacja modelu Do klasycznej walidacji modelu regresyjnego potrzebny jest zbiór testowy (walidacyjny). Związki ze zbioru testowego powinny mieć właściwości zbliżone do związków ze zbioru uczącego (interpolacja). Liczba związków w zbiorze testowym nie może być za mała ( >10). Można dokonać walidacji modelu bez zbioru testowego technika crossvalidation. usuwamy tymczasowo ze zbioru uczącego 1 związek na podstawie pozostałych N-1 związków budujemy model przewidujemy aktywność usuniętego związku i porównujemy z aktywnością zmierzoną Przywracamy związek do zbioru uczącego i obliczenia powtarzamy po usunięciu innego związku. 6
Walidacja modelu - przykład 30 pochodnych benzamidu oraz naftylamidu tworzy zbiór uczący. Związki te opisane są przy pomocy 5 110 deskryptorów. Zbiór testowy zawiera 1 pochodnych tego samego typu. Do budowy modelu regresyjnego zastosowano metodę PLS. Walidacja modelu - przykład 30 pochodnych benzamidu oraz naftylamidu tworzy zbiór uczący. Związki te opisane są przy pomocy 5 110 deskryptorów. Zbiór testowy zawiera 1 pochodnych tego samego typu. Do budowy modelu regresyjnego zastosowano metodę PLS. n R (X) R (y) Q cv Q zt n R (X) R (y) Q cv Q zt 1 7 48 39 1 7 48 39 1 58 43 19 1 58 43 19 3 15 64 45 9 3 15 64 45 9 4 17 73 51 4 17 73 51 5 76 31 5 76 31 Model regresyjny PLS Model adekwatny Przy planowaniu syntezy nowych pochodnych należy korzystać tylko z modeli adekwatnych. Obszary wrażliwe na zawadę przestrzenną: Obecność podstawników w obszarach (+) zwiększa aktywność, a w obszarach (-) obniża. 7