AMINOKWASY i BIAŁKA. dr Jacek Śmietański. Instytut Informatyki. Edycja 2016 / 2017.

Edycja 2016 / 2017 wykład 9 AMINOKWASY i BIAŁKA dr Jacek Śmietański jacek.smietanski@ii.uj.edu.pl http://jaceksmietanski.net PDB: 1J7N Instytut Instytut Informatyki Informatyki UJ UJ slajd 1 1

Aminokwasy i białka - plan wykładu 1. 2. 3. 4. 5. Znaczenie struktury makrocząsteczek Poziomy organizacji strukturalnej Baza danych strukturalnych PDB (Protein Data Bank) Klasyfikacja rodzin białkowych Przewidywanie struktury drugorzędowej białek slajd 2

1. Znaczenie struktury makrocząsteczek 2. 3. 4. 5. Poziomy organizacji strukturalnej PDB (Protein Data Bank) Klasyfikacja rodzin białkowych Przewidywanie struktury drugorzędowej białek ZNACZENIE STRUKTURY MAKROCZĄSTECZEK slajd 3

Centralny dogmat bioinformatyki sekwencja -> struktura -> funkcja Genetic Information Biochemical Function Molecular Structure Phenotype (Symptoms) MVHLTPEEKT AVNALWGKVN VDAVGGEALG RLLVVYPWTQ RFFESFGDLS SPDAVMGNPK VKAHGKKVLG AFSDGLAHLD NLKGTFSQLS ELHCDKLHVD PENFRLLGNV LVCVLARNFG KEFTPQMQAA YQKVVAGVAN ALAHKYH slajd 4

Najważniejsze zadania i wyzwania Dotyczą zarówno białek, jak i kwasów nukleinowych (głównie RNA). - przewidywanie struktury - poszukiwanie miejsc wiążących - predykcja oddziaływań - modelowanie molekularne - analiza relacji ewolucyjnych - przewidywanie funkcji - projektowanie leków (CADD) slajd 5

1. Znaczenie struktury makrocząsteczek 2. Poziomy organizacji strukturalnej 3. 4. 5. PDB (Protein Data Bank) Klasyfikacja rodzin białkowych Przewidywanie struktury drugorzędowej białek POZIOMY ORGANIZACJI slajd 6

Aminokwasy elementy budulcowe białek Ogólna budowa aminokwasów: slajd 7

Aminokwasy białkowe i slajd 8

Aminokwasy hydrofobowe A, V, F, I, L, P, M C, G, Y, W, H, K, T slajd 9

Aminokwasy polarne S, T, Y, C, N, Q, H, W D, E, K, R slajd 10

Aminokwasy naładowane D, E, K, R, H slajd 11

Wiązanie peptydowe Ponieważ wiązanie peptydowe jest płaskie, konformacja głównego łańcucha może być wyznaczona przez kąty φ i ψ. slajd 12

Zawada steryczna Niektóre konformacje są niedopuszczalne. slajd 13

Wykres Ramachandrana Obrazuje dopuszczalne konformacje. slajd 14

Struktury białek Poziomy przestrzennej organizacji białek: I rzędowa liniowa sekwencja aminokwasów II rzędowa opisuje lokalne pofałdowanie (α-helisy, β-kartki) III rzędowa struktura 3D pojedynczego łańcucha IV rzędowa struktura 3D całego białka (połączone wszystkie łańcuchy) Zwijanie białka (film): http://www.youtube.com/watch?v=fvbo3tqj6fe slajd 15

Struktura 2-rzędowa α-helisy β-kartki zwroty slajd 16

α-helisy slajd 17

β-kartki Są stabilizowane przez wiązania wodorowe i kontakt sąsiadujących łańcuchów - równoległe - antyrównoległe - mieszane slajd 18

β-kartki reprezentacja graficzna slajd 19

Zwroty β-zwroty γ-zwrot (φi+1=-79, ψi+1=69 ) o o slajd 20

Zwroty Typy β -zwrotów w białkach slajd 21

Spinka do włosów Odmiana β zwrotu. Częsty wzór, zwykle złożony z 3 aminokwasów, łączący sąsiadujące, antyrównoległe β-kartki slajd 22

Fałdowanie białka paradoks Levinthala Jeśli każda reszta aminokwasowa może przybierać tylko trzy różne położenia przestrzenne. To dla białka o długości 100 aminokwasów, całkowita ilość struktur jakie może przyjąć wynosi 3100, czyli ok. 5 1047. Jeżeli czas potrzebny na przekształcenie jednej struktury w drugą wynosi 10-13s, to całkowity czas potrzebny na ustalenie optymalnej struktury wyniósłby 5 1047 10-13s (1,6 1027 lat). Tymczasem rzeczywisty czas potrzebny na zwinięcie się białka liczony jest w mikrosekundach. slajd 23

Teoria Anfinsena Anfinsen (1961) cała informacja potrzebna białku do przyjęcia ostatecznej konformacji zakodowana jest w jego strukturze pierwszorzędowej slajd 24

Stabilizacja struktury przestrzennej - wiązania wodorowe; - mostki dwusiarczkowe - oddziaływania elektrostatyczne; - siły van der Waalsa slajd 25

Ustalanie srtuktury 3D techniki eksperymentalne Krystalografia rentgenowska (X-ray) Jądrowy rezonans magnetyczny (NMR) inne Metody drogie i czasochłonne. slajd 26

Ustalanie struktury 3D techniki komputerowe Podejście fizyczne szkoła boltzmannowska Modelowanie zwijania białka (procesu poszukiwania przez łańcuch konformacji o najniższej energii swobodnej, który w komórkach trwa zaledwie ułamki sekundy) korzystając z praw fizyki statycznej. Podejście ewolucyjne szkoła darwinowska Rekonstrukcja procesu powstania sekwencji i struktury białka na drodze ewolucji (przyrodzie zabiera to miliony lat). slajd 27

Techniki komputerowe slajd 28

1. 2. Znaczenie struktury makrocząsteczek Poziomy organizacji strukturalnej 3. PDB (Protein Data Bank) 4. 5. Klasyfikacja rodzin białkowych Przewidywanie struktury drugorzędowej białek PDB slajd 29

PDB baza struktur molekularnych www.pdb.org slajd 30

PDB statystyki wg stanu na 26.V.2015 108957 struktur (dwa lata wcześniej 89740) źródło: http://www.pdb.org/pdb/statistics/holdings.do, ale tylko 61201 różnych struktur (50580) (http://www.pdb.org/pdb/statistics/clusterstatistics.do) tylko 1375 różnych zwojów wg klasyfikacji CATH (1375) (http://www.rcsb.org/pdb/statistics/contentgrowthchart.do?content=fold-cath) podczas, gdy znamy 47452313 sekwencji (33106277) (http://www.ebi.ac.uk/uniprot/tremblstats/) w tym 548454 sekwencji z weryfikowanych (539829) (http://web.expasy.org/docs/relnotes/relstat.html) slajd 31

Klasyfikacja CATH slajd 32

Plik PDB - nagłówek slajd 33

Plik PDB dane slajd 34

BioPython PDBParser: diagram UML slajd 35

Przykład Wypisuje wszystkie aminokwasy w strukturze białka 1FAT, zawierające nieuporządkowany atom Cα slajd 36

Format PDB częste problemy Zwykle wynikają z błędu w strukturze pliku PDB: - powtórzone residuum; - powtórzony atom; - brak alternatywnej informacji dla niejednoznacznego atomu; - urwany łańcuch. slajd 37

Wady formatu PDB - brak informacji o wiązaniach - maksymalna liczba atomów w modelu: 99999 (pięcioznakowe pole na numer atomu) - maksymalna liczba łańcuchów: 26 (identyfikator jednoliterowy) slajd 38

Dokumentacja formatu PDB http://wwpdb.org/documentation/format33/v3.3.html slajd 39

format mmcif http://mmcif.pdb.org/index.html slajd 40

format mmcif -przykład data_1ej9 # _entry.id 1EJ9 # _audit_conform.dict_name mmcif_pdbx.dic _audit_conform.dict_version 4.007 _audit_conform.dict_location http://mmcif.pdb.org/dictionaries/ascii/mmcif_pd bx.dic # loop database_2.database_id _database_2.database_code PDB 1EJ9 NDB PD0125 RCSB RCSB010631 # loop database_pdb_rev.num _database_pdb_rev.date _database_pdb_rev.date_original _database_pdb_rev.status _database_pdb_rev.replaces _database_pdb_rev.mod_type 1 2000-08-03 2000-03-01? 1EJ9 0 2 2009-02-24?? 1EJ9 1 # _database_pdb_rev_record.rev_num 2 _database_pdb_rev_record.type VERSN _database_pdb_rev_record.details? HEADER ISOMERASE/DNA slajd 41 01-MAR-00 1EJ9

1. 2. 3. Znaczenie struktury makrocząsteczek Poziomy organizacji strukturalnej PDB (Protein Data Bank) 4. Klasyfikacja rodzin białkowych 5. Przewidywanie struktury drugorzędowej białek KLASYFIKACJA RODZIN BIAŁKOWYCH slajd 42

Klasyfikacja SCOP Structural Classification Of Proteins hierarchiczny schemat klasyfikacji obejmujący 4 poziomy: Rodzina grupa białek powiązana strukturalnie, ewolucyjnie i funkcjonalnie; Superrodzina zbiór rodzin o podobnej strukturze i funkcji; Zwój wspólna topologia na większym fragmencie łańcucha Klasa grupa zwojów charakteryzowanych strukturą 2-rzędową. Klasy: α (głównie α-helisy), β (głównie β-kartki), α/β (α-helisy i β-kartki w silnej interakcji), α+β (α-helisy i β-kartki słabo lub w ogóle nie oddziałujące na siebie), multidomain proteins (niehomologiczne białka, z różnymi zwojami) slajd 43

Przykładowa hierarchia SCOP slajd 44

Klasyfikacja CATH Class, Architecture, Topology, Homologous superfamily Cztery poziomy hierarchii: 1. Klasa (poziom C): na podstawie typu struktury drugorzędowej: α, β, α&β (α/β i α+β), słaba lub nieokreślona struktura. 2. Architectura (poziom A): orientacja i topologia pomiędzy elementami struktury drugorzędowej. 3. Topologia (poziom T) bazuje na typie pofałdowania. 4. Homologiczna superrodzina. (poziom H) wysoka homologia wskazująca na wspólnego przodka: - > 30% identycznej sekwencji LUB - > 20% identycznej sekwencji i 60% strukturalnej homologii LUB - > 60% strukturalnej homologii i podobne domeny mają podobne funkcje. slajd 45

Klasyfikacja CATH Class(C) derived from secondary structure content is assigned automatically Architecture(A) describes the gross orientation of secondary structures, independent of connectivity. Topology(T) clusters structures according to their topological connections and numbers of secondary structures Homologous superfamily (H) slajd 46

CATH on-line http://www.cathdb.info/ slajd 47

1. 2. 3. 4. 5. Znaczenie struktury makrocząsteczek Poziomy organizacji strukturalnej PDB (Protein Data Bank) Klasyfikacja rodzin białkowych Przewidywanie struktury drugorzędowej białek PRZEWIDYWANIE STRUKTURY DRUGORZĘDOWEJ BIAŁEK slajd 48

Do czego może się przydać informacja o strukturze 2-rzędowej? - jest etapem tworzenia struktury przestrzennej i domenowej - przydatna koncepcja dla zrozumienia struktury - ma związek z funkcją białka - przydatna w algorytmach przewidywania struktury przestrzennej (definiuje obszary na wzorcach) slajd 49

Rozwój metod 1. Pierwsza generacja: statystyki pojedynczych aminokwasów np.: Chou-Fasman, LIM, GOR I, etc skuteczność: niska 2. Druga generacja: statystyki w oknach np.: ALB, GOR III, etc skuteczność: ~60% 3. Trzecia generacja: oddziaływania długodystansowe, metody homologiczne np.: PHD skuteczność: ~70% slajd 50

Najważniejsze techniki - metody statystyczne; najbliższego sąsiada; sieci neuronowe; ukryte modele Markowa Zwykle są to metody porównawcze bazujące na homologii. Strategia przewidywania struktury drugorzędowej: stosować jak najwięcej metod wykorzystać zestawienie sekwencji homologicznych złożyć przewidywania w jednokonsensusowe slajd 51

Zalety i wady W kontekście poszukiwania struktury. Zalety: Może być zastosowana do sekwencji całkowicie nieznanego białka Poprzedza rozpoznanie zwoju Uzupełnia inne metody modelowania Wady: Najlepsze metody mają precyzję nie wyższą niż 80% doskonale przewidziana struktura II-rz nie zawsze prowadzi do rozpoznania zwoju slajd 52

Metoda statystyczna (Chou, Fasman 1974) Na podstawie analizy częstości występowania poszczególnych aminokwasów w poszczególnych typach struktur. Przykład: Total number of residues Number of alanines 100 Number of helical residues 500 Number of alanines in helices 2000 50 P(Ala in Helix) = 50/500 = 0.1 P(Ala) = 100/2000 = 0.05 Helix propensity (PA) of Ala = P(Ala in Helix)/P(Ala) = 0.1/0.05 = 2 slajd 53

Tabela preferencji Alanine Arginine Aspartic Acid Asparagine Cysteine Glutamic Acid Glutamine Glycine Histidine Isoleucine Leucine Lysine Methionine Phenylalanine Proline Serine Threonine Tryptophan Tyrosine Valine helix 1.42 0.98 1.01 0.67 0.70 1.39 1.11 0.57 1.00 1.08 1.41 1.14 1.45 1.13 0.57 0.77 0.83 1.08 0.69 1.06 strand 0.83 0.93 0.54 0.89 1.19 1.17 1.10 0.75 0.87 1.60 1.30 0.74 1.05 1.38 0.55 0.75 1.19 1.37 1.47 1.70 turn 0.66 0.95 1.46 1.56 1.19 0.74 0.98 1.56 0.95 0.47 0.59 1.01 0.60 0.60 1.52 1.43 0.96 0.96 1.14 0.50 slajd 54

Metody okna, GOR 1. Individual propensity of amino acid R to be in secondary structure S. same idea as in Chou Fasman 2. Contribution of 16 neighbors. - take the window of radius 8 around the residue in question (8 before and 8 after the residue) - for each residue in the window consider it s contribution to the conformation of the middle residue and this it s value to PH, PS, PT. - like in Chou-Fasman the values of all contributions are based on statistics. slajd 55

Informacja ewolucyjna Pojedyncza sekwencja zastąpiona uliniowieniem spokrewnionych (homologicznych) sekwencji Profil A C D ACAA 0.75 0.25 0 DDCA 0.25 0.25 0.5 ACDA 0.5 0.25 0.25 DAAA 0.75 0 0.25 Wartości binarne na wejściu sieci zastąpione wartościami rzeczywistymi z przedziału [0,1] Poprawa jakości predykcji (z 65% do >70%) slajd 56

Sieci neuronowe slajd 57

Sieci neuronowe (2) slajd 58

Algorytm DSSP PDB nie zawiera jawnych danych na temat struktury 2-rzędowej Ustalenie struktury drugorzędowej na podstawie współrzędnych atomów w przestrzeni DSSP Wolfgang Kabsch, Chris Sander; Uzyskiwanie informacji o strukturze 2-rzędowej na podstawie danych z PDB; 7 klas: H, G, I, E, B, T, S 7 klas H G I E B T S 3 klasy H H H E E L L slajd 59

Przykład sieć neuronowa Wejście: Informacja na temat w sąsiednich aminokwasów (w nieparzysta) tzw. okno wejściowe Kodowanie ortogonalne aminokwasów: wektor o wymiarze 20 na jednej pozycji 1, a na pozostałych 0 (20*w) elementów wejściowych Wyjście: 3 neurony wyjściowe odpowiadające poszczególnym klasom struktury 2-rzędowej (wartość rzeczywista z przedziału [0,1]): H α helisa E struktura β L pętla łącząca Wynik predykcji: klasa odpowiadająca neuronowi wyjściowemu o maksymalnej wartości Predykcja dla centralnego aminokwasu z okna wejściowego slajd 60

Rozpoznawane klasy 8 kategorii (DSSP): H: α - helisa G: 310 helisa I: π - helisa (bardzo rzadka) E: β - kartka B: β - most T: zwrot S: bend L: pozostałe slajd 61

STRIDE Empirical Hydrogen Bond Calculation E E h b= r E t E p 4 r6 8 3 r m m E Er = r6 8 m r E p = cos2 (θ) [0.9 + 0.1 sin(2ti )] cos(to ) E t = K1 [K2 - cos2 (ti ) ] cos(to) 0 0 < t i 90 90 < t i 110 110 t i - Derived from small molecule structures rm (3.0A) and Em (-2.8kcal/mole) - Total energy Ehb Pharm 201 Lecture 07, 2010 slajd 62 62

Expasy odsyłacze do licznych narzędzi http://expasy.org/tools/ slajd 63

Narzędzia - przykłady PSIPRED - http://bioinf.cs.ucl.ac.uk/psipred/ YASPIN - http://www.ibi.vu.nl/programs/yaspinwww/ SSPRO - http://download.igb.uci.edu/sspro4.html PROTEUS - http://wks16338.biology.ualberta.ca/proteus/ slajd 64

Proteus - przykład slajd 65

PDB - DSSP białko 1ATP slajd 66

Najlepsze metody PredictProtein-PHD (72%) http://www.predictprotein.org/ Jpred (73-75%) http://jura.ebi.ac.uk:8888/ PREDATOR (75%) http://www.embl-heidelberg.de/cgi/predator_serv.pl PSIpred (77%) http://insulin.brunel.ac.uk/psipred slajd 67

Źródło: http://bytesizebio.net