Bioinformatyka Wykład 1. E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas z sylabusu... Wykład 1, 2008 1
Co to jest Bioinformatyka? Zastosowanie technologii informacji do Biologii Analiza sekwencji (i struktury) genów i białek Analiza ogromnego zbioru informacji dotyczącego makrocząsteczek biologicznych Ogromny zbiór informacji? Zapis genomu człowieka, to stos pudełek z CD o wysokości 750 m. (ok. 50 TB= 80 000 płyt 700 MB) Świat Nauki Październik 2000 Wykład 1, 2008 2
Ogromny zbiór informacji c.d. genom człowieka: 24 chromosomy (22 autosomalne +X+Y) 3 biliony (3 10 12 ) par zasad DNA, ok. 20-25 tysięcy genów genomy innych organizmów sekwencje białkowe informacje o mutacjach i ich skutkach informacje o funkcji, lokalizacji i oddziaływaniach.itd. Bioinformatyka pływanie w morzu informacji GenBank (Bank Genów) zgromadził dotąd zapisy sekwencji kwasów nukleinowych zawierających ponad 10 10 nukleotydów i co roku podwaja tą liczbę Science(2001)209 Wykład 1, 2008 3
EMBL Nucleotide Sequence Database http://www.ebi.ac.uk/embl EMBL Nucleotide Database Europejski zbiór sekwencji DNA i RNA budowany we współpracy z GenBank (USA) i DDBJ (Japonia) EMBL: 83,666,567 sekwencji 15.12.2006 ExPASy (Expert Protein Analysis System) http://www.expasy.ch/ Baza sekwencji białkowych UniProt Knowledgebase: UniProtKB/TrEMBL (computer-annotated) UniProtKB/Swiss-Prot (high-level annotation) UniProtKB/TrEMBL: 3,477,030 sekwencji UniProtKB/Swiss-Prot : 250,296 sekwencji Wykład 1, 2008 4
ExPASy (Expert Protein Analysis System) Przyrost liczby sekwencji w UniProtKB/TrEMBL (12.12.2006) UniProtKB/TrEMBL zawiera 3,477,030 sekwencji Protein Data Bank http://www.rcsb.org/ Przyrost liczby struktur 3D w PDB Wykład 1, 2008 5
CATH Protein Structure Classification Class, Architecture, Topology (fold family) and Homologous superfamily GenBank/EMBL: 83,666,567 sekwencji UniProtKB/TrEMBL: 3,477,030 sekwencji UniProtKB/Swiss-Prot : 250,296 sekwencji PDB: 40,628 Struktur 4 000 000 3 500 000 3 000 000 2 500 000 2 000 000 1 500 000 1 000 000 500 000 0 1998 2000 2002 2004 2006 UniProt TrEMBL PDB Wykład 1, 2008 6
Co to jest Bioinformatyka? Robocza definicja przyjęta przez NIH Bioinformatics Definition Committee: Bioinformatyka: badanie, rozwój i zastosowanie narzędzi obliczeniowych lub metod zwiększających wykorzystanie danych biologicznych medycznych behawioralnych i zdrowotnych, wliczając w nie: zbieranie, magazynowanie, porządkowanie, archiwizację, analizę i wizualizację tych danych Katalogowanie i przetwarzanie informacji biologicznych zawartych w bazach danych analiza sekwencji DNA (składanie sekwencji, anotacja, wyszukiwanie sekwencji kodujących, regulatorowych i repetytywnych, motywów, markerów, itd.) analiza sekwencji genomów ( porównywanie genomów, wyszukiwanie genów odpowiedzialnych za choroby genetyczne) analiza relacji ewolucyjnych pomiędzy zbiorami sekwencji (filogenetyka) analiza ekspresji genów (mikromacierze) katalogowanie funkcji genów/białek, ustalanie dróg metabolicznych Analiza sekwencji białka (porównywanie sekwencji, wyszukiwanie domen i motywów, przewidywanie funkcji i lokalizacji w komórce) Wyszukiwanie informacji w bazach publikacji Wykład 1, 2008 7
Przewidywanie struktury, funkcji i oddziaływao między cząsteczkami przewidywanie własności fizyko-chemicznych na podstawie sekwencji, przewidywanie porównawcze struktury drugo- i trzecio-rzędowej białka, Interpretacja danych eksperymentalnych (CD, krystalografia X-ray, DLS, NMR, itd.) Badanie oddziaływao białko-białko, białko-dna, biało-ligand, itd. (dokowanie wirtualne, projektowanie leków) Orientacyjny plan wykładów 1. Bioinformatyka,Budowa aminokwasów, struktura białek, klasyfikacja struktur 2. Budowa kwasów nukleinowych, kod genetyczny, przepływ informacji genetycznej 3. Rodzaje mutacji, ewolucja, filogenetyka 4. Przegląd baz danych, formaty danych 5. Porównywanie sekwencji, rodzaje zestawieo, narzędzia, DotPlot 6. Dynamiczne porównywanie sekwencji, algorytm, macierze substytucji, kary za przerwy. Wykład 1, 2008 8
Orientacyjny plan wykładów, c.d. 7. Statystyczna ocena dopasowania sekwencji 8. Metody heurystyczne porównywania sekwencji, FASTA, BLAST 9. PSI-BLAST 10. Zestawienia wielosekwencyjne, wzorce, profile, drzewa filogenetyczne 11. Przewidywanie struktury II-rzedowej 12. Przewidywanie struktury III-rzedowej 13. Metody ab initio 14. Analiza sekwencji białek rakowych 15. Projektowanie leków (in silico) Centralny dogmat Biologii Molekularnej informacja genetyczna przechowywana jest w sekwencji zasad polimeru DNA trójki (tryplety) zasad DNA kodują 20 naturalnych aminokwasów sekwencja aminokwasów w białku determinuje jego strukturę sekwencja i struktura determinują funkcję Wykład 1, 2008 9
Dwa paradygmaty? Biologia molekularna DNA RNA białko Bioinformatyka sekwencja struktura funkcja Wykład 1, 2008 10
Prekursor mrna mrna (1) Sekwencja białka determinuje jego strukturę przestrzenną mrna (2) Sekwencja aminokwasowa (1) Sekwencja aminokwasowa (2) Budowa aminokwasów i białek Wykład 1, 2008 11
Ogólna budowa aminokwasów H w neutralnym ph H NH 3 + C COO - NH 2 C COOH R R grupa aminowa - NH 2 grupa karboksylowa - COOH Ogólna budowa aminokwasów - glicyna H NH 2 C COOH H R = H Gly, G Wykład 1, 2008 12
Ogólna budowa aminokwasów - alanina H NH 2 C COOH CH 3 R = CH 3 alfa- amiokwasy L - aminokwasy Ala, A L-aminokwasy - centrum asymetrii NH 3 + H R H NH 3 + C C COO - L D COO - Wykład 1, 2008 13
Reguła CORN H R NH 3 + C L lewoskrętny (COO-R-N) COO - 20 aminokwasów białkowych kod 1- i 3- literowy alanina A, Ala arginina R, Arg asparagina N, Asn kw.asparaginowy D, Asp cysteina C, Cys glutamina Q, Gln kw.glutaminowy E, Glu glicyna G, Gly histydyna H, His izoleucyna I, Ile leucyna L, Leu lizyna K, Lys metionina M, Met fenyloalanina F, Phe prolina P, Pro seryna S, Ser treonona T, Thr tryptofan W, Trp tyrozyna Y, Tyr walina V, Val Wykład 1, 2008 14
aminokwasy hydrofobowe/niepolarne A V L I P Y F W M C Ala Val Leu Ile Pro aromatyczne alifatyczne Tyr Phe Trp Cys Met zawierające siarkę aminokwasy hydrofilowe/polarne N Q S T K R H D E N, Asn Q, Gln S, Ser T, Thr K, Lys naładowane (+) R, Arg H, His D, Asp E, Glu naładowane (-) Wykład 1, 2008 15
Diagram Venn a Specyficzne własności reszt aminokwasowych decydują o strukturze i aktywności biologicznej białek. cechy/kryteria: hydrofobowe/hydrofilowe alifatyczne aromatyczne, oddziaływujące warstwowo polarne-neutralne polarne naładowane dodatnio/ujemnie kwasowe, zasadowe C-β rozgałęzione małe/duże zawierające siarkę tworzące wiązania wodorowe wzmacniacze/łamacze struktur Wykład 1, 2008 16
Łaocuch polipeptydowy - struktura pierwszorzędowa struktura I-rzędowa: kolejnośd, sekwencja aminokwasów w łaocuchu (skład i kolejnośd kolejnośd decydują strukturze i funkcji) Ala Gly Thr Ile Val NH 2 - AlaValGlySerThrLeuIle - COOH Ser Leu NH 2 - AVGSTLI - COOH Wiązanie peptydowe wiązanie peptydowe H + H 3 N C α C H O O + + H + H 3 N C α C H O O + H 2 O H O + H 3 N C α C H N H H C α H C O O + Wykład 1, 2008 17
1.23 Å 1.0 Å Kierunkowośd łaocucha, nazewnictwo a) 4-Alanina lub tetra-alanina, b) tetrapeptyd o sekwencji R 1 R 2 R 3 R 4 Łańcuch aminokwasów: 2-10 oligopeptyd, 10-100 polipeptyd, powyżej 100 reszt aminokwasowych białko. Wiązanie peptydowe kąty walencyjne i długości wiązao R 2 O H NH 3 + 121.1 o C 123.2 o 121.9 o C C 115.6 o N 119.5 o 118.2 o C R 1 H 119.5 o H O Wykład 1, 2008 18
Wiązanie peptydowe kąt torsyjny ω i konformacja Trans R 2 ω=180 o O H NH 3 + C C C N C R 1 H H O 0 o 180 o 90 o Wykład 1, 2008 19
Struktura drugorzędowa Przestrzenne ułożenie łańcucha opisane za pomocą kątów torsyjnych φ i ψ. ψ φ ω Elementy struktury II-rzędowej helisy: prawoskrętna α helisa 3 10 helisa π helisa helisa φ ψ ω reszt na skręt przesunięcie na resztę wiązania wodorowe α helisa -57-47 180 3,6 1,5 i+4 3 10 helisa -49-26 180 3,0 2,0 i+3 π helisa -57-70 180 4,4 1,2 i+5 Wykład 1, 2008 20
α - helisa α - helisa 3 10 - helisa π - helisa 22-reszty aminokwasowe Wykład 1, 2008 21
Elementy struktury II-rzędowej beta-harmonijki, (β-kartki, struktury pofałdowanej kartki): równoległe antyrównoległe mieszane harmonijka φ ψ ω reszt na skręt przesunięcie na resztę równoległa -139 135 180 2 3,2 antyrównoległa -119 113-175 2 3,4 β-harmonijki Wykład 1, 2008 22
Wykres Ramachandrana (Biochemistry, Jeremy Berg, John Tymoczko, Lubert Stryer. 5th ed,pwn 2005). Wykres Ramachandrana (Biochemistry, J.Berg, J.Tymoczko, L.Stryer.,PWN 2005). Wykład 1, 2008 23
Wykres Ramachandrana dla białka φ ψ β-równoległa -119 113 β-antyrównoległa -139 135 α - helisa -57-47 3 10 - helisa -49-26 π - helisa -57-70 Łamacze i wzmacniacze Wzmacniacze Łamacze - helisa M L E C A P G Y T S - harmonijka równoległa V I F M L Y P G D E A N S K - harmonijka antyrównoległa Q T R H W C kłębek, zwrot G P D N S Y, naładowane Wykład 1, 2008 24
Wiązanie wodorowe δ - C O akceptor oddz. elektrostatyczne między dwoma względnie elektroujemnymi atomami energia: 4-13 kj/mol (energia wiązań kowalencyjnych: 418 kj/mol) δ + H N donor δ - δ + δ - N H N N H O O H N O H O Wiązania wodorowe dla - harmonijki struktura równoległa struktura anty-równoległa Wykład 1, 2008 25
Wiązania wodorowe dla α - helisy i i+4 Wiązania wodorowe dla zwrotu (skrętu) Wykład 1, 2008 26
Wiązanie wodorowe białko ligand Wiązanie wodorowe Wykład 1, 2008 27
Rodzaje oddziaływao stabilizujących strukturę oddziaływania wodorowe oddziaływania hydrofobowe oddziaływania van der Waalsa mostki dwu-siarczkowe mostki solne Oddziaływania hydrofobowe Zasady termodynamiki: układ ciepło otoczenie I. Energia otoczenia i układu jest stała II. W procesach spontanicznych entropia rośnie (ΔS>0) S - entropia - miara przypadkowości i nieuporządkowania H - entalpia - zawartość ciepła w układzie(zwiększenie = wzrost entropii) ΔS otoczenia = -ΔH układu /T G - energia swobodna (Gibbsa) ΔG = ΔH układu -TΔS układu < 0 Reakcja zajdzie spontanicznie jeśli ΔG < 0 Wykład 1, 2008 28
Oddziaływania hydrofobowe -spontaniczne zwijanie białek układ nieuporządkowany - duża entropia (S) Oddziaływania hydrofobowe -spontaniczne zwijanie białek układ nieuporządkowany: - grupy hydrofobowe porządkują cząsteczki wody - spadek entropii grupy hydrofilowe grupy hydrofobowe Wykład 1, 2008 29
Oddziaływania hydrofobowe -spontaniczne zwijanie białek układ uporządkowany (niższa entropia?): - grupy hydrofobowe połączone - uwolnione cząsteczki wody są nieuporządkowane - wzrost entropii grupy hydrofilowe grupy hydrofobowe Oddziaływania hydrofobowe -spontaniczne zwijanie białek układ uporządkowany (niższa entropia?): - grupy hydrofobowe połączone - uwolnione cząsteczki wody są nieuporządkowane - wzrost entropii ΔS wody = -ΔH białka /T wzrost entropii wody kompensuje jej spadek związany ze zwijaniem białek! ΔG = ΔH białka -TΔS białka < 0 grupy hydrofilowe grupy hydrofobowe Wykład 1, 2008 30
Rodzaje oddziaływao stabilizujących strukturę oddziaływania wodorowe oddziaływania hydrofobowe oddziaływania van der Waalsa mostki dwu-siarczkowe mostki solne Oddziaływania van der Waalsa ładunek - dipol dipol - dipol dyspersja (indukowane dipole) δ - δ + N + O C δ + δ - δ + C O C OH δ + δ - δ + δ - CH 3 H 3 C Wykład 1, 2008 31
Mostek dwu-siarczkowy --CH 2 -S-S-CH2-- sekwencja insuliny wołowej Struktura trzeciorzędowa przestrzenne ułożenie elementów struktury II-rzędowej pojedynczego łaocucha Wykład 1, 2008 32
Domeny, motywy, rodziny, superrodziny domeny - odrębne strukturalnie fragmenty białek domena wiążąca palca cynkowego Domeny, motywy, rodziny, superrodziny motywy strukturalne - struktury naddrugorzędowe:motyw all-α Helisa -zwrot -helisa białka wiążące RNA 1rop.pdb 4 helisy (uteroglobin 1ccd.pdb) Wykład 1, 2008 33
Domeny, motywy, rodziny, superrodziny motywy strukturalne - struktury naddrugorzędowe:motyw all-β topologie beta-beczka (barrel) 1ifb.pdb Domeny, motywy, rodziny, superrodziny beta-helisa 2pec.pdb Wykład 1, 2008 34
czas Domeny, motywy, rodziny, superrodziny motywy strukturalne - struktury naddrugorzędowe:motyw α-β- α-β α-β -beczka Rodziny, superrodziny Drzewo ewolucyjne globin. homologi: ortologi -różne gatunki, taka sama funkcja paralogi-podobna funkcja, ale ewoluowały niezależnie (ten sam organizm) analogi: różne sekwencje, różne motywy, ale identyczna orientacja ważnych aminokwasów prymitywna, pierwotna globina wiążąca tlen Molecular Cell Biology,4ed. Lodish, Berk, Matsudaira, Kaiser, Krieger, Scott, Zipursky, and Darnell Wykład 1, 2008 35
Rodzina - homologi krowa Rybonukleaza wołowa (enzym trawienny) człowiek Rybonukleaza ludzka (enzym trawienny) angiogenina ludzka (stymuluje wzrost naczyń krwionośnych) (Biochemistry, J.Berg, J.Tymoczko, L.Stryer.,PWN 2005). Rodziny Wykład 1, 2008 36
Struktura czwartorzędowa Przestrzenne ułożenie dwóch lub więcej łaocuchów polipeptydowych tworzących natywną cząsteczkę białka białko Cro z bacteriofaga l, jest dimerem złożonym z identycznych podjednostek Struktura VI-rzędowa dimer hemoglobiny tetramer 2 2 hemoglobiny (1G0B.pdb) Wykład 1, 2008 37
Struktura IV-rzędowa Ferytyna - 24mer (1BG7.pdb) Insulina (1APH.pdb) Oddziaływanie białek z ligandami Jądrowy receptor hormonu Grupy prostetyczne to często kofaktory Apoproteina - białko bez grupy prostetycznej Wykład 1, 2008 38
Wykład 1, 2008 39