Bioinformatyka (wykład monograficzny) wykład 2. E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas Budowa kwasów nukleinowych Kwasy nukleinowe (DA i RA) zbudowane są z nukleotydów ukleotyd: zasada cukier reszta kwasu fosforowego Wykład 2, 2006 1
Budowa kwasów nukleinowych zasada Purynowa: A adenina G guanina Pirymidynowa: C U T cytozyna uracyl tymina Budowa kwasów nukleinowych Kwasy nukleinowe (DA i RA) zbudowane są z nukleotydów cukier cukier ryboza deoxyryboza Wykład 2, 2006 2
Budowa kwasów nukleinowych ukleozyd: zasada wiązanie β-glikozydowe cukier Budowa kwasów nukleinowych łańcuch polinukleotydowy: Wykład 2, 2006 3
Pary zasad Budowa kwasów nukleinowych Wiązanie wodorowe pk a = 3.8 pk a =9.5 H H O CH 3 H C-1 Wiązanie wodorowe C-1 A=T O O H H pk a =9.4 H pk a =4.5 H O C-1 C-1 H G C Budowa kwasów nukleinowych B-DA A-DA Z-DA Wykład 2, 2006 4
ZŁOŻOOŚĆ I POZORA IEJASOŚĆ PROCESÓW KOMÓRKOWYCH CZŁOWIEK... 10 13 KOMÓREK! każda ma identyczny skład DA o długości około 3,2x10 9 pz... identyczny skład, ale zróżnicowane typy komórek i funkcje tkanek... z 3,2x10 9 pz tylko 2% koduje białka! [Paulina Błażejewska] GEOM... cała informacja genetyczna organizmu - eukariota: chromosomy w jądrze komórkowym i mitochondria/chloroplasty - prokariota: chromosom bakteryjny (genofor) http://www.ncbi.nlm.nih.gov/about/primer/genetics_genome.html [Paulina Błażejewska] Wykład 2, 2006 5
GEOM... wielkość genomu nie koreluje się ze złożonością organizmu - wśród bezkręgowców i kręgowców można znaleźć większe genomy od ludzkiego - jeden z gatunków ameby ma aż 100x więcej DA niż człowiek - na ogół genomy prokariotyczne są mniejsze od eukariotycznych - genom prokariotyczny ma wielkość poniżej 5Mpz (np. Escherichia coli 4,64 Mpz) - eukariotyczny genom jądrowy od 10Mpz do ponad 100.000Mpz (np. Drosophila melanogaster 140Mpz) [Paulina Błażejewska] Centralny dogmat Biologii Molekularnej informacja genetyczna przechowywana jest w sekwencji zasad polimeru DA trójki (tryplety) zasad DA kodują 20 naturalnych aminokwasów sekwencja aminokwasów w białku determinuje jego strukturę sekwencja i struktura determinują funkcję Wykład 2, 2006 6
Przepływ informacji genetycznej Wykład 2, 2006 7
Przepływ informacji genetycznej -transkrypcja mra DA matrycowy DA kodujący Szukanie sekwencji kodującej Metody ab ab initio initio Metody oparte na na homologii Podejście połączone promotor 5 -UTR ekson początkowy intron ekson wewnętrzny TATA-box ATG GT AC GT intron ekson wewnętrzny intron ekson końcowy 3 -UTR AC GT AC TAG Poli-A miejsca splicingu kodon stop Wykład 2, 2006 8
Ab initio Szukanie charakterystycznych elementów strukturalnych, sygnałów: TATA-box (5 -TATAAA-3 ), CAAT-box (5 -GGGCAATCT-3 ), Wyspy CpG Kodon ATG i kodony STOP (TAG,TGA) Poli-A Regiony niekodujące UTR Statystyka użycia kodonów (w obszarach niekodujących występują równe proporcje tripletów), pary [G-C] przeważają w obszarach kodujących lista i opis: http://www.hgmp.mrc.ac.uk/genomeweb/nuc-geneid.html PP - eural etwork Promoter Prediction (Reese, 2001), (inne programy: GRAIL, SPLICE ) HMMgene (Krogh, 1994) używa tzw. ukrytych modeli Markowa (Hidden Markov Models HMM). (inne programy:gesca, TWISCA, Genie ) Metody oparte na homologii bazy ekspresjonowanych fragmentów eksonów - EST (Expressed Sequence Tags, Adams, 1991). Obecne w nich krótkie fragmenty CDS zawierające często np. miejsca splicingu, porównywane są z nieznanym genem. Wykład 2, 2006 9
Podejście połączone GrailEXP Kombinacja metod ab initio i opartych na homologii. Składa się z 3 modułów: Perceval pierwotny moduł GRAIL (sieci neuronowe), odszukuje w sekwencji charakterystyczne sygnały i na ich podstawie określa położenie eksonów. Galahad Identyfikuje w odpowiedniej bazie genomowej eksony jako miejsca pokrywające się z bazą końcówek eksonów (tzw. EST-ów). a taką matrycę nakłada nieznany gen i przez homologię rozpoznaje w nim eksony Gawain Składa wyniki dwóch pierwszych modułów w jedną całość. Gdy występują między nimi niezgodności, optymalizuje wynik, bądź podaje wyniki alternatywne (w szczególności: inną wersję splicingu). Buduje model genu i podaje sekwencję kodującą Gen CFTR Sekwencja DA dostępna w GenBank w CBI, 64 383 103 pary zasad DA >gi 180330 gb AH002646.1 SEG_HUMCFTRG Human cystic fibrosis transmembrane conductance regulator (CFTR) gene CTAGAAACCGTATGCTATATAATTATGTACTATAAAGTAATAATGTATACAGTGTAATGGATCATGGGCC ATGTGCTTTTCAAACTAATTGTACATAAAACAAGCATCTATTGAAAATATCTGACAAACTCATCTTTTAT TTTTGATGTGTGTGTGTGTGTGTGTGTGTGTTTTTTTAACAGGGATTTGGGG AGCAGGCAAGGTAGTTCTTTTGTTCTTCACTATTAAGAACTTAATTTGGTGTCCATGTCTCTTTTTTTTT CTAGTTTGTAGTGCTGGAAGGTATTTTTGGAGAAATTCTTACATGAGCATTAGGAGAATGTATGGGTGTA GTGTCTTGTATAATAGAAATTGTTCCACTGATAATTTACTCTAGTTTTTTATTTCCTCATATTATTTTCA GTGGCTTTTTCTTCCACATCTTTATATTTTGCACCACATTCAACACTGTATCTTGCACATGGCGAGCATT CAATAACTTTATTGAATAAACAAAT... Wykład 2, 2006 10
Sequence: >gene_grailexp PID=12820 (22846 bp) -------------------------------------------------------------------------------- GAWAI Gene Predictions (1 predicted, 1 with database similarity) Genes with Database Similarity (1 predicted, 0 with alternative splices) Gene 1, Variant 1 Strand: + Bounds: 697-22846 Exons: 27 Start Codon: Yes Stop Codon: Yes Top-Scoring Reference: HT2294 (6159 bp) (98% id, 829-22846) >human HT2294 tigr_egad cystic fibrosis transmembrane conductance regu lator, 3' Reference Path: M28668 (6129 bp) (98%, 697-21889) HT2294 (6159 bp) (98%, 829-22846) Matrycowy RA: 6129 par zasad, Po Po odszukaniu sekwencji kodującej (CDS): 4443 par zasad Znaleziona sekwencja odpowiada sekwencji M_000492 zdeponowanej w CBI Sekwencja gotowa do translacji Wykład 2, 2006 11
Kod genetyczny Otwarte ramki odczytu (ORF) otwarte ramki odczytu ORF (Open Reading Frame). wszystkie możliwe sekwencje DA rozpoczynające się kodonem ATG (kodon inicjujący translację) i kończące TAG, TAA lub TGA (kodony stop ) w tej samej fazie odczytu. Wykład 2, 2006 12
Otwarte ramki odczytu (ORF) 1 mra 2 3 Wykład 2, 2006 13
Wykład 2, 2006 14