PODSTAWY BIOINFORMATYKI Dr hab. Marcin Filipecki Katedra Genetyki, Hodowli i Biotechnologii Roślin - SGGW Bioinformatyka to wykorzystanie technologii komputerowych w celu zrozumienia i efektywnego wykorzystania rosnących danych biologicznych. Bioinformatyka pomaga przekształcić wielkie dane w zrozumiałe dane (wiedza). 1
Pole dla bioinformatyki - gromadzenie informacji: Literatura Sekwencje DNA, RNA, białek, charakterystyczne motywy Inne cząsteczki biologiczne Struktury Interakcje białek Profile ekspresji Szlaki biochemiczne Choroby Mapy genetyczne - przetwarzanie informacji: Na potrzeby baz danych Na potrzeby producentów aparatury biomedycznej i ich użytkowników Na potrzeby projektów badawczych: Edycja i opis podstawowych cech sekwencji Wyszukiwanie charakterystycznych elementów w sekwencjach Projektowanie oligonukleotydów Porównywanie, poszukiwanie polimorfizmu, filogenetyka Przewidywanie struktury cząsteczek istniejących Projektowanie nowych cząsteczek Przykładowy obraz mikroukładu Genom drożdży (6200 genów) Stanford University, CA 2
Literatura biologiczna Najobszerniejszy zbiór danych biologicznych, Katalogi Medline zawierają 25 millionów wpisów, Niezbędna do wyciągania wniosków nt. funkcji genu, Także może być pomocna w automatycznej interpretacji niektórych wyników. 3
4
Obowiązujące oznaczenia nukleotydów Symbol wg. IUB/GCG Znaczenie Komplementarny A A T C C G G G C T/U T A M A lub C K R A lub G Y W A lub T W S C lub G S Y C lub T R K G lub T M V A lub C lub G B H A lub C lub T D D A lub G lub T H B C lub G lub T V X/N G lub A lub T lub C X. Nie G lub A lub T lub C. OBOWIĄZUJĄCE SYMBOLE AMINOKWASÓW Symbol 3-literowy znaczenie kodony A Ala Alanina GCT, GCC, GCA, GCG B Asp, Asn Asparagina, Asparaginian GAT, GAC, AAT, AAC C Cys Cysteina TGT, TGC D Asp Asparaginian GAT, GAC E Glu Glutaminian GAA, GAG F Phe Fenyloalanina TTT, TTC G Gly Glicyna GGT, GGC, GGA, GGG H His Histydyna CAT, CAC I Ile Izoleucyna ATT, ATC, ATA K Lys Lizyna AAA, AAG L Leu Leucyna TTG, TTA, CTT, CTC, CTA, CTG M Met Metionina ATG N Asn Asparagina AAT, AAC P Pro Prolina CCT, CCC, CCA, CCG Q Gln Glutamina CAA, CAG R Arg Arginina CGT, CGC, CGA, CGG, AGA, AGG S Ser Seryna TCT, TCC, TCA, TCG, AGT, AGC T Thr Treonina ACT, ACC, ACA, ACG V Val Walina GTT, GTC, GTA, GTG W Trp Tryptofan TGG X Xxx Nieznany Y Tyr Tyrozyna TAT, TAC Z Glu, Gln Glutaminian, Glutamina GAA, GAG, CAA, CAG * End Terminator TAA, TAG, TGA 5
SEKWENCJONOWANIE GENOMÓW MOŻE ODBYWAĆ SIĘ W ZWYKŁYM LABORATORIUM jedna reakcja jeden odczyt 500-1000 zasad dokładność wymaga kilkakrotnego zsekwencjonowania tego samego kawałka połaczenie dwóch krótszych sekwencji (odczytów) w jedną dłuższą - na zakładkę 6
Human Genome Project (HUGO) Inicjacja 1988-1990 USA, UK, Japonia, Chiny, Europa CELERA GENOMICS Mapowanie i rozwój technologii Rozpoczęcie właściwego sekwencjonowania 1997 Wersja robocza genomu ludzkiego 2000 J. Craig Venter & Francis Collins Sekwencjonowanie zakończone 2003 Mapowanie i sekwencjonowanie Jedna reakcja sekwencjonowania powala na odczyt 500-1000 pz Losowe sekwencjonowanie całego genomu sprawdza się u bakterii (shotgun sequencing losowe odczytywanie kilkusetnukleotydowych fragmentów i następnie układanie ich w jedną całość - contig - na podstawie częściowego zachodzenia na siebie otrzymanych sekwencji; dzięki zachodzeniu na siebie sekwencji zwiększa się dokładność odczytu) Organizmy wyższe są zwykle sekwencjonowane w oparciu o zachodzące na siebie klony w BAC-ach W bazach danych, do których trafiają sekwencje trudno jest uniknąć powtarzania się informacji 7
Cele projektu poznania genomu ludzkiego Zidentyfikować wszystkie z około 35 000 genów w DNA człowieka, Ustalić sekwencję 3 miliardów par zasad z ludzkiego DNA, Przechowywać tę informację w bazach danych, Opracować narzędzia do analizy danych, Zwrócić uwagę na wynikające z projektu problemy ważne ze względów etycznych, cywilno-prawnych i społecznych. ZMIENNOŚĆ!!! 8
9
Znaczenie organizmów modelowych Życie jest dużo mniej zróżnicowane na poziomie molekularnym niż nam się wydaje. Geny bakteryjne mogą być bardzo informatywne w biologii człowieka. Organizmy modelowe Drożdże, nicienie, muszka owocowa, Ryż, rzodkiewnik, Kurczak, mysz. 10
WIELKOŚĆ MA ZNACZENIE Minimal genome project Mycoplasma genitalium 517 genów (265 350 niezbędnych) 580 000 pz Projekt zsyntetyzowania organizmu Sztuczny mikroorganizm - bioreaktor Piąta zasada, nowe aminokwasy 11
Instytuty bioinformatyczne National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov/ European Bioinformatics Institute http://www.ebi.ac.uk/ Swiss Institute of Bioinformatics http://www.isb-sib.ch/ 12
13
Klony EST zachodzą na siebie i często się powtarzają Sekwencje nukleotydowe i aminokwasowe przekraczają objętością literaturę Ok. 3000 genomów całkowicie zsekwencjonowanych i dostępnych, Baza Danych Sekwencji Nukleotydowych EMBL zawiera 330mln sekwencji i 400mld nukleotydów (w tym EST, STS and GSS). Szacuje się, że ok. jedna trzecia genów ludzkich daje więcej niż jeden produkt białkowy 14
WWW Submission System eliminacja sekw. wektora wygodna pomoc zachowanie wpisów do następnego użycia przykłady i dkumentacja do podejrzenia 15
Bazy danych to nie tylko literatura i sekwencje 16
Mutanty!!! 17
Mutanty w kolekcjach mogą dawać dokładny opis specyfiki działania genu, w który nastąpiła insercja. http://www.plantsci.cam.ac.uk/haseloff BIOLOGIA SYSTEMÓW W biologii zrozumienie na poziomie systemu wymaga analizy struktury i dynamiki na poziomie komórki i organizmu, a nie oddzielnie części składowych. Stara nauka wyjaśnia obserwowane zjawiska poprzez zredukowanie ich do współuczestniczących składowych i obserwację każdej oddzielnie. Współczesna nauka dostrzega wagę całościowego spojrzenia spychając na dalszy plan podejście redukcjonistyczne. Uprawianie biologii systemów oznacza obecnie zastosowanie i integrację matematyki, inżynierii, fizyki i informatyki w celu zrozumienia złożonych biologicznych zależności. 18
Bazy danych sieci zależności genów i ich produktów Signal Transduction Knowledge Environment http://stke.sciencemag.org Kyoto Encyclopedia of Genes and Genomes http://www.genome.ad.jp/kegg BioCyc - collection of Pathway/Genome Databases http://biocyc.org/ (A. thaliana AraCyc http://www.arabidopsis.org/tools/aracyc) MapMan http://gabi.rzpd.de/projects/mapman KaPPA-View (A Web-Based Analysis Tool for Integration of Transcript and Metabolite Data on Plant Metabolic Pathway Maps http://kpv.kazusa.or.jp/kappa-view 19
20
Transkryptomika GEO (global expression profiles) Proteomika SWISS-2D PAGE 21
Moda na -omy i -omiki (http://www.genomicglossaries.com/content/omes.asp) biom, CHOm, komórkom, komórkomika, chronomika, klinomika, kompleksom, krystalomika, cytomika, cytoszkieletom, degradomika, diagnomika, enzymom, epigenome, ekspresom, przepływom, foldom, sekretom, funkcjonom, funkcjonomika, genomika, glikomika, immunom, transcriptomika, integromika, interaktom, kinetom, ligandomika, lipoproteomika, lokalizom, fenomika, metabolom, farmakometabolomika, metylenom, mikrobiom, morfom, neurogenomika, nuckleom, sekretom, onkogenomika, operom, transkryptomika, ORFom, parazytom, patogenom, peptydomika, farmakogenom, farmakometylomika, fenomika, fylom, fizjogenomika, postgenomika, predyktome, polimorfom, promotorom, proteom, pseudogenom, sekretom, regulom, rezystom, rybonom, rybonomika, ryboproteomika, cukromika, sekretom, somatonom, systeom, tokisykomika, transkryptom, translatom, niewiadomon, vaccinom, wariomika... 22