Wykorzystanie baz danych w biotechnologii Dr hab. Marcin Filipecki Katedra Genetyki, Hodowli i Biotechnologii Roślin DNA Każdy żywy organizm składa się z komórek, a każda komórka ma jądro. Wikipedia (http://upload.wikimedia.org/wikipedia/commons/thumb/0/00/ Plant_cell_structure_svg_pl.svg/450px-Plant_cell_structure_svg_pl.svg.png) W jądrze znajduje się DNA zwinięte w chromosomy (materiał genetyczny). DNA to bardzo długa cząsteczka chemiczna łańcuch, składający się z nawet z setek milionów ogniw (czterech rodzajów nukleotydów A, T, C i G) ułożonych w określonej kolejności. 1
Gen to fragment łańcucha DNA (kilka tysięcy ogniw - nukleotydów) zawierający informację o budowie białka (kilkaset aminokwasów). Każda komórka człowieka, zwierzęcia czy rośliny zawiera kilkadziesiąt tysięcy genów. Każdego dnia, od początków ludzkości, człowiek zjada 0,2 0,5 grama DNA czyli około kilkudziesięciu biliardów (10 15 ) różnych genów roślinnych, zwierzęcych, bakteryjnych czy wirusowych. Geny 2
Znaczenie organizmów modelowych Życie jest dużo mniej zróżnicowane na poziomie molekularnym niż nam się wydaje. Geny bakteryjne mogą być bardzo informatywne w biologii człowieka. Organizmy modelowe Drożdże, nicienie, muszka owocowa, Ryż, rzodkiewnik, Kurczak, mysz. Metody sekwencjonowania: Enzymatyczna terminacji łańcuchów DNA - 1975 (100 kpz / dzień / urządzenie) Enzymatyczna rejestrująca aktywność polimerazy Hybrydyzacyjna / h. z wykorzystaniem ligazy Bezpośredni odczyt sekwencji nukleotydów na unieruchomionej pojedynczej cząsteczce Miliardy pz na dzień / urządzenie 3
BIOINFORMATYKA Gromadzenie informacji: Literatura naukowa, Sekwencje DNA, RNA, białek, charakterystyczne motywy, Inne cząsteczki biologiczne, Struktury, Interakcje białek, Profile ekspresji, Szlaki biochemiczne, Choroby, Mapy genetyczne OGÓLNODOSTĘPNE BAZY DANYCH SQ Sequence 1634 BP; 413 A; 537 C; 378 G; 306 T; 0 other; ctatatagcg tcaatcagtt ggattaaacc cagagaccat acaccgaaca ccatgctaat 60 gcacgaaaaa ctcatggccg ggcagttctt cgatctcaag actggtaagt tggccacgcc 120 ccttggtttc tcctcgatcc gtaaactaac aaatcccctc tctctctcaa tctttgcaga 180 tcgcaagccc ctgatgcacc accaccagta ccagcaccac cagcagcaac cgctgcacca 240 cttgccgcac agccaattgc cggttcaggg atccttgggc ctgcccaaaa tggatctgta 300 cacggcctac gcctaccagc agcagttgct gggagctgcc ctcagtcagc agcaacaaca 360 gcaacagcag cagcagcaac atcagcagct gcagcagcag catacctcct ctgcagaggt 420 cctggatctt tcccgtcgat gtgacagcgt agagacgccc aggaagactc cctcgccgta 480 tcaaacaagc tacagctacg gcagtggttc cccctcggct tcgcccacca gcaatcttct 540 gtatgccgcc caaatgcaac agcagcaaca tcagcagcaa caacagcaac agcagcagca 600 gcaacaatta gcctccctgt atcccgcttt ttactacagc aacatcaagc aggagcaagc 660 // Przetwarzanie informacji - wnioskowanie: Na potrzeby baz danych Na potrzeby projektów badawczych: Edycja i opis podstawowych cech sekwencji Wyszukiwanie charakterystycznych rejonów w sekwencjach Projektowanie oligonukleotydów Porównywanie, poszukiwanie polimorfizmu, filogenetyka Przewidywanie struktury cząsteczek istniejących Projektowanie nowych cząsteczek 4
Rozwój bioinformatyki doprowadził do powstania biologii systemów BIOLOGIA SYSTEMÓW W biologii zrozumienie na poziomie systemu wymaga analizy struktury i dynamiki na poziomie komórki i organizmu, a nie oddzielnie części składowych. Stara nauka wyjaśnia obserwowane zjawiska poprzez zredukowanie ich do współuczestniczących składowych i obserwację każdej oddzielnie. Współczesna nauka dostrzega wagę całościowego spojrzenia spychając na dalszy plan podejście redukcjonistyczne. Uprawianie biologii systemów oznacza obecnie zastosowanie i integrację matematyki, inżynierii, fizyki i informatyki w celu zrozumienia złożonych biologicznych zależności. 5
Bazy danych sieci zależności genów i ich produktów Signal Transduction Knowledge Environment http://stke.sciencemag.org Kyoto Encyclopedia of Genes and Genomes http://www.genome.ad.jp/kegg BioCyc - collection of Pathway/Genome Databases http://biocyc.org/ (A. thaliana AraCyc http://www.arabidopsis.org/tools/aracyc) MapMan http://gabi.rzpd.de/projects/mapman KaPPA-View (A Web-Based Analysis Tool for Integration of Transcript and Metabolite Data on Plant Metabolic Pathway Maps http://kpv.kazusa.or.jp/kappa-view 6
J.Craig Venter - wizjoner nauki czy biotechnologiczny biznesman? Genom ludzki Metagenomika Organizm syntetyczny Sekwencjonowanie hierarchiczne w HGP: najpierw zmapowanie wielkoinsertowych klonów, potem sekwencjonowanie losowe Zastosowane przez J.C. Venter a sekwencjonowanie losowe całego genomu (whole genome shotgun sequencing) omija etap mapowania klonów Intl. Hum. Gen. Seq. Cons. (2001), Nature 409: 860-921. 7
Human Genome Project & CELERA GENOMICS 26-06-2000 J. Craig Venter & Bill Clinton & Francis Collins Intl. Hum. Gen. Seq. Cons. (2001) Nature 409: 860-921 Udział 20 ośrodków z 6 krajów Hierarchical shotgun sequencing DNA od wielu osób 15 miesięcy* Wybór kolekcji klonów o minimalnym zachodzeniu, pokrywających chromosomy Losowe sekwencjonowanie głównie klonów BAC i PAC (8 bibliotek) (wielkość fragmentów sekwencjonowanych itp. zależne od ośrodka) Pokrycie genomu 4,5 x (dla klonów) Intl. Hum. Gen. Seq. Cons. (2001) Nature 409: 860-921. 8
Venter JC i in. (2001) Science 291: 1304-51 CELERA GENOMICS Whole genome shotgun DNA od 5 osób 9 miesięcy Wykorzystanie 500-600 ntd sekwencji końców klonów o średniej długości wstawki 2, 10 i 50 kpz Włączenie sekwencji z publicznych baz danych po pofragmentowaniu na 500 600 ntd kawałki Pokrycie genomu 5,11 x Venter JC i in. (2001) Science 291: 1304-51 Sekwencje nukleotydowe i aminokwasowe przekraczają objętością literaturę Ok. 3000 genomów całkowicie zsekwencjonowanych i dostępnych, Baza Danych Sekwencji Nukleotydowych EMBL zawiera 330mln sekwencji i 400mld nukleotydów (w tym EST, STS and GSS). Szacuje się, że ok. jedna trzecia genów ludzkich daje więcej niż jeden produkt białkowy 9
10
Jak wygląda sekwencja w bazie danych? 11
12
Podstawowym narzędziem identyfikacji i opisu sekwencji, zarówno tych zamieszczonych już w bazach danych, jak i tych nowootrzymanych jest ich PORÓWNYWANIE. Gdzie: PODOBIEŃSTWO jest to wartość mierzalna wyrażana często w % HOMOLOGIA jest to hipoteza o wspólnym pochodzeniu (przodku) wyrażona np. w oparciu o analizę podobieństwa 13
SCORES Init1: 218 Initn: 517 Opt: 665 z-score: 542.8 E(): 2.5e-23 >>SWISSPROT:GA1A_XENLA (359 aa) initn: 517 init1: 218 opt: 665 Z-score: 542.8 expect(): 2.5e-23 Smith-Waterman score: 697; 48.5% identity in 295 aa overlap (125-912:47-323) jp-na.seq GA1A_XENLA jp-na.seq GA1A_XENLA jp-na.seq GA1A_XENLA jp-na.seq GA1A_XENLA 140 170 200 230 260 SSWRWGGRMRAPPLRS--LMKPEPSWGWGG---ARGR/EAGGLLASYPPSGRVSLVPWAD :: ::: : : : : : :: SSRAVGGFRHSPVFQTFPLHWPETSAGIPSNLTAYGR-STGTL--SFYPSAASALGPITS 50 60 70 80 90 100 290 320 350 380 410 TGTLGTPQWV----PPATQMEPPHYLELLQPPRGSPPHPSSGPLLPLS------------ :: ::: : :: : : : PPLYSASSFLLGSAPPAEREGSPKFLETLKTERASPLTSDLLPLEPRSPSILQVGYIGGG 110 120 130 140 150 160 440 470 500 530 560 ----SGPPPCEARECVMARKNCGATATPLWRRDGTGHYLCNWASACGLYHRLNGQNRPLI : : :: GQEFSLFQSTEDRECV----NCGATVTPLWRRDMSGHYLCN---ACGLYHKMNGQNRPLI 170 180 190 200 210 590 620 650 680 710 740 RPKKRLLVSKRAGTVCSHERENCQTSTTTLWRRSPSGDPVCNNIHACGLYYKLHQVNRPL : : : : RPKKRLIVSKRAGTQCS----NCHTSTTTLWRRNASGDPVCN---ACGLYYKLHNVNRPL 220 230 240 250 260 770 800 830 860 890 jp-na.seq TMRKDGIQTRNRKVSSKGKKRR-------PPGGGNPSATAGGGAPMGGGGDPSMPP : : :: :: : : : : : GA1A_XENLA TMKKEGIQTRNRKVSSRSKKKKQLDNPFEPPKAGVEEPSPYPFGPLLFHGQ--MPP 270 280 290 300 310 320 14
METAGENOMIKA Zastosowanie nowoczesnych technik genomowych do badania populacji mikroorganizmów, występujących w danym środowisku, z ominięciem izolacji i hodowli laboratoryjnej poszczególnych gatunków Jo Handelsman (2004) Microbiology and Molecular Biology Reviews 68: 669-685 Wyprawa H.M.S. Challenger (1872-1876) pod kierownictwem Prof. Wyville Thomson a 68 000 MM 29 552 str. Sprawozdania Prawie 4000 nowych gatunków 15
Global Ocean Sampling Expedition (GOS) Pobieranie próbek w trakcie ekspedycji GOS J.C. Venter Institute 16
Ekspedycja Global Ocean Sampling Pierwsza faza 8000MM 41 miejsc pobierania 7,7 mln sekwencji 6,3 mld pz 6,1 mln nowych białek 1700 brak podobieństwa Seria 3 publikacji PLOS Biology Marzec 2007 Biologia syntetyczna 17
W stronę syntetycznego życia Synteza bakteriofaga ΦX174 (5386 pz) 2003 r. Transplantacja genomu M. capricolum do cytoplazmy M. mycoides LC (2007) Syteza genomu Mycoplasma genitalium 582 970 pz (2008) Oligonukleotydy > 5-7 > 24 > 72 (1/8) > 144 (1/4) > 582,97 kpz (1/1) Klonowanie genomu M. mycoides w drożdżach i transplantacja do cytoplazmy M. capricolum. Transplantacja syntetycznego genomu do cytoplazmy > powstanie Synthii (Mycoplasma laboratorium) 2010? http://marcin_filipecki.users.sggw.pl/filipecki_links.htm 18
19
20
21
22
23
24
25