DNA. Wykorzystanie baz danych w biotechnologii. Dr hab. Marcin Filipecki Katedra Genetyki, Hodowli i Biotechnologii Roślin

Podobne dokumenty
BIOINFORMATYKA. Gromadzenie informacji:

Czytanie DNA. Jak zrozumieć miliard słów? DNA Encyklopedia Życia Warszawa 2010

DNA. Czytanie DNA Jak zrozumieć miliard słów? 10/15/2015. Każdy żywy organizm składa się z komórek, a każda komórka ma jądro.

PODSTAWY BIOINFORMATYKI

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

PODSTAWY BIOINFORMATYKI

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

1. KEGG 2. GO. 3. Klastry

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Mapowanie fizyczne genomów -konstrukcja map wyskalowanych w jednostkach fizycznych -najdokładniejszą mapą fizyczną genomu, o największej

Bioinformatyczne bazy danych

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

Bioinformatyczne bazy danych

Bioinformatyka. Michał Bereta

Biotechnologia i inżynieria genetyczna

Zagrożenia i ochrona przyrody

Analizy wielkoskalowe w badaniach chromatyny

Wzorcowe efekty kształcenia dla kierunku studiów biotechnologia studia pierwszego stopnia profil ogólnoakademicki

Sekwencjonowanie, przewidywanie genów

Jest to dziedzina biologiczna wywodząca się z biotechnologii. Bioinformatyka

Porównywanie i dopasowywanie sekwencji

PODSTAWY BIOINFORMATYKI WYKŁAD 2 SEKWENCJONOWANIE GENOMÓW

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Specjalność (studia II stopnia) Oczyszczanie i analiza produktów biotechnologicznych

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

KARTA PRZEDMIOTU. (pieczęć wydziału)

Podstawy inżynierii genetycznej

Wprowadzenie do biologii molekularnej.

Bioinformatyka. wykłady dla I r. studiów magisterskich, biologia (SGGW) 2010/2011. Krzysztof Pawłowski

Od jakiego pułapu startujemy? matematyka

Podstawowe strategie i techniki genetyki molekularnej

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu:

Podstawy biologii. Informacja, struktura i metabolizm.

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Tematyka zajęć z biologii

Bioinformatyka. Michał Bereta

Bioinformatyka. Krzysztof Pawłowski. wykłady dla I r. studiów magisterskich, biologia (SGGW) 2012 / 2013

Nowoczesne systemy ekspresji genów

CZĘŚĆ III OPISPRZEDMIOTU ZAMÓWIENIA (OPZ)

Biologia medyczna, materiały dla studentów

Podstawowe strategie i narzędzia genetyki molekularnej

Porównywanie i dopasowywanie sekwencji

Geny i działania na nich

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Historia Bioinformatyki

Opis zakładanych efektów kształcenia OPIS ZAKŁADANYCH EFEKTÓW KSZTAŁCENIA

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Podstawowe techniki inżynierii genetycznej. Streszczenie

DNA musi współdziałać z białkami!

PODSTAWY BIOINFORMATYKI 3 SEKWENCJONOWANIE GENOMÓW I

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

Faculty of Biology Institute of Anthropology

Transformacja pośrednia składa się z trzech etapów:

WPROWADZENIE DO GENETYKI MOLEKULARNEJ

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

UNIWERSYTET ROLNICZY IM. HUGONA KOŁŁĄTAJA W KRAKOWIE WYDZIAŁ BIOTECHNOLOGII I OGRODNICTWA

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA

ETYCZNE ASPEKTY INŻYNIERII GENETYCZNEJ

Podstawy genetyki II. Metody badawcze i strategie genetyki i genomiki. Organizmy modelowe.

Techniki molekularne w mikrobiologii SYLABUS A. Informacje ogólne

Dr. habil. Anna Salek International Bio-Consulting 1 Germany

Mikrosatelitarne sekwencje DNA

Metody odczytu kolejności nukleotydów - sekwencjonowania DNA

BIOLOGICZNE BAZY DANYCH SYLABUS

Bioinformatyka Laboratorium, 30h. Michał Bereta

Genetyka i biologia eksperymentalna studia I stopnia 2017/18/19/20

Metody inżynierii genetycznej SYLABUS A. Informacje ogólne

SYLABUS. Wydział Biologiczno-Rolniczy. Katedra Biochemii i Biologii Komórki

Bioinformatyka Laboratorium, 30h. Michał Bereta

KARTA KURSU. Biotechnology in Environmental Protection. Kod Punktacja ECTS* 1

WPROWADZENIE DO GENETYKI MOLEKULARNEJ

Podstawowe strategie i narzędzia genetyki molekularnej

PLAN STUDIÓW PODYPLOMOWYCH: DIAGNOSTYKA MOLEKULARNA W ROKU 2019/2020. Nazwa modułu ECTS Semestr I Semestr II. Liczba godzin z.

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Bioinformatyka. wykłady dla I r. studiów magisterskich, biologia (SGGW) 2007/2008. Wykład 1, 4.X.2007 Krzysztof Pawłowski

Przeglądanie bibliotek

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

1. Biotechnologia i inżynieria genetyczna zagadnienia wstępne 13

Zawartość. Wstęp 1. Historia wirusologii. 2. Klasyfikacja wirusów

Studia podyplomowe: Nauczanie biologii w gimnazjach i szkołach ponadgimnazjalnych

Program studiów I st. (licencjackich) na kieruneku Biotechnologia

Podstawy bioinformatyki dla biotechnologów. plan. Od jakiego pułapu startujemy? Wykład 2. Definicja bioinformatyki

Wymagania edukacyjne

Laboratorium Pomorskiego Parku Naukowo-Technologicznego Gdynia.

Rok akademicki: 2014/2015 Kod: EIB BN-s Punkty ECTS: 3. Kierunek: Inżynieria Biomedyczna Specjalność: Bionanotechnologie

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

Pytania Egzamin magisterski

Historia informacji genetycznej. Jak ewolucja tworzy nową informację (z ma ą dygresją).

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Zaoczne Liceum Ogólnokształcące Pegaz

WYMAGANIA EDUKACYJNE BIOLOGIA zakres podstawowy biologia na czasie

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

CRAIG VENTER genetyk i pionier inżynierii genetycznej

GENOM I JEGO STRUKTURA

Transkrypt:

Wykorzystanie baz danych w biotechnologii Dr hab. Marcin Filipecki Katedra Genetyki, Hodowli i Biotechnologii Roślin DNA Każdy żywy organizm składa się z komórek, a każda komórka ma jądro. Wikipedia (http://upload.wikimedia.org/wikipedia/commons/thumb/0/00/ Plant_cell_structure_svg_pl.svg/450px-Plant_cell_structure_svg_pl.svg.png) W jądrze znajduje się DNA zwinięte w chromosomy (materiał genetyczny). DNA to bardzo długa cząsteczka chemiczna łańcuch, składający się z nawet z setek milionów ogniw (czterech rodzajów nukleotydów A, T, C i G) ułożonych w określonej kolejności. 1

Gen to fragment łańcucha DNA (kilka tysięcy ogniw - nukleotydów) zawierający informację o budowie białka (kilkaset aminokwasów). Każda komórka człowieka, zwierzęcia czy rośliny zawiera kilkadziesiąt tysięcy genów. Każdego dnia, od początków ludzkości, człowiek zjada 0,2 0,5 grama DNA czyli około kilkudziesięciu biliardów (10 15 ) różnych genów roślinnych, zwierzęcych, bakteryjnych czy wirusowych. Geny 2

Znaczenie organizmów modelowych Życie jest dużo mniej zróżnicowane na poziomie molekularnym niż nam się wydaje. Geny bakteryjne mogą być bardzo informatywne w biologii człowieka. Organizmy modelowe Drożdże, nicienie, muszka owocowa, Ryż, rzodkiewnik, Kurczak, mysz. Metody sekwencjonowania: Enzymatyczna terminacji łańcuchów DNA - 1975 (100 kpz / dzień / urządzenie) Enzymatyczna rejestrująca aktywność polimerazy Hybrydyzacyjna / h. z wykorzystaniem ligazy Bezpośredni odczyt sekwencji nukleotydów na unieruchomionej pojedynczej cząsteczce Miliardy pz na dzień / urządzenie 3

BIOINFORMATYKA Gromadzenie informacji: Literatura naukowa, Sekwencje DNA, RNA, białek, charakterystyczne motywy, Inne cząsteczki biologiczne, Struktury, Interakcje białek, Profile ekspresji, Szlaki biochemiczne, Choroby, Mapy genetyczne OGÓLNODOSTĘPNE BAZY DANYCH SQ Sequence 1634 BP; 413 A; 537 C; 378 G; 306 T; 0 other; ctatatagcg tcaatcagtt ggattaaacc cagagaccat acaccgaaca ccatgctaat 60 gcacgaaaaa ctcatggccg ggcagttctt cgatctcaag actggtaagt tggccacgcc 120 ccttggtttc tcctcgatcc gtaaactaac aaatcccctc tctctctcaa tctttgcaga 180 tcgcaagccc ctgatgcacc accaccagta ccagcaccac cagcagcaac cgctgcacca 240 cttgccgcac agccaattgc cggttcaggg atccttgggc ctgcccaaaa tggatctgta 300 cacggcctac gcctaccagc agcagttgct gggagctgcc ctcagtcagc agcaacaaca 360 gcaacagcag cagcagcaac atcagcagct gcagcagcag catacctcct ctgcagaggt 420 cctggatctt tcccgtcgat gtgacagcgt agagacgccc aggaagactc cctcgccgta 480 tcaaacaagc tacagctacg gcagtggttc cccctcggct tcgcccacca gcaatcttct 540 gtatgccgcc caaatgcaac agcagcaaca tcagcagcaa caacagcaac agcagcagca 600 gcaacaatta gcctccctgt atcccgcttt ttactacagc aacatcaagc aggagcaagc 660 // Przetwarzanie informacji - wnioskowanie: Na potrzeby baz danych Na potrzeby projektów badawczych: Edycja i opis podstawowych cech sekwencji Wyszukiwanie charakterystycznych rejonów w sekwencjach Projektowanie oligonukleotydów Porównywanie, poszukiwanie polimorfizmu, filogenetyka Przewidywanie struktury cząsteczek istniejących Projektowanie nowych cząsteczek 4

Rozwój bioinformatyki doprowadził do powstania biologii systemów BIOLOGIA SYSTEMÓW W biologii zrozumienie na poziomie systemu wymaga analizy struktury i dynamiki na poziomie komórki i organizmu, a nie oddzielnie części składowych. Stara nauka wyjaśnia obserwowane zjawiska poprzez zredukowanie ich do współuczestniczących składowych i obserwację każdej oddzielnie. Współczesna nauka dostrzega wagę całościowego spojrzenia spychając na dalszy plan podejście redukcjonistyczne. Uprawianie biologii systemów oznacza obecnie zastosowanie i integrację matematyki, inżynierii, fizyki i informatyki w celu zrozumienia złożonych biologicznych zależności. 5

Bazy danych sieci zależności genów i ich produktów Signal Transduction Knowledge Environment http://stke.sciencemag.org Kyoto Encyclopedia of Genes and Genomes http://www.genome.ad.jp/kegg BioCyc - collection of Pathway/Genome Databases http://biocyc.org/ (A. thaliana AraCyc http://www.arabidopsis.org/tools/aracyc) MapMan http://gabi.rzpd.de/projects/mapman KaPPA-View (A Web-Based Analysis Tool for Integration of Transcript and Metabolite Data on Plant Metabolic Pathway Maps http://kpv.kazusa.or.jp/kappa-view 6

J.Craig Venter - wizjoner nauki czy biotechnologiczny biznesman? Genom ludzki Metagenomika Organizm syntetyczny Sekwencjonowanie hierarchiczne w HGP: najpierw zmapowanie wielkoinsertowych klonów, potem sekwencjonowanie losowe Zastosowane przez J.C. Venter a sekwencjonowanie losowe całego genomu (whole genome shotgun sequencing) omija etap mapowania klonów Intl. Hum. Gen. Seq. Cons. (2001), Nature 409: 860-921. 7

Human Genome Project & CELERA GENOMICS 26-06-2000 J. Craig Venter & Bill Clinton & Francis Collins Intl. Hum. Gen. Seq. Cons. (2001) Nature 409: 860-921 Udział 20 ośrodków z 6 krajów Hierarchical shotgun sequencing DNA od wielu osób 15 miesięcy* Wybór kolekcji klonów o minimalnym zachodzeniu, pokrywających chromosomy Losowe sekwencjonowanie głównie klonów BAC i PAC (8 bibliotek) (wielkość fragmentów sekwencjonowanych itp. zależne od ośrodka) Pokrycie genomu 4,5 x (dla klonów) Intl. Hum. Gen. Seq. Cons. (2001) Nature 409: 860-921. 8

Venter JC i in. (2001) Science 291: 1304-51 CELERA GENOMICS Whole genome shotgun DNA od 5 osób 9 miesięcy Wykorzystanie 500-600 ntd sekwencji końców klonów o średniej długości wstawki 2, 10 i 50 kpz Włączenie sekwencji z publicznych baz danych po pofragmentowaniu na 500 600 ntd kawałki Pokrycie genomu 5,11 x Venter JC i in. (2001) Science 291: 1304-51 Sekwencje nukleotydowe i aminokwasowe przekraczają objętością literaturę Ok. 3000 genomów całkowicie zsekwencjonowanych i dostępnych, Baza Danych Sekwencji Nukleotydowych EMBL zawiera 330mln sekwencji i 400mld nukleotydów (w tym EST, STS and GSS). Szacuje się, że ok. jedna trzecia genów ludzkich daje więcej niż jeden produkt białkowy 9

10

Jak wygląda sekwencja w bazie danych? 11

12

Podstawowym narzędziem identyfikacji i opisu sekwencji, zarówno tych zamieszczonych już w bazach danych, jak i tych nowootrzymanych jest ich PORÓWNYWANIE. Gdzie: PODOBIEŃSTWO jest to wartość mierzalna wyrażana często w % HOMOLOGIA jest to hipoteza o wspólnym pochodzeniu (przodku) wyrażona np. w oparciu o analizę podobieństwa 13

SCORES Init1: 218 Initn: 517 Opt: 665 z-score: 542.8 E(): 2.5e-23 >>SWISSPROT:GA1A_XENLA (359 aa) initn: 517 init1: 218 opt: 665 Z-score: 542.8 expect(): 2.5e-23 Smith-Waterman score: 697; 48.5% identity in 295 aa overlap (125-912:47-323) jp-na.seq GA1A_XENLA jp-na.seq GA1A_XENLA jp-na.seq GA1A_XENLA jp-na.seq GA1A_XENLA 140 170 200 230 260 SSWRWGGRMRAPPLRS--LMKPEPSWGWGG---ARGR/EAGGLLASYPPSGRVSLVPWAD :: ::: : : : : : :: SSRAVGGFRHSPVFQTFPLHWPETSAGIPSNLTAYGR-STGTL--SFYPSAASALGPITS 50 60 70 80 90 100 290 320 350 380 410 TGTLGTPQWV----PPATQMEPPHYLELLQPPRGSPPHPSSGPLLPLS------------ :: ::: : :: : : : PPLYSASSFLLGSAPPAEREGSPKFLETLKTERASPLTSDLLPLEPRSPSILQVGYIGGG 110 120 130 140 150 160 440 470 500 530 560 ----SGPPPCEARECVMARKNCGATATPLWRRDGTGHYLCNWASACGLYHRLNGQNRPLI : : :: GQEFSLFQSTEDRECV----NCGATVTPLWRRDMSGHYLCN---ACGLYHKMNGQNRPLI 170 180 190 200 210 590 620 650 680 710 740 RPKKRLLVSKRAGTVCSHERENCQTSTTTLWRRSPSGDPVCNNIHACGLYYKLHQVNRPL : : : : RPKKRLIVSKRAGTQCS----NCHTSTTTLWRRNASGDPVCN---ACGLYYKLHNVNRPL 220 230 240 250 260 770 800 830 860 890 jp-na.seq TMRKDGIQTRNRKVSSKGKKRR-------PPGGGNPSATAGGGAPMGGGGDPSMPP : : :: :: : : : : : GA1A_XENLA TMKKEGIQTRNRKVSSRSKKKKQLDNPFEPPKAGVEEPSPYPFGPLLFHGQ--MPP 270 280 290 300 310 320 14

METAGENOMIKA Zastosowanie nowoczesnych technik genomowych do badania populacji mikroorganizmów, występujących w danym środowisku, z ominięciem izolacji i hodowli laboratoryjnej poszczególnych gatunków Jo Handelsman (2004) Microbiology and Molecular Biology Reviews 68: 669-685 Wyprawa H.M.S. Challenger (1872-1876) pod kierownictwem Prof. Wyville Thomson a 68 000 MM 29 552 str. Sprawozdania Prawie 4000 nowych gatunków 15

Global Ocean Sampling Expedition (GOS) Pobieranie próbek w trakcie ekspedycji GOS J.C. Venter Institute 16

Ekspedycja Global Ocean Sampling Pierwsza faza 8000MM 41 miejsc pobierania 7,7 mln sekwencji 6,3 mld pz 6,1 mln nowych białek 1700 brak podobieństwa Seria 3 publikacji PLOS Biology Marzec 2007 Biologia syntetyczna 17

W stronę syntetycznego życia Synteza bakteriofaga ΦX174 (5386 pz) 2003 r. Transplantacja genomu M. capricolum do cytoplazmy M. mycoides LC (2007) Syteza genomu Mycoplasma genitalium 582 970 pz (2008) Oligonukleotydy > 5-7 > 24 > 72 (1/8) > 144 (1/4) > 582,97 kpz (1/1) Klonowanie genomu M. mycoides w drożdżach i transplantacja do cytoplazmy M. capricolum. Transplantacja syntetycznego genomu do cytoplazmy > powstanie Synthii (Mycoplasma laboratorium) 2010? http://marcin_filipecki.users.sggw.pl/filipecki_links.htm 18

19

20

21

22

23

24

25