Bioinformatyka. z sylabusu...

Podobne dokumenty
Bioinformatyka. Bazy danych. Wykład 3. E. Banachowicz. Wykład monograficzny Bioinformatyka. Wykład 3, Zakład Biofizyki Molekularnej IF UAM

Bioinformatyka. Rodzaje Mutacji

Bioinformatyczne bazy danych

BIOLOGICZNE BAZY DANYCH SYLABUS

Bioinformatyczne bazy danych

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Jest to dziedzina biologiczna wywodząca się z biotechnologii. Bioinformatyka

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

Bioinformatyka. Michał Bereta

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

PODSTAWY BIOINFORMATYKI

Bioinformatyka. z sylabusu...

Bazy danych i biologia

Kontakt.

Bioinformatyka. Michał Bereta

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

Bioinformatyczne bazy danych

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

Bazy i modele danych

Bioinformatyka Laboratorium, 30h. Michał Bereta

Biologiczne bazy i modele danych

Bioinformatyka 2 (BT172) Struktura i organizacja kursu

BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Bioinformatyka. Wykład 2 (12.X.2010) I r. studiów magisterskich, biologia (SGGW) Krzysztof Pawłowski

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Od jakiego pułapu startujemy? matematyka

Porównywanie i dopasowywanie sekwencji

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

Wzorcowe efekty kształcenia dla kierunku studiów biotechnologia studia pierwszego stopnia profil ogólnoakademicki

Podstawy bioinformatyki dla biotechnologów. plan. Od jakiego pułapu startujemy? Wykład 2. Definicja bioinformatyki

Podstawy bioinformatyki - biologiczne bazy danych

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna

10/9/2013. Bioinformatyka i Biologia Obliczeniowa. BIOINFORMATYKA Co to jest i po co? Czym będziemy zajmować się na kursie: Tematyka wykładu

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Database resources of the National Center for Biotechnology Information. Magdalena Malczyk

Politechnika Wrocławska. BIOINFORMATYKA i BIOLOGIA OBLICZENIOWA

Budowa kwasów nukleinowych

Bioinformatyka Laboratorium, 30h. Michał Bereta

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

ISBN

przedmiotu Nazwa Wydział Nauk Medycznych i Nauk o Zdrowiu Kierunek jednolite studia magisterskie Profil kształcenia (studiów)

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Bioinformatyka Laboratorium, 30h. Michał Bereta

Porównywanie i dopasowywanie sekwencji

Historia Bioinformatyki

1. KEGG 2. GO. 3. Klastry

Biologia medyczna, materiały dla studentów

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Bioinformatyka wykład 10

Bioinformatyka wykład 8, 27.XI.2012

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Olimpiada Biologiczna

BIOLOGICZNE BAZY DANYCH GENOMY I ICH ADNOTACJE. Pracownia Informatyczna 2

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Wstęp do Biologii Obliczeniowej

Dopasowanie sekwencji (sequence alignment)

Bioinformatyka. Michał Przyłuski

Generator testów Bioinformatyka wer / 0 Strona: 1

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

KARTA PRZEDMIOTU. (pieczęć wydziału)

CZĘŚĆ III OPISPRZEDMIOTU ZAMÓWIENIA (OPZ)

Bioinformatyka wykład 3.I.2008

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

Motywacja. Do tej pory: Dzisiaj:

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Public gene expression data repositoris

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

na podstawie artykułu: Modeling Complex RNA Tertiary Folds with Rosetta Clarence Yu Cheng, Fang-Chieh Chou, Rhiju Das

Wprowadzenie do bioinformatyki

Uniwersytet Łódzki, Instytut Biochemii

Dopasowania par sekwencji DNA

Opis zakładanych efektów kształcenia OPIS ZAKŁADANYCH EFEKTÓW KSZTAŁCENIA

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA

Przyrównywanie sekwencji

BIOTECHNOLOGIA STUDIA I STOPNIA

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Uniwersytet Łódzki, Instytut Biochemii

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

WYNALAZKI BIOTECHNOLOGICZNE W POLSCE. Ewa Waszkowska ekspert UPRP

Plan studiów NA KIERUNKU STUDIÓW WYŻSZYCH: BIOCHEMIA II stopień

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Jajko czy kura? czyli gdzie dwóch się bije, tam trzeci korzysta

BIOINFORMATYKA. edycja wykład 2 BAZY DANYCH. dr Jacek Śmietański jacek.smietanski@ii.uj.edu.pl

Rozkład materiału z biologii dla klasy III AD. 7 godz / tyg rok szkolny 2016/17

Sylabus Biologia molekularna

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Politechnika Śląska. Wydział, Automatyki, Elektroniki i Informatyki

Transkrypt:

Bioinformatyka Wykład 1. E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas z sylabusu... Wykład 1, 2010/2011 1

Orientacyjny plan wykładów 1. Przegląd baz danych, formaty danych 2. Budowa aminokwasów, struktura białek, klasyfikacja struktur 3. Budowa kwasów nukleinowych, kod genetyczny, przepływ informacji genetycznej 4. Rodzaje mutacji, ewolucja, filogenetyka 5. Porównywanie sekwencji, rodzaje zestawieo, narzędzia, DotPlot 6. Dynamiczne porównywanie sekwencji, algorytm, macierze substytucji, kary za przerwy. 7. Statystyczna ocena dopasowania sekwencji 8. Metody heurystyczne porównywania sekwencji, FASTA, BLAST 9. PSI-BLAST 10. Zestawienia wielosekwencyjne, wzorce, profile, drzewa filogenetyczne 11. Przewidywanie struktury II-rzedowej 12. Przewidywanie struktury III-rzedowej 13.Metody ab initio 14.Analiza sekwencji białek rakowych 15.Projektowanie leków (in silico) Co to jest Bioinformatyka? Zastosowanie technologii informacji do Biologii Analiza sekwencji (i struktury) genów i białek Analiza ogromnego zbioru informacji dotyczącego makrocząsteczek biologicznych Wykład 1, 2010/2011 2

Co to jest Bioinformatyka? Robocza definicja przyjęta przez NIH Bioinformatics Definition Committee: Bioinformatyka: badanie, rozwój i zastosowanie narzędzi obliczeniowych lub metod zwiększających wykorzystanie danych biologicznych medycznych behawioralnych i zdrowotnych, wliczając w nie: zbieranie, magazynowanie, porządkowanie, archiwizację, analizę i wizualizację tych danych (http://www.bisti.nih.gov/compubiodef.pdf) Katalogowanie i przetwarzanie informacji biologicznych zawartych w bazach danych o analiza sekwencji DNA (składanie sekwencji, anotacja, wyszukiwanie sekwencji kodujących, regulatorowych i repetytywnych, motywów, markerów, itd.) o analiza sekwencji genomów ( porównywanie genomów, wyszukiwanie genów odpowiedzialnych za choroby genetyczne) o analiza relacji ewolucyjnych pomiędzy zbiorami sekwencji (filogenetyka) o analiza ekspresji genów (mikromacierze) o katalogowanie funkcji genów/białek, ustalanie dróg metabolicznych o Analiza sekwencji białka (porównywanie sekwencji, wyszukiwanie domen i motywów, przewidywanie funkcji i lokalizacji w komórce) o Wyszukiwanie informacji w bazach publikacji Wykład 1, 2010/2011 3

Przewidywanie struktury, funkcji i oddziaływao między cząsteczkami przewidywanie własności fizyko-chemicznych na podstawie sekwencji, przewidywanie porównawcze struktury drugo- i trzecio-rzędowej białka, Interpretacja danych eksperymentalnych (CD, krystalografia X-ray, DLS, NMR, itd.) Badanie oddziaływao białko-białko, białko-dna, biało-ligand, itd. (dokowanie wirtualne, projektowanie leków) Ogromny zbiór informacji. Jak ogromny? Zapis genomu człowieka, to stos pudełek z CD o wysokości 750 m. (ok. 50 TB= 80 000 płyt 700 MB) Świat Nauki Październik 2000 Wykład 1, 2010/2011 4

Liczba par zasad (w miliardach) Liczba sekwencji (w milionach) Ogromny zbiór informacji c.d. genom człowieka: 24 chromosomy (22 autosomalne +X+Y) 3 biliony (3 10 12 ) par zasad DNA, ok. 20-25 tysięcy genów sekwencje białkowe genomy innych organizmów informacje o mutacjach i ich skutkach informacje o funkcji, lokalizacji i oddziaływaniach.itd. GenBank (USA) EMBL Nucleotide Sequence Database DDBJ (Japonia) 100 Przyrost danych w Genbank (NCBI) liczba par zasad 100 80 liczba sekwencji 80 60 60 40 40 20 20 83,666,567 sekwencji 15.12.2006 0 0 1980 1985 1990 1995 2000 2005 2010 GenBank (Bank Genów) zgromadził dotąd zapisy sekwencji kwasów nukleinowych zawierających ponad 10 10 nukleotydów i co roku podwaja tą liczbę Science(2001)209 rok Wykład 1, 2010/2011 5

liczba rekordów Wykład: Bioinformatyka Przyrost danych w GenBanku Genbank (1982-2009) 10 12 10 10 liczba par zasad liczba sekwencji N(t) = N 0 e rt ln(n(t)) = ln(n 0 ) + rt 10 8 10 6 10 4 1980 1985 1990 1995 2000 2005 2010 Przyrost wykładniczy: ln(n(t)) = ln(n 0 ) + rt Przyrost roczny: R = N(t+1)/N(t) = e r Czas podwojenia: T = ln2/r rok Bioinformatyka pływanie w morzu informacji GenBank (Bank Genów) zgromadził dotąd zapisy sekwencji kwasów nukleinowych zawierających ponad 10 10 nukleotydów i co roku podwaja tą liczbę Science(2001)209 Wykład 1, 2010/2011 6

GenBank/EMBL: 83,666,567 sekwencji UniProtKB/TrEMBL: 3,477,030 sekwencji UniProtKB/Swiss-Prot : 250,296 sekwencji PDB: 40,628 Struktur (2006) Bazy danych Wykład 1, 2010/2011 7

Niesekwencyjne BazyDanych bibliograficzne kliniczne ścieżek metabolicznych i oddziaływania między biocząsteczkami struktur molekularnych Większość jest kroslinkowanych i dostepnych za pomocą zwykłych przeglądarek Sekwencyjne Bazy Danych sekwencji nukleotydowych sekwencji białkowych MetaBazy Wykład 1, 2010/2011 8

Inny podział BazDanych Podział według [Michael Y. Galperin, Nucleic Acids Research, 2008, Vol. 36, Database issue D2-D4, The Molecular Biology Database Collection: 2008 update] Bazy Sekwencji nukleotydowych International Nucleotide Sequence Database Collaboration DDBJ - DNA Data Bank of Japan EMBL Nucleotide Sequence Database GenBank Kodujących i nie-kodującyhdna Struktury Genów, Intronów i Egzonów, miejsc Splicingu Miejsc regulatorowych transkrypcji i czynników transkrypcji Bazy sekwencji RNA Bazy sekwencji Białkowych Ogólne bazy sekwencji ExProt NCBI Protein Database PIR Swiss-Prot Własności białek Lokalizacji białek Sekwencji motywów i miejsc aktywnych w białkach Domen białkowych, klasyfikacji białek Indywidualne Bazy Rodzin Białkowych Bazy Strukturalne Bazy genomowe (organizmów nie-szkieletowych) Bazy Ścieżek Sygnałowych i Metabolicznych Bazy Genomowe Człowieka i innych organizmów szkieletowych Bazy Ludzkich Genów i Chorób Bazy Danych Mikromacierzowych i innych dotyczących Ekspresji Genów Bazy zasobów proteomicznych Inne Bazy Biologii Molekularnej Bazy Organelli Bazy roślin Bazy Immunologiczne.. Łącznie ponad 1300 różnych baz danych. Niesekwencyjne BazyDanych bibliograficzne kliniczne ścieżek metabolicznych i oddziaływania między biocząsteczkami struktur molekularnych Większość jest kroslinkowanych i dostepnych za pomocą zwykłych przeglądarek Wykład 1, 2010/2011 9

Bibliograficzne bazy danych PubMed (http://www.ncbi.nlm.nih.gov/sites/entrez?db=pubmed ) Baza dostępna w Systemie Entrez I rozwijana przez NCBI (Narodowe Centrum Informacji Biotechnologicznej) w NLM (Narodowej Bibliotece Medycznej) Bookshelf (http://www.ncbi.nlm.nih.gov/portal/query.fcgi?db=books ) PMB (http://pmd.ddbj.nig.ac.jp/ ) Protein Mutant Database, Baza PMB oparta jest na publikacjach a nie na sekwencjach białkowych. Każda mutacja białkowa znajdująca się w Bazie zwiazana jest z jednym artykułem WormBook(http://www.wormbook.org/ ) kolekcja rozdziałów związanych tematycznie z Caenorhabditis elegans. W skład WormBooks wchodzi również kolekcja metod i protokołów stosowanych w badaniach nad C.elegans WormMethods. Wykład 1, 2010/2011 10

Wykład 1, 2010/2011 11

Wykład 1, 2010/2011 12

Wykład 1, 2010/2011 13

Kliniczne BazyDanych OMIM (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=omim ) HGMD (http://www.hgmd.cf.ac.uk/ ) Human Gene Mutation Database Baza Mutacji Genów Ludzkich w Instytucie Genetyki medycznej w Cardiff Całkowity zbiór mutacji (17.03.2008) wynosi ok. 57301 dla niekomercyjnych użytkowników, dla użytkowników komercyjnych 76011. CFTR (http://www.genet.sickkids.on.ca/cftr/app )Baza poświęcona mutacjom genu Cystic Fibrosis Transmembrane Regulator (CFTR). Mutacja w obrębie tego genu prowadzi do mukowiscydozy. LensGDDB Human Lens Genetic Disease Database (http://ken.mitton.com/ern/lensbase.html ) I inne. Wykład 1, 2010/2011 14

Wykład 1, 2010/2011 15

Ścieżek metabolicznych i oddziaływania między biocząsteczkami HPRF (http://hprd.org/ ) IntAct InteractionDatabase http://www.ebi.ac.uk/intact/site ) MINT Molecular INTeraction database (http://mint.bio.uniroma2.it/mint/welcome.do ) DIP Database of Interacting Proteins (http://dip.doe-mbi.ucla.edu/ ) Wykład 1, 2010/2011 16

Wykład 1, 2010/2011 17

Bazy Struktur Molekularnych PDB Protein Data Bank (http://www.rcsb.org/pdb ) NDB Nucleic Acid Database (http://ndbserver.rutgers.edu/ ) Repozytorium trój-wymiarowej informacji strukturalnej o kwasach nukleinowych Iczba zdeponowanych struktur: 3762 Structures ( 27-Febuary-2008) SCOP (Structural Classification of Proteins)( http://scop.mrclmb.cam.ac.uk/scop/) Baza ręcznie klasyfikowanych domen strukturalnych oparta na podobieostwie sekwencji i struktury 3D CATH (http://www.cathdb.info/latest/index.html) The CATH Protein Structure Classification półautomatyczna, hierarchiczna klasyfikacja domen białkowych Wykład 1, 2010/2011 18

Protein Data Bank http://www.rcsb.org/ Wykład 1, 2010/2011 19

Sekwencyjne Bazy Danych sekwencji nukleotydowych sekwencji białkowych MetaBazy Sekwencyjne Bazy Danych Bazy Sekwencji Nukleotydowych The International Nucleotide Sequence Databases (INSDC) Międzynarodowa Baza sekwencji Nukleotydowych oparta na współpracy między trzema bazami: DDBJ (Japonia), EMBL (Europa, UK) i GenBank (USA). Wykład 1, 2010/2011 20

Bazy sekwencji genów Gene Sequence Database EMBL (Europa) (http://www.ebi.ac.uk/) EMBL Europejski zbiór sekwencji DNA i RNA 83,666,567 sekwencji (15.12.2006) GenBank (USA) (http://www.ncbi.nlm.nih.gov/genbank/index.html) 65,369,091,950 zasad w 61,132,599 rekordach sekwencji. DDBJ (Japonia) (http://www.ddbj.nig.ac.jp/index-e.html ) Genomowe BazyDanych HGV Human Genome Variation Society (http://www.hgvs.org/ ) Celem tego stowarzyszenia jest odkrywanie I charakteryzowanie zmienności genowych w rozkładzie populacyjnym i w związkach fenotypowych GDB The huma Genom Database (http://www.gdb.org/ ) Genomowa baza danych poświęcona genomowi Człowieka. Ensembl. Wspólny projekt EMBL-EBI oraz Sanger Institute (http://www.ensembl.org/index.html ) ( nie-ludzkie bazy) MGI Mause Genom Informatics FlyBase ACeDB idt Wykład 1, 2010/2011 21

http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html Bazy Sekwencji Białkowych ExPASy (Expert Protein Analysis System) (http://www.expasy.ch/ ) Baza UniProt Knowledgebase składa się z: UniProtKB/SwissProt - Protein knowledgebase UniProt/TrEMBL - Computer-annotated suplement do Swiss-Prot -bezpośrednie tłumaczenieformatu z EMBL na SwissProt UniProtKB/TrEMBL (computer-annotated): 5395414 sekwencji UniProtKB/Swiss-Prot (high-level annotation): 356194 sekwencji PIR -Protein Information Resorce (http://pir.georgetown.edu/) Wykład 1, 2010/2011 22

Strona Białek: ExPASy strona domowa SwissProt i TrEMBL zbiór narzędzi bioinformatycznych jedna z pierwszych stron bioinformatycznych http://www.expasy.ch/ Wykład 1, 2010/2011 23

ExPASy (Expert Protein Analysis System) http://www.expasy.ch/ Baza sekwencji białkowych UniProt Knowledgebase: UniProtKB/TrEMBL (computer-annotated) UniProtKB/Swiss-Prot (high-level annotation) UniProtKB/TrEMBL: 3,477,030 sekwencji UniProtKB/Swiss-Prot : 250,296 sekwencji (2006) ExPASy (Expert Protein Analysis System) Przyrost liczby sekwencji w UniProtKB/TrEMBL (12.12.2006) UniProtKB/TrEMBL zawiera 3,477,030 sekwencji Wykład 1, 2010/2011 24

MetaBazy Meta Bazy czyli super-bazy baz grupujące i udostępniające powiązane ze sobą informacje z różnych źródeł Entrez (Global Query Cross-Database Search System) (http://www.ncbi.nlm.nih.gov/sites/gquery ) Wykład 1, 2010/2011 25

Przykład: Co to jest zwłóknienie komórek (Mukowiscydoza)? Wykład 1, 2010/2011 26

Wykład 1, 2010/2011 27

Wykład 1, 2010/2011 28

Wykład 1, 2010/2011 29

Wykład 1, 2010/2011 30

Wykład 1, 2010/2011 31

Bazy związane z widzeniem Źródła dotyczące oka, widzenia, chorób oczu Narodowy Instytut Oka - (NEI) Nationa EYE Instytute (http://www.nei.nih.gov/) NEIBank Bank informacji o DNA i białkach związanych z okiem. ( http://neibank.nei.nih.gov/index.shtml ) Wykład 1, 2010/2011 32

Bazy związane z widzeniem Baza danych dotycząca chorób genetycznych ludzkiej soczewki - (LensGDDB)Human Lens Genetic Disease Database (http://web.me.com/eyeresearch/iweb/ern/ ) Baza danych dotycząca informacji genetycznej związanej z siatkówką oka Retinacentral (http://www.retinacentral.org/ ) Bazy związane z widzeniem http://cogancollection.nei.nih.gov/ Wykład 1, 2010/2011 33

Wykład 1, 2010/2011 34

Bazy związane z widzeniem Prywatna strona: Dr. Ted M. Montgomery (Optometric Physician) ( http://www.tedmontgomery.com/the_eye/index.html ) Wykład 1, 2010/2011 35

Wykład 1, 2010/2011 36

Bazy związane z widzeniem Źródła dotyczące oka, widzenia, chorób oczu Eyeatlas of Ophthalmology (http://www.eyeatlas.com/eyeatlas/home.html ) Wykład 1, 2010/2011 37

Bazy związane z widzeniem Symulacja widzenia - VisionSimulator (http://www.visionsimulations.com/ ) Wykład 1, 2010/2011 38

Wykład 1, 2010/2011 39

Koniec I cz. Wykład 1, 2010/2011 40