Bioinformatyka Wykład 1. E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas z sylabusu... Wykład 1, 2010/2011 1
Orientacyjny plan wykładów 1. Przegląd baz danych, formaty danych 2. Budowa aminokwasów, struktura białek, klasyfikacja struktur 3. Budowa kwasów nukleinowych, kod genetyczny, przepływ informacji genetycznej 4. Rodzaje mutacji, ewolucja, filogenetyka 5. Porównywanie sekwencji, rodzaje zestawieo, narzędzia, DotPlot 6. Dynamiczne porównywanie sekwencji, algorytm, macierze substytucji, kary za przerwy. 7. Statystyczna ocena dopasowania sekwencji 8. Metody heurystyczne porównywania sekwencji, FASTA, BLAST 9. PSI-BLAST 10. Zestawienia wielosekwencyjne, wzorce, profile, drzewa filogenetyczne 11. Przewidywanie struktury II-rzedowej 12. Przewidywanie struktury III-rzedowej 13.Metody ab initio 14.Analiza sekwencji białek rakowych 15.Projektowanie leków (in silico) Co to jest Bioinformatyka? Zastosowanie technologii informacji do Biologii Analiza sekwencji (i struktury) genów i białek Analiza ogromnego zbioru informacji dotyczącego makrocząsteczek biologicznych Wykład 1, 2010/2011 2
Co to jest Bioinformatyka? Robocza definicja przyjęta przez NIH Bioinformatics Definition Committee: Bioinformatyka: badanie, rozwój i zastosowanie narzędzi obliczeniowych lub metod zwiększających wykorzystanie danych biologicznych medycznych behawioralnych i zdrowotnych, wliczając w nie: zbieranie, magazynowanie, porządkowanie, archiwizację, analizę i wizualizację tych danych (http://www.bisti.nih.gov/compubiodef.pdf) Katalogowanie i przetwarzanie informacji biologicznych zawartych w bazach danych o analiza sekwencji DNA (składanie sekwencji, anotacja, wyszukiwanie sekwencji kodujących, regulatorowych i repetytywnych, motywów, markerów, itd.) o analiza sekwencji genomów ( porównywanie genomów, wyszukiwanie genów odpowiedzialnych za choroby genetyczne) o analiza relacji ewolucyjnych pomiędzy zbiorami sekwencji (filogenetyka) o analiza ekspresji genów (mikromacierze) o katalogowanie funkcji genów/białek, ustalanie dróg metabolicznych o Analiza sekwencji białka (porównywanie sekwencji, wyszukiwanie domen i motywów, przewidywanie funkcji i lokalizacji w komórce) o Wyszukiwanie informacji w bazach publikacji Wykład 1, 2010/2011 3
Przewidywanie struktury, funkcji i oddziaływao między cząsteczkami przewidywanie własności fizyko-chemicznych na podstawie sekwencji, przewidywanie porównawcze struktury drugo- i trzecio-rzędowej białka, Interpretacja danych eksperymentalnych (CD, krystalografia X-ray, DLS, NMR, itd.) Badanie oddziaływao białko-białko, białko-dna, biało-ligand, itd. (dokowanie wirtualne, projektowanie leków) Ogromny zbiór informacji. Jak ogromny? Zapis genomu człowieka, to stos pudełek z CD o wysokości 750 m. (ok. 50 TB= 80 000 płyt 700 MB) Świat Nauki Październik 2000 Wykład 1, 2010/2011 4
Liczba par zasad (w miliardach) Liczba sekwencji (w milionach) Ogromny zbiór informacji c.d. genom człowieka: 24 chromosomy (22 autosomalne +X+Y) 3 biliony (3 10 12 ) par zasad DNA, ok. 20-25 tysięcy genów sekwencje białkowe genomy innych organizmów informacje o mutacjach i ich skutkach informacje o funkcji, lokalizacji i oddziaływaniach.itd. GenBank (USA) EMBL Nucleotide Sequence Database DDBJ (Japonia) 100 Przyrost danych w Genbank (NCBI) liczba par zasad 100 80 liczba sekwencji 80 60 60 40 40 20 20 83,666,567 sekwencji 15.12.2006 0 0 1980 1985 1990 1995 2000 2005 2010 GenBank (Bank Genów) zgromadził dotąd zapisy sekwencji kwasów nukleinowych zawierających ponad 10 10 nukleotydów i co roku podwaja tą liczbę Science(2001)209 rok Wykład 1, 2010/2011 5
liczba rekordów Wykład: Bioinformatyka Przyrost danych w GenBanku Genbank (1982-2009) 10 12 10 10 liczba par zasad liczba sekwencji N(t) = N 0 e rt ln(n(t)) = ln(n 0 ) + rt 10 8 10 6 10 4 1980 1985 1990 1995 2000 2005 2010 Przyrost wykładniczy: ln(n(t)) = ln(n 0 ) + rt Przyrost roczny: R = N(t+1)/N(t) = e r Czas podwojenia: T = ln2/r rok Bioinformatyka pływanie w morzu informacji GenBank (Bank Genów) zgromadził dotąd zapisy sekwencji kwasów nukleinowych zawierających ponad 10 10 nukleotydów i co roku podwaja tą liczbę Science(2001)209 Wykład 1, 2010/2011 6
GenBank/EMBL: 83,666,567 sekwencji UniProtKB/TrEMBL: 3,477,030 sekwencji UniProtKB/Swiss-Prot : 250,296 sekwencji PDB: 40,628 Struktur (2006) Bazy danych Wykład 1, 2010/2011 7
Niesekwencyjne BazyDanych bibliograficzne kliniczne ścieżek metabolicznych i oddziaływania między biocząsteczkami struktur molekularnych Większość jest kroslinkowanych i dostepnych za pomocą zwykłych przeglądarek Sekwencyjne Bazy Danych sekwencji nukleotydowych sekwencji białkowych MetaBazy Wykład 1, 2010/2011 8
Inny podział BazDanych Podział według [Michael Y. Galperin, Nucleic Acids Research, 2008, Vol. 36, Database issue D2-D4, The Molecular Biology Database Collection: 2008 update] Bazy Sekwencji nukleotydowych International Nucleotide Sequence Database Collaboration DDBJ - DNA Data Bank of Japan EMBL Nucleotide Sequence Database GenBank Kodujących i nie-kodującyhdna Struktury Genów, Intronów i Egzonów, miejsc Splicingu Miejsc regulatorowych transkrypcji i czynników transkrypcji Bazy sekwencji RNA Bazy sekwencji Białkowych Ogólne bazy sekwencji ExProt NCBI Protein Database PIR Swiss-Prot Własności białek Lokalizacji białek Sekwencji motywów i miejsc aktywnych w białkach Domen białkowych, klasyfikacji białek Indywidualne Bazy Rodzin Białkowych Bazy Strukturalne Bazy genomowe (organizmów nie-szkieletowych) Bazy Ścieżek Sygnałowych i Metabolicznych Bazy Genomowe Człowieka i innych organizmów szkieletowych Bazy Ludzkich Genów i Chorób Bazy Danych Mikromacierzowych i innych dotyczących Ekspresji Genów Bazy zasobów proteomicznych Inne Bazy Biologii Molekularnej Bazy Organelli Bazy roślin Bazy Immunologiczne.. Łącznie ponad 1300 różnych baz danych. Niesekwencyjne BazyDanych bibliograficzne kliniczne ścieżek metabolicznych i oddziaływania między biocząsteczkami struktur molekularnych Większość jest kroslinkowanych i dostepnych za pomocą zwykłych przeglądarek Wykład 1, 2010/2011 9
Bibliograficzne bazy danych PubMed (http://www.ncbi.nlm.nih.gov/sites/entrez?db=pubmed ) Baza dostępna w Systemie Entrez I rozwijana przez NCBI (Narodowe Centrum Informacji Biotechnologicznej) w NLM (Narodowej Bibliotece Medycznej) Bookshelf (http://www.ncbi.nlm.nih.gov/portal/query.fcgi?db=books ) PMB (http://pmd.ddbj.nig.ac.jp/ ) Protein Mutant Database, Baza PMB oparta jest na publikacjach a nie na sekwencjach białkowych. Każda mutacja białkowa znajdująca się w Bazie zwiazana jest z jednym artykułem WormBook(http://www.wormbook.org/ ) kolekcja rozdziałów związanych tematycznie z Caenorhabditis elegans. W skład WormBooks wchodzi również kolekcja metod i protokołów stosowanych w badaniach nad C.elegans WormMethods. Wykład 1, 2010/2011 10
Wykład 1, 2010/2011 11
Wykład 1, 2010/2011 12
Wykład 1, 2010/2011 13
Kliniczne BazyDanych OMIM (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=omim ) HGMD (http://www.hgmd.cf.ac.uk/ ) Human Gene Mutation Database Baza Mutacji Genów Ludzkich w Instytucie Genetyki medycznej w Cardiff Całkowity zbiór mutacji (17.03.2008) wynosi ok. 57301 dla niekomercyjnych użytkowników, dla użytkowników komercyjnych 76011. CFTR (http://www.genet.sickkids.on.ca/cftr/app )Baza poświęcona mutacjom genu Cystic Fibrosis Transmembrane Regulator (CFTR). Mutacja w obrębie tego genu prowadzi do mukowiscydozy. LensGDDB Human Lens Genetic Disease Database (http://ken.mitton.com/ern/lensbase.html ) I inne. Wykład 1, 2010/2011 14
Wykład 1, 2010/2011 15
Ścieżek metabolicznych i oddziaływania między biocząsteczkami HPRF (http://hprd.org/ ) IntAct InteractionDatabase http://www.ebi.ac.uk/intact/site ) MINT Molecular INTeraction database (http://mint.bio.uniroma2.it/mint/welcome.do ) DIP Database of Interacting Proteins (http://dip.doe-mbi.ucla.edu/ ) Wykład 1, 2010/2011 16
Wykład 1, 2010/2011 17
Bazy Struktur Molekularnych PDB Protein Data Bank (http://www.rcsb.org/pdb ) NDB Nucleic Acid Database (http://ndbserver.rutgers.edu/ ) Repozytorium trój-wymiarowej informacji strukturalnej o kwasach nukleinowych Iczba zdeponowanych struktur: 3762 Structures ( 27-Febuary-2008) SCOP (Structural Classification of Proteins)( http://scop.mrclmb.cam.ac.uk/scop/) Baza ręcznie klasyfikowanych domen strukturalnych oparta na podobieostwie sekwencji i struktury 3D CATH (http://www.cathdb.info/latest/index.html) The CATH Protein Structure Classification półautomatyczna, hierarchiczna klasyfikacja domen białkowych Wykład 1, 2010/2011 18
Protein Data Bank http://www.rcsb.org/ Wykład 1, 2010/2011 19
Sekwencyjne Bazy Danych sekwencji nukleotydowych sekwencji białkowych MetaBazy Sekwencyjne Bazy Danych Bazy Sekwencji Nukleotydowych The International Nucleotide Sequence Databases (INSDC) Międzynarodowa Baza sekwencji Nukleotydowych oparta na współpracy między trzema bazami: DDBJ (Japonia), EMBL (Europa, UK) i GenBank (USA). Wykład 1, 2010/2011 20
Bazy sekwencji genów Gene Sequence Database EMBL (Europa) (http://www.ebi.ac.uk/) EMBL Europejski zbiór sekwencji DNA i RNA 83,666,567 sekwencji (15.12.2006) GenBank (USA) (http://www.ncbi.nlm.nih.gov/genbank/index.html) 65,369,091,950 zasad w 61,132,599 rekordach sekwencji. DDBJ (Japonia) (http://www.ddbj.nig.ac.jp/index-e.html ) Genomowe BazyDanych HGV Human Genome Variation Society (http://www.hgvs.org/ ) Celem tego stowarzyszenia jest odkrywanie I charakteryzowanie zmienności genowych w rozkładzie populacyjnym i w związkach fenotypowych GDB The huma Genom Database (http://www.gdb.org/ ) Genomowa baza danych poświęcona genomowi Człowieka. Ensembl. Wspólny projekt EMBL-EBI oraz Sanger Institute (http://www.ensembl.org/index.html ) ( nie-ludzkie bazy) MGI Mause Genom Informatics FlyBase ACeDB idt Wykład 1, 2010/2011 21
http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html Bazy Sekwencji Białkowych ExPASy (Expert Protein Analysis System) (http://www.expasy.ch/ ) Baza UniProt Knowledgebase składa się z: UniProtKB/SwissProt - Protein knowledgebase UniProt/TrEMBL - Computer-annotated suplement do Swiss-Prot -bezpośrednie tłumaczenieformatu z EMBL na SwissProt UniProtKB/TrEMBL (computer-annotated): 5395414 sekwencji UniProtKB/Swiss-Prot (high-level annotation): 356194 sekwencji PIR -Protein Information Resorce (http://pir.georgetown.edu/) Wykład 1, 2010/2011 22
Strona Białek: ExPASy strona domowa SwissProt i TrEMBL zbiór narzędzi bioinformatycznych jedna z pierwszych stron bioinformatycznych http://www.expasy.ch/ Wykład 1, 2010/2011 23
ExPASy (Expert Protein Analysis System) http://www.expasy.ch/ Baza sekwencji białkowych UniProt Knowledgebase: UniProtKB/TrEMBL (computer-annotated) UniProtKB/Swiss-Prot (high-level annotation) UniProtKB/TrEMBL: 3,477,030 sekwencji UniProtKB/Swiss-Prot : 250,296 sekwencji (2006) ExPASy (Expert Protein Analysis System) Przyrost liczby sekwencji w UniProtKB/TrEMBL (12.12.2006) UniProtKB/TrEMBL zawiera 3,477,030 sekwencji Wykład 1, 2010/2011 24
MetaBazy Meta Bazy czyli super-bazy baz grupujące i udostępniające powiązane ze sobą informacje z różnych źródeł Entrez (Global Query Cross-Database Search System) (http://www.ncbi.nlm.nih.gov/sites/gquery ) Wykład 1, 2010/2011 25
Przykład: Co to jest zwłóknienie komórek (Mukowiscydoza)? Wykład 1, 2010/2011 26
Wykład 1, 2010/2011 27
Wykład 1, 2010/2011 28
Wykład 1, 2010/2011 29
Wykład 1, 2010/2011 30
Wykład 1, 2010/2011 31
Bazy związane z widzeniem Źródła dotyczące oka, widzenia, chorób oczu Narodowy Instytut Oka - (NEI) Nationa EYE Instytute (http://www.nei.nih.gov/) NEIBank Bank informacji o DNA i białkach związanych z okiem. ( http://neibank.nei.nih.gov/index.shtml ) Wykład 1, 2010/2011 32
Bazy związane z widzeniem Baza danych dotycząca chorób genetycznych ludzkiej soczewki - (LensGDDB)Human Lens Genetic Disease Database (http://web.me.com/eyeresearch/iweb/ern/ ) Baza danych dotycząca informacji genetycznej związanej z siatkówką oka Retinacentral (http://www.retinacentral.org/ ) Bazy związane z widzeniem http://cogancollection.nei.nih.gov/ Wykład 1, 2010/2011 33
Wykład 1, 2010/2011 34
Bazy związane z widzeniem Prywatna strona: Dr. Ted M. Montgomery (Optometric Physician) ( http://www.tedmontgomery.com/the_eye/index.html ) Wykład 1, 2010/2011 35
Wykład 1, 2010/2011 36
Bazy związane z widzeniem Źródła dotyczące oka, widzenia, chorób oczu Eyeatlas of Ophthalmology (http://www.eyeatlas.com/eyeatlas/home.html ) Wykład 1, 2010/2011 37
Bazy związane z widzeniem Symulacja widzenia - VisionSimulator (http://www.visionsimulations.com/ ) Wykład 1, 2010/2011 38
Wykład 1, 2010/2011 39
Koniec I cz. Wykład 1, 2010/2011 40