PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)
BIOINFORMATYKA HISTORIA 1. 1982 utworzenie bazy danych GenBank (NIH) dane ogólnodostępne sekwencje nukleotydów 2. Wprowadzenie sekwencji z projektu mapowania genomu człowieka 3. i innych genomów 4. Eksplozja danych nowa dyscyplina nauki bioinformatyka
GenBank (NCBI) 12. 1982 680 338 pz; 606 sekwencji 02. 2016 207 018 196 067 pz; 190 250 235 sekwencji 02. 2017 228 719 437 638 pz; 199 341 377 sekwencji 01. 2018 249 722 163 594 pz; 206 293 625 sekwencji
SRA (NCBI) - DANE NGS
BIOINFORMATYKA BIOINFORMATYKA odbieranie przechowywanie analiza modelowanie dystrybucja danych związanych z sekwencją DNA i białek
BIOINFORMATYKA BADANIA BIOLOGICZNE IN VIVO IN VITRO IN SILICO
BIOINFORMATYKA GŁÓWNE DZIEDZINY BADAŃ 1. Analiza funkcji genów wpływ genów na obserwowane cechy interakcje pomiędzy genami 2. Badania ewolucyjne porównywanie sekwencji DNA spokrewnienie organizmów konstrukcja drzew filogenetycznych bioróżnorodność 3. Analiza struktury DNA predykcja genów porównywanie sekwencji DNA i białek 4. Modelowanie struktury białek
BIOINFORMATYKA GŁÓWNE DZIEDZINY BADAŃ
BIOINFORMATYKA www.youtube.com/user/genometv
BIOINFORMATYKA ROLA INTERNETU (dane i narzędzia) 1. Przykłady ogólnodostępnych baz danych PubMed OMIM KEGG 2. Przykłady ogólnodostępnych programów BLAST Haploview
BIOINFORMATYKA ROLA INTERNETU (dane dostępne dla wszystkich) 1. Darmowe 2. Wszędzie dostępne 3. Aktualne 4. Korygowane problematyka ochrony danych
BIOINFORMATYKA OBSZARY ZASTOSOWAŃ 1. Medycyna 2. Farmaceutyka 3. Kryminalistyka 4. Rolnictwo 5. Ochrona środowiska
PROJEKTY POZNANIA INNYCH GENOMÓW CAŁKOWICIE ZSEKWENCJONOWANE GENOMY (historia) w ogólnodostępnych bazach danych 1995 Hemophilus influenzae 1996 Saccharomyces cerevisiae ~12 Mb 1998 Caenorhabditis elegans 1998 Plasmodium falciparum ~23 Mb 1999 pierwszy chromosom człowieka 2000 Arabidopsis thaliana ~119 Mb 2000 Drosophila melanogaster ~180 Mb 2005 Mus musculus
Genome (NCBI) - PROJEKTY POZNANIA INNYCH GENOMÓW Marzec Sprzedaż 2017 Styczeń 2018 7 117 4 050 13 009 5 003 90 855 126 842
BIOLOGICZNE BAZY DANYCH Pierwszorzędowe (pierwotne): GenBank, PDB Surowe dane biologiczne, archiwa sekwencji lub dane strukturalne wprowadzane do baz przez naukowców Drugorzędowe (wtórne): SWISS-PROT, PIR Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych informacji z pierwszorzędowych baz danych Specjalistyczne: FlyBase, baza danych HIV Specjalistyczne zagadnienia
Xiong J., Podstawy bioinformatyki
PUŁAPKI W BAZACH DANYCH Dane niekompletne (np. niekompletna adnotacja) Błędy: - błędy technologii (np. sekwenatora), zanieczyszczenia - błędna adnotacja Rozprzestrzenianie błędów Wysoka redundacja informacji (non-redundant RefSeq)
BAZA DANYCH NCBI 1. NCBI 2. Dane gromadzone przez NCBI 3. Przegląd baz danych NCBI: Publikacje naukowe Projekty biologiczne OMIM: fenotypy człowieka Sekwencje DNA Geny Funkcje genów Polimorfizm pojedynczych nukleotydów zawartość metody wyszukiwania
NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION NCBI 1. Utworzone w 1988 2. Dziedziny nauki: biologia molekularna, biochemia, genetyka 3. Zadania Przechowywanie bazy danych Analiza danych oprogramowanie Udostępnianie baz danych i oprogramowania do badań naukowych Koordynacja gromadzenia danych na poziomie międzynarodowym
NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION www.ncbi.nlm.nih.gov/about/index.html
DANE korzystanie Bazy danych Zbiór zintegrowanych baz danych Entrez wprowadzanie NCBI Literatura Artykuły naukowe (PubMed) Książki Grafika Podręczniki nt NCBI Oprogramowanie Analiza sekwencji Manipulowanie danymi Analiza filogenetyczna...
DANE www.ncbi.nlm.nih.gov wprowadzanie dane oprogramowanie literatura
BAZY DANYCH www.ncbi.nlm.nih.gov/sites/gquery
BAZY DANYCH PubMed: Publikacja naukowe
PubMed - PUBLIKACJE NAUKOWE www.ncbi.nlm.nih.gov/sites/entrez?db=pubmed 1. Artykuły naukowe 2. Streszczenia + pełne teksty 3. Zapytania tematyczne np. clinical queries 4. Liczba czasopism: 1. 03.2016: 35 712 2. 03.2017: 46 217 3. 01.2018: 46 508 5. Od 1950 roku
PubMed - PUBLIKACJE NAUKOWE WYSZUKIWANIE PROSTE - AUTOR WYSZUKIWANIE PROSTE - FRAZA 1. Serch PubMed for genome: 1 116 403 2. Serch PubMed for human genome: 143 881 3. Serch PubMed for human genome chromosome 19: 830 4. Serch PubMed for human genome HSA19 13
PubMed - PUBLIKACJE NAUKOWE zależności logiczne WYSZUKIWANIE PRECYZYJNE search builder wyszukiwanie precyzyjne składnia zapytania kryteria wyszukiwania
dane bibliograficzne streszczenie autorzy pełny tekst PubMed - PUBLIKACJE NAUKOWE STRUKTURA REKORDU podobne publikacje cytowania
PubMed - PUBLIKACJE NAUKOWE ZAPYTANIA MEDYCZNE - clinical queries
BAZY DANYCH Books: książki
www.ncbi.nlm.nih.gov/sites/entrez?db=books
BAZY DANYCH BioProject: projekty analiz biologicznych
BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH www.ncbi.nlm.nih.gov/bioproject lista projektów
BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH Nr projektu Nazwa gatunku Kod gatunkurodzaj projektu Cel projektu Data zakończenia
BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH PRZYKŁADY OGRANICZEŃ 1. Search for bovine: 1 904 1 560 2. Search for "Bos taurus" [ORGN]: 937 741 3. Search for "Bos taurus" [ORGN] AND "Genome sequencing" [project data type]: 43 37
BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH
BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH www.ncbi.nlm.nih.gov/bioproject/ ważne projekty
BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH www.ncbi.nlm.nih.gov/bioproject
BAZY DANYCH Taxonomy: zasoby danych dla gatunku
Taxonomy www.ncbi.nlm.nih.gov/sites/taxonomy/?term
BAZY DANYCH dbgap: genotypy + fenotypy
dbgap www.ncbi.nlm.nih.gov/sites/entrez?db=gap dbgap 1. Dane ogólnodostępne Ogólne informacje o próbach danych Fenotypy Wyniki analizy asocjacyjnej, studiów klinicznych 2. Dane o ograniczonym dostępie Wartości fenotypów poszczególnych osobników Struktura spokrewnienia osobników Dodatkowe wyniki
dbgap- zbiory danych Dostępne informacje Liczebność próby danych Struktura danych
dbgap- choroby Fenotypy
BAZY DANYCH Gene: baza genów
Gene INFORMACJE O GENACH www.ncbi.nlm.nih.gov/sites/entrez?db=gene Gene 1. Liczba genów: 17 089 516 2. Pierwszy wpis 30.07.2003 Tuatara
BAZY DANYCH SNP & dbvar
SNP & dbvar - POLIMORFIZMY GENETYCZNE www.ncbi.nlm.nih.gov/sites/entrez?db=snp www.ncbi.nlm.nih.gov/dbvar/content/org_summary 745 SNP
BAZY DANYCH Protein: sekwencje aminokwasów
Protein- INFORMACJE O BIAŁKACH www.ncbi.nlm.nih.gov/sites/entrez?db=protein Protein 1. Sekwencje aminokwasów 2. Translacja DNA z genowych baz danych 3. Integracja informacji z różnych baz danych (poza NCBI) UniProt Protein Data Bank
BAZY DANYCH OMIM: Fenotypy człowieka
OMIM - ONLINE MENDELIAN INHERITANCE IN MAN www.ncbi.nlm.nih.gov/sites/entrez?db=omim OMIM 1. Informacje o fenotypach ludzkich 2. Baza założona w latach 1960-tych (od 1985 online) 3. Zawartość stan 03.2016 / 03.2017 / 01.2018 1. Wpisy do bazy danych: 22 296 / 23 958 / 24 401 2. Fenotypy o znanym podłożu genetycznym: 4 085 / 4 957 / 5 162 3. Fenotypy o nieznanym podłożu genetycznym: 1 708 / 1 789 / 1 591
OMIM - ONLINE MENDELIAN INHERITANCE IN MAN WYSZUKIWANIE PROSTE WYSZUKIWANIE SPECYFICZNE
OMIM - Online Mendelian Inheritance in Man OMIM Gene Map
OMIA - ONLINE MENDELIAN INHERITANCE IN ANIMALS http://omia.angis.org.au/home/ OMIA informacje o fenotypach zwierząt z wyłączeniem człowieka, myszy i szczura
BAZY DANYCH - DGVa www.ebi.ac.uk/dgva
BAZY DANYCH - ENA www.ebi.ac.uk/ena
FORMATY DANYCH Po co? http://software.broadinstitute.org/software/igv/home Przykłady: FASTA FASTQ GenBank Newick SAM VCF BED i inne Mielczarek and Szyda 2016 Magda Mielczarek Podstawy bioinformatyki 2015 58
GenBank Xiong J., Podstawy bioinformatyki
FASTA Prosty i popularny czytelny dla wielu programów do analizy bioinformatycznej Zapis sekwencji kwasów nukleinowych oraz białek Identyfikator sekwencji opis >gi 52693750 dbj AB175071.1 Neomys fodiens mitochondrial cytb gene for cytochrome b, complete cds ATGACCAACTTTCGAAAAACCCATCCATTAATAAA AATTCTTAACAACTCATTCATCGATCTCCCAGCCC CATCAAACATTTCATCATGATGAAATTTCGGGTCC CTTCTAGGATTGTGCCTAGTAATCCAGATCCTGA CTGGCCTCTTTCTAGCAATACATTACACTTCAGAT
Symbol Description Bases represented A Adenine A C Cytosine C G Guanine G 1 T Thymine T U Uracil U W Weak A T S Strong C G M amino A C K Keto G T 2 R purine A G Y pyrimidine C T B not A (B comes after A) C G T D not C A G T H not G A C T 3 V N not T (V comes after T and U) any base (not a gap) A C G A C G T 4
any bases Genom referencyjny Bos taurus (Zimin et al. 2009)
GenBank FASTA PODSTAWY BIOINFORMATYKI