BIOINFORMATYKA. edycja 2015. wykład 2 BAZY DANYCH. dr Jacek Śmietański jacek.smietanski@ii.uj.edu.pl http://jaceksmietanski.net.

Podobne dokumenty

Bioinformatyka. Michał Bereta

Biologiczne bazy i modele danych

Bazy i modele danych

Bioinformatyka. Michał Bereta

Bioinformatyczne bazy danych

Bioinformatyczne bazy danych

Bioinformatyka. Wykład 2 (12.X.2010) I r. studiów magisterskich, biologia (SGGW) Krzysztof Pawłowski

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

BIOLOGICZNE BAZY DANYCH SYLABUS

Bioinformatyka. Bazy danych. Wykład 3. E. Banachowicz. Wykład monograficzny Bioinformatyka. Wykład 3, Zakład Biofizyki Molekularnej IF UAM

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

Podstawy bioinformatyki - biologiczne bazy danych

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

Bioinformatyczne bazy danych

BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH

BIOLOGICZNE BAZY DANYCH GENOMY I ICH ADNOTACJE. Pracownia Informatyczna 2

PODSTAWY BIOINFORMATYKI

Jest to dziedzina biologiczna wywodząca się z biotechnologii. Bioinformatyka

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

Bioinformatyka. z sylabusu...

Database resources of the National Center for Biotechnology Information. Magdalena Malczyk

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

10/9/2013. Bioinformatyka i Biologia Obliczeniowa. BIOINFORMATYKA Co to jest i po co? Czym będziemy zajmować się na kursie: Tematyka wykładu

Bazy danych i biologia

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Od jakiego pułapu startujemy? matematyka

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

Politechnika Wrocławska. BIOINFORMATYKA i BIOLOGIA OBLICZENIOWA

Bioinformatyka. Rodzaje Mutacji

BIOINFORMATYKA. edycja 2016 / wykład 2. Bazy danych. dr Jacek Śmietański

Motywacja. Do tej pory: Dzisiaj:

Bioinformatyka Laboratorium, 30h. Michał Bereta

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Nowoczesne systemy ekspresji genów

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Podstawy bioinformatyki dla biotechnologów. plan. Od jakiego pułapu startujemy? Wykład 2. Definicja bioinformatyki

Do zapisu danych w pliku PDB używa się znaków ASCII o graficznej reprezentacji czyli:

Historia Bioinformatyki

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Spis treści. 1.Wstęp teoretyczny do przedmiotu bioinformatyka. 2.Zadania z podstaw informatyki i obsługi komputera

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Porównywanie i dopasowywanie sekwencji

Bioinformatyka. Formaty danych - GenBank

Bioinformatyka wykład 10

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Bioinformatyka wykład 3.I.2008

Budowa kwasów nukleinowych

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Dopasowanie sekwencji (sequence alignment)

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Entrez, wyszukiwarka dla nauk przyrodniczych: globalna kwerenda

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Bioinformatyka 2 (BT172) Struktura i organizacja kursu

Generator testów Bioinformatyka wer / 0 Strona: 1

Bioinformatyka. z sylabusu...

Bioinformatyka wykład 8, 27.XI.2012

CZĘŚĆ III OPISPRZEDMIOTU ZAMÓWIENIA (OPZ)

Bioinformatyka wykład 9

Politechnika Śląska. Wydział, Automatyki, Elektroniki i Informatyki

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Część A wprowadzenie do programu

Public gene expression data repositoris

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

1. KEGG 2. GO. 3. Klastry

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

Bioinformatyka wykład 10.I.2008

przedmiotu Nazwa Wydział Nauk Medycznych i Nauk o Zdrowiu Kierunek jednolite studia magisterskie Profil kształcenia (studiów)

Przewidywanie struktur białek

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Przyrównywanie sekwencji

WPROWADZENIE DO BAZ DANYCH

Bioinformatyka wykład 12, 18.I.2011 Białkowa bioinformatyka strukturalna c.d.

SciFinder Zawartość bazy

Dopasowania par sekwencji DNA

IDENTYFIKATOR NAUKOWCA

Glimmer umożliwia znalezienie regionów kodujących

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

Bioinformatyka. wykłady dla I r. studiów magisterskich, biologia (SGGW) 2010/2011. Krzysztof Pawłowski

Porównywanie i dopasowywanie sekwencji

Przykład Najlepszym sposobem zilustrowania zintegrowanej natury systemu Entrez jest porównanie dwóch przykładów biologicznych z uŝyciem wersji WWW

Bioinformatyka. Program UGENE

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO

Bazy danych i R/Bioconductor

Próba porównania obu baz pod kątem wykonywania analizy cytowań. Hanna Celoch, Biblioteka Politechniki Lubelskiej

WEB OF SCIENCE Wyszukiwanie cytowanych pozycji bibliograficznych Cited Reference Search

ADNOTACJE WARIANTÓW GENETYCZNYCH

Samouczek: Konstruujemy drzewo

Transkrypt:

BIOINFORMATYKA edycja 2015 wykład 2 BAZY DANYCH dr Jacek Śmietański jacek.smietanski@ii.uj.edu.pl http://jaceksmietanski.net slajd 1

Tło: mioglobina Myoglobin was the first protein visualized in three dimensions at the atomic level by X-ray crystallography, laying the foundation for a new era of biological understanding. For this discovery, John Kendrew and Max Perutz shared the 1962 Nobel Prize in Chemistry. In 1959 Max Perutz, whose methodological work had been crucial to Kendrew's success, determined the structure of hemoglobin, a protein closely related to myoglobin and the second to be analyzed by X-ray crystallography. Source: http://wwpdb.org/iycr2015.html slajd 2

Plan wykładu 1. Źródła wiedzy biologicznej 2. Problematyka zarządzania informacją biologiczną 3. Bazy danych pierwotne i wtórne 4. Przykłady najważniejszych baz danych 5. NCBI Entrez slajd 3

Źródła wiedzy biologicznej Źródła wiedzy biologicznej slajd 4

Źródła danych biologicznych Dane eksperymentalne (badania in vitro, in vivo) sekwencjonowanie eksperymenty mikromacierzowe rentgenografia (X-ray) rezonans magnetyczny (NMR) itp. Dane obliczeniowe (badania in silico) analizy porównawcze (homologia) eksploracja danych odkrywanie wiedzy przewidywanie ab initio symulacje (dynamika molekularna, obliczenia kwantowo-mechaniczne) itp. slajd 5

Dostęp do informacji Bezpłatne bazy sekwencji i struktur. Większość wtórnych baz danych bezpłatna; dostępna bez ograniczeń (on-line; FTP). Narzędzia dostępne on-line (wyniki wyświetlają się na stronie lub są przesyłane mailem). Wiele projektów open source. Literatura naukowa coraz częściej udostępniana w trybie open access. slajd 6

Problematyka zarządzania informacją biologiczną Zarządzanie informacją biologiczną slajd 7

Rodzaje danych Sekwencje nukleotydowe Dane o ekspresji genów Sekwencje lub motywy białkowe Struktury makrocząsteczek Szlaki i sieci metaboliczne Dane literaturowe itp. slajd 8

Ile jest tych danych? Liczba zdeponowanych danych rośnie bardzo szybko (chociaż w niektórych grupach natknęliśmy już na barierę). Np. GenBank ponad 157 mld nukleotydów; ponad 171 mln sekwencji genów; (luty 2014; http://www.ncbi.nlm.nih.gov/genbank/statistics) UniProt/SwissProt 543 tys sekwencji białkowych (luty 2014, http://www.uniprot.org/statistics/swiss-prot) UniProt/TrEMBL 53 mln sekwencji aminokwasowych (02.2014 http://www.uniprot.org/statistics/trembl) PDB 98 tys struktur (marzec 2014, http://www.rcsb.org/pdb/static.do?p=general_information/pdb_statistics/index.html) slajd 9

Cele przeszukiwania baz danych Poszukiwanie dodatkowych informacji o badanej sekwencji (np.literarura, adnotacje) Poszukiwanie sekwencji homologicznych Określenie, czy dana sekwencja jest już zdeponowana w bazie danych Poszukiwanie sekwencji DNA homologicznej do niekodujących regionów DNA (np. sekwencje regulatorowe, elementy powtarzające się) Poszukiwanie sekwencji nadających się do wykorzystania w PCR Poszukiwanie charakterystycznych motywów sekwencyjnych lub strukturalnych Poszukiwanie / przewidywanie struktury, aktywności lub funkcji nieznanej sekwencji itp. slajd 10

Metody przeszukiwania baz danych Wyszukiwanie tekstowe (np. ENTREZ) LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL SCU49845 5028 bp DNA PLN 21-JUN-1999 Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. U49845 U49845.1 GI:1293613. Saccharomyces cerevisiae (baker's yeast) Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. 1 (bases 1 to 5028) Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae Yeast 10 (11), 1503-1509 (1994) Wyszukiwanie na podstawie sekwencji (np. BLAST) slajd 11

Problem zarządzania informacją Przeszłość Teraźniejszość Przyszłość Bezproblemowo Potrzeba automatyzacji Nowa jakość podziału zadań IN IN Mała ilość informacji, nieduża złożoność zadań => użytkownik daje sobie radę Trudność w dostępie do dużej ilości informacji, rośnie trudność zadań => użytkownik pod presją slajd 12 IN IN IN IN IN Duża ilość informacji, duża trudność zadań + wspierające systemy decyzyjne => użytkownik daje sobie radę

Przykładowe problemy błędne dane niekompletne dane powtarzające się dane (np. identyczne sekwencje) brak spójności niejednoznaczne nazewnictwo niejawne powiązania modyfikacja wpisu (wpływ na bazy zależne; dotychczasowe publikacje itp.) odnajdowanie i oznaczanie błędów itp. slajd 13

Odkrywanie wiedzy Knowledge discovery poszukiwanie powiązań między informacjami, których nie znano w momencie wprowadzania danych do bazy. (wykorzystujemy metody eksploracji danych data mining) slajd 14

Bazy danych pierwotne i wtórne Bazy danych pierwotne i wtórne slajd 15

Rodzaje baz danych Pierwszorzędowe (pierwotne) surowe dane eksperymentalne Drugorzędowe (wtórne) dane zawierające dodatkowe adnotacje, powiązania często nieredundantne Specjalistyczne przetworzone, bądź np. dedykowane konkretnym organizmom, chorobom itp. slajd 16

Przykłady najważniejszych baz danych Przykłady najważniejszych baz danych slajd 17

BAZY SEKWENCJI DNA slajd 18

GenBank Baza sekwencji nukleotydowych, zarządzana przez NCBI (USA). Analogiczne bazy funkcjonują również w Europie (EMBL) i Japonii (DDBJ). Poszczególne bazy wymieniają informacje między sobą. Dostępne on-line i przez FTP. Autorzy samodzielnie wprowadzają nowe sekwencje (warunek publikacji). slajd 19

Integracja baz NIH (GenBank), EBI (EMBL) i NIG (DDBJ) Entrez NIH NCBI GenBank Submissions Updates Submissions Updates EMBL DDBJ EBI CIB NIG Submissions Updates getentry slajd 20 SRS EMBL

GenBank - statystyka slajd 21

GenBank - odsyłacze Strona domowa: http://www.ncbi.nlm.nih.gov/genbank/ Przykładowy rekord, opis formatu: http://www.ncbi.nlm.nih.gov/sitemap/samplerecord.html Wyszukiwanie: Entrez nukleotydy: http://www.ncbi.nlm.nih.gov/nucleotide/ Główna kolekcja GenBank (bez sekwencji EST): http://www.ncbi.nlm.nih.gov/nuccore/ BLAST: http://blast.ncbi.nlm.nih.gov/blast.cgi slajd 22

GenBank format pliku GBFF [GenBank Flat File] (1): nagłówek LOCUS DEFINITION SCU49845 5028 bp DNA PLN 21-JUN-1999 Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS. sekwencji identyfikator typ cząsteczki SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae długość sekwencji Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) identyfikator działu PUBMED 7871890 REFERENCE 2 (bases 1 to 5028) AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), 777-793 (1996) PUBMED 8846915 Identyfikatory: REFERENCE 3 (bases 1 to 5028) AUTHORS niezmienne w czasie Roemer,T. zawsze Direct odnoszące się do określonych sekwencji TITLE Submission JOURNAL Submitted (22-FEB-1996) Roemer, Biology, Yale University, New umożliwiające przegląd historiiterry aktualizacji Haven, CT, USA slajd 23

GenBank format pliku GBFF (2): właściwości FEATURES source Location/Qualifiers 1..5028 /organism="saccharomyces cerevisiae" /db_xref="taxon:4932" /chromosome="ix" /map="9" <1..206 /codon_start=3 /product="tcp1-beta" /protein_id="aaa98665.1" /db_xref="gi:1293614" /translation="ssiyngistsgldlnngtiadmrqlgivesyklkravvssasea AEVLLRVDNIIRARPRTANRQHM" 687..3158 /gene="axl2" 687..3158 /gene="axl2" /note="plasma membrane glycoprotein" /codon_start=1 /function="required for axial budding pattern of S. cerevisiae" /product="axl2p" /protein_id="aaa98666.1" /db_xref="gi:1293615" /translation="mtqlqisllltatisllhlvvatpyeaypigkqyppvarvnesf TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN CDS gene CDS slajd 24

GenBank format pliku GBFF (3): sekwencja ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa 361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat 421 aatacccatc gtaggtatgg ttaaagatag catctccaca acctcaaagc tccttgccga 481 gagtcgccct cctttgtcga gtaattttca cttttcatat gagaacttat tttcttattc 541 tttactctca catcctgtag tgattgacac tgcaacagcc accatcacta gaagaacaga 601 acaattactt aatagaaaaa ttatatcttc ctcgaaacga tttcctgctt ccaacatcta 661 cgtatatcaa gaagcattca cttaccatga cacagcttca gatttcatta ttgctgacag 721 ctactatatc actactccat ctagtagtgg ccacgcccta tgaggcatat cctatcggaa 781 aacaataccc cccagtggca agagtcaatg aatcgtttac atttcaaatt tccaatgata 841 cctataaatc gtctgtagac aagacagctc aaataacata caattgcttc gacttaccga 901 gctggctttc gtttgactct agttctagaa cgttctcagg tgaaccttct tctgacttac 961 tatctgatgc gaacaccacg ttgtatttca atgtaatact cgagggtacg gactctgccg 1021 acagcacgtc tttgaacaat acataccaat ttgttgttac aaaccgtcca tccatctcgc 1081 tatcgtcaga tttcaatcta ttggcgttgt taaaaaacta tggttatact aacggcaaaa 1141 acgctctgaa actagatcct aatgaagtct tcaacgtgac ttttgaccgt tcaatgttca 1201 ctaacgaaga atccattgtg tcgtattacg gacgttctca gttgtataat gcgccgttac 1261 ccaattggct gttcttcgat tctggcgagt tgaagtttac tgggacggca ccggtgataa 1321 actcggcgat tgctccagaa acaagctaca gttttgtcat catcgctaca gacattgaag 1381 gattttctgc cgttgaggta gaattcgaat tagtcatcgg ggctcaccag ttaactacct 1441 ctattcaaaa tagtttgata atcaacgtta ctgacacagg taacgtttca tatgacttac http://www.ncbi.nlm.nih.gov/sitemap/samplerecord.html slajd 25

Wady modelu Flat File - brak możliwości ograniczenia zapytania do pewnych pól (bez przeglądania całych plików); powolne zapytania, powolne dołączanie nowych wpisów (ponownie konieczność przeglądania całych plików); jednoczesność (co będzie jak kilka osób zmodyfikuje jednocześnie ten sam wpis?); spójność (jak sprawdzać czy wprowadzane wartości są prawidłowe np. czy powiązania wskazują na istniejące zapisy?) slajd 26

Format FASTA Bardzo prosty format przydatny, gdy interesuje nas tylko sekwencja. Pierwszy wiersz (zaczynający się znakiem większości > ) nagłówek (ID, nazwa itp.); kolejne wiersze - sekwencja slajd 27

RefSeq Nieredundantna (nadzorowana, drugorzędowa) baza danych sekwencji. Ograniczona tylko do najlepiej poznanych genetycznie organizmów. (sekwencje z ok. 17tys. gatunków w GenBanku 250tys.) On-line: za pośrednictwem Entrez FTP: ftp://ftp.ncbi.nih.gov/refseq/release/ slajd 28

RefSeq Format danych podobnie jak w GenBanku. Dodatkowy prefiks przed identyfikatorem. Accession prefix AC_ Genomic NC_ Genomic NG_ Genomic NT_ Genomic NW_ Genomic NS_ Genomic NZ_b Genomic NM_ mrna NR_ RNA XM_c mrna XR_c RNA AP_ Protein NP_ Protein YP_c Protein XP_c Protein ZP_c Protein Molecule type Comment Complete genomic molecule, usually alternate assembly Complete genomic molecule, usually reference assembly Incomplete genomic region Contig or scaffold, clone-based or WGSa Contig or scaffold, primarily WGSa Environmental sequence Unfinished WGS Predicted model Predicted model Annotated on AC_ alternate assembly Associated with an NM_ or NC_ accession Predicted model, associated with an XM_ accession Predicted model, annotated on NZ_ genomic records slajd 29

BAZY SEKWENCJI BIAŁKOWYCH slajd 30

PIR Protein Information Resource http://pir.georgetown.edu/ PIR-PSD historycznie pierwsza adnotowana baza sekwencji aminokwasowych, bezpośredni następca atlasu białek (1965-1978) Margaret Dayhoff. Obecnie włączona przez EBI i SIB do bazy UniProt. slajd 31

ExPASy Expert Protein Analysis System http://expasy.org/ slajd 32

Swiss-Prot Adnotowana baza sekwencji białkowych: - obszerny opis; - minimalna redundancja - integracja z innymi bazami Przykładowe dane zawarte w adnotacjach: - funkcja białka - modyfikacje posttranslacyjne np. fosforylacja, acetylacja, glikozylacja - domeny i miejsca wiążące, motywy (palec cynkowy itp.) - struktura drugorzędowa - struktura czwartorzędowa - podobieństwo do innych białek - choroby związane z funkcją biologiczną białka - sprzeczności w wyznaczeniu sekwencji, odmiany slajd 33

TrEMBL Baza poddanych translacji sekwencji nukleotydowych Zasoby bazy są uzupełniane i adnotowane automatycznie; Część rekordów po opracowaniu przez kuratora jest dodawana do bazy Swiss-Prot Podział: Swiss-Prot TrEMBL rekordy oczekujące na opracowanie i włączenie do Swiss-Prot REM-TrEMBL rekordy, których włączenie do Swiss-Prot nie jest planowane slajd 34

UniProt http://www.uniprot.org/ Meta-baza powstała z połączenia zasobów Swiss-Prot, TrEMBL i PIR slajd 35

UniProt - statystyki slajd 36

UniProt - wyszukiwanie slajd 37

Format pliku UniProt / Swiss-Prot ID AC AC DT DT DT DE DE DE DE DE GN OS OC OC OC OX RN RP RX RA RT RT RL RN RP... HBB_HUMAN Reviewed; 147 AA. P68871; A4GX73; B2ZUE0; P02023; Q13852; Q14481; Q14510; Q45KT0; Q549N7; Q6FI08; Q6R7N2; Q8IZI1; Q9BX96; Q9UCD6; Q9UCP8; Q9UCP9; 21-JUL-1986, integrated into UniProtKB/Swiss-Prot. 23-JAN-2007, sequence version 2. 22-FEB-2015, entry version 104. RecName: Full=Hemoglobin subunit beta; AltName: Full=Beta-globin; AltName: Full=Hemoglobin beta chain; Contains: RecName: Full=LVV-hemorphin-7; Name=HBB; Homo sapiens (Human). Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo. NCBI_TaxID=9606; [1] NUCLEOTIDE SEQUENCE [GENOMIC DNA]. MEDLINE=77126403; PubMed=1019344; Marotta C., Forget B., Cohen-Solal M., Weissman S.M.; "Nucleotide sequence analysis of coding and noncoding regions of human beta-globin mrna."; Prog. Nucleic Acid Res. Mol. Biol. 19:165-175(1976). [2] NUCLEOTIDE SEQUENCE [GENOMIC DNA]. slajd 38

BAZY STRUKTURALNE slajd 39

Protein Data Bank (PDB) Baza struktur molekularnych http://www.pdb.org Dokumentacja formatu danych: http://www.wwpdb.org/docs.html#format FTP: ftp://ftp.wwpdb.org/ slajd 40

PDB format pliku: nagłówek Przykładowe pola: HEADER TITLE COMPND SOURCE AUTHOR DATE JRNL REMARK SEQRES ATOM COORDINATES slajd 41

PDB format pliku: sekwencja Przykładowe pola: HEADER TITLE COMPND SOURCE AUTHOR DATE JRNL REMARK SEQRES ATOM COORDINATES slajd 42

PDB format pliku: współrzędne atomów Przykładowe pola: HEADER TITLE COMPND SOURCE AUTHOR DATE JRNL REMARK SEQRES ATOM COORDINATES slajd 43

PDB format mmcif data_1ej9 # _entry.id 1EJ9 # _audit_conform.dict_name mmcif_pdbx.dic _audit_conform.dict_version 4.007 _audit_conform.dict_location http://mmcif.pdb.org/dictionaries/ascii/mmcif_pd bx.dic # loop database_2.database_id _database_2.database_code PDB 1EJ9 NDB PD0125 RCSB RCSB010631 # loop database_pdb_rev.num _database_pdb_rev.date _database_pdb_rev.date_original _database_pdb_rev.status _database_pdb_rev.replaces _database_pdb_rev.mod_type 1 2000-08-03 2000-03-01? 1EJ9 0 2 2009-02-24?? 1EJ9 1 # _database_pdb_rev_record.rev_num 2 _database_pdb_rev_record.type VERSN _database_pdb_rev_record.details? slajd 44

BAZY BIBLIOGRAFICZNE slajd 45

Bazy bibliograficzne PubMed http://www.ncbi.nlm.nih.gov/pubmed/ baza cytowań artykułów i książek naukowych z obszaru life science ponad 21 mln rekordów. PubMed Central http://www.ncbi.nlm.nih.gov/pmc/ pełne teksty artykułów ponad 2 mln rekordów BookShelf http://www.ncbi.nlm.nih.gov/books/ slajd 46

INNE BAZY WTÓRNE I SPECJALISTYCZNE slajd 47

Lista baz danych NAR online Molecular Biology Database Collection Listuje ok. 1500 baz danych Według kategorii: http://www.oxfordjournals.org/nar/database/c Alfabetycznie: http://www.oxfordjournals.org/nar/database/a slajd 48

Informacje o nowych bazach Nucleic Acids Research Magazyn corocznie (na przełomie roku) publikuje specjalne wydanie opisujące nowości w bazach danych. slajd 49

Entrez Entrez slajd 50

Entrez Entrez (zarządzany przez NCBI, dostępny on-line) jest zintegrowanym systemem wyszukiwania informacji w bazach danych. http://www.ncbi.nlm.nih.gov/sites/gquery slajd 51

Entrez sieć powiązań Bazy sekwencji DNA (nucleotide), sekwencje białek (protein), literatura (PubMed), polimorfizmy (SNP), systematyka (taxonomy), mutacje (OMIM), domeny białkowe (domains), eksperymenty mikromacierzowe (GEO), genomy (genome), itp. slajd 52

Entrez: wyszukiwanie - znaczniki Link do tabeli z pełnym opisem: http://www.ncbi.nlm.nih.gov/entrez/query/static/help/summary_matrices.html#search_fields_and_qualifiers Wybrane znaczniki: [ACCN] [ALL] [AUTH] [FKEY] [ORGN] [PROP] [SLEN] numer dostępu (accession number) wszystkie pola (all fields) nazwisko autora (author name) najważniejsze cechy (feature key) organizm (organism) właściwości (properties) długość sekwencji (sequence length) Przykłady zastosowania: 2:100[SLEN] sekwencje o długości co najwyżej 100 nukleotydów Saccharomyces cerevisiae[orgn] sekwencje pochodzące od wskazanego gatunku drożdży 1999/07/25:1999/07/31[MDAT] sekwencje zmodyfikowane w podanym przedziale czasowym slajd 53