Bioinformatyka Wykład 4. E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas Formaty danych - GenBank Poco wprowadza się dane do komputerów? 1. żeby je pobrać 2. żeby coś odkryć Jeśli baza danych nie pozwala na wyszukanie potrzebnej informacji, jest by bezużyteczna. (Nawet największa baza!) Wykład 4, 2008 1
Formaty danych - GenBank 1. dane muszą mieć jednoznaczną strukturę i zdefiniowane powiązania 2. dane muszą być stabilne Model danych w NCBI oparty jest na sekwencji DNA (stabilność), i daje możliwość śledzenia informacji od literatury do sekwencji. Stabilność danych OMIM literatura PubMed Full Text el. Journal sekwencja DNA struktura 3D Mapy i genomy sekwencja białka Taksonomia 4 podstawowe dane Wykład 4, 2008 2
pliki ASCII większość programów do analizy sekwencji nie akceptuje znaków spoza zestawu ASCII (różna interpretacja, problemy z transferem) Poza sekwencją DNA lub białka (raw sequence) odpowiedni format Kod DNA i białka ujednolicony został przez NC-IUB (Nomenclature Committee of the International Union of Biochemistry and Molecular Biology - http://www.chem.qmul.ac.uk/iubmb/ Zasady/kwasy nukleinowe - ujednolicony kod NC IUP (1984) A adenozyna C cytozyna G guanina T tymidyna U urydyna R G A (puryna) Y T C (pyrymidyna) K G T (keto) M A C (amino) S G C (strong) W A T (weak) B G T C D G A T H A C T V G C A N A G C T (dowolna) - gap of indeterminate length Wykład 4, 2008 3
Standardowy kod aminokwasów A Ala alanina P Pro prolina B Asx kw. asparaginowy/asparagina Q Gln glutamina C Cys cysteina R Arg arginina D Asp kw. asparaginowy S Ser seryna E Glu kw. glutaminowy T Thr treonina F Phe fenyloanina U selenocysteina G Gly glicyna V Val walina H His histydyna W Trp tryptofan I Ile izoleucyna Y Tyr tyrozyna K Lys lizyna Z Glx kw.glutaminowy/glutamina L Leu leucyna X Xxx dowolny M Met metionina * stop translacji N Asn asparagina - gap of indeterminate length Abstract Syntax Notation Sequence Format ASN.1 ASN.1 (skrót od Abstract Syntax Notation One abstrakcyjna notacja składniowa numer jeden) język opisu danych przejęty i rozwijany przez NCBI Wykład 4, 2008 4
Integracja danych z wielu różnych źródeł np. PubMed (np. wyszukiwanie według autorów) MEDLINE Display Tag Name AB Abstract AD Affiliation AID Article Identifier AU Author CI Copyright Information CIN Comment In CN Corporate Author CON Comment On CRF Corrected and republished from CRI Corrected and republished in DA Date Created DCOM Date Completed DEP Date of Electronic Publication DP Publication Date EDAT Entrez Date EFR Erratum For EIN Erratum In FAU Full Author Name FIR Full Investigator FPS Full Personal Name as Subject GN General Note GR Grant Number GS Gene Symbol IP Issue IR Investigator IRAD Investigator Affiliation IS ISSN JID NLM Unique ID JT Full Journal Title LA Language LID Location ID LR MH MHDA OAB OCI OID ORI OT OTO OWN PG PHST PL PMID PRIN PROF PS PST PT PUBM RF RIN RN ROF RPF RPI SB SFM SI SO SPIN STAT TA TI TT UIN UOF VI Last Revision Date MeSH Terms MeSH Date Other Abstract Other Copyright Information Other ID Original Report In Other Term Other Term Owner Owner Pagination Publication History Status Date Place of Publication PubMed Unique Identifier Partial Retraction In Partial Retraction Of Personal Name as Subject Publication Status Publication Type Publishing Model Number of References Retraction In EC/RN Number Retraction Of Republished From Republished In Subset Space Flight Mission Secondary Source Identifier Source Summary For Patients In Status Tag Journal Title Abbreviation Title Transliterated Title Update In Update Of Volume Wykład 4, 2008 5
cytowanie streszczenie brak streszczenia dostępny w PMC autorzy dostępny pełen teskt identyfikator czasopismo data publikacji nr stron tytuł Seq-id klasa obiektów DDBJ/GenBank/EMBL Podobna struktura i identyfikatory: A12345=A12345 PIR/ Swiss-Prot Różne identyfikatory: A12345 A12345 Wykład 4, 2008 6
GenBank: http://www.ncbi.nlm.nih.gov/ nazwa lokusa (locus) długość i typ sekwencji klasyfikacja organizmu data wprowadzenia nazwa lokusa (locus) długość i typ sekwencji klasyfikacja organizmu data wprowadzenia Wykład 4, 2008 7
GenBank: http://www.ncbi.nlm.nih.gov/ opis objektu ACCESSION numer dostępu do oryginalnego źródła VERSION numer kolejnej wersji KEYWORDS słowa kluczowe (cross reference) SOURCE organizm, z którego pochodziło DNA ORGANISM opis organizmu REFERENCE bibliografia GenBank: http://www.ncbi.nlm.nih.gov/ COMMENT np.funkcja biologiczna FEATURES informacje o sekwencji przez podanie położenia zasad lub przedziału położeń sourece, misc_signal, mrna, CDS, intron, mutation ORIGIN początek sekwencji // koniec sekwencji Wykład 4, 2008 8
EMBL: http://www.ebi.ac.uk/embl/index.html/ European Molecular Biology Laboratory Wygląd strony w 2006 Wykład 4, 2008 9
EMBL: http://www.ebi.ac.uk/embl/index.html/ European Molecular Biology Laboratory ID numer identyfikacyjny w bazie danych AC numer dostępowy do pierwotnej sekwencji SV wersja DT data wprowadzenia lub modyfikacji DE opis OS,OC organizm pochodzenia DNA RN (RP, RA, RT, RL, ) bibliografia FH, FT informacje o sekwencji (FEATUREs) SQ, // - początek i koniec sekwencji Wykład 4, 2008 10
Format sekwencji FASTA >embl DQ423612 DQ423612 Influenza A virus (A/Cygnus olor/astrakhan/ast05-2- 10/2005(H5N1)) polymerase basic protein 1 (PB1) gene, complete cds.... caaaccatttgaatggatgtcaatccgactttacttttcttgaaagtaccagtgcaaaat gctataagtaccacattcccttatactggagaccctccatacagccatgggacagggaca ggatacaccatggacacagtcaacagaacacaccaatattcagaaaaggggaagtggaca acaaacacagagactggagcaccccaactcaacccgattgatggaccactacctgaggat aatgagcccagtggttatgcacaaacagattgtgtattggaagcaatggctttccttgaa gaatcccacccagggatctttgaaaactcgtgtcttgaaacgatggaaattgttcaacaa acaagagtggataaactgacccaaggtcgtcagacctatgactggacattgaatagaaac >gi 89213215 gb ABD64049.1 polymerase basic protein 1 [Influenza A virus (A/Cygnus olor/astrakhan/ast05-2- caaccggctgcaaccgctttggccaacactatagaaatcttcagatcgaacggtctaaca 10/2005(H5N1))] gccaatgaatcgggacggctaatagatttcctcaaggatgtgatggaatcaatggataag MDVNPTLLFLKVPVQNAISTTFPYTGDPPYSHGTGTGYTMDTVNRTHQYSEKGKWTTNTETGAPQLNPID gaagaaatggagataacaacacacttccagagaaagagaagagtgagagacaacatgacc GPLPEDNEPSGYAQTDCVLEAMAFLEESHPGIFENSCLETMEIVQQTRVDKLTQGRQTYDWTLNRNQPAA aaaaagatggtcacacaaagaacaatagggaagaaaaagcaaaggctgaacaaaaagagc TALANTIEIFRSNGLTANESGRLIDFLKDVMESMDKEEMEITTHFQRKRRVRDNMTKKMVTQRTIGKKKQ tacctgataagagcactgacactgaatacaatgacaaaagatgcagaaagaggcaaattg RLNKKSYLIRALTLNTMTKDAERGKLKRRAIATPGMQIRGFVYFVETLARSICEKLEQSGLPVGGNEKKA KLANVVRKMMTNSQDTELSFTITGDNTKWNENQNPRMFLAMITYITRNQPEWFRNVLSIAPIMFSNKMAR aagaggcgagcaattgcaacacccggaatgcaaatcagaggattcgtgtactttgttgaa LGRGYMFESKSMKLRTQIPAEMLANIDLKYFNELTKKKIEKIRPLLIDGTASLSPGMMMGMFNMLSTVLG acattagcgaggagtatctgtgagaaacttgagcaatctggactcccagttggagggaat VSILNLGQKRYTKTTYWWDGLQSSDDFALIVNAPNHEGIQAGVDRFYRTCKLVGINMSKKKSYINRTGTF gaaaagaaggctaaattggcaaacgtcgtgaggaagatgatgactaactcacaagatact EFTSFFYRYGFVANFSMELPSFGVSGINESADMSIGVTVIKNNMINNDLGPATAQMALQLFIKDYRYTYR gaactctcctttacaattactggagacaatactaaatggaatgagaatcagaatcctagg CHRGDTQIQTRRSFELKKLWEQTRSKAGLLVSDGGPNLYNIRNLHIPEVCLKWELMDEDYQGRLCNPLNP FVSHKEIESVNNAVVMPAHGPAKGMEYDAVATTHSWIPKRNRSILNTSQRGILEDEQMYQKCCNLFEKFF PSSSYRRPVGISSMVEAMVSRARIDARIDFESGRIKKEEFAEIMKICSTIEELRRPK > jednoliniowy opis wszystkie linie tekstu nie powinny być dłuższe niż 80 znaków Wykład 4, 2008 11
NBRF/PIR (National Biomedical Research Foundation/Protein Information Resource http://www-nbrf.georgetown.edu/pirwww/dbinfo/ >P1;gi 89213215 gb ABD64049_1 gi 89213215 gb ABD64049_1 757 bases MDVNPTLLFL KVPVQNAIST TFPYTGDPPY SHGTGTGYTM DTVNRTHQYS EKGKWTTNTE TGAPQLNPID GPLPEDNEPS GYAQTDCVLE AMAFLEESHP GIFENSCLET MEIVQQTRVD KLTQGRQTYD WTLNRNQPAA TALANTIEIF RSNGLTANES GRLIDFLKDV MESMDKEEME ITTHFQRKRR VRDNMTKKMV TQRTIGKKKQ RLNKKSYLIR ALTLNTMTKD AERGKLKRRA IATPGMQIRG READSEQ konwersja formatów http://www.ebi.ac.uk/cgi-bin/readseq.cgi Wykład 4, 2008 12
znane formaty sekwencji ID Name Read Write Int'leaf Features Sequence Content-type Suffix 1 GenBank gb yes yes -- yes yes biosequence/genbank.gb 2 EMBL em yes yes -- yes yes biosequence/embl.embl 3 Pearson Fasta fa yes yes -- -- yes biosequence/fasta.fasta 4 GCG yes yes -- -- yes biosequence/gcg.gcg 5 MSF yes yes yes -- yes biosequence/msf.msf 6 Clustal yes yes yes -- yes biosequence/clustal.aln 7 NBRF yes yes -- -- yes biosequence/nbrf.nbrf 8 PIR CODATA yes yes -- -- yes biosequence/codata.pir 9 ACEDB yes yes -- -- yes biosequence/acedb.ace 10 Phylip3.2 yes yes yes -- yes biosequence/phylip2.phylip2 11 Phylip Phylip4 yes yes yes -- yes biosequence/phylip.phylip 12 Plain Raw yes yes -- -- yes biosequence/plain.seq 13 PAUP NEXUS yes yes yes -- yes biosequence/nexus.nexus 14 XML yes yes -- yes yes biosequence/xml.xml 15 FlatFeat FFF yes yes -- yes -- biosequence/fff.fff 16 GFF yes yes -- yes -- biosequence/gff.gff 17 BLAST yes -- yes -- yes biosequence/blast.blast 18 Pretty -- yes yes -- yes biosequence/pretty.pretty 19 SCF yes -- -- -- yes biosequence/scf.scf 20 DNAStrider yes yes -- -- yes biosequence/strider.strider 21 IG Stanford yes yes -- -- yes biosequence/ig.ig 22 Fitch -- -- -- -- yes biosequence/fitch.fitch 23 ASN.1 -- -- -- -- yes biosequence/asn1.asn Anatomia danych SwissProt/TrEMBL http://www.expasy.ch/ Wykład 4, 2008 13
Wykład 4, 2008 14
MeCP2 NCBI http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?d b=protein&val=1708973 EMBL-EBI http://www.ebi.ac.uk/ PIR http://pir.georgetown.edu/cgi-bin/textsearch.pl ReadSeq http://www.ebi.ac.uk/cgi-bin/readseq.cgi PDB Wykład 4, 2008 15
plik PDB plik PDB Wykład 4, 2008 16
plik PDB plik PDB Ser Lys Val Wykład 4, 2008 17
plik PDB Identyfikacja sekwencji w BD Identyfikacja przez porównanie z innymi sekwencjami Zestawienia sekwencji = uliniowienie = =porównanie = alignment Wykład 4, 2008 18
Porównywanie sekwencji Pierwsze pytanie biologa molekularnego, kiedy odkryje nową sekwencję: Czy w bazie sekwencji są już sekwencje podobne do mojej? sekwencje są identyczne nic nowego. sekwencja jest podobna (ma krewnych ) nowy członek znanej rodziny sekwencja ma kilka podobnych regionów, motywów lub domen można zaproponować funkję Nie ma znaczącego podobieństwa dużo pracy.. Porównywanie sekwencji Celem porównania białek jest między innymi przypisanie informacji znanej dla jednej cząsteczki drugiej cząsteczce Wykład 4, 2008 19
Pokrycie sekwencji dopasowanie globalne dopasowanie wzdłuż całej sekwencji (zastosowanie: do białek składających się z pojedynczej domeny lub homologicznych słabo zróżnicowanych) dopasowanie lokalne uwzględnia domenową naturę białek, szuka subsekwencji (zastosowanie: do białek wielodomenowych, mrna z sekwencją genomową) 39 BLAST Wykład 4, 2008 20
Wykład 4, 2008 21
CDN....na ćwiczeniach Wykład 4, 2008 22