Bioinformatyka. Formaty danych - GenBank



Podobne dokumenty
Bioinformatyka. Michał Bereta

Przegląd budowy i funkcji białek

46 i 47. Wstęp do chemii -aminokwasów

21. Wstęp do chemii a-aminokwasów

Bioinformatyka. Michał Bereta

Informacje. W sprawach organizacyjnych Slajdy z wykładów

spektroskopia elektronowa (UV-vis)

IZOMERIA Izomery - związki o takim samym składzie lecz różniące się budową

Budowa aminokwasów i białek

Bioinformatyka. z sylabusu... (wykład monograficzny) wykład 1. E. Banachowicz. Wykład monograficzny Bioinformatyka.

Bioinformatyka. z sylabusu...

Podstawy bioinformatyki - biologiczne bazy danych

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

MACIERZE MUTACYJNE W ANALIZIE GENOMÓW czy możliwa jest rekonstrukcja filogenetyczna? Aleksandra Nowicka

BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH

EWOLUCJA GENOMÓW. Bioinformatyka, wykład 6 (22.XI.2010) krzysztof_pawlowski@sggw.pl

Bioinformatyka. Bazy danych. Wykład 3. E. Banachowicz. Wykład monograficzny Bioinformatyka. Wykład 3, Zakład Biofizyki Molekularnej IF UAM

Bioinformatyczne bazy danych

Chemiczne składniki komórek

Bioinformatyka. Rodzaje Mutacji

Database resources of the National Center for Biotechnology Information. Magdalena Malczyk

Związki biologicznie aktywne

Struktura biomakromolekuł chemia biologiczna III rok

Budowa kwasów nukleinowych

protos (gr.) pierwszy protein/proteins (ang.)

Biologiczne bazy i modele danych

Bioinformatyka. Porównywanie sekwencji

Sekcja I: Instytucja zamawiająca/podmiot zamawiający

Bioinformatyczne bazy danych

PODSTAWY BIOINFORMATYKI

Bazy i modele danych

Jak szukać w bazie Web of Science Core Collection (WoS CC Clarivate Analytics) przykłady

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Budowa i funkcje białek

Ćwiczenie nr 7. Aminokwasy i peptydy. Repetytorium. Repetytorium

SciFinder Podstawy wyszukiwania

Ogólna budowa aminokwasów

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowania par sekwencji DNA

Budowa aminokwasów i białek

ETYKIETA. Fitmax Easy GainMass proszek

Skrypt Bioinformatyka DRAFT Strona 25

1 porcji (30 % RDA 100 g odżywcza* Wartość energetyczna kj / 384 kcal

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

WYKŁAD 4: MOLEKULARNE MECHANIZMY BIOSYNTEZY BIAŁEK. Prof. dr hab. n. med. Małgorzata Milkiewicz Zakład Biologii Medycznej.

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Właściwości aminokwasów i białek

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

FitMax Slim Diet wspomagający odchudzanie zamiennik posiłku. Dostępny na ETYKIETA DO OPAKOWANIA smak waniliowy

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

10/9/2013. Bioinformatyka i Biologia Obliczeniowa. BIOINFORMATYKA Co to jest i po co? Czym będziemy zajmować się na kursie: Tematyka wykładu

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

Dokowanie molekularne. Andrzej Bąk Instytut Chemii UŚ chemoinformatyka wykład 1

WHEY CORE BCAA Amino Mega Strong - 2,3kg + 500ml

INSTRUKCJA TECHNICZNA - Komputerowy Program żywieniowy DietaPro.pl WPROWADZANIE DANYCH O PACJENCIE. okno: NUTRITION/WYWIADY

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

Podstawy informatyki z bioinformatyką. Materiały do wykładów

FILOGENETYKA. Bioinformatyka, wykład. 8 c.d. 0)

AMINO MAX kaps - Trec Nutrition

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Bioinformatyczne bazy danych

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Generator testów Bioinformatyka wer / 0 Strona: 1

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Porównywanie i dopasowywanie sekwencji

Przewodnik Użytkownika systemu POL-index. Opis formatu POL-index

Article. other-contributors 0..1 doi 0..1 Identyfikator DOI publikacji. Główny język publikacji, wpisany małymi literami, np. "polski", lang 0..

BIOLOGICZNE BAZY DANYCH SYLABUS

Najsmaczniejsze białko na rynku Bardzo dobry profil aminokwasowy Doskonała rozpuszczalność i jakość Zawiera nienaruszone frakcje białkowe.

PRZYRÓWNANIE SEKWENCJI

BAZY ABSTRAKTÓW I ARTYKUŁÓW

Bioinformatyka. Wykład 2 (12.X.2010) I r. studiów magisterskich, biologia (SGGW) Krzysztof Pawłowski

Test kwalifikacyjny Lifescience dla licealistów 2015

Chlorella Sorokiniana Cryptomonadales Ever Green

BIOLOGICZNE BAZY DANYCH GENOMY I ICH ADNOTACJE. Pracownia Informatyczna 2

Bioinformatyka 2 (BT172) Struktura i organizacja kursu

etyloamina Aminy mają właściwości zasadowe i w roztworach kwaśnych tworzą jon alkinowy

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

Bioinformatyka. z sylabusu...

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Jest to dziedzina biologiczna wywodząca się z biotechnologii. Bioinformatyka

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Statystyczna analiza danych

Filogenetyka. Dr inż. Magdalena Święcicka, dr hab. Marcin Filipecki. Katedra Genetyki, Hodowli i Biotechnologii Roślin, SGGW

1.1. AMINOKWASY BIAŁKOWE

Model : - SCITEC 100% Whey Protein Professional 920g

Zarządzanie sieciami komputerowymi - wprowadzenie

PODSTAWY BIOINFORMATYKI

Kwasy nukleinowe i białka

Kontakt.

Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -

Slajd 1. Slajd 2. Proteiny. Peptydy i białka są polimerami aminokwasów połączonych wiązaniem amidowym (peptydowym) Kwas α-aminokarboksylowy aminokwas

Transkrypt:

Bioinformatyka Wykład 4. E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas Formaty danych - GenBank Poco wprowadza się dane do komputerów? 1. żeby je pobrać 2. żeby coś odkryć Jeśli baza danych nie pozwala na wyszukanie potrzebnej informacji, jest by bezużyteczna. (Nawet największa baza!) Wykład 4, 2008 1

Formaty danych - GenBank 1. dane muszą mieć jednoznaczną strukturę i zdefiniowane powiązania 2. dane muszą być stabilne Model danych w NCBI oparty jest na sekwencji DNA (stabilność), i daje możliwość śledzenia informacji od literatury do sekwencji. Stabilność danych OMIM literatura PubMed Full Text el. Journal sekwencja DNA struktura 3D Mapy i genomy sekwencja białka Taksonomia 4 podstawowe dane Wykład 4, 2008 2

pliki ASCII większość programów do analizy sekwencji nie akceptuje znaków spoza zestawu ASCII (różna interpretacja, problemy z transferem) Poza sekwencją DNA lub białka (raw sequence) odpowiedni format Kod DNA i białka ujednolicony został przez NC-IUB (Nomenclature Committee of the International Union of Biochemistry and Molecular Biology - http://www.chem.qmul.ac.uk/iubmb/ Zasady/kwasy nukleinowe - ujednolicony kod NC IUP (1984) A adenozyna C cytozyna G guanina T tymidyna U urydyna R G A (puryna) Y T C (pyrymidyna) K G T (keto) M A C (amino) S G C (strong) W A T (weak) B G T C D G A T H A C T V G C A N A G C T (dowolna) - gap of indeterminate length Wykład 4, 2008 3

Standardowy kod aminokwasów A Ala alanina P Pro prolina B Asx kw. asparaginowy/asparagina Q Gln glutamina C Cys cysteina R Arg arginina D Asp kw. asparaginowy S Ser seryna E Glu kw. glutaminowy T Thr treonina F Phe fenyloanina U selenocysteina G Gly glicyna V Val walina H His histydyna W Trp tryptofan I Ile izoleucyna Y Tyr tyrozyna K Lys lizyna Z Glx kw.glutaminowy/glutamina L Leu leucyna X Xxx dowolny M Met metionina * stop translacji N Asn asparagina - gap of indeterminate length Abstract Syntax Notation Sequence Format ASN.1 ASN.1 (skrót od Abstract Syntax Notation One abstrakcyjna notacja składniowa numer jeden) język opisu danych przejęty i rozwijany przez NCBI Wykład 4, 2008 4

Integracja danych z wielu różnych źródeł np. PubMed (np. wyszukiwanie według autorów) MEDLINE Display Tag Name AB Abstract AD Affiliation AID Article Identifier AU Author CI Copyright Information CIN Comment In CN Corporate Author CON Comment On CRF Corrected and republished from CRI Corrected and republished in DA Date Created DCOM Date Completed DEP Date of Electronic Publication DP Publication Date EDAT Entrez Date EFR Erratum For EIN Erratum In FAU Full Author Name FIR Full Investigator FPS Full Personal Name as Subject GN General Note GR Grant Number GS Gene Symbol IP Issue IR Investigator IRAD Investigator Affiliation IS ISSN JID NLM Unique ID JT Full Journal Title LA Language LID Location ID LR MH MHDA OAB OCI OID ORI OT OTO OWN PG PHST PL PMID PRIN PROF PS PST PT PUBM RF RIN RN ROF RPF RPI SB SFM SI SO SPIN STAT TA TI TT UIN UOF VI Last Revision Date MeSH Terms MeSH Date Other Abstract Other Copyright Information Other ID Original Report In Other Term Other Term Owner Owner Pagination Publication History Status Date Place of Publication PubMed Unique Identifier Partial Retraction In Partial Retraction Of Personal Name as Subject Publication Status Publication Type Publishing Model Number of References Retraction In EC/RN Number Retraction Of Republished From Republished In Subset Space Flight Mission Secondary Source Identifier Source Summary For Patients In Status Tag Journal Title Abbreviation Title Transliterated Title Update In Update Of Volume Wykład 4, 2008 5

cytowanie streszczenie brak streszczenia dostępny w PMC autorzy dostępny pełen teskt identyfikator czasopismo data publikacji nr stron tytuł Seq-id klasa obiektów DDBJ/GenBank/EMBL Podobna struktura i identyfikatory: A12345=A12345 PIR/ Swiss-Prot Różne identyfikatory: A12345 A12345 Wykład 4, 2008 6

GenBank: http://www.ncbi.nlm.nih.gov/ nazwa lokusa (locus) długość i typ sekwencji klasyfikacja organizmu data wprowadzenia nazwa lokusa (locus) długość i typ sekwencji klasyfikacja organizmu data wprowadzenia Wykład 4, 2008 7

GenBank: http://www.ncbi.nlm.nih.gov/ opis objektu ACCESSION numer dostępu do oryginalnego źródła VERSION numer kolejnej wersji KEYWORDS słowa kluczowe (cross reference) SOURCE organizm, z którego pochodziło DNA ORGANISM opis organizmu REFERENCE bibliografia GenBank: http://www.ncbi.nlm.nih.gov/ COMMENT np.funkcja biologiczna FEATURES informacje o sekwencji przez podanie położenia zasad lub przedziału położeń sourece, misc_signal, mrna, CDS, intron, mutation ORIGIN początek sekwencji // koniec sekwencji Wykład 4, 2008 8

EMBL: http://www.ebi.ac.uk/embl/index.html/ European Molecular Biology Laboratory Wygląd strony w 2006 Wykład 4, 2008 9

EMBL: http://www.ebi.ac.uk/embl/index.html/ European Molecular Biology Laboratory ID numer identyfikacyjny w bazie danych AC numer dostępowy do pierwotnej sekwencji SV wersja DT data wprowadzenia lub modyfikacji DE opis OS,OC organizm pochodzenia DNA RN (RP, RA, RT, RL, ) bibliografia FH, FT informacje o sekwencji (FEATUREs) SQ, // - początek i koniec sekwencji Wykład 4, 2008 10

Format sekwencji FASTA >embl DQ423612 DQ423612 Influenza A virus (A/Cygnus olor/astrakhan/ast05-2- 10/2005(H5N1)) polymerase basic protein 1 (PB1) gene, complete cds.... caaaccatttgaatggatgtcaatccgactttacttttcttgaaagtaccagtgcaaaat gctataagtaccacattcccttatactggagaccctccatacagccatgggacagggaca ggatacaccatggacacagtcaacagaacacaccaatattcagaaaaggggaagtggaca acaaacacagagactggagcaccccaactcaacccgattgatggaccactacctgaggat aatgagcccagtggttatgcacaaacagattgtgtattggaagcaatggctttccttgaa gaatcccacccagggatctttgaaaactcgtgtcttgaaacgatggaaattgttcaacaa acaagagtggataaactgacccaaggtcgtcagacctatgactggacattgaatagaaac >gi 89213215 gb ABD64049.1 polymerase basic protein 1 [Influenza A virus (A/Cygnus olor/astrakhan/ast05-2- caaccggctgcaaccgctttggccaacactatagaaatcttcagatcgaacggtctaaca 10/2005(H5N1))] gccaatgaatcgggacggctaatagatttcctcaaggatgtgatggaatcaatggataag MDVNPTLLFLKVPVQNAISTTFPYTGDPPYSHGTGTGYTMDTVNRTHQYSEKGKWTTNTETGAPQLNPID gaagaaatggagataacaacacacttccagagaaagagaagagtgagagacaacatgacc GPLPEDNEPSGYAQTDCVLEAMAFLEESHPGIFENSCLETMEIVQQTRVDKLTQGRQTYDWTLNRNQPAA aaaaagatggtcacacaaagaacaatagggaagaaaaagcaaaggctgaacaaaaagagc TALANTIEIFRSNGLTANESGRLIDFLKDVMESMDKEEMEITTHFQRKRRVRDNMTKKMVTQRTIGKKKQ tacctgataagagcactgacactgaatacaatgacaaaagatgcagaaagaggcaaattg RLNKKSYLIRALTLNTMTKDAERGKLKRRAIATPGMQIRGFVYFVETLARSICEKLEQSGLPVGGNEKKA KLANVVRKMMTNSQDTELSFTITGDNTKWNENQNPRMFLAMITYITRNQPEWFRNVLSIAPIMFSNKMAR aagaggcgagcaattgcaacacccggaatgcaaatcagaggattcgtgtactttgttgaa LGRGYMFESKSMKLRTQIPAEMLANIDLKYFNELTKKKIEKIRPLLIDGTASLSPGMMMGMFNMLSTVLG acattagcgaggagtatctgtgagaaacttgagcaatctggactcccagttggagggaat VSILNLGQKRYTKTTYWWDGLQSSDDFALIVNAPNHEGIQAGVDRFYRTCKLVGINMSKKKSYINRTGTF gaaaagaaggctaaattggcaaacgtcgtgaggaagatgatgactaactcacaagatact EFTSFFYRYGFVANFSMELPSFGVSGINESADMSIGVTVIKNNMINNDLGPATAQMALQLFIKDYRYTYR gaactctcctttacaattactggagacaatactaaatggaatgagaatcagaatcctagg CHRGDTQIQTRRSFELKKLWEQTRSKAGLLVSDGGPNLYNIRNLHIPEVCLKWELMDEDYQGRLCNPLNP FVSHKEIESVNNAVVMPAHGPAKGMEYDAVATTHSWIPKRNRSILNTSQRGILEDEQMYQKCCNLFEKFF PSSSYRRPVGISSMVEAMVSRARIDARIDFESGRIKKEEFAEIMKICSTIEELRRPK > jednoliniowy opis wszystkie linie tekstu nie powinny być dłuższe niż 80 znaków Wykład 4, 2008 11

NBRF/PIR (National Biomedical Research Foundation/Protein Information Resource http://www-nbrf.georgetown.edu/pirwww/dbinfo/ >P1;gi 89213215 gb ABD64049_1 gi 89213215 gb ABD64049_1 757 bases MDVNPTLLFL KVPVQNAIST TFPYTGDPPY SHGTGTGYTM DTVNRTHQYS EKGKWTTNTE TGAPQLNPID GPLPEDNEPS GYAQTDCVLE AMAFLEESHP GIFENSCLET MEIVQQTRVD KLTQGRQTYD WTLNRNQPAA TALANTIEIF RSNGLTANES GRLIDFLKDV MESMDKEEME ITTHFQRKRR VRDNMTKKMV TQRTIGKKKQ RLNKKSYLIR ALTLNTMTKD AERGKLKRRA IATPGMQIRG READSEQ konwersja formatów http://www.ebi.ac.uk/cgi-bin/readseq.cgi Wykład 4, 2008 12

znane formaty sekwencji ID Name Read Write Int'leaf Features Sequence Content-type Suffix 1 GenBank gb yes yes -- yes yes biosequence/genbank.gb 2 EMBL em yes yes -- yes yes biosequence/embl.embl 3 Pearson Fasta fa yes yes -- -- yes biosequence/fasta.fasta 4 GCG yes yes -- -- yes biosequence/gcg.gcg 5 MSF yes yes yes -- yes biosequence/msf.msf 6 Clustal yes yes yes -- yes biosequence/clustal.aln 7 NBRF yes yes -- -- yes biosequence/nbrf.nbrf 8 PIR CODATA yes yes -- -- yes biosequence/codata.pir 9 ACEDB yes yes -- -- yes biosequence/acedb.ace 10 Phylip3.2 yes yes yes -- yes biosequence/phylip2.phylip2 11 Phylip Phylip4 yes yes yes -- yes biosequence/phylip.phylip 12 Plain Raw yes yes -- -- yes biosequence/plain.seq 13 PAUP NEXUS yes yes yes -- yes biosequence/nexus.nexus 14 XML yes yes -- yes yes biosequence/xml.xml 15 FlatFeat FFF yes yes -- yes -- biosequence/fff.fff 16 GFF yes yes -- yes -- biosequence/gff.gff 17 BLAST yes -- yes -- yes biosequence/blast.blast 18 Pretty -- yes yes -- yes biosequence/pretty.pretty 19 SCF yes -- -- -- yes biosequence/scf.scf 20 DNAStrider yes yes -- -- yes biosequence/strider.strider 21 IG Stanford yes yes -- -- yes biosequence/ig.ig 22 Fitch -- -- -- -- yes biosequence/fitch.fitch 23 ASN.1 -- -- -- -- yes biosequence/asn1.asn Anatomia danych SwissProt/TrEMBL http://www.expasy.ch/ Wykład 4, 2008 13

Wykład 4, 2008 14

MeCP2 NCBI http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?d b=protein&val=1708973 EMBL-EBI http://www.ebi.ac.uk/ PIR http://pir.georgetown.edu/cgi-bin/textsearch.pl ReadSeq http://www.ebi.ac.uk/cgi-bin/readseq.cgi PDB Wykład 4, 2008 15

plik PDB plik PDB Wykład 4, 2008 16

plik PDB plik PDB Ser Lys Val Wykład 4, 2008 17

plik PDB Identyfikacja sekwencji w BD Identyfikacja przez porównanie z innymi sekwencjami Zestawienia sekwencji = uliniowienie = =porównanie = alignment Wykład 4, 2008 18

Porównywanie sekwencji Pierwsze pytanie biologa molekularnego, kiedy odkryje nową sekwencję: Czy w bazie sekwencji są już sekwencje podobne do mojej? sekwencje są identyczne nic nowego. sekwencja jest podobna (ma krewnych ) nowy członek znanej rodziny sekwencja ma kilka podobnych regionów, motywów lub domen można zaproponować funkję Nie ma znaczącego podobieństwa dużo pracy.. Porównywanie sekwencji Celem porównania białek jest między innymi przypisanie informacji znanej dla jednej cząsteczki drugiej cząsteczce Wykład 4, 2008 19

Pokrycie sekwencji dopasowanie globalne dopasowanie wzdłuż całej sekwencji (zastosowanie: do białek składających się z pojedynczej domeny lub homologicznych słabo zróżnicowanych) dopasowanie lokalne uwzględnia domenową naturę białek, szuka subsekwencji (zastosowanie: do białek wielodomenowych, mrna z sekwencją genomową) 39 BLAST Wykład 4, 2008 20

Wykład 4, 2008 21

CDN....na ćwiczeniach Wykład 4, 2008 22