Bioinformatyka. Wykład 2 (12.X.2010) I r. studiów magisterskich, biologia (SGGW) Krzysztof Pawłowski

Bioinformatyka Wykład 2 (12.X.2010) I r. studiów magisterskich, biologia (SGGW) Krzysztof Pawłowski

tydzień temu Co to jest bioinformatyka Sekwencjonowanie genomów historia Metagenomika

Wykład 2 spis treści Bioinformatyka w genomice Gen??? Biologiczne bazy danych historia Biologiczne bazy danych najważniejsze Sekwencyjne bazy danych formaty plików

Bioinformatyka w genomice Bazy danych Składanie genomu Identyfikacja obiektów w genomie (geny kodujące białka, geny mirna, motywy i regiony regulatorowe,...) Porównywanie genomów Przewidywanie funkcji genów i in. obiektów genomicznych

Rozwój technik sekwencjonowania

Gene definitions 1860s 1900s: Gene as a discrete unit of heredity 1910s: Gene as a distinct locus 1940s: Gene as a blueprint for a protein 1950s: Gene as a physical molecule 1960s: Gene as transcribed code 1970s 1980s: Gene as open reading frame (ORF) sequence pattern 1990s 2000s: Annotated genomic entity, enumerated in the databanks

What is a gene, post-encode? Gerstein et al., Genome Res. 2007 17: 669-681

The gene is a union of genomic sequences encoding a coherent set of potentially overlapping functional products. 1. A gene is a genomic sequence (DNA or RNA) directly encoding functional product molecules, either RNA or protein. 2. In the case that there are several functional products sharing overlapping regions, one takes the union of all overlapping genomic sequences coding for them. 3. This union must be coherent i.e., done separately for final protein and RNA products but does not require that all products necessarily share a common subsequence.

Poziom badań Model Organizacji danych Zasoby

N=1230...

Pierwsze bazy białkowe 1951 Sanger i Tuppy rozwój technik sekwencjonowania białek 1965-78 Margaret Dayhoff i współpr. pierwsza baza danych o sekwencjach białek Atlas of Protein Sequence and Structure; pogrupowanie białek w rodziny i nadrodziny w oparciu o stopień podobieństwa; stworzenie macierzy (tablic) PAM zawierających prawdopodobieństwa zmian jednego aminokwasu na inny 1984 powstanie bazy danych PIR (Protein Information Resource)

Pierwsze bazy DNA 1977 Maxam i Gilbert oraz Sanger i współpr. rozwój technik sekwencjonowania kwasów nukleinowych; oprogramowanie (Staden) 1979 Walter Goad i współpr. z LANL stworzenie prototypu GenBank-u, bazy danych sekwencji nukleotydowych 1982 upublicznienie danych w GenBank-u 1980 powstanie obecnej bazy danych EMBL (European Molecular Biology Laboratory) w Heidelbergu 1984 powstanie bazy danych DDBJ (DNA DataBank of Japan) w Mishima

Integracja baz 1987 International Nucleotide Sequence Database Collaboration 2002 UniProtR International Protein Sequence Database EMBL EBI Hinxton UK GenBank NCBI Bethesda USA PIR GU USA TrEMBL EBI UK DDBJ Mishima Japonia SwissProt SIB Szwajcaria

Dalszy rozwój j baz 1986 Powstanie białkowej bazy danych SWISS-PROT; Szwajcaria 1988 Utworzenie NCBI (National Center for Biotechnology Information) przy NIH/NLM, USA 1991 Adams i współpr. - powstawanie bibliotek i baz cdna i ESTs (expressed sequence tags) duże znaczenie dla badania genomów, określania ekspresji genów w różnych warunkach i tkankach 1992 Założenie TIGR (The Institute for Genomic Research); Rockville; Maryland 1993 Cherry i Cartinhour pierwsza baza genomowa: ACEDB (a Caenorhabditis elegans database)

Rozwój j metod do analiz sekwencji Algorytm do porównywania i sekwencji białkowych: Needleman i Wunsch - 1970 Powstanie i rozwój programów do uzyskiwania danych z baz: ENTREZ (NCBI) - 1992 Powstanie i rozwój programów do analizy sekwencji: GCG (Genetics Computer Group) - od lat 1980-tych Szybkie przeszukiwanie sekwencyjne baz danych: FASTA 1985 BLAST - 1990

Zasoby pierwotne i wtórne Pierwotne bazy danych GenBank/EMBL/DDBJ dbest dbsts dbsnp Trace Wtórne bazy danych Assembly Archive CDD EntrezGene Genome Projects HomoloGene Map Viewer RefSeq, SwissProt UniSTS

Baza wtórna Baza pierwotna

September 16, 2010: RefSeq Release 43 This release includes: Number of taxids: 10854 Number of Accessions and total length per molecule type: Genomic: 2.293.783 144.882.401.872 RNA: 2.417.194 3.824.569.584 Protein: 11.223.078 3.761.205.880

Białkowe bazy danych SWISS-PROT, Szwajcaria RefSeq Protein (NCBI), USA UniProt = SwissProt + PIR + TrEMBL

Białkowe bazy danych PDB - The Protein Data Bank, USA - struktury trójwymiarowe kwasów nukleinowych i białek

Genomowe bazy danych NCBI Genomic Resources, USA TIGR - The Institute for Genomic Research, USA Ensembl Genome Browser (EBI & Sanger Institute) Genome Browser at the University of California Santa Cruz (UCSC)

NCBI Home Page

The GenBank flatfile (GBFF) LOCUS HUMCFTRM 6129 bp mrna linear PRI 27-APR-1993 DEFINITION Human cystic fibrosis mrna, encoding a presumed transmembrane conductance regulator (CFTR). ACCESSION M28668 VERSION M28668.1 GI:180331 KEYWORDS cystic fibrosis; transmembrane conductance regulator. SOURCE Human, cdna to mrna. ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 6129) AUTHORS Riordan,J.R., Rommens,J.M., Kerem,B., Alon,N., Rozmahel,R., Grzelczak,Z., Zielenski,J., Lok,S., Plavsic,N., Chou,J.-L., Drumm,M.L., Iannuzzi,M.C., Collins,F.S. and Tsui,L.-C. TITLE Identification of the cystic fibrosis gene: cloning and characterization of complementary DNA JOURNAL Science 245 (4922), 1066-1073 (1989) MEDLINE 89368940 PUBMED 2475911 COMMENT A three base-pair deletion spanning positions 1654-1656 is observed in cdnas from cystic fibrosis patients. FEATURES Location/Qualifiers source 1..6129 /organism="homo sapiens" /db_xref="taxon:9606" CDS 133..4575 /note="cystic fibrosis transmembrane conductance regulator" /codon_start=1 /protein_id="aaa35680.1" /db_xref="gi:180332" /translation="mqrsplekasvvsklffswtrpilrkgyrqrlelsdiyqipsvd SADNLSEKLEREWDRELASKKNPKLINALRRCFFWRFMFYGIFLYLGEVTKAVQPLLL <sequence omitted> VTYQIIRRTLKQAFADCTVILCEHRIEAMLECQQFLVIEENKVRQYDSIQKLLNERSL FRQAISPSDRVKLFPHRNSSKCKSKPQIAALKEETEEEVQDTRL" BASE COUNT 1886 a 1181 c 1330 g 1732 t ORIGIN 1 aattggaagc aaatgacatc acagcaggtc agagaaaaag ggttgagcgg caggcaccca 61 gagtagtagg tctttggcat taggagcttg agcccagacg gccctagcag ggaccccagc 121 gcccgagaga ccatgcagag gtcgcctctg gaaaaggcca gcgttgtctc caaacttttt <sequence omitted> 6061 taagaagact gcattatatt tattactgta agaaaatatc acttgtcaat aaaatccata 6121 catttgtgt // The Header The feature table The sequence

FASTA format gi number Accession number Definition line >gi 7144485 gb AAC16332.2 Limulus polyphemus myosin III mrna, complete cds MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKQANKKVALKIIGHIAENLLDIETEYRIY KAVNGIQFFPEFRGAFFKRGERESDNEVWLGIEFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAV QYLHENSIIHRDIRAANIMFSKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNY TCDVWSIGITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYRPCIQ Database Identifiers EIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQPHEKIYVDDLAFLDSP TEEVVLENLEQRYRKGEIYTFAGDVLLTLNPGKVLPLYGDQTAVKYCERGRSDNPPHVFAVADRAYQQML gb GenBank HHKSPQAVILSGVSGSGKSFCTHQVIRHLAFLGAQNKEGMREKLEYLCPLLDTLGNAYTSTNPNSSHFVK emb EMBL ILEVTFTKTGKITGAILFTFLLEARRLTDIPKGERNFHVFYYFYEGLRSEGRLKEFGLEEKNYRYLPELK dbj DDBJ SSNSPEYVKGYQQFLRALTSLAFTEEEIFAIQKVLAAILLLGETEIQNSAAFKLLGAESSELENTLTQDV NARDVYARAMYLRLFSWIVAVVNRQLSFSRLVFGDVYSVTVIDSPGFENGLHNSLHQLCANVISDNLQNY sp SWISS-PROT IQQIIFFKELEEYGEEGVNVPFNLEGGVDHRTLVNKLMDSGQGLLTAISKATQYQRKGESGWMESLQEAD pdbprotein Databank SEELVEFSNVNGKPIVSVKHIFRKVSYDATDLVKKNVEDKTRALTSTMQRSCDPRIRAIFSSENPSPFLS pir PIR SPRRSSIQENMLLPERTVTDSLHSALSSVLNLASTEDPPHLILCMRPQKKELINDYDSKSVQIQLHALNV LETILIRQFGFARRISFVDFLNRYQYLAFDFNENVELTKENCRLLLLRLKMDGWTLGKNKVFLKYYSEEY ref RefSeq LSRIYETHIKKIVKVQAIARKYFVKVRQSKTKPH

Problemy w bazach danych zanieczyszczenie sekwencjami wektorów wykorzystywanymi do klonowania, bakterii, rrna, mtdna i innymi przypadkowymi sekwencjami poziom błędu sekwencji nukleotydowych: 1/10 000 (bardzo dobry), 1/100 (dla raz przeczytanych sekwencji w bazach EST, HTG) poziom błędu sekwencji aminokwasowych: przesunięcie ramki odczytu (frame-shift error) - 5-10% sekwencji; błędnie przetłumaczone na białkowe sekwencje genów (np. błędne określenie eksonów - 10-15%): utrata niektórych eksonów, przetłumaczenie sekwencji intronów występowanie w bazach sekwencji identycznych jako różnych rekordów > tworzenie baz non-redundant

Problemy w bazach danych przypisanie funkcji charakterystycznej dla jednej sekwencji do drugiej sekwencji wykazującej homologię do pierwszej sekwencji sekwencja A funkcja 1 sekwencja B błędne adnotacje z trzeciej i czwartej ręki sekwencja B funkcja 1 sekwencja C Funkcja 1 sekwencja C funkcja 1?? BRAK HOMOLOGII sekwencja A funkcja 1

UniProt, GenBank, RefSeq

GenBank i RefSeq

RefSeq, SwissProt GenBank