Bioinformatyka. Wykład 2 (12.X.2010) I r. studiów magisterskich, biologia (SGGW) Krzysztof Pawłowski

Podobne dokumenty
Bioinformatyczne bazy danych

Bioinformatyka. Michał Bereta

Bioinformatyczne bazy danych

Biologiczne bazy i modele danych

Bazy i modele danych

Bioinformatyka. Michał Bereta

Bioinformatyka. Bazy danych. Wykład 3. E. Banachowicz. Wykład monograficzny Bioinformatyka. Wykład 3, Zakład Biofizyki Molekularnej IF UAM

BIOLOGICZNE BAZY DANYCH GENOMY I ICH ADNOTACJE. Pracownia Informatyczna 2

Bioinformatyczne bazy danych

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

Podstawy bioinformatyki - biologiczne bazy danych

BIOINFORMATYKA. edycja wykład 2 BAZY DANYCH. dr Jacek Śmietański jacek.smietanski@ii.uj.edu.pl

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

Historia Bioinformatyki

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH

Database resources of the National Center for Biotechnology Information. Magdalena Malczyk

Kontakt.

10/9/2013. Bioinformatyka i Biologia Obliczeniowa. BIOINFORMATYKA Co to jest i po co? Czym będziemy zajmować się na kursie: Tematyka wykładu

Bioinformatyka. z sylabusu...

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Bioinformatyka. Rodzaje Mutacji

Budowa kwasów nukleinowych

Jest to dziedzina biologiczna wywodząca się z biotechnologii. Bioinformatyka

Politechnika Wrocławska. BIOINFORMATYKA i BIOLOGIA OBLICZENIOWA

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

BIOLOGICZNE BAZY DANYCH SYLABUS

Bazy danych i biologia

Od jakiego pułapu startujemy? matematyka

Podstawy bioinformatyki dla biotechnologów. plan. Od jakiego pułapu startujemy? Wykład 2. Definicja bioinformatyki

GENOMIKA. MAPOWANIE GENOMÓW MAPY GENOMICZNE

Nowoczesne systemy ekspresji genów

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

Bioinformatyka. Formaty danych - GenBank

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

PODSTAWY BIOINFORMATYKI

ISBN

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Bioinformatyka Laboratorium, 30h. Michał Bereta

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Bazy danych i R/Bioconductor

Motywacja. Do tej pory: Dzisiaj:

Przeglądarki genomowe

Porównywanie i dopasowywanie sekwencji

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Generator testów Bioinformatyka wer / 0 Strona: 1

Spis treści. 1.Wstęp teoretyczny do przedmiotu bioinformatyka. 2.Zadania z podstaw informatyki i obsługi komputera

Rozdział 1 Wprowadzenie do baz danych. (c) Instytut Informatyki Politechniki Poznańskiej 1

Dopasowanie sekwencji (sequence alignment)

Bioinformatyka. wykłady dla I r. studiów magisterskich, biologia (SGGW) 2010/2011. Krzysztof Pawłowski

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

CZĘŚĆ III OPISPRZEDMIOTU ZAMÓWIENIA (OPZ)

Samouczek: Konstruujemy drzewo

Public gene expression data repositoris

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

Bioinformatyka. Krzysztof Pawłowski. wykłady dla I r. studiów magisterskich, biologia (SGGW) 2012 / 2013

Entrez, wyszukiwarka dla nauk przyrodniczych: globalna kwerenda

Dopasowania par sekwencji DNA

Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna

Porównywanie i dopasowywanie sekwencji

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

Zadania bioinformatyki

Przyrównywanie sekwencji

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

Olimpiada Biologiczna

Bioinformatyka wykład 3.I.2008

PRZYRÓWNANIE SEKWENCJI

Narzędzie do analizy sekwencji BLAST

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Bioinformatyka wykład I.2009

Lokalizacja genów DNA/RNA. Nukleotydy i ich łańcuchy 11/21/2013. Genom ludzki. Struktura genomu. Pirymidyny i Puryny

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

SNP SNP Business Partner Data Checker. Prezentacja produktu

Wstęp do Biologii Obliczeniowej

Glimmer umożliwia znalezienie regionów kodujących

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Możliwości i potencjalne zastosowania Zintegrowanego Systemu Analitycznego do innowacyjnych i kompleksowych badań molekularnych

Rocz. Nauk. Zoot., T. 37, z. 2 (2010) Identyfikacja sekwencji genu kodującego dehydrogenazę NADH 1 u sarny

Mapowanie fizyczne genomów -konstrukcja map wyskalowanych w jednostkach fizycznych -najdokładniejszą mapą fizyczną genomu, o największej

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

Politechnika Śląska. Wydział, Automatyki, Elektroniki i Informatyki

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

ADNOTACJE WARIANTÓW GENETYCZNYCH

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Analizy wielkoskalowe w badaniach chromatyny

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Academic year: 2012/2013 Code: EIB BN-s ECTS credits: 4. Electrical Engineering, Automatics, Computer Science and Engineering in Biomedicine

Transkrypt:

Bioinformatyka Wykład 2 (12.X.2010) I r. studiów magisterskich, biologia (SGGW) Krzysztof Pawłowski

tydzień temu Co to jest bioinformatyka Sekwencjonowanie genomów historia Metagenomika

Wykład 2 spis treści Bioinformatyka w genomice Gen??? Biologiczne bazy danych historia Biologiczne bazy danych najważniejsze Sekwencyjne bazy danych formaty plików

Bioinformatyka w genomice Bazy danych Składanie genomu Identyfikacja obiektów w genomie (geny kodujące białka, geny mirna, motywy i regiony regulatorowe,...) Porównywanie genomów Przewidywanie funkcji genów i in. obiektów genomicznych

Rozwój technik sekwencjonowania

Gene definitions 1860s 1900s: Gene as a discrete unit of heredity 1910s: Gene as a distinct locus 1940s: Gene as a blueprint for a protein 1950s: Gene as a physical molecule 1960s: Gene as transcribed code 1970s 1980s: Gene as open reading frame (ORF) sequence pattern 1990s 2000s: Annotated genomic entity, enumerated in the databanks

What is a gene, post-encode? Gerstein et al., Genome Res. 2007 17: 669-681

The gene is a union of genomic sequences encoding a coherent set of potentially overlapping functional products. 1. A gene is a genomic sequence (DNA or RNA) directly encoding functional product molecules, either RNA or protein. 2. In the case that there are several functional products sharing overlapping regions, one takes the union of all overlapping genomic sequences coding for them. 3. This union must be coherent i.e., done separately for final protein and RNA products but does not require that all products necessarily share a common subsequence.

Poziom badań Model Organizacji danych Zasoby

N=1230...

Pierwsze bazy białkowe 1951 Sanger i Tuppy rozwój technik sekwencjonowania białek 1965-78 Margaret Dayhoff i współpr. pierwsza baza danych o sekwencjach białek Atlas of Protein Sequence and Structure; pogrupowanie białek w rodziny i nadrodziny w oparciu o stopień podobieństwa; stworzenie macierzy (tablic) PAM zawierających prawdopodobieństwa zmian jednego aminokwasu na inny 1984 powstanie bazy danych PIR (Protein Information Resource)

Pierwsze bazy DNA 1977 Maxam i Gilbert oraz Sanger i współpr. rozwój technik sekwencjonowania kwasów nukleinowych; oprogramowanie (Staden) 1979 Walter Goad i współpr. z LANL stworzenie prototypu GenBank-u, bazy danych sekwencji nukleotydowych 1982 upublicznienie danych w GenBank-u 1980 powstanie obecnej bazy danych EMBL (European Molecular Biology Laboratory) w Heidelbergu 1984 powstanie bazy danych DDBJ (DNA DataBank of Japan) w Mishima

Integracja baz 1987 International Nucleotide Sequence Database Collaboration 2002 UniProtR International Protein Sequence Database EMBL EBI Hinxton UK GenBank NCBI Bethesda USA PIR GU USA TrEMBL EBI UK DDBJ Mishima Japonia SwissProt SIB Szwajcaria

Dalszy rozwój j baz 1986 Powstanie białkowej bazy danych SWISS-PROT; Szwajcaria 1988 Utworzenie NCBI (National Center for Biotechnology Information) przy NIH/NLM, USA 1991 Adams i współpr. - powstawanie bibliotek i baz cdna i ESTs (expressed sequence tags) duże znaczenie dla badania genomów, określania ekspresji genów w różnych warunkach i tkankach 1992 Założenie TIGR (The Institute for Genomic Research); Rockville; Maryland 1993 Cherry i Cartinhour pierwsza baza genomowa: ACEDB (a Caenorhabditis elegans database)

Rozwój j metod do analiz sekwencji Algorytm do porównywania i sekwencji białkowych: Needleman i Wunsch - 1970 Powstanie i rozwój programów do uzyskiwania danych z baz: ENTREZ (NCBI) - 1992 Powstanie i rozwój programów do analizy sekwencji: GCG (Genetics Computer Group) - od lat 1980-tych Szybkie przeszukiwanie sekwencyjne baz danych: FASTA 1985 BLAST - 1990

Zasoby pierwotne i wtórne Pierwotne bazy danych GenBank/EMBL/DDBJ dbest dbsts dbsnp Trace Wtórne bazy danych Assembly Archive CDD EntrezGene Genome Projects HomoloGene Map Viewer RefSeq, SwissProt UniSTS

Baza wtórna Baza pierwotna

September 16, 2010: RefSeq Release 43 This release includes: Number of taxids: 10854 Number of Accessions and total length per molecule type: Genomic: 2.293.783 144.882.401.872 RNA: 2.417.194 3.824.569.584 Protein: 11.223.078 3.761.205.880

Białkowe bazy danych SWISS-PROT, Szwajcaria RefSeq Protein (NCBI), USA UniProt = SwissProt + PIR + TrEMBL

Białkowe bazy danych SWISS-PROT, Szwajcaria RefSeq Protein (NCBI), USA UniProt = SwissProt + PIR + TrEMBL

Białkowe bazy danych PDB - The Protein Data Bank, USA - struktury trójwymiarowe kwasów nukleinowych i białek

Genomowe bazy danych NCBI Genomic Resources, USA TIGR - The Institute for Genomic Research, USA Ensembl Genome Browser (EBI & Sanger Institute) Genome Browser at the University of California Santa Cruz (UCSC)

NCBI Home Page

The GenBank flatfile (GBFF) LOCUS HUMCFTRM 6129 bp mrna linear PRI 27-APR-1993 DEFINITION Human cystic fibrosis mrna, encoding a presumed transmembrane conductance regulator (CFTR). ACCESSION M28668 VERSION M28668.1 GI:180331 KEYWORDS cystic fibrosis; transmembrane conductance regulator. SOURCE Human, cdna to mrna. ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 6129) AUTHORS Riordan,J.R., Rommens,J.M., Kerem,B., Alon,N., Rozmahel,R., Grzelczak,Z., Zielenski,J., Lok,S., Plavsic,N., Chou,J.-L., Drumm,M.L., Iannuzzi,M.C., Collins,F.S. and Tsui,L.-C. TITLE Identification of the cystic fibrosis gene: cloning and characterization of complementary DNA JOURNAL Science 245 (4922), 1066-1073 (1989) MEDLINE 89368940 PUBMED 2475911 COMMENT A three base-pair deletion spanning positions 1654-1656 is observed in cdnas from cystic fibrosis patients. FEATURES Location/Qualifiers source 1..6129 /organism="homo sapiens" /db_xref="taxon:9606" CDS 133..4575 /note="cystic fibrosis transmembrane conductance regulator" /codon_start=1 /protein_id="aaa35680.1" /db_xref="gi:180332" /translation="mqrsplekasvvsklffswtrpilrkgyrqrlelsdiyqipsvd SADNLSEKLEREWDRELASKKNPKLINALRRCFFWRFMFYGIFLYLGEVTKAVQPLLL <sequence omitted> VTYQIIRRTLKQAFADCTVILCEHRIEAMLECQQFLVIEENKVRQYDSIQKLLNERSL FRQAISPSDRVKLFPHRNSSKCKSKPQIAALKEETEEEVQDTRL" BASE COUNT 1886 a 1181 c 1330 g 1732 t ORIGIN 1 aattggaagc aaatgacatc acagcaggtc agagaaaaag ggttgagcgg caggcaccca 61 gagtagtagg tctttggcat taggagcttg agcccagacg gccctagcag ggaccccagc 121 gcccgagaga ccatgcagag gtcgcctctg gaaaaggcca gcgttgtctc caaacttttt <sequence omitted> 6061 taagaagact gcattatatt tattactgta agaaaatatc acttgtcaat aaaatccata 6121 catttgtgt // The Header The feature table The sequence

FASTA format gi number Accession number Definition line >gi 7144485 gb AAC16332.2 Limulus polyphemus myosin III mrna, complete cds MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKQANKKVALKIIGHIAENLLDIETEYRIY KAVNGIQFFPEFRGAFFKRGERESDNEVWLGIEFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAV QYLHENSIIHRDIRAANIMFSKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNY TCDVWSIGITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYRPCIQ Database Identifiers EIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQPHEKIYVDDLAFLDSP TEEVVLENLEQRYRKGEIYTFAGDVLLTLNPGKVLPLYGDQTAVKYCERGRSDNPPHVFAVADRAYQQML gb GenBank HHKSPQAVILSGVSGSGKSFCTHQVIRHLAFLGAQNKEGMREKLEYLCPLLDTLGNAYTSTNPNSSHFVK emb EMBL ILEVTFTKTGKITGAILFTFLLEARRLTDIPKGERNFHVFYYFYEGLRSEGRLKEFGLEEKNYRYLPELK dbj DDBJ SSNSPEYVKGYQQFLRALTSLAFTEEEIFAIQKVLAAILLLGETEIQNSAAFKLLGAESSELENTLTQDV NARDVYARAMYLRLFSWIVAVVNRQLSFSRLVFGDVYSVTVIDSPGFENGLHNSLHQLCANVISDNLQNY sp SWISS-PROT IQQIIFFKELEEYGEEGVNVPFNLEGGVDHRTLVNKLMDSGQGLLTAISKATQYQRKGESGWMESLQEAD pdbprotein Databank SEELVEFSNVNGKPIVSVKHIFRKVSYDATDLVKKNVEDKTRALTSTMQRSCDPRIRAIFSSENPSPFLS pir PIR SPRRSSIQENMLLPERTVTDSLHSALSSVLNLASTEDPPHLILCMRPQKKELINDYDSKSVQIQLHALNV LETILIRQFGFARRISFVDFLNRYQYLAFDFNENVELTKENCRLLLLRLKMDGWTLGKNKVFLKYYSEEY ref RefSeq LSRIYETHIKKIVKVQAIARKYFVKVRQSKTKPH

Problemy w bazach danych zanieczyszczenie sekwencjami wektorów wykorzystywanymi do klonowania, bakterii, rrna, mtdna i innymi przypadkowymi sekwencjami poziom błędu sekwencji nukleotydowych: 1/10 000 (bardzo dobry), 1/100 (dla raz przeczytanych sekwencji w bazach EST, HTG) poziom błędu sekwencji aminokwasowych: przesunięcie ramki odczytu (frame-shift error) - 5-10% sekwencji; błędnie przetłumaczone na białkowe sekwencje genów (np. błędne określenie eksonów - 10-15%): utrata niektórych eksonów, przetłumaczenie sekwencji intronów występowanie w bazach sekwencji identycznych jako różnych rekordów > tworzenie baz non-redundant

Problemy w bazach danych przypisanie funkcji charakterystycznej dla jednej sekwencji do drugiej sekwencji wykazującej homologię do pierwszej sekwencji sekwencja A funkcja 1 sekwencja B błędne adnotacje z trzeciej i czwartej ręki sekwencja B funkcja 1 sekwencja C Funkcja 1 sekwencja C funkcja 1?? BRAK HOMOLOGII sekwencja A funkcja 1

UniProt, GenBank, RefSeq

GenBank i RefSeq

RefSeq, SwissProt GenBank