Bioinformatyczne bazy danych

Podobne dokumenty
Bioinformatyczne bazy danych

Bioinformatyczne bazy danych

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH

Podstawy bioinformatyki - biologiczne bazy danych

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

Bioinformatyka. Michał Bereta

Bioinformatyka. Michał Bereta

PODSTAWY BIOINFORMATYKI

Biologiczne bazy i modele danych

Bazy i modele danych

Kontakt.

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Historia Bioinformatyki

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

Bioinformatyka. Bazy danych. Wykład 3. E. Banachowicz. Wykład monograficzny Bioinformatyka. Wykład 3, Zakład Biofizyki Molekularnej IF UAM

Bioinformatyka. Program UGENE

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

Database resources of the National Center for Biotechnology Information. Magdalena Malczyk

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka. Wykład 2 (12.X.2010) I r. studiów magisterskich, biologia (SGGW) Krzysztof Pawłowski

Porównywanie i dopasowywanie sekwencji

BIOLOGICZNE BAZY DANYCH SYLABUS

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

10/9/2013. Bioinformatyka i Biologia Obliczeniowa. BIOINFORMATYKA Co to jest i po co? Czym będziemy zajmować się na kursie: Tematyka wykładu

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Politechnika Wrocławska. BIOINFORMATYKA i BIOLOGIA OBLICZENIOWA

Bioinformatyka. Rodzaje Mutacji

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

Jest to dziedzina biologiczna wywodząca się z biotechnologii. Bioinformatyka

Bioinformatyka. z sylabusu...

BIOLOGICZNE BAZY DANYCH GENOMY I ICH ADNOTACJE. Pracownia Informatyczna 2

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Porównywanie i dopasowywanie sekwencji

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Nowoczesne systemy ekspresji genów

Dopasowanie sekwencji (sequence alignment)

Sekwencjonowanie, przewidywanie genów

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

CZĘŚĆ III OPISPRZEDMIOTU ZAMÓWIENIA (OPZ)

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Generator testów Bioinformatyka wer / 0 Strona: 1

Bazy danych i biologia

ISBN

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowania par sekwencji DNA

Rozdział 1 Wprowadzenie do baz danych. (c) Instytut Informatyki Politechniki Poznańskiej 1

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

Bazy danych i R/Bioconductor

Biblioteka Wirtualnej Nauki

Bioinformatyka. wykłady dla I r. studiów magisterskich, biologia (SGGW) 2010/2011. Krzysztof Pawłowski

2017/2018 WGGiOS AGH. LibreOffice Base

ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Od jakiego pułapu startujemy? matematyka

Bioinformatyka Laboratorium, 30h. Michał Bereta

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

PODSTAWOWE POJĘCIA BAZ DANYCH

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

MS Access - bazy danych

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

KARTA PRZEDMIOTU. (pieczęć wydziału)

Bioinformatyka. Krzysztof Pawłowski. wykłady dla I r. studiów magisterskich, biologia (SGGW) 2012 / 2013

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

Motywacja. Do tej pory: Dzisiaj:

Entrez, wyszukiwarka dla nauk przyrodniczych: globalna kwerenda

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

Podstawy bioinformatyki dla biotechnologów. plan. Od jakiego pułapu startujemy? Wykład 2. Definicja bioinformatyki

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Samouczek: Konstruujemy drzewo

Wprowadzenie do bioinformatyki

Wykład 9: HUMAN GENOME PROJECT HUMAN GENOME PROJECT

PRZYRÓWNANIE SEKWENCJI

OvidSP - Skrócony opis wyszukiwania - Wyszukiwanie proste i złożone,

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

Utwórz strukturę bazy

Aplikacje WWW - laboratorium

ADNOTACJE WARIANTÓW GENETYCZNYCH

Glimmer umożliwia znalezienie regionów kodujących

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Olimpiada Biologiczna

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

Zadania bioinformatyki

Bioinformatyka. Michał Przyłuski

Politechnika Śląska. Wydział, Automatyki, Elektroniki i Informatyki

1. System analizy danych NGS z paneli genów

Laboratorium nr 5. Bazy danych OpenOffice Base.

Transkrypt:

Bioinformatyczne bazy danych

Czym jest bioinformatyka? Bioinformatyka jest nauką integrującą różne dziedziny wiedzy Gruca (2010)

Czym jest bioinformatyka? Bioinformatyka obejmuje technologie wykorzystujące komputery do przechowywania, pozyskiwania i rozpowszechniania danych dotyczących takich makrocząsteczek biologicznych jak DNA, RNA czy białka oraz do manipulowania tymi danymi. Luscombe i in. (2001) Bioinformatyka jest interdyscyplinarną dziedziną nauki obejmującą: - rozwój metod obliczeniowych służących do badania struktury, funkcji i ewolucji genów, białek i całych genomów, - rozwój metod wykorzystywanych do zarządzania i analizy informacji biologicznej gromadzonej w toku badań genomicznych oraz badań prowadzonych z zastosowaniem wysokoprzepustowych technik eksperymentalnych. Higgs, Attwood (2005)

Trochę historii 1950 metoda sekwencjonowania białek metodą degradacji Edmana 1965 Zuckerkandl i Pauling Evolutionary divergence and convergence in proteins ; Molecules as documents of evolutionary history 1965 Margaret Dayhoff Atlas of Protein Sequence and Structure 1970 pierwsze użycie terminu bioinformatyka jako badanie procesów informacyjnych w systemach biologicznych 1970 opracowanie pierwszego algorytmu komputerowego do porównywania sekwencji białkowych (Needleman, Wunsch) 1971 PDB (Protein Data Base) baza krystalograficzna 1977 sekwencjonowanie DNA (Sanger, Maxam, Gilbert) 1977 sekwencja genomu bakteriofaga ΦX174 1977 pierwszy pakiet programów komputerowych do analizy sekwencji DNA (Staden R. Sequence data handling by computer Nucleic Acids Res. 4, 4037-4051)

Gauthier et al. Briefings in Bioinformatics, 2018, 1 16

1979 Los Alamos Sequence Database 1981 EMBL Data Library (European Molecular Biology Laboratory) pierwsze centralne depozytorium sekwencji nukleotydowych 1982 GenBank druga publiczna baza danych sekwencji nukleotydowych 1984 DDBJ (DNA Data Bank of Japan) 1984 PIR (Protein Information Resource) pierwsza publiczna baza danych sekwencji białkowych 1985 FASTP program do porównywania sekwencji białkowych 1988 FASTA program do porównywania sekwencji nukleotydowych 1988 Utworzenie NCBI (National Center for Biotechnology Information) 1990 udostępnienie narzędzia BLAST (Basic Local Alignment Search Tool)

Przełom XX i XXI wieku początek ery sekwencjonowania pełnych genomów 1995 genom Haemophilus influenzae 1997 genom E. coli 1997 genom drożdży S. cerevisiae 1998 genom nicienia Caenorhabditis elegans 1999 genom muszki owocowej 2001 genom człowieka 2005 genom szympansa Rozwój metagenomiki, która zajmuje się uzyskiwaniem i analizą sekwencji genomowych całych populacji a nie pojedynczych osobników. Mikrobiom przewodu pokarmowego człowieka prawie 568 miliardów par zasad. Projekt sekwencjonowania 1000 genomów (ilość wygenerowanych danych przekroczyła 4TB) Projekt sekwencjonowania 100 000 genomów (Wielka Brytania) Projekt sekwencjonowania 100 000 genomów bakterii patogennych Projekt sekwencjonowania genomów 1000 guzów z 33 rodzajów nowotworów (próbki od 11 000 osób)

Biologiczne Bazy Danych Baza danych to komputerowe archiwum wykorzystywane do przechowywania i organizowania danych w taki sposób, żeby zawarte w nich informacje można było w prosty sposób pobierać, wykorzystując różne kryteria wyszukiwania (Xiong, 2006). Trzy kategorie biologicznych baz danych: Pierwszorzędowe (pierwotne) Surowe dane biologiczne, archiwa sekwencji lub dane strukturalne wprowadzane do baz przez naukowców (GenBank, PDB) Drugorzędowe (wtórne) Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych informacji z pierwszorzędowych baz danych (SWISS-PROT, PIR, Ref-Seq) Specjalistyczne (Ribosomal Database Project, HIV Database, OMIM - Online Mendelian Inheritance in Man)

Ile jest biologicznych baz danych? 2017 lista 1737 publicznych baz danych 2016 1685 2015 1608 2014 1552 2013 1512 2012 1380 2001 281

Sekwencyjne Bazy Danych Bazy Sekwencji Nukleotydowych GenBank

Dwa kluczowe źródła bioinformatyczne NCBi i EBI http://www.ebi.ac.uk/ Metabazy: bazy danych kojarzące ze sobą rekordy z wielu typów baz https://www.ncbi.nlm.nih.gov/

Uzyskiwanie danych z wielu baz (45) poprzez system Entrez (Global Cross-database NCBI search)

Podstawowe informacje o ostatniej wersji GenBank Genetic Sequence Data Bank June 15 2018 NCBI-GenBank Flat File Release 226.0 Distribution Release Notes 263,957,884,539 bases, from 209,775,348 reported sequences (260,189,141,631 bases, from 208,452,303 reported sequences April 15 2018) Uncompressed, the Release 226.0 flat files require roughly 894 GB (sequence files only) Pierwsza upubliczniona wersja GenBank (Release 3; December 1982) zawierała 606 sekwencji o łącznej długości 680,338 zasad

Release 100, 15 April 1997 1274747 sequences, 842864309 bases

GENBANK AND WGS STATISTICS

GENBANK AND WGS STATISTICS GenBank WGS W październiku 2017 roku w bazie Sequence Read Archive (SRA) znajdowały się sekwencje o łącznej długości 14 x 10 12 nukleotydów

Pułapki związane z korzystaniem z pierwotnych baz danych - nie można traktować danych sekwencyjnych jako absolutnie niezmiennych i ostatecznych - każda sekwencja w bazach jest wynikiem eksperymentu, czyli mniej lub bardziej dokładnego procesu sekwencjonowania (np. zanieczyszczone sekwencje pełnych genomów eukariotycznych sekwencjami pochodzenia bakteryjnego) - problem błędnych adnotacji (przypisywanie genom funkcji) - Na podstawie przeprowadzonych analiz porównawczych dla 37 modelowych rodzin różnych białek enzymatycznych, które zostały dokładnie scharakteryzowane metodami eksperymentalnymi, pokazano, że automatyczna adnotacja funkcjonalna dla sekwencji aminokwasowych tych enzymów, z wykorzystaniem wybranych baz danych, może być błędna nawet na poziomie kilkudziesięciu procent dla sekwencji białkowych w obrębie danej rodziny. - problem wysokiej redundancji (nadmiarowości) danych

Pułapki związane z korzystaniem z pierwotnych baz danych. Rozwiązanie problemów: RefSeq: drugorzędowa (wtórna) baza danych sekwencji -nieredundantna baza danych, w której połączono sekwencje identyczne z tych samych organizmów oraz fragmenty tej samej sekwencji w jeden rekord -sekwencje białkowe stworzone z jednej sekwencji DNA są ze sobą wyraźnie połączone jako powiązane rekordy -warianty sekwencji pochodzące z tego samego organizmu, charakteryzujące się bardzo niewielkimi różnicami, które mogą wynikać z błędów w sekwencjonowaniu traktuje się jako wyraźnie powiązane rekordy Xiong (2006)

Analiza przykładowych rekordów bazy GenBank Numery dostępu sekwencji nukleotydowych w bazie GenBank: 1 litera + 5 cyfr 2 litery + 6 cyfr Np. sekwencje bezpośrednio zgłaszane do bazy posiadają następujący prefiks: D, AB, LC DDBJ U49845 AF165912 L00727 V,X,Y,Z,AJ,AM, FM,FN,HE,HF, HG,FO,LK,LL, LM,LN,LO,LR, LS,LT U,AF,AY,DQ,EF, EU,FJ,GQ,GU, HM,HQ,JF,JN, JQ,JX,KC,KF, KJ,KM,KP,KR, KT,KU,KX,KY, MF,MG,MH,MK ENA GenBank NM_001017963 NC_012532.1

Tabela cech Nagłówek wyświetlanie sekwencji w formacie FASTA Sekwencja

powrót do formatu GenBank Format FASTA > identyfikator sekwencji w formacie FASTA (pierwszy wiersz zawierający opis sekwencji lub jej nazwę) >sekwencja_1 GCACCCGAGGGCCGGTTCCCCTCACAAAGACCAAG >sekwencja_2 GTCAAGCGTCATTCTGCTGCCAAGCAACGTTGGAA >sekwencja_3 AGCGCAAGGCGCAGATTGCCGCGATACGCCGGTCATCCGGCGATCTCGT... >sekwencja_n

RefSeq The NCBI Handbook (2012)

Podział sekwencji zgodnie z ich typem lub pochodzeniem Gruca (2010)

Sprawdź sekwencje o poniższych numerach dostępowych w sekwencyjnych bazach danych EMBL (ENA) i DDBJ: AF165912 L00727 NM_001017963 NC_012532.1 Zapoznaj się z opcją wyświetlania rekordu w formie graficznej EMBL / NCBI.

Baza NCBI Gene Znajdź geny przez: Wolny tekst np. human muscular dystrophy Niekompletną (częściową) nazwę i podanie więcej niż jednego gatunku np. transporter[title] AND ("Homo sapiens"[orgn] OR "Mus musculus"[orgn]) Numer chromosomu i symbol np. (II[chr] OR 2[chr]) AND adh*[sym] Accession number np. M11313[accn] Nazwę genu (symbol) np. PRNP[sym] Publikację (PubMed ID) np. 11331580[PMID] Ontologie Genów (GO) np. retinol transporter activity"[go] Chromosom i gatunek np. X[CHR] AND human[orgn] Numery Enzyme Commission (EC) np. 5.1.1.1[EC]

Kwalifikatory wyszukiwania w bazie NCBI Nucleotide

Porady dotyczące korzystania z wyszukiwarki NCBI Operatory logiczne AND, OR i NOT powinny być zapisywane wielkimi literami. Domyślnie operator AND łączy dwa wprowadzone terminy. Operatory logiczne działają od lewej do prawej. Jeśli dodasz nawiasy, wprowadzony do nich termin będzie potraktowany jako jedna jednostka. Porównaj wynik wyszukiwania Entrez Gene poniższymi frazami: globin AND promoter OR enhancer globin AND (promoter OR enhancer) Zadania: 1. Gen dla ludzkiego białka lysine demethylase zlokalizowany jest na chromosomie Y. Utwórz zapytanie do bazy NCBI Gene, które da jeden wynik dla właściwego genu. 2. W bazie NCBI Taxonomy znajdź identyfikator dla E. coli K12. Wykorzystując identyfikator i kwalifikator [taxid] znajdź w bazie NCBI Gene rekord dla genu repb, kodującego białko replikacyjne.

Baza Gene zadanie -Wyszukaj w bazie NCBI Gene ludzki gen BRCA1. Zapoznaj się z elementami rekordu w bazie Gene -Podaj lokalizację chromosomową oraz liczbę eksonów genu BRCA1. -Podaj długość genu, mrna i kodowanego białka wykorzystując dane z odpowiednich rekordów bazy RefSeq. -Sprawdź informacje dotyczące genu BRCA1 w bazie SNP (single nucleotide polymorphism). -Korzystając z odpowiednich filtrów wyszukiwania sprawdź ile SNPów ma charakter mutacji frame shift a ile powoduje pojawienie się kodonu STOP.

Baza Nucleotide zadania: 1. Wyszukaj w bazie Nucleotide sekwencje o długości 1000 nt. Zawęź wyniki wyszukiwania do szympansa (użyj chimpanzee lub Pan troglodytes ) 2. Wyszukaj sekwencje nukleotydowe szczura w zakresie od 1500 do 2000 nukleotydów. 3. Znajdź sekwencje aminokwasowe białek krowy o ciężarze molekularnym od 5000 do 10000 Da. 4. Znajdź sekwencje aminokwasowe świni o długości 300 aminokwasów.

Narzędzie do zmiany formatu sekwencji Emboss Seqret http://www.ebi.ac.uk/tools/sfc/emboss_seqret/ 1. Wyszukaj w bazie GenBank sekwencję AF165912. Korzystając z opcji Send zapisz na komputerze plik z sekwencją w formacie GenBank (plik z rozszerzeniem.gb). Korzystając z narzędzia emboss seqret przekształć zapisaną sekwencję do formatu EMBL. 2. Wykorzystaj powyższe narzędzie do utworzenia pliku z sekwencją w formacie EMBL i GenBank z pliku w formacie.ab1 (ćwiczenie 2 sekwencja.ab1).

Pobieranie wielu sekwencji na podstawie ich numerów dostępowych Batchentrez https://www.ncbi.nlm.nih.gov/sites/batchentrez Znajdź w bazie Pubmed artykuł opisujący ewolucję molekularną białka OmpC bakterii z rodzaju Yersinia. Otwórz pełną wersję artykułu. Poszukaj sekcji Supplementary material i otwórz znajdujący się tam plik. Skopiuj wszystkie numery dostępowe sekwencji rozpoczynające się od KR dla gatunku Yersinia intermedia. Utwórz plik tekstowy z pobranymi numerami. Wykorzystaj utworzony plik do pobrania z bazy GenBank sekwencji w formacie FASTA. Inny sposób to wykorzystanie kwalifikatora [accn].

Przeglądarki Genomów NCBI Genome Data Viewer https://www.ncbi.nlm.nih.gov/genome/gdv/ ENSEMBL http://www.ensembl.org USCS https://genome.ucsc.edu/ Zapoznaj się z najnowszymi informacjami dotyczącymi genomu człowieka, korzystając z przeglądarki ENSEMBL i NCBI Genome Data Viewer. Porównaj informacje z wydania GRCh 37 i GRCh 38

Guo i in. (2017) Genomics 109:83-90