PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

Podobne dokumenty
PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH

Podstawy bioinformatyki - biologiczne bazy danych

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

PODSTAWY BIOINFORMATYKI

Bioinformatyczne bazy danych

Bioinformatyczne bazy danych

BIOLOGICZNE BAZY DANYCH GENOMY I ICH ADNOTACJE. Pracownia Informatyczna 2

Database resources of the National Center for Biotechnology Information. Magdalena Malczyk

Bioinformatyczne bazy danych

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

BIOLOGICZNE BAZY DANYCH SYLABUS

Bioinformatyka. Michał Bereta

Bioinformatyka. Michał Bereta

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Kontakt.

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

Bioinformatyka. Bazy danych. Wykład 3. E. Banachowicz. Wykład monograficzny Bioinformatyka. Wykład 3, Zakład Biofizyki Molekularnej IF UAM

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

przedmiotu Nazwa Wydział Nauk Medycznych i Nauk o Zdrowiu Kierunek jednolite studia magisterskie Profil kształcenia (studiów)

Bioinformatyka. Michał Przyłuski

ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI

Bioinformatyka Laboratorium, 30h. Michał Bereta

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Bazy i modele danych

Biologiczne bazy i modele danych

1. KEGG 2. GO. 3. Klastry

Wzorcowe efekty kształcenia dla kierunku studiów biotechnologia studia pierwszego stopnia profil ogólnoakademicki

Jest to dziedzina biologiczna wywodząca się z biotechnologii. Bioinformatyka

Historia Bioinformatyki

Bioinformatyka. z sylabusu...

Politechnika Wrocławska. BIOINFORMATYKA i BIOLOGIA OBLICZENIOWA

Bioinformatyka. wykłady dla I r. studiów magisterskich, biologia (SGGW) 2010/2011. Krzysztof Pawłowski

Wprowadzenie do bioinformatyki

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

Od jakiego pułapu startujemy? matematyka

II WYDZIAŁ LEKARSKI, II ROK

Bioinformatyka. Rodzaje Mutacji

Biologia medyczna, materiały dla studentów

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Bioinformatyka Laboratorium, 30h. Michał Bereta

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

KARTA PRZEDMIOTU. (pieczęć wydziału)

10/9/2013. Bioinformatyka i Biologia Obliczeniowa. BIOINFORMATYKA Co to jest i po co? Czym będziemy zajmować się na kursie: Tematyka wykładu

Bazy danych i biologia

Bioinformatyka. wykłady dla I r. studiów magisterskich, biologia (SGGW) 2007/2008. Wykład 1, 4.X.2007 Krzysztof Pawłowski

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

PODSTAWY BIOINFORMATYKI 3 SEKWENCJONOWANIE GENOMÓW I

Podstawy bioinformatyki dla biotechnologów. plan. Od jakiego pułapu startujemy? Wykład 2. Definicja bioinformatyki

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI ORGANIZACJA ZAJĘĆ BIOINFORMATYKA PRZETWARZANIE I ANALIZA DANYCH

Porównywanie i dopasowywanie sekwencji

PODSTAWY BIOINFORMATYKI WYKŁAD 2 SEKWENCJONOWANIE GENOMÓW

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Techniki molekularne w biologii SYLABUS A. Informacje ogólne

PAKIETY STATYSTYCZNE JOANNA SZYDA TOMASZ SUCHOCKI

Bioinformatyka. Krzysztof Pawłowski. wykłady dla I r. studiów magisterskich, biologia (SGGW) 2012 / 2013

Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu:

Podkowiańska Wyższa Szkoła Medyczna im. Z. i J. Łyko. Syllabus przedmiotowy 2017/ /22 r.

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

KARTA KURSU. Biotechnology in Environmental Protection. Kod Punktacja ECTS* 1

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Bioinformatyka Laboratorium, 30h. Michał Bereta

Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -

PLAN STUDIÓW PODYPLOMOWYCH: DIAGNOSTYKA MOLEKULARNA W ROKU 2019/2020. Nazwa modułu ECTS Semestr I Semestr II. Liczba godzin z.

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

Podstawy bioinformatyki sekwencjonowanie nowej generacji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Generator testów Bioinformatyka wer / 0 Strona: 1

Politechnika Śląska. Wydział, Automatyki, Elektroniki i Informatyki

Budowa kwasów nukleinowych

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA (skrajne daty)

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Zaoczne Liceum Ogólnokształcące Pegaz

Motywacja. Do tej pory: Dzisiaj:

Sylabus Biologia molekularna

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

Sylabus Biologia molekularna

Dopasowanie sekwencji (sequence alignment)

Oprogramowanie dla GWAS

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

Możliwości i potencjalne zastosowania Zintegrowanego Systemu Analitycznego do innowacyjnych i kompleksowych badań molekularnych

BIOTECHNOLOGIA MEDYCZNA

Zastosowanie nowych technologii genotypowania w nowoczesnej hodowli i bankach genów

Rozkład materiału z biologii dla klasy III AD. 7 godz / tyg rok szkolny 2016/17

Transkrypt:

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

BIOINFORMATYKA HISTORIA 1. 1982 utworzenie bazy danych GenBank (NIH) dane ogólnodostępne sekwencje nukleotydów 2. Wprowadzenie sekwencji z projektu mapowania genomu człowieka 3. i innych genomów 4. Eksplozja danych nowa dyscyplina nauki bioinformatyka

GenBank (NCBI) 12. 1982 680 338 pz; 606 sekwencji 02. 2016 207 018 196 067 pz; 190 250 235 sekwencji 02. 2017 228 719 437 638 pz; 199 341 377 sekwencji 01. 2018 249 722 163 594 pz; 206 293 625 sekwencji

SRA (NCBI) - DANE NGS

BIOINFORMATYKA BIOINFORMATYKA odbieranie przechowywanie analiza modelowanie dystrybucja danych związanych z sekwencją DNA i białek

BIOINFORMATYKA BADANIA BIOLOGICZNE IN VIVO IN VITRO IN SILICO

BIOINFORMATYKA GŁÓWNE DZIEDZINY BADAŃ 1. Analiza funkcji genów wpływ genów na obserwowane cechy interakcje pomiędzy genami 2. Badania ewolucyjne porównywanie sekwencji DNA spokrewnienie organizmów konstrukcja drzew filogenetycznych bioróżnorodność 3. Analiza struktury DNA predykcja genów porównywanie sekwencji DNA i białek 4. Modelowanie struktury białek

BIOINFORMATYKA GŁÓWNE DZIEDZINY BADAŃ

BIOINFORMATYKA www.youtube.com/user/genometv

BIOINFORMATYKA ROLA INTERNETU (dane i narzędzia) 1. Przykłady ogólnodostępnych baz danych PubMed OMIM KEGG 2. Przykłady ogólnodostępnych programów BLAST Haploview

BIOINFORMATYKA ROLA INTERNETU (dane dostępne dla wszystkich) 1. Darmowe 2. Wszędzie dostępne 3. Aktualne 4. Korygowane problematyka ochrony danych

BIOINFORMATYKA OBSZARY ZASTOSOWAŃ 1. Medycyna 2. Farmaceutyka 3. Kryminalistyka 4. Rolnictwo 5. Ochrona środowiska

PROJEKTY POZNANIA INNYCH GENOMÓW CAŁKOWICIE ZSEKWENCJONOWANE GENOMY (historia) w ogólnodostępnych bazach danych 1995 Hemophilus influenzae 1996 Saccharomyces cerevisiae ~12 Mb 1998 Caenorhabditis elegans 1998 Plasmodium falciparum ~23 Mb 1999 pierwszy chromosom człowieka 2000 Arabidopsis thaliana ~119 Mb 2000 Drosophila melanogaster ~180 Mb 2005 Mus musculus

Genome (NCBI) - PROJEKTY POZNANIA INNYCH GENOMÓW Marzec Sprzedaż 2017 Styczeń 2018 7 117 4 050 13 009 5 003 90 855 126 842

BIOLOGICZNE BAZY DANYCH Pierwszorzędowe (pierwotne): GenBank, PDB Surowe dane biologiczne, archiwa sekwencji lub dane strukturalne wprowadzane do baz przez naukowców Drugorzędowe (wtórne): SWISS-PROT, PIR Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych informacji z pierwszorzędowych baz danych Specjalistyczne: FlyBase, baza danych HIV Specjalistyczne zagadnienia

Xiong J., Podstawy bioinformatyki

PUŁAPKI W BAZACH DANYCH Dane niekompletne (np. niekompletna adnotacja) Błędy: - błędy technologii (np. sekwenatora), zanieczyszczenia - błędna adnotacja Rozprzestrzenianie błędów Wysoka redundacja informacji (non-redundant RefSeq)

BAZA DANYCH NCBI 1. NCBI 2. Dane gromadzone przez NCBI 3. Przegląd baz danych NCBI: Publikacje naukowe Projekty biologiczne OMIM: fenotypy człowieka Sekwencje DNA Geny Funkcje genów Polimorfizm pojedynczych nukleotydów zawartość metody wyszukiwania

NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION NCBI 1. Utworzone w 1988 2. Dziedziny nauki: biologia molekularna, biochemia, genetyka 3. Zadania Przechowywanie bazy danych Analiza danych oprogramowanie Udostępnianie baz danych i oprogramowania do badań naukowych Koordynacja gromadzenia danych na poziomie międzynarodowym

NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION www.ncbi.nlm.nih.gov/about/index.html

DANE korzystanie Bazy danych Zbiór zintegrowanych baz danych Entrez wprowadzanie NCBI Literatura Artykuły naukowe (PubMed) Książki Grafika Podręczniki nt NCBI Oprogramowanie Analiza sekwencji Manipulowanie danymi Analiza filogenetyczna...

DANE www.ncbi.nlm.nih.gov wprowadzanie dane oprogramowanie literatura

BAZY DANYCH www.ncbi.nlm.nih.gov/sites/gquery

BAZY DANYCH PubMed: Publikacja naukowe

PubMed - PUBLIKACJE NAUKOWE www.ncbi.nlm.nih.gov/sites/entrez?db=pubmed 1. Artykuły naukowe 2. Streszczenia + pełne teksty 3. Zapytania tematyczne np. clinical queries 4. Liczba czasopism: 1. 03.2016: 35 712 2. 03.2017: 46 217 3. 01.2018: 46 508 5. Od 1950 roku

PubMed - PUBLIKACJE NAUKOWE WYSZUKIWANIE PROSTE - AUTOR WYSZUKIWANIE PROSTE - FRAZA 1. Serch PubMed for genome: 1 116 403 2. Serch PubMed for human genome: 143 881 3. Serch PubMed for human genome chromosome 19: 830 4. Serch PubMed for human genome HSA19 13

PubMed - PUBLIKACJE NAUKOWE zależności logiczne WYSZUKIWANIE PRECYZYJNE search builder wyszukiwanie precyzyjne składnia zapytania kryteria wyszukiwania

dane bibliograficzne streszczenie autorzy pełny tekst PubMed - PUBLIKACJE NAUKOWE STRUKTURA REKORDU podobne publikacje cytowania

PubMed - PUBLIKACJE NAUKOWE ZAPYTANIA MEDYCZNE - clinical queries

BAZY DANYCH Books: książki

www.ncbi.nlm.nih.gov/sites/entrez?db=books

BAZY DANYCH BioProject: projekty analiz biologicznych

BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH www.ncbi.nlm.nih.gov/bioproject lista projektów

BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH Nr projektu Nazwa gatunku Kod gatunkurodzaj projektu Cel projektu Data zakończenia

BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH PRZYKŁADY OGRANICZEŃ 1. Search for bovine: 1 904 1 560 2. Search for "Bos taurus" [ORGN]: 937 741 3. Search for "Bos taurus" [ORGN] AND "Genome sequencing" [project data type]: 43 37

BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH

BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH www.ncbi.nlm.nih.gov/bioproject/ ważne projekty

BioProject - PROJEKTY ANALIZ BIOLOGICZNYCH www.ncbi.nlm.nih.gov/bioproject

BAZY DANYCH Taxonomy: zasoby danych dla gatunku

Taxonomy www.ncbi.nlm.nih.gov/sites/taxonomy/?term

BAZY DANYCH dbgap: genotypy + fenotypy

dbgap www.ncbi.nlm.nih.gov/sites/entrez?db=gap dbgap 1. Dane ogólnodostępne Ogólne informacje o próbach danych Fenotypy Wyniki analizy asocjacyjnej, studiów klinicznych 2. Dane o ograniczonym dostępie Wartości fenotypów poszczególnych osobników Struktura spokrewnienia osobników Dodatkowe wyniki

dbgap- zbiory danych Dostępne informacje Liczebność próby danych Struktura danych

dbgap- choroby Fenotypy

BAZY DANYCH Gene: baza genów

Gene INFORMACJE O GENACH www.ncbi.nlm.nih.gov/sites/entrez?db=gene Gene 1. Liczba genów: 17 089 516 2. Pierwszy wpis 30.07.2003 Tuatara

BAZY DANYCH SNP & dbvar

SNP & dbvar - POLIMORFIZMY GENETYCZNE www.ncbi.nlm.nih.gov/sites/entrez?db=snp www.ncbi.nlm.nih.gov/dbvar/content/org_summary 745 SNP

BAZY DANYCH Protein: sekwencje aminokwasów

Protein- INFORMACJE O BIAŁKACH www.ncbi.nlm.nih.gov/sites/entrez?db=protein Protein 1. Sekwencje aminokwasów 2. Translacja DNA z genowych baz danych 3. Integracja informacji z różnych baz danych (poza NCBI) UniProt Protein Data Bank

BAZY DANYCH OMIM: Fenotypy człowieka

OMIM - ONLINE MENDELIAN INHERITANCE IN MAN www.ncbi.nlm.nih.gov/sites/entrez?db=omim OMIM 1. Informacje o fenotypach ludzkich 2. Baza założona w latach 1960-tych (od 1985 online) 3. Zawartość stan 03.2016 / 03.2017 / 01.2018 1. Wpisy do bazy danych: 22 296 / 23 958 / 24 401 2. Fenotypy o znanym podłożu genetycznym: 4 085 / 4 957 / 5 162 3. Fenotypy o nieznanym podłożu genetycznym: 1 708 / 1 789 / 1 591

OMIM - ONLINE MENDELIAN INHERITANCE IN MAN WYSZUKIWANIE PROSTE WYSZUKIWANIE SPECYFICZNE

OMIM - Online Mendelian Inheritance in Man OMIM Gene Map

OMIA - ONLINE MENDELIAN INHERITANCE IN ANIMALS http://omia.angis.org.au/home/ OMIA informacje o fenotypach zwierząt z wyłączeniem człowieka, myszy i szczura

BAZY DANYCH - DGVa www.ebi.ac.uk/dgva

BAZY DANYCH - ENA www.ebi.ac.uk/ena

FORMATY DANYCH Po co? http://software.broadinstitute.org/software/igv/home Przykłady: FASTA FASTQ GenBank Newick SAM VCF BED i inne Mielczarek and Szyda 2016 Magda Mielczarek Podstawy bioinformatyki 2015 58

GenBank Xiong J., Podstawy bioinformatyki

FASTA Prosty i popularny czytelny dla wielu programów do analizy bioinformatycznej Zapis sekwencji kwasów nukleinowych oraz białek Identyfikator sekwencji opis >gi 52693750 dbj AB175071.1 Neomys fodiens mitochondrial cytb gene for cytochrome b, complete cds ATGACCAACTTTCGAAAAACCCATCCATTAATAAA AATTCTTAACAACTCATTCATCGATCTCCCAGCCC CATCAAACATTTCATCATGATGAAATTTCGGGTCC CTTCTAGGATTGTGCCTAGTAATCCAGATCCTGA CTGGCCTCTTTCTAGCAATACATTACACTTCAGAT

Symbol Description Bases represented A Adenine A C Cytosine C G Guanine G 1 T Thymine T U Uracil U W Weak A T S Strong C G M amino A C K Keto G T 2 R purine A G Y pyrimidine C T B not A (B comes after A) C G T D not C A G T H not G A C T 3 V N not T (V comes after T and U) any base (not a gap) A C G A C G T 4

any bases Genom referencyjny Bos taurus (Zimin et al. 2009)

GenBank FASTA PODSTAWY BIOINFORMATYKI