Bioinformatyczne bazy danych

Podobne dokumenty
Bioinformatyczne bazy danych

Bioinformatyczne bazy danych

BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH

Podstawy bioinformatyki - biologiczne bazy danych

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

PODSTAWY BIOINFORMATYKI

Bioinformatyka. Michał Bereta

Bioinformatyka. Bazy danych. Wykład 3. E. Banachowicz. Wykład monograficzny Bioinformatyka. Wykład 3, Zakład Biofizyki Molekularnej IF UAM

Biologiczne bazy i modele danych

Bioinformatyka Laboratorium, 30h. Michał Bereta

Historia Bioinformatyki

Bazy i modele danych

Bioinformatyka. Michał Bereta

Bioinformatyka. Wykład 2 (12.X.2010) I r. studiów magisterskich, biologia (SGGW) Krzysztof Pawłowski

Kontakt.

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

BIOLOGICZNE BAZY DANYCH SYLABUS

Porównywanie i dopasowywanie sekwencji

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

Jest to dziedzina biologiczna wywodząca się z biotechnologii. Bioinformatyka

Database resources of the National Center for Biotechnology Information. Magdalena Malczyk

10/9/2013. Bioinformatyka i Biologia Obliczeniowa. BIOINFORMATYKA Co to jest i po co? Czym będziemy zajmować się na kursie: Tematyka wykładu

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

Bioinformatyka. z sylabusu...

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

Politechnika Wrocławska. BIOINFORMATYKA i BIOLOGIA OBLICZENIOWA

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

Porównywanie i dopasowywanie sekwencji

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Dopasowanie sekwencji (sequence alignment)

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Rozdział 1 Wprowadzenie do baz danych. (c) Instytut Informatyki Politechniki Poznańskiej 1

ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI

BIOLOGICZNE BAZY DANYCH GENOMY I ICH ADNOTACJE. Pracownia Informatyczna 2

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Nowoczesne systemy ekspresji genów

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bazy danych i biologia

przedmiotu Nazwa Wydział Nauk Medycznych i Nauk o Zdrowiu Kierunek jednolite studia magisterskie Profil kształcenia (studiów)

Od jakiego pułapu startujemy? matematyka

CZĘŚĆ III OPISPRZEDMIOTU ZAMÓWIENIA (OPZ)

Dopasowania par sekwencji DNA

Bioinformatyka. Rodzaje Mutacji

Wprowadzenie do bioinformatyki

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Generator testów Bioinformatyka wer / 0 Strona: 1

Wzorcowe efekty kształcenia dla kierunku studiów biotechnologia studia pierwszego stopnia profil ogólnoakademicki

1. KEGG 2. GO. 3. Klastry

ISBN

Podstawy bioinformatyki dla biotechnologów. plan. Od jakiego pułapu startujemy? Wykład 2. Definicja bioinformatyki

Bioinformatyka. wykłady dla I r. studiów magisterskich, biologia (SGGW) 2010/2011. Krzysztof Pawłowski

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

PODSTAWY BIOINFORMATYKI ORGANIZACJA ZAJĘĆ BIOINFORMATYKA PRZETWARZANIE I ANALIZA DANYCH

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Bioinformatyka. Program UGENE

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

Bioinformatyka wykład 10

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Sekwencjonowanie, przewidywanie genów

Politechnika Śląska. Wydział, Automatyki, Elektroniki i Informatyki

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

Wprowadzenie do biologii molekularnej.

Samouczek: Konstruujemy drzewo

Bioinformatyka Laboratorium, 30h. Michał Bereta

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Motywacja. Do tej pory: Dzisiaj:

KARTA PRZEDMIOTU. (pieczęć wydziału)

Bioinformatyka. Krzysztof Pawłowski. wykłady dla I r. studiów magisterskich, biologia (SGGW) 2012 / 2013

Bioinformatyka. Michał Przyłuski

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO

Zadania bioinformatyki

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Bioinformatyka wykład 8, 27.XI.2012

PRZYRÓWNANIE SEKWENCJI

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -

Glimmer umożliwia znalezienie regionów kodujących

BIOINFORMATYKA. edycja wykład 2 BAZY DANYCH. dr Jacek Śmietański jacek.smietanski@ii.uj.edu.pl

Bioinformatyka wykład 11, 11.I.2011 Białkowa bioinformatyka strukturalna c.d.

Drożdże piekarskie jako organizm modelowy w genetyce

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Bioinformatyka wykład 3.I.2008

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Wykład 5 Dopasowywanie lokalne

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Bazy danych i R/Bioconductor

Biologia medyczna, materiały dla studentów

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

Transkrypt:

Bioinformatyczne bazy danych

Czym jest bioinformatyka? Bioinformatyka jest nauką integrującą różne dziedziny wiedzy Gruca (2010)

Czym jest bioinformatyka? Bioinformatyka obejmuje technologie wykorzystujące komputery do przechowywania, pozyskiwania i rozpowszechniania danych dotyczących takich makrocząsteczek biologicznych jak DNA, RNA czy białka oraz do manipulowania tymi danymi. Luscombe i in. (2001) Bioinformatyka jest interdyscyplinarną dziedziną nauki obejmującą: - rozwój metod obliczeniowych służących do badania struktury, funkcji i ewolucji genów, białek i całych genomów, - rozwój metod wykorzystywanych do zarządzania i analizy informacji biologicznej gromadzonej w toku badań genomicznych oraz badań prowadzonych z zastosowaniem wysokoprzepustowych technik eksperymentalnych. Higgs, Attwood (2005)

Trochę historii 1950 metoda sekwencjonowania białek metodą degradacji Edmana 1965 Zuckerkandl i Pauling Evolutionary divergence and convergence in proteins ; Molecules as documents of evolutionary history 1965 Margaret Dayhoff Atlas of Protein Sequence and Structure 1970 pierwsze użycie terminu bioinformatyka jako badanie procesów informacyjnych w systemach biologicznych 1970 opracowanie pierwszego algorytmu komputerowego do porównywania sekwencji białkowych (Needleman, Wunsch) 1971 PDB (Protein Data Base) baza krystalograficzna 1977 sekwencjonowanie DNA (Sanger, Maxam, Gilbert) 1977 sekwencja genomu bakteriofaga ΦX174 1977 pierwszy pakiet programów komputerowych do analizy sekwencji DNA (Staden R. Sequence data handling by computer Nucleic Acids Res. 4, 4037-4051)

1979 Los Alamos Sequence Database 1981 EMBL Data Library (European Molecular Biology Laboratory) pierwsze centralne depozytorium sekwencji nukleotydowych 1982 GenBank druga publiczna baza danych sekwencji nukleotydowych 1984 DDBJ (DNA Data Bank of Japan) 1984 PIR (Protein Information Resource) pierwsza publiczna baza danych sekwencji białkowych 1985 FASTP program do porównywania sekwencji białkowych 1988 FASTA program do porównywania sekwencji nukleotydowych 1988 Utworzenie NCBI (National Center for Biotechnology Information) 1990 udostępnienie narzędzia BLAST (Basic Local Alignment Search Tool)

Przełom XX i XXI wieku początek ery sekwencjonowania pełnych genomów 1995 genom Haemophilus influenzae 1997 genom E. coli 1997 genom drożdży S. cerevisiae 1998 genom nicienia Caenorhabditis elegans 1999 genom muszki owocowej 2001 genom człowieka 2005 genom szympansa Program 1000 genomów (ilość wygenerowanych danych przekroczyła 4TB) Program 100 000 genomów. Program 100 000 genomów bakterii patogennych. Rozwój metagenomiki, która zajmuje się uzyskiwaniem i analizą sekwencji genomowych całych populacji a nie pojedynczych osobników. Mikrobiom przewodu pokarmowego człowieka prawie 568 miliardów par zasad.

Biologiczne Bazy Danych Baza danych to komputerowe archiwum wykorzystywane do przechowywania i organizowania danych w taki sposób, żeby zawarte w nich informacje można było w prosty sposób pobierać, wykorzystując różne kryteria wyszukiwania (Xiong, 2006). Trzy kategorie biologicznych baz danych: Pierwszorzędowe (pierwotne) Surowe dane biologiczne, archiwa sekwencji lub dane strukturalne wprowadzane do baz przez naukowców (GenBank, PDB) Drugorzędowe (wtórne) Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych informacji z pierwszorzędowych baz danych (SWISS-PROT, PIR, Ref-Seq) Specjalistyczne (Ribosomal Database Project, HIV Database, OMIM - Online Mendelian Inheritance in Man)

Ile jest biologicznych baz danych? 2016 lista 1685 publicznych baz danych 2015 1608 2014 1552 2013 1512 2012 1380 2001 281

Najnowsze bazy danych przykład specjalistycznych baz danych

Najnowsze bazy danych przykład specjalistycznych baz danych c.d.

Sekwencyjne Bazy Danych Bazy Sekwencji Białkowych 67,940,995 rekordów 22,761,818,136 aminokwasów TrEMBL Swiss-Prot

Sekwencyjne Bazy Danych Bazy Sekwencji Nukleotydowych GenBank

Dwa kluczowe źródła bioinformatyczne NCBi i EBI http://www.ebi.ac.uk/ Metabazy: bazy danych kojarzące ze sobą rekordy z wielu typów baz https://www.ncbi.nlm.nih.gov/

Uzyskiwanie danych z wielu baz poprzez system Entrez (Global Cross-database NCBI search)

Podstawowe informacje o ostatniej wersji GenBank Genetic Sequence Data Bank August 15 2016 NCBI-GenBank Flat File Release 215.0 Distribution Release Notes 196,120,831 loci, 217,971,437,647 bases, from 196,120,831 reported sequences Uncompressed, the Release 215.0 flat files require roughly 790 GB (sequence files only) Pierwsza upubliczniona wersja GenBank (Release 3; December 1982) zawierała 606 sekwencji o łącznej długości 680,338 zasad

Release 100, 15 April 1997 1274747 sequences, 842864309 bases

GENBANK AND WGS STATISTICS GenBank WGS

GENBANK AND WGS STATISTICS GenBank WGS

Pułapki związane z korzystaniem z pierwotnych baz danych - nie można traktować danych sekwencyjnych jako absolutnie niezmiennych i ostatecznych - każda sekwencja w bazach jest wynikiem eksperymentu, czyli mniej lub bardziej dokładnego procesu sekwencjonowania (np. zanieczyszczone sekwencje pełnych genomów eukariotycznych sekwencjami pochodzenia bakteryjnego) - problem błędnych adnotacji (przypisywanie genom funkcji) - Na podstawie przeprowadzonych analiz porównawczych dla 37 modelowych rodzin różnych białek enzymatycznych, które zostały dokładnie scharakteryzowane metodami eksperymentalnymi, pokazano, że automatyczna adnotacja funkcjonalna dla sekwencji aminokwasowych tych enzymów, z wykorzystaniem wybranych baz danych, może być błędna nawet na poziomie kilkudziesięciu procent dla sekwencji białkowych w obrębie danej rodziny. - problem wysokiej redundancji (nadmiarowości) danych

Pułapki związane z korzystaniem z pierwotnych baz danych. Rozwiązanie problemów: RefSeq: drugorzędowa (wtórna) baza danych sekwencji -nieredundantna baza danych, w której połączono sekwencje identyczne z tych samych organizmów oraz fragmenty tej samej sekwencji w jeden rekord -sekwencje białkowe stworzone z jednej sekwencji DNA są ze sobą wyraźnie połączone jako powiązane rekordy -warianty sekwencji pochodzące z tego samego organizmu, charakteryzujące się bardzo niewielkimi różnicami, które mogą wynikać z błędów w sekwencjonowaniu traktuje się jako wyraźnie powiązane rekordy Xiong (2006)

Pułapki związane z korzystaniem z pierwotnych baz danych. Rozwiązanie problemów z błędną adnotacją: Gene Ontology (GO) Ontologia Genów -standaryzacja opisów funkcjonalnych białek -GO wykorzystuje sformalizowane słownictwo do opisu funkcji molekularnej, procesów biologicznych i komponentów komórkowych -w każdym zestawie informacji używa się niepowtarzalnego zbioru słownictwa Oksydaza cytochromu c Proces biologiczny transport elektronów Komponent komórkowy Funkcja molekularna wewnętrzna błona mitochondrium aktywność oksydoreduktazy działającej na grupę hemową donorów z tlenem jako akceptorem https://www.ebi.ac.uk/quickgo/

RefSeq The NCBI Handbook (2012)

Analiza przykładowych rekordów bazy GenBank U49845 AF165912 L00727 NM_001017963 NC_012532.1

Podział sekwencji zgodnie z ich typem lub pochodzeniem Gruca (2010)