Bazy danych i biologia Biologiczne Aplikacje Baz Danych Politechnika Poznańska dr inż. Anna Leśniewska alesniewska@cs.put.poznan.pl
Biological databases play a central role in bioinformatics. They offer scientists the opportunity to access a wide variety of biologically relevant data, including the genomic sequences of an increasingly broad range of organisms.... Andreas D. Baxevanis The importance of Biological Databases in Biological Discovery (1, sep 2009) Wprowadzenie Biologiczne Aplikacje Bazy danych
O czym będziemy mówić na wykładach? Plan wykładów: Wprowadzenie do świata biologicznych baz danych Schodzimy głębiej czyli bazy danych od podszewki: użytkownik, autoryzacja, uwierzytelnianie, struktura, tabela, sekwencje etc. Relacyjny model danych i modelowanie związków encji Transformacja do modelu relacyjnego i indeksy w bazie danych Transakcje w bazie danych Tworzenie aplikacji i interfejsy do bazy (jdbc, pdo, R, Apex) Bazy danych nurtu NoSQL na przykładzie baz MongoDB, Redis i Cassandra Prezentacje Biologiczne Bazy Danych Zaliczenie: test końcowy
Laboratoria Plan laboratoriów: Uczymy się korzystać z gotowych biologicznych baz danych (BioMart etc.) Autoryzacja w bazie danych (uprawnienia w bazie danych) Oracle Data Modeler i zadania z modelowania i tworzenia diagramów związków encji Tworzymy tabele, indeksy i inne struktury w bazie danych i transformacja do modelu relacyjnego Transakcje w bazie danych Tworzenie prostych aplikacji, tutoriale Bazy nurtu NoSQL - tutoriale Prezentacja gotowych projektów
Zaliczenie - wykład Obecność na wykładach promowana następująco: >= 12 wykładów bdb 11 wykładów db + 10 wykładów db 9 wykładów dst + 8 wykładów dst < 7 wykładów ndst lub test Test obejmujący wiedzę z zakresu wiedzy prezentowanej na wykładach
Zaliczenie - laboratoria Projekt Prezentacja na temat wybranej Biologicznej Bazy Danych
Czym jest baza danych? Wygodny sposób na pracę z ogromną ilością danych Umożliwia efektywne przechowywanie, wyszukiwanie i przetwarzanie danych Przed analizą konieczne jest złożenie w jedno scentralizowane źródło danych i udostępnienie użytkownikom Baza danych
Dlaczego bazy danych? Umożliwia obsługę i udostępnianie dużych ilości danych również biologicznych Wspiera analizę na dużą skalę Powoduje, że mamy łatwy dostęp do danych również aktualizację danych Łączy wiedzę uzyskaną z różnych dziedzin tak jak w naszym przypadku np. obszarów biologii i medycyny
Co rozumiemy przez aplikacje? Aplikacja, program użytkowy konkretny, ze względu na oferowaną użytkownikom funkcjonalność, element oprogramowania użytkowego aplikacja mobilna raport formularz aplikacja www program wsadowy
Architektura systemu bazy danych Użytkownicy końcowi (naiwni) Interfejs użytkownika Aplikacja isql*plus Aplikacja WWW Aplikacja formatka 1 Aplikacja formatka 2 Aplikacja raport Administrator Użytkownik zaawansowany Programiści 4GL Narzędzia SQL*Plus Narzędzia SQL*Forms Narzędzia SQL*Report Serwer aplikacji Aplikacja C/C++ Aplikacja J2EE OCI JDBC System Zarządzania Bazą Danych Schemat Dane SQL Baza danych
Baza danych Oracle 11g Adres serwera: admlab2-main.cs.put.poznan.pl dblab01 Użytkownicy: BINFnumer_indeksu, np. BINF12345 hasło początkowe: BINFnumer_indeksu nazwa bazy danych: dblab01
Biologiczne bazy danych Typ bazy danych Typ informacji Bibliograficzne Literatura Taksonomiczne Klasyfikacje Kwasów Nukleinowych Informacje DNA Genomowe Informacje o genach Białkowe Struktura białkowa Enzymy/metabol. ścieżki Ścieżki metaboliczne
Trochę historii... Bourne PE., Westbrook J, Berman HM (PDB, zał. 1971) The Protein Data Bank and lessons in data management Bairoch A., Boeckmann B, Ferro S, Gesteiger E (Swiss-Prot, zał. 1986) Swiss-Prot: Juggling between evolution and stability Birney E.,Clamp M. (ENSEMBL, zał.1999) Biological database design and implementation Dwight SS, Balakrishnan R et al. (SGD, zał. 1996) Saccharomyces genome database: Underlying principles and organisation 90te www.ncbi.nlm.nih.gov udostępnione przez Internet oraz CDROM www.rcsb.org
Tworzenie biologicznych baz danych Tworzenie biologicznych baz danych w niczym nie różni się od tworzenia baz danych z innych dziedzin Ale? Problem komunikacji biolog informatyk może być problemem
Problemy komunikacyjne
Tworzenie biologicznej bazy danych Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego 1 osoba ekspert w obu dziedzinach 2 osoby problem komunikacji, odmienne postrzeganie problemów i sposobów rozwiązań
Tworzenie biologicznej bazy danych Prostota i sprawdzone rozwiązania Nie mieszać innowacji bio i informatycznych w jednym produkcie Tak zaprojektować aby była możliwość rozbudowy Nie zgubić biologicznego problemu leżącego u podstaw projektu na rzecz technologii
Tworzenie biologicznej bazy danych Potrzebna przejrzysta wizja celu i sposobu działania Dla właściwej funkcjonalności i spełnienia założonej roli BBD, jej projekt (interfejs użytkownika oraz organizacja danych) powinien powstać pod dyktando biologii, nie informatyki Zastosowanie narzuconego słownictwa (ang. Controlled vocabulary), np. do opisów ontologii genów
Specyfika biologicznych baz danych Projekt bazy danych musi wyjść naprzeciw oczekiwaniom użytkowników przewidzieć i umożliwić określony sposób przeglądania danych przez biologów Jedną z głównych motywacji tworzenia baz danych jest odkrywanie nowych zależności pomiędzy danymi i wtórna interpretacja danych, a nie samo przechowywanie danych Narzędzia do porównywania, wizualizacji oraz analizy danych
Specyfika biologicznych baz danych Interpretacja biologicznych danych przechowywanych w bazie danych może ulec zmianie w czasie np. Adnotacja genomu referencyjnego Nieostra granica pomiędzy daną niezmienną a daną interpretowalną np. Dane z eksperymentów mikromacierzowych można traktować jako podstawowe informacje o ekspresji, ale dane te są obrabiane przez zdeponowaniem w bazach danych
Klasyfikacja biologicznych baz danych Podział ze względu na rodzaj przechowywanych danych Pierwotne (Primary databases) Wtórne (Secondary databases) Złożone (Composite databases) Podział ze względu na treść przechowywanych danych Sekwencje Struktury i związane z nimi anotacje
Bazy danych sekwencji NCBI : http://www.ncbi.nlm.nih.gov/ NCBI, at the NIH campus, USA EMBL : http://www.embl-heidelberg.de/ European Molecular Biology Laboratory, UK DDBJ : http://www.ddbj.nig.ac.jp DNA Databank of Japan
Międzynarodowa współpraca
Serwis do analizy sekwencji białkowych ExPASy Expert Protein Analysis System www.expasy.ch Baza UniProt Knowledgebase składa się z : UniProtKB/SwissProt protein knowledgebase UniProt/TrEMBL computer-annotated suplement do Swiss-Prot bezpośrednie tłumaczenie z EMBL na Swiss-Prot F F f
a Swiss-Prot entry overview Entry name Accession number sequence
Protein name Gene name Taxonomy
References
Comments
Cross-references
Keywords
Feature table (sequence description)
National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov
NCBI narzędzia http://www.ncbi.nlm.nih.gov/guide/all/#tools_
Entrez Global Query Cross-Database Search System http://www.ncbi.nlm.nih.gov/gquery
Projekt Ensembl
Ensembl
Ensembl genome browser
Ensembl dane
Struktura baz danych
Ile jest biologicznych baz danych?
database w bazie PubMed 30000 25000 20000 15000 10000 5000 0 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014 2016 2018
Katalogi biologicznych baz danych http://www.oxfordjournals.org/nar/database/a 2000 ok. 250 baz danych 2018 > 1600 baz danych
Czasopisma biobazodanowe Od 1996 Specjalny numer NAR Topowe Bazy Danych, nowe obiecujące bazy, aktualizacje Od 2010 Database The Journal of Biological Databases and Curation Platforma wymiany pomysłów i opinii dla twórców, kuratorów oraz użytkowników baz danych
Nucleic Acid Research Database Issue
Rola baz danych w społeczności (bio)naukowej Sposób organizacji danych Miejsce składowania wyników (bazy pierwotne) Źródło danych, np. Z innych projektów zestawy testowe, możliwość porównania wyników, weryfikacja danych Sposób na pozyskanie nowych informacji (integracja danych) Identyfikacja dorobku naukowego konkretnej osoby
Istnieje ogromna liczba biologicznych baz danych, a w nich cenne informacje Nawet najlepsze bazy danych nie mają wszystkich informacji W przypadku informacji biologicznej sekwencja stanowi często bardziej precyzyjny identyfikator niż nazwa genu