Bazy danych i biologia

Podobne dokumenty
Bioinformatyka. Bazy danych. Wykład 3. E. Banachowicz. Wykład monograficzny Bioinformatyka. Wykład 3, Zakład Biofizyki Molekularnej IF UAM

Bioinformatyka. Michał Bereta

Tworzenie aplikacji bazodanowych

BIOLOGICZNE BAZY DANYCH SYLABUS

Rozdział 1 Wprowadzenie do baz danych. (c) Instytut Informatyki Politechniki Poznańskiej 1

Bioinformatyczne bazy danych

Bioinformatyka. Michał Bereta

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

Bioinformatyczne bazy danych

Plan. Wprowadzenie. Co to jest APEX? Wprowadzenie. Administracja obszarem roboczym

PODSTAWY BIOINFORMATYKI

Bioinformatyka. z sylabusu...

PRZEWODNIK PO PRZEDMIOCIE

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania

PRZEWODNIK PO PRZEDMIOCIE

KARTA PRZEDMIOTU. (pieczęć wydziału)

Bioinformatyka 2 (BT172) Struktura i organizacja kursu

Podyplomowe Studium Informatyki w Bizniesie Wydział Matematyki i Informatyki, Uniwersytet Łódzki specjalność: Tworzenie aplikacji w środowisku Oracle

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Wprowadzenie do metodologii modelowania systemów informacyjnych. Strategia (1) Strategia (2) Etapy Ŝycia systemu informacyjnego

Liczba godzin 1,2 Organizacja zajęć Omówienie programu nauczania 2. Tematyka zajęć

Ekspert MS SQL Server Oferta nr 00/08

Organizacja zajęć BAZY DANYCH II WYKŁAD 1. Plan wykładu. SZBD Oracle

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2015/2016

Bazy danych 2. Wykład 1

KARTA PRZEDMIOTU 1,5 1,5

Włodzimierz Dąbrowski, Przemysław Kowalczuk, Konrad Markowski. Bazy danych ITA-101. Wersja 1

Technologia informacyjna (IT - Information Technology) dziedzina wiedzy obejmująca:

Dane wejściowe. Oracle Designer Generowanie bazy danych. Wynik. Przebieg procesu

REFERAT PRACY DYPLOMOWEJ

Rozdział 3. ROZWÓJ APLIKACJI CENTRALNEJ

Pojęcie systemu baz danych

PRZEWODNIK PO PRZEDMIOCIE

Wykład I. Wprowadzenie do baz danych

Serwery LDAP w środowisku produktów w Oracle

Usługi analityczne budowa kostki analitycznej Część pierwsza.

ORGANIZACJA ZAJĘĆ BAZY DANYCH PLAN WYKŁADU SCHEMAT SYSTEMU INFORMATYCZNEGO

Tematy projektów Edycja 2014

Bioinformatyczne bazy danych

Prezentacja specjalności Inżynieria Systemów Informatycznych

Systemy GIS Systemy baz danych

Wrocławska Wyższa Szkoła Informatyki Stosowanej. Bazy danych. Dr hab. inż. Krzysztof Pieczarka.

Scenariusz lekcji. scharakteryzować elementy bazy danych; opisać sposób zaprojektowania bazy danych;

ZAŁOŻENIA TECHNICZNO-TECHNOLOGICZNE SYSTEMU BUDOWANEGO W RAMACH PROJEKTU

PRZEWODNIK PO PRZEDMIOCIE

Systemy obiegu informacji i Protokół SWAP "CC"

System informacji edukacyjnej regionu kujawsko-pomorskiego

BIOLOGICZNE BAZY DANYCH GENOMY I ICH ADNOTACJE. Pracownia Informatyczna 2

epuap Opis standardowych elementów epuap

Problemy optymalizacji, rozbudowy i integracji systemu Edu wspomagającego e-nauczanie i e-uczenie się w PJWSTK

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

Ramowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści

Bazy danych i ich aplikacje

System INTEGRYB jako zintegrowane repozytorium danych umożliwiające zaawansowaną analitykę badawczą

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Bazy i modele danych

Bazy danych Wykład zerowy. P. F. Góra

Struktura prezentacji

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną. ćwiczenia 30 zaliczenie z oceną

Tomasz Grześ. Systemy zarządzania treścią

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2013/2014

Oferta szkoleniowa Yosi.pl 2012/2013

Jak spełnić wymagania Pilotażu otwartych danych badawczych w Horyzoncie 2020?

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH

Modernizacja systemu gromadzenia i przetwarzania informacji hydrogeologicznych

Database resources of the National Center for Biotechnology Information. Magdalena Malczyk

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

SZKOLENIE: Administrator baz danych. Cel szkolenia

PROJEKT Z BAZ DANYCH

Microsoft Class Server. Waldemar Pierścionek, DC EDUKACJA

Gry społecznościowe. wykład 0. Joanna Kołodziejczyk. 24 lutego Joanna Kołodziejczyk Gry społecznościowe 24 lutego / 11

ISBN

K1A_W11, K1A_W18. Egzamin. wykonanie ćwiczenia lab., sprawdzian po zakończeniu ćwiczeń, egzamin, K1A_W11, K1A_W18 KARTA PRZEDMIOTU

PAŃSTWOWA WYŻSZA SZKOŁA ZAWODOWA W NOWYM SĄCZU SYLABUS PRZEDMIOTU. Obowiązuje od roku akademickiego: 2011/2012

Kurs OPC S7. Spis treści. Dzień 1. I OPC motywacja, zakres zastosowań, podstawowe pojęcia dostępne specyfikacje (wersja 1501)

Uniwersytet Łódzki Wydział Matematyki i Informatyki, Katedra Analizy Nieliniowej. Wstęp. Programowanie w Javie 2. mgr inż.

1. KEGG 2. GO. 3. Klastry

KARTA PRZEDMIOTU. 10. WYMAGANIA WSTĘPNE: technologia informacyjna na poziomie szkoły średniej.

Biologiczne bazy i modele danych

Hurtownie danych wykład 5

Oracle Application Express -

Szkolenie: Testowanie wydajności (Performance Testing)

Technologia informacyjna

Shapefile, GeoPackage czy PostGIS. Marta Woławczyk (QGIS Polska)

Technologie GIS - opis przedmiotu

KARTA PRZEDMIOTU. Programowanie aplikacji internetowych

Spis treści. Przedmowa

Kontakt.

Konferencja Biblioteka Akademicka: Infrastruktura Uczelnia Otoczenie Gliwice, października 2013 r.

INFORMATYKA Pytania ogólne na egzamin dyplomowy

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

PRZEWODNIK PO PRZEDMIOCIE

Karta (sylabus) modułu/przedmiotu Mechanika i Budowa Maszyn Studia I stopnia

Aplikacja testowej wersji tezaurusa w systemie komputerowym ALEPH w Bibliotece CIOP-PIB

tel. (+48 81) /22 fax (+48 81) Cel przedmiotu

14. Przedmiot: N/PM2012/11/14/I1 INFORMATYKA moduł 1 Semestr. Liczba tygodni Liczba godzin w tygodniu Liczba godzin w semestrze ECTS

Transkrypt:

Bazy danych i biologia Biologiczne Aplikacje Baz Danych Politechnika Poznańska dr inż. Anna Leśniewska alesniewska@cs.put.poznan.pl

Biological databases play a central role in bioinformatics. They offer scientists the opportunity to access a wide variety of biologically relevant data, including the genomic sequences of an increasingly broad range of organisms.... Andreas D. Baxevanis The importance of Biological Databases in Biological Discovery (1, sep 2009) Wprowadzenie Biologiczne Aplikacje Bazy danych

O czym będziemy mówić na wykładach? Plan wykładów: Wprowadzenie do świata biologicznych baz danych Schodzimy głębiej czyli bazy danych od podszewki: użytkownik, autoryzacja, uwierzytelnianie, struktura, tabela, sekwencje etc. Relacyjny model danych i modelowanie związków encji Transformacja do modelu relacyjnego i indeksy w bazie danych Transakcje w bazie danych Tworzenie aplikacji i interfejsy do bazy (jdbc, pdo, R, Apex) Bazy danych nurtu NoSQL na przykładzie baz MongoDB, Redis i Cassandra Prezentacje Biologiczne Bazy Danych Zaliczenie: test końcowy

Laboratoria Plan laboratoriów: Uczymy się korzystać z gotowych biologicznych baz danych (BioMart etc.) Autoryzacja w bazie danych (uprawnienia w bazie danych) Oracle Data Modeler i zadania z modelowania i tworzenia diagramów związków encji Tworzymy tabele, indeksy i inne struktury w bazie danych i transformacja do modelu relacyjnego Transakcje w bazie danych Tworzenie prostych aplikacji, tutoriale Bazy nurtu NoSQL - tutoriale Prezentacja gotowych projektów

Zaliczenie - wykład Obecność na wykładach promowana następująco: >= 12 wykładów bdb 11 wykładów db + 10 wykładów db 9 wykładów dst + 8 wykładów dst < 7 wykładów ndst lub test Test obejmujący wiedzę z zakresu wiedzy prezentowanej na wykładach

Zaliczenie - laboratoria Projekt Prezentacja na temat wybranej Biologicznej Bazy Danych

Czym jest baza danych? Wygodny sposób na pracę z ogromną ilością danych Umożliwia efektywne przechowywanie, wyszukiwanie i przetwarzanie danych Przed analizą konieczne jest złożenie w jedno scentralizowane źródło danych i udostępnienie użytkownikom Baza danych

Dlaczego bazy danych? Umożliwia obsługę i udostępnianie dużych ilości danych również biologicznych Wspiera analizę na dużą skalę Powoduje, że mamy łatwy dostęp do danych również aktualizację danych Łączy wiedzę uzyskaną z różnych dziedzin tak jak w naszym przypadku np. obszarów biologii i medycyny

Co rozumiemy przez aplikacje? Aplikacja, program użytkowy konkretny, ze względu na oferowaną użytkownikom funkcjonalność, element oprogramowania użytkowego aplikacja mobilna raport formularz aplikacja www program wsadowy

Architektura systemu bazy danych Użytkownicy końcowi (naiwni) Interfejs użytkownika Aplikacja isql*plus Aplikacja WWW Aplikacja formatka 1 Aplikacja formatka 2 Aplikacja raport Administrator Użytkownik zaawansowany Programiści 4GL Narzędzia SQL*Plus Narzędzia SQL*Forms Narzędzia SQL*Report Serwer aplikacji Aplikacja C/C++ Aplikacja J2EE OCI JDBC System Zarządzania Bazą Danych Schemat Dane SQL Baza danych

Baza danych Oracle 11g Adres serwera: admlab2-main.cs.put.poznan.pl dblab01 Użytkownicy: BINFnumer_indeksu, np. BINF12345 hasło początkowe: BINFnumer_indeksu nazwa bazy danych: dblab01

Biologiczne bazy danych Typ bazy danych Typ informacji Bibliograficzne Literatura Taksonomiczne Klasyfikacje Kwasów Nukleinowych Informacje DNA Genomowe Informacje o genach Białkowe Struktura białkowa Enzymy/metabol. ścieżki Ścieżki metaboliczne

Trochę historii... Bourne PE., Westbrook J, Berman HM (PDB, zał. 1971) The Protein Data Bank and lessons in data management Bairoch A., Boeckmann B, Ferro S, Gesteiger E (Swiss-Prot, zał. 1986) Swiss-Prot: Juggling between evolution and stability Birney E.,Clamp M. (ENSEMBL, zał.1999) Biological database design and implementation Dwight SS, Balakrishnan R et al. (SGD, zał. 1996) Saccharomyces genome database: Underlying principles and organisation 90te www.ncbi.nlm.nih.gov udostępnione przez Internet oraz CDROM www.rcsb.org

Tworzenie biologicznych baz danych Tworzenie biologicznych baz danych w niczym nie różni się od tworzenia baz danych z innych dziedzin Ale? Problem komunikacji biolog informatyk może być problemem

Problemy komunikacyjne

Tworzenie biologicznej bazy danych Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego 1 osoba ekspert w obu dziedzinach 2 osoby problem komunikacji, odmienne postrzeganie problemów i sposobów rozwiązań

Tworzenie biologicznej bazy danych Prostota i sprawdzone rozwiązania Nie mieszać innowacji bio i informatycznych w jednym produkcie Tak zaprojektować aby była możliwość rozbudowy Nie zgubić biologicznego problemu leżącego u podstaw projektu na rzecz technologii

Tworzenie biologicznej bazy danych Potrzebna przejrzysta wizja celu i sposobu działania Dla właściwej funkcjonalności i spełnienia założonej roli BBD, jej projekt (interfejs użytkownika oraz organizacja danych) powinien powstać pod dyktando biologii, nie informatyki Zastosowanie narzuconego słownictwa (ang. Controlled vocabulary), np. do opisów ontologii genów

Specyfika biologicznych baz danych Projekt bazy danych musi wyjść naprzeciw oczekiwaniom użytkowników przewidzieć i umożliwić określony sposób przeglądania danych przez biologów Jedną z głównych motywacji tworzenia baz danych jest odkrywanie nowych zależności pomiędzy danymi i wtórna interpretacja danych, a nie samo przechowywanie danych Narzędzia do porównywania, wizualizacji oraz analizy danych

Specyfika biologicznych baz danych Interpretacja biologicznych danych przechowywanych w bazie danych może ulec zmianie w czasie np. Adnotacja genomu referencyjnego Nieostra granica pomiędzy daną niezmienną a daną interpretowalną np. Dane z eksperymentów mikromacierzowych można traktować jako podstawowe informacje o ekspresji, ale dane te są obrabiane przez zdeponowaniem w bazach danych

Klasyfikacja biologicznych baz danych Podział ze względu na rodzaj przechowywanych danych Pierwotne (Primary databases) Wtórne (Secondary databases) Złożone (Composite databases) Podział ze względu na treść przechowywanych danych Sekwencje Struktury i związane z nimi anotacje

Bazy danych sekwencji NCBI : http://www.ncbi.nlm.nih.gov/ NCBI, at the NIH campus, USA EMBL : http://www.embl-heidelberg.de/ European Molecular Biology Laboratory, UK DDBJ : http://www.ddbj.nig.ac.jp DNA Databank of Japan

Międzynarodowa współpraca

Serwis do analizy sekwencji białkowych ExPASy Expert Protein Analysis System www.expasy.ch Baza UniProt Knowledgebase składa się z : UniProtKB/SwissProt protein knowledgebase UniProt/TrEMBL computer-annotated suplement do Swiss-Prot bezpośrednie tłumaczenie z EMBL na Swiss-Prot F F f

a Swiss-Prot entry overview Entry name Accession number sequence

Protein name Gene name Taxonomy

References

Comments

Cross-references

Keywords

Feature table (sequence description)

National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov

NCBI narzędzia http://www.ncbi.nlm.nih.gov/guide/all/#tools_

Entrez Global Query Cross-Database Search System http://www.ncbi.nlm.nih.gov/gquery

Projekt Ensembl

Ensembl

Ensembl genome browser

Ensembl dane

Struktura baz danych

Ile jest biologicznych baz danych?

database w bazie PubMed 30000 25000 20000 15000 10000 5000 0 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014 2016 2018

Katalogi biologicznych baz danych http://www.oxfordjournals.org/nar/database/a 2000 ok. 250 baz danych 2018 > 1600 baz danych

Czasopisma biobazodanowe Od 1996 Specjalny numer NAR Topowe Bazy Danych, nowe obiecujące bazy, aktualizacje Od 2010 Database The Journal of Biological Databases and Curation Platforma wymiany pomysłów i opinii dla twórców, kuratorów oraz użytkowników baz danych

Nucleic Acid Research Database Issue

Rola baz danych w społeczności (bio)naukowej Sposób organizacji danych Miejsce składowania wyników (bazy pierwotne) Źródło danych, np. Z innych projektów zestawy testowe, możliwość porównania wyników, weryfikacja danych Sposób na pozyskanie nowych informacji (integracja danych) Identyfikacja dorobku naukowego konkretnej osoby

Istnieje ogromna liczba biologicznych baz danych, a w nich cenne informacje Nawet najlepsze bazy danych nie mają wszystkich informacji W przypadku informacji biologicznej sekwencja stanowi często bardziej precyzyjny identyfikator niż nazwa genu