Bioinformatyczne bazy danych poziomy opisu funkcjonowania organizmów

Podobne dokumenty
Bioinformatyka. Michał Bereta

Bioinformatyka. Bazy danych. Wykład 3. E. Banachowicz. Wykład monograficzny Bioinformatyka. Wykład 3, Zakład Biofizyki Molekularnej IF UAM

Bioinformatyka. Michał Bereta

Bioinformatyczne bazy danych

Bioinformatyczne bazy danych

PODSTAWY BIOINFORMATYKI

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

BIOLOGICZNE BAZY DANYCH SYLABUS

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Database resources of the National Center for Biotechnology Information. Magdalena Malczyk

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

Kontakt.

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

Historia Bioinformatyki

Motywacja. Do tej pory: Dzisiaj:

Bazy danych i biologia

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Jest to dziedzina biologiczna wywodząca się z biotechnologii. Bioinformatyka

Bioinformatyka 2 (BT172) Struktura i organizacja kursu

The Office of Scientific and Technical Information (OSTI)

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH

BIOLOGICZNE BAZY DANYCH GENOMY I ICH ADNOTACJE. Pracownia Informatyczna 2

1. KEGG 2. GO. 3. Klastry

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka. z sylabusu...

Genetyka i biologia eksperymentalna studia I stopnia 2017/18/19/20

Bazy i modele danych

Biologiczne bazy i modele danych

Bioinformatyka Laboratorium, 30h. Michał Bereta

Podstawy bioinformatyki - biologiczne bazy danych

Genetyka i biologia eksperymentalna studia I stopnia 2017/18/19

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Bioinformatyka. Rodzaje Mutacji

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

Bioinformatyka Laboratorium, 30h. Michał Bereta

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

Politechnika Wrocławska. BIOINFORMATYKA i BIOLOGIA OBLICZENIOWA

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Genetyka i biologia eksperymentalna studia I stopnia 2018/19/20/21

Public gene expression data repositoris

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

Nowoczesne systemy ekspresji genów

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Bioinformatyczne bazy danych

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

Od jakiego pułapu startujemy? matematyka

Biblioteka Główna im. Jędrzeja Śniadeckiego AWF Warszawa Pracownia Komputerowa. Zagraniczne bazy danych

ISBN

KARTA PRZEDMIOTU. (pieczęć wydziału)

Genetyka i biologia eksperymentalna studia I stopnia 2018/19/20/21

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

Kamila Muraszkowska Znaczenie wąskich gardeł w sieciach białkowych. źródło: (3)

Bioinformatyka wykład 3.I.2008

SciFinder Zawartość bazy

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA

Rozdział 1 Wprowadzenie do baz danych. (c) Instytut Informatyki Politechniki Poznańskiej 1

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

10/9/2013. Bioinformatyka i Biologia Obliczeniowa. BIOINFORMATYKA Co to jest i po co? Czym będziemy zajmować się na kursie: Tematyka wykładu

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

CZĘŚĆ III OPISPRZEDMIOTU ZAMÓWIENIA (OPZ)

Epigenome - 'above the genome'

Podstawy biologii. Informacja, struktura i metabolizm.

Bioinformatyka. wykłady dla I r. studiów magisterskich, biologia (SGGW) 2010/2011. Krzysztof Pawłowski

Przewidywanie struktur białek

EKSPLORACJA DANYCH GENETYCZNYCH BAZY GENBANK Z WYKORZYSTANIEM USŁUG SIECIOWYCH

Wzorcowe efekty kształcenia dla kierunku studiów biotechnologia studia pierwszego stopnia profil ogólnoakademicki

Genetyka i biologia eksperymentalna studia I stopnia 2017/18/19

ZBIERANIE INFORMACJI W INTERNECIE

Kaja Milanowska. Lista publikacji - październik I. Prace oryginalne (rozdziały w książkach zbiorowych, artykuły w czasopismach):

STUDIA I STOPNIA NA KIERUNKU ZASTOSOWANIA FIZYKI W BIOLOGII I MEDYCYNIE. specjalność Biofizyka molekularna

Biblioteka Główna im. Jędrzeja Śniadeckiego AWF Warszawa - Pracownia Komputerowa Zagraniczne bazy danych

Otwarte repozytoria danych a indeksy cytowań Data citation index na Web of Science. Marcin Kapczynski Intellectual Property & Science

ZASTOSOWANIA FIZYKI W BIOLOGII I MEDYCYNIE Specjalność: Projektowanie molekularne i bioinformatyka. 2-letnie studia II stopnia (magisterskie)

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Bioinformatyka, edycja 2016/2017, laboratorium

Bioinformatyka wykład 11, 11.I.2011 Białkowa bioinformatyka strukturalna c.d.

GENOMIKA PROTEOMIKA METABOLOMIKA

ZASTOSOWANIA FIZYKI W BIOLOGII I MEDYCYNIE Specjalność: Biofizyka molekularna. 3-letnie studia I stopnia (licencjackie)

Bioinformatyka wykład I.2009

Podstawy bioinformatyki dla biotechnologów. plan. Od jakiego pułapu startujemy? Wykład 2. Definicja bioinformatyki

Bioinformatyka wykład 10

Kierunek i poziom studiów: Biologia, poziom drugi Sylabus modułu: Filogenetyka i taksonomia roślin i zwierząt dla EKOP

przedmiotu Nazwa Wydział Nauk Medycznych i Nauk o Zdrowiu Kierunek jednolite studia magisterskie Profil kształcenia (studiów)

Wprowadzenie do bioinformatyki

Wybrane techniki badania białek -proteomika funkcjonalna

Proteomika: umożliwia badanie zestawu wszystkich lub prawie wszystkich białek komórkowych

MIKROMACIERZE. dr inż. Aleksandra Świercz dr Agnieszka Żmieńko

Wielofunkcyjne bialko CBC dynamika wiazania konca 5 mrna

Analiza zmienności czasowej danych mikromacierzowych

Techniki biologii molekularnej Kod przedmiotu

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Porównywanie i dopasowywanie sekwencji

Konferencja Biblioteka Akademicka: Infrastruktura Uczelnia Otoczenie Gliwice, października 2013 r.

Możliwości i potencjalne zastosowania Zintegrowanego Systemu Analitycznego do innowacyjnych i kompleksowych badań molekularnych

KARTA KURSU. Metody biologii molekularnej w ochronie środowiska. Molecular biological methods in environmental protection. Kod Punktacja ECTS* 2

Wybrane techniki badania białek -proteomika funkcjonalna

Opis kierunkowych efektów kształcenia w obszarze nauk przyrodniczych na I stopniu kierunku BIOLOGIA

Transkrypt:

Rozdział 12 Bioinformatyczne bazy danych poziomy opisu funkcjonowania organizmów Streszczenie. Bioinformatyczne bazy danych to zbiory, w których zawarte są dane o charakterze biologicznym dotyczące różnych organizmów. Funkcjonowanie badanego organizmu może być analizowane na różnych poziomach molekularnego opisu może to być np. poziom genetyczny, związany z sekwencją DNA/RNA, poziom proteomiczny, związany z sekwencją białka lub jego strukturą, i in. W rozdziale przedstawiono podział bioinformatycznych baz danych ze względu na poziom opisu lub, bardziej konkretnie, ze względu na rodzaj informacji składowanej w bazie. Liczne przykłady baz danych utwierdzą czytelnika w skali prowadzonych badań i różnorodności przechowywanych informacji. 1 Wstęp Kiedy w 1971 roku w Brookhaven National Laboratory zbudowano bazę danych Protein Data Bank (PDB) [1] do przechowywania danych z badań krystalograficznych nad strukturą białek, nikt nie ośmielał się przypuszczać, jakie rozmiary i ile informacji będzie ona zawierać w przyszłości. Wówczas złożono w niej zaledwie 7 struktur przestrzennych molekuł. Z czasem jednak liczba deponowanych w każdym roku w bazie PDB struktur białkowych zaczęła rosnąć od kilku na rok w latach siedemdziesiątych do tysięcy na rok w ostatnich latach [2]. Tak ogromny przyrost danych makromolekularnych był efektem stosowania coraz bardziej zaawansowanych technologii komputerowych wspomagających procesy badawcze. Wzrost ilości danych o charakterze biologicznym przyspieszyło również przyznanie funduszy na badania nad sekwencjami DNA w projekcie Human Genome Project (HGP) [3] rozpoczętym w 1990 roku oraz sprzężony rozwój takich gałęzi nauki jak genomika, proteomika i transkryptomika. Badania nad sekwencjami DNA i sekwencjami aminokwasów białek zaczęły obejmować coraz więcej organizmów. Dodatkowo, oprócz danych pochodzących z badań laboratoryjnych, zaczęto gromadzić masy danych wtórnych, pochodzących z analizy laboratoryjnych danych pierwotnych. Równolegle, zaawansowanej analizie tekstowej text mining zostały poddane wydane dotychczas publikacje naukowe, które zawierały sporą ilość informacji o charakterze biologicznym. Wydobyta w ten sposób informacja została poddana ustrukturalizowaniu i stanowiła niejako trzecie źródło danych o istocie istnienia i funkcjonowania organizmów. Bez wątpienia, wszystkie zebrane informacje należało gromadzić w specjalnie zaprojektowanych bazach danych. Dariusz Mrozek: Politechnika Śląska, Instytut Informatyki, ul. Akademicka 16, 44-100 Gliwice, Polska email: Dariusz.Mrozek@polsl.pl

D. Mrozek Bioinformatyczne bazy danych to zbiory, w których gromadzone są dane o charakterze biologicznym. Najczęściej są to dane pochodzące z badań biochemików i biologów molekularnych, ale również, informacje wyprowadzone w określony sposób z danych pierwotnych. Dane wyprowadzone mogą w dalszej fazie również podlegać analizie, dając odpowiedzi na zasadnicze pytania o biologiczną wartość badanego zagadnienia. Informacje przechowywane w biologicznych bazach danych dotyczą najczęściej: sekwencji DNA, znalezionych genów, ich umiejscowienia w sekwencji, roli w organizmie, produktów ekspresji w postaci białek, sekwencji, struktury i funkcji powstałych białek. Bioinformatyczne bazy danych stały się nieodłącznym elementem każdego instytutu i laboratorium prowadzącego badania nad biologiczną rolą białek podstawowych molekuł funkcjonalnych w każdej żywej komórce organizmu oraz leżącym u ich podstaw uwarunkowaniom genetycznym. Powstały również centralne repozytoria danych zarządzane przez międzynarodowe agencje zajmujące się kolekcjonowaniem danych i ujednoliceniem sposobu ich przechowywania, np. bazy danych utrzymywane przez European Molecular Biology Laboratory (EMBL) i European Bioinformatics Institute (EBI) oraz National Center for Biotechnology Information (NCBI) 1. Dane tych organizacji są dostępne publicznie i nieodpłatnie, a osoby zainteresowane mogą korzystać z szerokiej gamy najnowszych rozwiązań oraz narzędzi dostępu i przetwarzania tych danych. 2 Podział bioinformatycznych baz danych Informacje gromadzone w bioinformatycznych bazach danych mogą na różnym poziomie opisu charakteryzować te wybrane organizmy, które z wielu względów znalazły się w kręgu zainteresowań naukowców. Różnorodność i format przechowywanych opisów spowodował, iż nieodzownym i naturalnym stało się wyodrębnienie określonych grup danych, uwzględniając pewne przechowywane cechy. A zatem podział bioinformatycznych baz danych można wyobrazić sobie następująco: ze względu na źródło pochodzenia danych, ze względu na organizm, dla którego tworzy się kolekcję danych, ze względu na rodzaj przechowywanej informacji lub inaczej, poziom opisu molekularnego. Dwie pierwsze kategorie, wraz z odpowiednimi przykładami baz, zostały omówione w poprzednim rozdziale. Przykłady baz, podane podczas klasyfikacji ze względu na organizm/gatunek, pokazują, że bazy te przechowują dane o różnym charakterze. Organizm, dla którego dane są gromadzone może być opisany na różnym poziomie może to być np. poziom sekwencji nukleotydów DNA, poziom sekwencji aminokwasów lub struktur białek tego organizmu. Pojawia się zatem trzeci sposób klasyfikacji baz danych bioinformatycznych klasyfikacja ze względu na poziom opisu lub, bardziej konkretnie, ze względu na rodzaj informacji gromadzonej w bazie. Zgodnie z tym sposobem wśród biologicznych baz danych można wyróżnić [4]: bazy danych nukleotydów, bazy danych genomów, bazy danych mikromacierzowych, białkowe (proteinowe) bazy danych, literaturowe (bibliograficzne) bazy danych, taksonomiczne bazy danych. 1 EMBL (http://www.embl.org), EBI (http://www.ebi.ac.uk), NCBI (http://www.ncbi.nlm.nih.gov). 118

Bioinformatyczne bazy danych poziomy opisu funkcjonowania organizmów Bazy danych nukleotydów (ang. nucleotide databases) są zbiorami danych o sekwencjach nukleotydów kwasów DNA i różnego typu kwasów RNA dla znanych i zsekwencjonowanych organizmów. Informacje składowane w bazach danych nukleotydów są bezpośrednim efektem światowych projektów sekwencjonowania genomów. Pojedyncza sekwencja będąca ciągiem liter A, T, G, C (dla DNA) lub A, U, G, C (dla RNA) jest zapisywana wraz z dodatkową adnotacją informacyjną o: organizmie pochodzenia, pełnionej w nim funkcji, produktach translacji, wyodrębnionych w sekwencji genach i in. Najbardziej znaną bazą danych nukleotydów jest GenBank [5], będący rezultatem międzynarodowej współpracy o nazwie International Nucleotide Sequence Database Collaboration (INSDC). W skład kooperacji INSDC wchodzą japońska baza DNA Data Bank of Japan (DDBJ) [6] utrzymywana przez Center for Information Biology (CIB) 2, europejska baza EMBL Nucleotide Sequence Database [7] zarządzana przez European Bioinformatics Institute (EBI) z siedzibą w Cambridge w Wielkiej Brytanii oraz amerykański bank informacji genetycznej GenBank kontrolowany przez National Center for Biotechnology Information (NCBI). Wszystkie trzy zrzeszone w INSDC organizacje synchronizują codziennie swoje bazy, dzięki czemu przechowują one niemal te same dane (z dokładnością do jednego dnia). GenBank i stowarzyszone bazy są podzielone dodatkowo na podsekcje ze względu na rodzaje/gatunek organizmów, dla których przechowywane są sekwencje nukleotydów. Podział ten jest podobny do przedstawionego w poprzednim rozdziale. Więcej na temat formy danych oraz przykłady przeszukiwania bazy danych GenBank zostały opisane w rozdziale Sekwencje nukleotydów bazy GenBank w diagnozowaniu schorzeń cukrzycy [8]. Istnieje również pewna grupa baz danych związanych z sekwencjami nukleotydów, mająca jednak specjalne przeznaczenie. Do tego typu baz należą np. bazy genomów (genomowe, ang. genomic databases), które przechowują dane o kompletnych genomach 3 wybranego organizmu lub grupy organizmów. Struktura takich baz i sposób przechowywania informacji mogą być podobne lub znacznie różnić się od sposobu przechowywania sekwencji w banku genów GenBank. Najczęściej zależy to od samych twórców bazy danych. Rys. 1 przedstawia fragment kompletnego genomu bakterii E.coli w formacie Pearsona (FASTA) [9] pochodzący z bazy genomów EMBL Whole Genomes Shotgun [10]. Rys. 1. Fragment kompletnego genomu pałeczki Escherichia coli szczep B7A (nie zamieszczono pełnego ze względu na jego długość 284 206 par bazowych 4 ). Sposób prezentacji (z wykorzystaniem formatu FASTA) podobny jak w bazie nukleotydów GenBank 2 http://www.cib.nig.ac.jp 3 Genom to całość kwasu nukleinowego zawierająca informacje genetyczną organizmu. 4 Ang. base pairs liczba liter sekwencji DNA często podawana jest w tzw. parach bazowych (bp). 119

D. Mrozek Inne bazy genomów to m.in.: Karyn's Genomes [11] (zawiera ogólne informacje o organizmach, których genomy zostały zsekwencjonowane, odnośniki literaturowe i odnośniki do sekwencji nukleotydów w innych bazach), baza genomu myszy Mouse Genome Database (MGD) [12], szczura Rat Genome Database (RGD) [13], muszki owocowej FlyDB [14], bakterii e.coli E.Coli Database Collection (ECDC) [15], mikroorganizmów archaea DOGAN [16] oraz wiele innych. Innym przykładem baz danych związanych z sekwencjami nukleotydów są bazy danych mikromacierzowych (ang. microarray databases) Są to typowe bazy wtórne (wyprowadzone) zgromadzone w nich dane pochodzą z eksperymentów mikromacierzowych bazujących na sekwencjach nukleotydów (rys. 2). Technologia mikromacierzowa pozwala odpowiedzieć na pytanie jakie geny ulegają ekspresji w określonych komórkach organizmu, w określonym czasie i warunkach [4]. Dzięki technologii mikromacierzowej możliwe jest na przykład porównanie ekspresji genów z DNA komórki zdrowej i nowotworowej. Bazy danych mikromacierzowych przechowują najczęściej dane dotyczące macierzy ekspresji genów będącej wynikiem eksperymentu, a także adnotacje dotyczące znalezionych genów, adnotacje dotyczące wprowadzonych do badania próbek Tylko w ten sposób, składując w bazie danych informację o warunkach doświadczenia i dokładny opis badanej komórki, będzie można porównywać ze sobą wyniki uzyskane z różnych eksperymentów mikromacierzowych. Przykładem bazy mikromacierzowej może być europejska ArrayExpress [17] utrzymywana przez EBI oraz GEO (Gene Expression Omnibus) [18] prowadzona przez NCBI. Komórka w stanie 1 mrna cdna hybrydyzacja do mikromacierzy Komórka w stanie 2 skanowanie laserem Rys. 2. Mikromacierz DNA (zwana czasem chipem DNA, macierzą DNA [4]) jest szklaną lub plastikową płytką podzieloną na mikroskopijnej wielkości pola (ang. spots) z różnymi sekwencjami DNA. Próbka lub próbki DNA/RNA oznaczone znacznikiem fluorescencyjnym łączą się z sekwencjami mikromacierzy na zasadzie komplementarności zasad. Pola zawierające próbki z sekwencjami o dużej ekspresji świecą intensywniej w świetle lasera. W ten sposób można badać ekspresję tysięcy genów jednocześnie [19] (źródło obrazu [20]) Białkowe bazy danych (proteinowe bazy danych, ang. protein databases) stanowią doskonałe źródło informacji o budowie białek i pełnionej przez nie funkcji. Ponieważ budowę białka można opisać na różnym poziomie (np. na poziomie sekwencji aminokwasów lub na poziomie struktury przestrzennej), wobec tego powstało wiele specjalizowanych baz skoncentrowanych na określonym opisie. Z jednej strony, istnieją bazy uniwersalne przechowujące dane dotyczące wszystkich gatunków organizmów, tak, jak baza GenBank dla sekwencji nukleotydów. Z drugiej strony, istnieje szereg specjalizowanych baz proteinowych skoncentrowanych na wybranych grupach białek lub wybranym organizmie [4]. Do najbardziej 120

Bioinformatyczne bazy danych poziomy opisu funkcjonowania organizmów znanych uniwersalnych baz sekwencji proteinowych należą UniProt [21] zarządzana przez EBI oraz NCBI Proteins [22] (koncentruje dane z różnych baz stowarzyszonych). UniProt (Universal Protein Resource) jest centralnym repozytorium danych o sekwencjach białek, ich funkcji i klasyfikacji, które łączy informację z trzech baz: (1) UniProt/SwissProt [23] bazy opisanych sekwencji białkowych (ang. annotated sequences), (2) UniProt/ TrEMBL (Translation of EMBL nucleotide sequence database) [24] bazy sekwencji białkowych pochodzących z translacji regionów kodujących (CDS) sekwencji nukleotydów bazy EMBL Nucleotide oraz (3) PIR (Protein Information Resource) [25] najstarszej bazy opisanych sekwencji białkowych. Przykład sekwencji aminokwasów enzymu Homoserine kinase z bazy danych UniProt przedstawiono na rys. 3. Więcej na temat formy danych i sposobów przeszukiwania bazy danych UniProt zostało opisane w rozdziale [26]. Zbiory danych sekwencji aminokwasów bazy NCBI Proteins pochodzą z bazy UniProt/SwissProt, baz: PIR, PRF (Protein Research Foundation) [27], PDB (Protein Data Bank) [1] i z translacji regionów kodujących DNA bazy GenBank. Rys. 3. Sekwencja aminokwasów enzymu 2.7.1.39 Homoserine kinase bakterii Escherichia coli biorącego udział w rozpadzie ATP do ADP i wolnego fosforanu Oprócz uniwersalnych baz danych sekwencji białkowych, istnieje również szereg specjalizowanych baz związanych z sekwencjami. Baza ENZYME [28] zawiera dodatkowe dane potrzebne do opisu enzymów zgodnie z rekomendacją Nomenclature Committee of the International Union of Biochemistry and Molecular Biology (IUBMB). Znajdują się w niej informacje o aktywności katalitycznej enzymu, kofaktorach, używanych nazwach enzymu i synonimach, identyfikator EC (Enzyme Commission), wskaźniki do opisu chorób związanych z nieprawidłowym działaniem lub brakiem enzymu oraz wskaźniki do właściwej sekwencji w bazie danych Swiss/Prot. Baza InterPro [29] grupuje ogromne liczby białek w rodziny (ang. families) bazując na podobieństwie sekwencji aminokwasów. Białka z tej samej rodziny posiadają najczęściej wspólne motywy 5 (ang. motifs) lub dzielą pewne atrybuty funkcjonalne 6. Dane w bazie InterPro pochodzą z innych niezależnych baz związanych z grupowaniem białek w rodziny, takich jak: PROSITE [30], PRINTS [31], Pfam [32], ProDom [33], SMART [34], iproclass [35] i TIGRFAMs [36]. Odrębną inicjatywę w tej dziedzinie stanowi baza SBASE [37]. Dane o klasyfikacji białek składowane są również w takich bazach jak MEROPS [38] czy CluSTr [39]. Z punktu widzenia analizy funkcji białek ogromne znaczenie mają bazy danych struktur białkowych. Główną informację, którą przechowują bazy struktur stanowią współrzędne atomów cząsteczki białka są to tzw. dane makromolekularne. Współrzędne mogą mieć rozmaitą postać najczęściej jednak są to współrzędne kartezjańskie x, y, z, rzadziej tzw. współrzędne wewnętrzne (ang. internal coordinates) np. odległości dwóch wybranych atomów, kąty miedzy wiązaniami kowalencyjnymi lub kąty skręcenia (torsyjne). Na podstawie danych zgromadzonych w bazach danych struktur białkowych możliwa jest trójwymiarowa wizualizacja kształtu białka (rys. 4). Analiza struktur doprowadziła również do wprowadze- 5 Charakterystyczne fragmenty sekwencji aminokwasów. Inne używane nazwy to: sygnatury (ang. signatures), wzorce (ang. patterns) lub odciski palców (ang. fingerprints). 6 Posiadają pewne domeny funkcyjne czyli regiony sekwencji pełniące określoną funkcję, np. decydujące o aktywności katalitycznej enzymu lub łączące się z lekiem. 121

D. Mrozek nia klasyfikacji białek i pozwala przewidywać funkcję nowo odkrytego białka poprzez porównanie jego struktury przestrzennej ze strukturami białek przechowywanych w bazie i znalezienie podobieństw strukturalnych. Najbardziej znaną bazą danych strukturalnych jest Protein Data Bank (PDB) [1] prowadzona obecnie przez Research Collaboratory for Structural Bioinformatics (RCSB) w Stanach Zjednoczonych. Struktury zdeponowane w bazie PDB pochodzą najczęściej z badań krystalografii rentgenowskiej (rentgenografii strukturalnej) i obserwacji z wykorzystaniem nuklearnego rezonansu magnetycznego (spektroskopii NMR). Oprócz danych o współrzędnych atomów, w bazie PDB przechowywane są również dodatkowe adnotacje opisowe oraz łącza do innych serwisów informacyjnych np. serwisów NCBI. Baza PDB jest źródłem danych strukturalnych dla europejskiej bazy EBI Macromolecular Structure Database (MSD) [41] oraz amerykańskiej NCBI Molecular Modeling DataBase (MMDB) [42]. Obie bazy przechowują dane w różnych formatach i starają się wyeliminować niedoskonałości i ograniczenia przechowywania informacji w postaci plików tekstowych, jak to ma miejsce w przypadku bazy PDB. Spośród mniej znanych baz strukturalnych wspomnieć należy o bazie Nucleic Acid Database (NDB) [43] utrzymywanej przez Rutgers, The State University of New Jersey (pierwotnego kustosza bazy PDB) oraz bazie struktur dla małych molekuł Cambridge Structural Database (CSD) [44] brytyjskiego Cambridge Crystallographic Data Centre (CCDC) (używanej najczęściej do obserwacji interakcji typu białko-ligand). Rys. 4. Różne reprezantacje struktury enzymu human topoisomerase (1A36 w bazie PDB) oplatającego helisę DNA i odpowiedzialnego za jej rozplatanie w jądrze komórkowym. Wizualizacja przy pomocy programu RasMol [40] w kolejności od lewej reprezentacje: atomowa, wstęgowa, atomowa z wypełnionymi przestrzeniami między atomami Rozwijają się również bazy, których celem jest kolekcjonowanie informacji dotyczących biologicznej aktywności białek, szlaków sygnałowych i reakcjach wewnątrzkomórkowych, w których białka te biorą udział. Do tego typu baz należą: kanadyjska baza interakcji międzyproteinowych BIND (Biomolecular Interaction Network Database) [45], amerykańska baza sieci reakcji wewnątrzkomórkowych i szlaków metabolicznych BioCarta [46], japońska baza sieci reakcji biochemicznych (rys. 5), interakcji proteinowych i związanych z tym genów KEGG (Kyoto Encyclopedia of Genes and Genomes) [47] oraz belgijska inicjatywa amaze [48]. 122

Bioinformatyczne bazy danych poziomy opisu funkcjonowania organizmów Rys. 5. Sieć reakcji komórkowych w procesie metabolizmu aminokwasu cysteiny wizualizowana na podstawie danych zgromadzonych w japońskiej bazie danych KEGG. Prostokąty z numerami EC oznaczają enzymy biorące udział w reakcjach, kółka oznaczają produkty pośrednie szlaku, zaokrąglone prostokąty są miejscami przejścia do innego szlaku Bazy danych literaturowe (lub bibliograficzne, ang. bibliographic databases) przechowują informacje o odwołaniach literaturowych (ang. bibliographic citations) i streszczeniach (ang. abstracts) publikacji naukowych z różnych czasopism. W obszarze zainteresowań znajdują się publikacje z takich dziedzin jak: biologia, biochemia, biofizyka, chemia, medycyna, położnictwo, stomatologia, weterynaria, zoologia, opieka zdrowotna, ochrona środowiska i in. Do najbardziej znanych baz należą: baza MEDLINE [49] prowadzona przez U.S. National Library of Medicine's (NLM) oraz PubMed [50] dostępna na stronach National Center for Biotechnology Information (NCBI). Obie bazy udostępniają abstrakty publikacji naukowych oraz łącza do pełnych tekstów tych publikacji. Pełne teksty mogą być składowane w bazach konkretnego czasopisma i dostępne z wykorzystaniem jego serwisu internetowego, a sam dostęp do nich może być autoryzowany i wymagać płatnego członkostwa lub uiszczenia jednorazowej opłaty (tzn. można kupić tekst artykułu). Obecnie baza MEDLINE jest podstawową częścią bazy PubMed. PubMed (rys. 6) przechowuje ponad 15 milionów odwołań literaturowych do blisko 5 tys. czasopism naukowych z USA i 70 innych krajów, gromadzonych od połowy lat 60. XX wieku 7. 7 źródło: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=pubmed 123

D. Mrozek Wśród mniejszych baz wspomnieć należy jeszcze o brytyjskiej bazie bibliograficznej Bath Information and Data Services (BIDS) [51] oraz bazie BIOSIS [52] - zarządzanej przez Thomson Scintific. Obie zawierają dane literaturowe z szerokiego spektrum nauk biologicznych. Z kolei, takie bazy jak: CAB International [53] czy AGRICOLA (AGRICultural OnLine Access) [54] udostępniają dane literaturowe w obszarze agronomii, leśnictwa i ochrony środowiska. Znajdują się w nich odwołania literaturowe, streszczenia publikacji, raporty, rozdziały książek, publikacje seryjne, a nawet materiały audiowizualne. Bazy danych taksonomii (ang. taxonomic databases) prowadząc ewidencję różnych cech wielu organizmów konieczne staje się zaprowadzenie odpowiedniego porządku w sposobie nazewnictwa tych organizmów lub wykorzystanie już istniejącej klasyfikacji rodzajów i gatunków. Dzięki temu zapewnia się, iż podczas przeszukiwania danych nie wystąpi problem synonimiki i łatwo będzie można znaleźć konkretny organizm i wszystkie wpisy, które go dotyczą. W tym właśnie celu powstały bazy danych taksonomii, których zadaniem jest przechowywanie informacji o klasyfikacji organizmów biologicznych do odpowiednich jednostek klasyfikacji (tzw. taksonów) oraz spójnej informacji o ich nazwach naukowych. Do najczęściej wykorzystywanych baz tego typu należy Taxonomy Database [55] organizacji NCBI. Baza ta klasyfikuje wszystkie organizmy, dla których istnieje chociaż jedna sekwencja w bazie sekwencji nukleotydów GenBank lub bazie danych sekwencji aminokwasów NCBI. Równie powszechną bazą taksonomii jest NEWT [56] European Bioinformatics Institute (EBI). Baza NEWT jest utrzymywana przez grupę związaną z bazą danych sekwencji białkowych UniProt organizacji EBI, a znajdujące się w niej dane pochodzą z bazy taksonomii NCBI Taxonomy Database oraz z bazy wiedzy UniProt Knowledgebase [21]. W każdym z przypadków budowane jest hierarchiczne drzewo klasyfikacji organizmów (rys. 7), którego poszczególne poziomy określają przynależność organizmu do odpo Rys. 6. Okno przeszukiwania bazy literaturowej PubMed na stronach serwisu NCBI Entrez 124

Bioinformatyczne bazy danych poziomy opisu funkcjonowania organizmów wiedniego królestwa, typu, gromady lub klasy, rzędu, rodziny, rodzaju i gatunku. W wielu przypadkach można spotkać się jednak z hierarchią uproszczoną lub hierarchią przyjętą przez twórców bazy danych, która nie musi być w pełni zgodna z naturalna klasyfikacją biologiczną. Rys. 7. Pochodzenie organizmu Toxoplasma gonidii. Dostęp do bazy NEWT z wykorzystaniem serwisu internetowego EBI Istnieje również kilka niezależnych inicjatyw w zakresie klasyfikacji organizmów, do których należy zaliczyć: projekt Tree of Life [57] będący wspólnym wysiłkiem biologów z całego świata nad stworzeniem jednolitej klasyfikacji naturalnej organizmów 8 ; federację organizacji zajmujących się kolekcjonowaniem danych taksonomicznych Species 2000 [58], której celem jest wymiana danych taksonomicznych z wielu światowych baz danych i stworzenie globalnego systemu klasyfikacji wszystkich znanych organizmów; Species 2000 to inicjatywa brytyjska wspierana z funduszy europejskich; organizację Integrated Taxonomic Information System (ITIS) [59], której celem jest budowa bazy danych zawierającej jednolite nazwy organizmów i ich hierarchiczną klasyfikację; ITIS jest inicjatywą północno amerykańską i współpracuje z europejskim projektem Species 2000; australijską International Organization for Plant Information (IOPI) [60], która zajmuje się klasyfikacją informacji taksonomicznej w odniesieniu do organizmów roślinnych; IOPI jest również członkiem Species 2000. 8 Tzn. takiej klasyfikacji, która odzwierciedla ich pokrewieństwo na drodze ewolucji (filogenezę). 125

D. Mrozek 3 Podsumowanie Bioinformatyczne bazy danych przechowują obecnie znaczne ilości danych pochodzących z badań biologów molekularnych i biochemików, danych wyprowadzonych w procesach analitycznych i obliczeniowych z istniejących już danych w bazach danych oraz danych uzyskanych z publikacji naukowych przy pomocy zaawansowanych technik wyszukiwania (text minning). Dane te stanowią doskonałe źródło informacji dla szerokiej międzynarodowej społeczności naukowej na co dzień korzystają z nich przedstawiciele takich dziedzin jak: medycyna, biologia, biochemia, fizyka i in. Określone grupy badawcze zajmują się obserwacją różnych zjawisk zachodzących na poziomie molekularnym generując coraz to nowsze informacje. Ze względu na swój charakter, informacje te tworzą różne konteksty, względem których można analizować funkcjonowanie organizmów. Wykształcił się zatem odpowiedni podział bioinformatycznych baz danych uwzględniający rodzaj informacji składowanej w bazie. Podstawowe grupy tworzą bazy danych informacji genetycznej i różnorodnej informacji o białkach. Nie należy jednak zapominać o bazach literaturowych, dzięki którym możliwe jest zgłębianie wiedzy z zakresu badanego genu, białka, czy organizmu oraz o bazach taksonomicznych wprowadzających ustalony porządek w nazewnictwie organizmów. Wiele z tych baz danych jest prowadzona przez rządowe agencje i udostępniona publicznie za pośrednictwem odpowiednich serwisów internetowych (takich jak EBI czy NCBI), dzięki czemu użytkownicy mają dostęp do różnorodnej informacji w jednym miejscu. Literatura 1. Berman H.M., Westbrook J., Feng Z., Gilliland G., Bhat T.N., Weissig H., Shindyalov I.N. and Bourne P.E.: The Protein Data Bank. Nucleic Acids Res., 28, 235 242, 2000. 2. Berman H.M., Bourne P.E., Westbrook J.: The Protein Data Bank: A Case Study in Management of Community Data. Current Proteomics, 1, 49 57, 2004. 3. U.S. Department of Health and Human Services, U.S. Department of Energy: Understanding our genetic inheritance the U.S. Human Genome Project. DOE/ER-0452P. NIH Publication No. 90 1590. 4. Ouzounis Ch., Goldman N., Rice P., Lopez R., Bioinformatics Educational Resource of the European Bioinformatics Institute (EBI), http://www.ebi.ac.uk/ 5. Benson D.A., Karsch-Mizrachi I., Lipman D.J., Ostell J., Wheeler D.L.: GenBank: update. Nucleic Acids Res., 32 (Database issue):d23 6, 2004. 6. Tateno Y., Imanishi T., Miyazaki S., Fukami-Kobayashi K., et al.: DNA Data Bank of Japan (DDBJ) for genome scale research in life science. Nucleic Acids Res., 30(1):27 30, 2002. 7. Kanz C., Aldebert P., Althorpe N., Baker W., et al., The EMBL Nucleotide Sequence Database. Nucleic Acids Res., 33(Database issue):d29 33, 2005. 8. Mrozek D., Małysiak B., et al., Sekwencje nukleotydów bazy GenBank w diagnozowaniu schorzeń cukrzycy. rozdział monografii Bazy Danych Struktury, Algorytmy, Metody, red. zb. S. Kozielski, et al., w publikacji. 9. Pearson W.R. and Lipman D.J.: Improved Tools for Biological Sequence Analysis, PNAS 85:2444 2448, 1988. 10. Whole Genome Shotgun Sequences, http://www.ebi.ac.uk/genomes/index.html 11. Karyn's Genomes, http://www.ebi.ac.uk/2can/genomes/genomes.html 12. Blake J.A., Richardson J.E., Davisson M.T., Eppig J.T., and the Mouse Genome Informatics Group: The Mouse Genome Database (MGD). A comprehensive public resource of genetic, phenotypic and genomic data. Nucleic Acids Res 25: 85 91, 1997. 126

Bioinformatyczne bazy danych poziomy opisu funkcjonowania organizmów 13. Twigger S., Lu J., Shimoyama M., Chen D., et al. : Rat Genome Database (RGD): mapping disease onto the genome. Nucleic Acids Res. 30(1):125 8, 2002. 14. Ashburner M., Drysdale R.: FlyBase the Drosophila genetic database. Development. 120(7):2077 9, 1994. 15. Kroeger M. and Wahl R.: Compilation of DNA sequences of Escherichia coli K12; description of the interactive databases ECD and ECDC (update 1996) Nucleic Acids Res. 25: 39 42, 1997. 16. Kawarabayasi Y., Hino Y., Horikawa H., Yamazaki S., Haikawa Y., Jinno K., et al.: Complete genome sequence of an aerobic hyper-thermophilic crenarchaeon, Aeropyrum pernix K1. DNA Res. 6(2):83-101, 145 52, 1999. 17. Parkinson H., Sarkans U., Shojatalab M., Abeygunawardena N., et al.: ArrayExpress a public repository for microarray gene expression data at the EBI. Nucl. Acids Res., 33:D553 D555, 2005. 18. Barrett T., Suzek T.O., Troup D.B., Wilhite S.E., et al. : NCBI GEO: mining millions of expression profiles database and tools. Nucleic Acids Res. 33(Database issue):d562 6, 2005. 19. Wikipedia - Wolna Encyklopedia, http://pl.wikipedia.org/ 20. Baxevanis A.D., Ouellette B.F.F.: Bioinformatics. A Practical Guide to the Analysis of Genes and Proteins. John Wiley & Sons, Inc. 2001. 21. Apweiler R., Bairoch A., Wu C.H., Barker W.C., et al.: UniProt: the Universal Protein knowledgebase. Nucleic Acids Res. 32(Database issue):d115 9, 2004. 22. Wheeler D.L., Chappey C., Lash A.E., Leipe D.D., et al.: Database resources of the National Center for Biotechnology Information. Nucleic Acids Res., 28(1):10 4, 2000. 23. Bairoch A., Boeckmann B.: The SWISS-PROT protein sequence data bank. Nucleic Acids Res., 19 Suppl:2247 9, 1991. 24. Bairoch A., Apweiler R.: The SWISS-PROT protein sequence data bank and its new supplement TREMBL. Nucleic Acids Res., 24(1):21 5, 1996. 25. Wu C.H., Yeh L.S.L., Huang H., Arminski L., et al.: The Protein Information Resource. Nucleic Acids Research, 31: 345-347, 2003. 26. Małysiak B., Mrozek D., et al., Bioinformatyczne bazy danych: sekwencje aminokwasów bazy UniProt, materiały konferencyjne KK Sieci Komputerowe 2006, w recenzji. 27. Peptide/Protein Sequence Database (PRF/SEQDB), The Protein Research Foundation. http://www4.prf.or.jp/en/pn.html. 28. Bairoch A.: The ENZYME database in 2000. Nucleic Acids Res 28:304 305, 2000. 29. Apweiler R., Attwood T.K., Bairoch A., Bateman A., et al.: The InterPro database, an integrated documentation resource for protein families, domains and functional sites. Nucleic Acids Res., 29(1):37 40, 2001. 30. Sigrist C.J.A., Cerutti L., Hulo N., Gattiker A., et al.: PROSITE: a documented database using patterns and profiles as motif descriptors. Brief Bioinform. 3:265 274, 2002. 31. Attwood T.K., Beck M.E., Bleasby A.J., Parry-Smith D.J.: PRINTS - A database of protein motif fingerprints. Nucleic Acids Research, 22(17), 3590 3596, 1994. 32. Bateman A., Coin L., Durbin R., Finn R.D., et al.: The Pfam Protein Families Database. Nucleic Acids Research, Database Issue 32:D138 D141, 2004. 33. Bru C., Courcelle E., Carrère S., Beausse Y., Dalmar S., Kahn D.: The ProDom database of protein domain families: more emphasis on 3D. Nucleic Acids Res. 33: D212 D215, 2005. 34. Letunic I., Copley R.R., Schmidt S., Ciccarelli F.D., et al.: SMART 4.0: towards genomic data integration. Nucleic Acids Research, Vol. 32, Database issue D142 D144, 2004. 35. Huang H., Barker W.C., Chen Y., Wu C.: iproclass: an integrated database of protein family classification, function and structure information. Nucleic Acids Res., 31: 390 392, 2003. 36. Haft D.H., Loftus B.J., Richardson D.L., Yang F., Eisen J.A., Paulsen I.T., White O.: TIGRFAMs: a protein family resource for the functional identification of proteins. Nucleic Acids Res. 29(1):41 3, 2001. 37. Pongor S., Skerl V., Cserzo M., Hatsagi Z., Simon G., Bevilacqua V.: The SBASE domain library: a collection of annotated protein segments. Protein Eng. 6(4):391 5, 1993. 38. Rawlings N.D., Barrett A.J.: MEROPS: the peptidase database. Nucleic Acids Res., 27 (1): 325 31, 1999. 127

D. Mrozek 39. Kriventseva E.V., Fleischmann W., Zdobnov E.M., Apweiler R..: CluSTr: a database of clusters of SWISS-PROT+TrEMBL proteins. Nucleic Acids Res., 29(1):33 6, 2001. 40. Sayle R.: RasMol, Molecular Graphics Visualization Tool. Biomolecular Structures Group, Glaxo Welcome Research & Development, Stevenage, Hartfordshire, 1998. 41. Boutselakis H., Copeland J., Dimitropoulos D., Fillon J., et al.: E-MSD: the European Bioinformatics Institute Macromolecular Structure Database. Nucleic Acids Res., 31, 458 462, 2003. 42. Marchler-Bauer A., Addess K.J., Chappey C., Geer L., Madej T., Matsuo Y., Wang Y., Bryant S.H.: MMDB: Entrez's 3D structure database. Nucleic Acids Res., 27(1):240 3, 1999. 43. Berman H.M., Olson W.K., Beveridge D.L., Westbrook J., et al.: The Nucleic Acid Database: A Comprehensive Relational Database of Three-Dimensional Structures of Nucleic Acids. Biophys. J., 63, 751 759, 1992. 44. Allen F.H., Taylor R.: Research applications of the Cambridge Structural Database (CSD). Chem Soc Rev. 33(8):463 75, 2004. 45. Bader G.D., Betel D., Hogue C.W.V.: BIND: the Biomolecular Interaction Network Database. Nucleic Acids Research, Vol. 31, No. 1 p. 248 250, 2003. 46. BioCarta: Charting Pathways of Life. http://www.biocarta.com/genes/ 47. Ogata H., Goto S., Fujibuchi W., Kanehisa M.: Computation with the KEGG pathway database. Biosystems, 47(1-2):119 28, 1998. 48. Lemer C., Antezana E., Couche F., Fays F., et al.: The amaze LightBench: a web interface to a relational database of cellular processes. Nucleic Acids Res. 32(Database issue):d443 8, 2004. 49. Wallingford K.T., Humphreys B.L., Selinger N.E., Siegel E.R.: Bibliographic retrieval: a survey of individual users of MEDLINE. MD Comput. 7(3):166 71, 1990. 50. McEntyre J., Lipman D.: PubMed: bridging the information gap. CMAJ. 164(9):1317-9, 2001. 51. BIDS Annual Report, Academic Year 1999 2000, http://www.bids.ac.uk/ 52. BIOSIS Previews on the Web (OVID) Quick Reference Guide, UCSD Biomedical Library, 2003. 53. CAB International, CABI: In review 1999-2004, Review Conference 2004. http://www.cabi.org/ 54. AGRICOLA, National Agricultural Library (NAL) of the U.S. Department of Agriculture (USDA), http://agricola.nal.usda.gov/help/aboutagricola.html 55. The NCBI Taxonomy Database. http://www.ncbi.nlm.nih.gov/taxonomy/ 56. Phan I.Q., Pilbout S.F., Fleischmann W., Bairoch A.: NEWT: a new taxonomy portal. Nucleic Acids Res., 31(13):3822 3, 2003. 57. Maddison D.R. and Schulz K.S. (ed.): The Tree of Life Web Project. 2004. Internet address: http://tolweb.org 58. Bisby F.A., Ruggiero M.A., Wilson K.L., Cachuela-Palacio M., Kimani S.W., Roskov Y.R., Soulier-Perkins A. and van Hertum J., (eds.): Species 2000 & ITIS Catalogue of Life: 2005 Annual Checklist. Species 2000: Reading, U.K. http://www.sp2000.org/ 59. Integrated Taxonomic Information System (ITIS). Internet address: http://www.itis.usda.gov 60. International Organization for Plant Information (IOPI). Internet address: http://plantnet.rbgsyd.gov.au/iopi/iopihome.htm 128