Bazy i modele danych

Przełom XX i XXI wieku to okres dynamicznego rozwoju programów sekwencjonowania genomów: 1995 genom Haemophilus influenzae 1997 genom E. coli 1997 genom drożdży S. cerevisiae 1998 genom nicienia Caenorhabditis elegans 1999 genom Muszki owocowej 2000 genom rzodkiewnika A. thaliana 2001 genom człowieka 2005 genom szympansa 2007 pierwszy indywidualny genom człowieka i wiele innych..

Nadeszła era METAGENOMIKI, która zajmuje się uzyskiwaniem i analizą sekwencji genomowych całych populacji a nie pojedynczych organizmów

Bioinformatyka (ang. bioinformatics, biocomputing) Termin "bioinformatyka" po raz pierwszy pojawił się w 1989 roku Bioinformatyka jest nauką interdyscyplinarną, która integruje: biologię molekularną, informatykę, matematykę, genetykę, genomikę oraz biochemię Bioinformatyka rozwiązuje problemy nagromadzone w wyniku intensywnego rozwoju nauk przyrodniczych przy użyciu metodologii nauk informatycznych: używa metod komputerowych w celu uzyskania odpowiedzi na pytania biologiczne Oxford English Dictionary definiuje bioinformatykę jako: " Naukę zbierania i analizowania złożonych biologicznych danych takich jak kod genetyczny".

Bioinformatyka Podstawowym zadaniem bioinformatyki jest rozpoznawanie in silico reguł kierujących zarządzaniem informacją genetyczną przez komórkę dzięki wzorom obserwowanym w ogromie danych sekwencyjnych przetwarzanie surowych danych o sekwencjach, tworzenie baz danych i zarządzanie bazami danych poszukiwanie, analiza i interpretacja informacji z biologicznych baz danych (analiza sekwencji DNA i białek) tworzenie nowych algorytmów i metod statystycznych do analizy danych biologicznych: struktury, funkcji, ewolucji genów, białek i całych genomów symulacje komputerowe w biochemii i biologii molekularnej inne techniki informatyczne związane z naukami biologicznymi

Po co tworzyć biologiczne bazy danych? Napływ danych wymusił rozwój metod analizy gromadzonych danych w celu ich klasyfikacji, a tym samym katalogowanie rodzin białek i charakteryzowanie związków funkcyjnych między nimi obecne kluczowe zjawisko w procesie opisywania nowo poznanych genomów analizy porównawcze Przedstawianie danych sekwencyjnych w szerszym biomedycznym kontekście który z kolei prowadzi do integracji danych z zakresu biologii molekularnej z innymi dziedzinami (bazami): biologią komórki, metabolomiką, medycyną itd.

Kiedy powstały pierwsze biologiczne bazy danych? Historycznie bazy danych nukleotydowe są młodsze niż bazy danych sekwencji białkowych 1965 Dayhoff i wsp. Opublikowali Atlas of Protein Sequences and Structures, w którym zawarli wszystkie znane wtedy sekwencje białkowe (pojemność 1 dyskietki) 1980 roku ukazała się baza danych EMBL, potem pojawił się GenBank (1982) a następnie DDBJ.

Ile jest baz danych (2012): 1380 publicznych baz danych tj. dostępnych on line

Ile jest baz danych (2013): 1512 w samym tylko 2012 przybyło 132 nowych dostępnych on line

Ile jest baz danych (2014): 1552

Ile jest baz danych (2015): 1552 + 56 nowych związanych z biologią molekularną

Ile jest baz danych (2016): 54 nowych związanych z biologią molekularną

Bazy danych stają się wysoce specjalistyczne: odziaływania typu białko-białko niekodujące RNA, microrna oraz ich docelowe miejsca działania w komórkach, geny związane z chorobami

Podział baz danych przyrodniczych i biomedycznych

Niesekwencyjne bazy danych Bibliograficzne bazy danych

Kliniczne bazy danych

Metabazy: kojarzą ze sobą rekordy z wielu typów baz The National Center for Biotechnology Information (NCBI)

Czym jest GenBank? GenBank jest powszechnie dostępną, internetową sekwencyjną bazą danych, zawierającą sekwencje nukloetydowe, zarządzaną przez National Center for Biotechnology Information (NCBI) w USA. Jest częścią przedsięwzięcia jakim jest międzynarodowa współpraca w tworzeniu bazy danych zawierającej sekwencje nukleotydowe (International Nucleotide Sequence Database Collaboration - INSDC). W ramach tej współpracy trzy instytucje: DNA DataBank of Japan (DDBJ), European Molecular Biology Laboratory (EMBL) oraz GenBank codziennie wymieniają i uzupełniają własne zasoby zgromadzonych sekwencji nukleotydowych poszczególnych genów

Dane wymieniane codziennie pomiędzy trzema współpracującymi bazami sekwencji nukleotydowch : GenBank, DNA Database of Japan (DDBJ), European Molecular Biology Laboratory Database (EMBL) NIH Wprowadzanie Aktualizacja CIB NCBI Entrez GenBank EMBL DDBJ EBI Aktualizacja Wprowadzanie NIG getentry Wprowadzanie Aktualizacja SRS EMBL

GenBank jest tzw. pierwotną bazą danych Sekwencyjne bazy danych-podział 1. Pierwotne Bazy Danych - Primary Databases (bezpośrednie wyniki eksperymentów, z nielicznymi interpretacjami dane pozornie nieuporządkowane - dość powierzchowne Bezpośrednie wprowadzanie pojedynczych rekordów - Oryginalne wprowadzenia - submissions (BankIt, Sequin) Surowe dane sekwencyjne pochodzące z Centrów Genomowych Obsługa bazy organizuje, ale nie dodaje dodatkowych informacji 2. Pochodne (wtórne) bazy danych - Derivative Databases (uporządkowane zbiory danych) integracja danych z wielu pierwotnych baz nadaje im dodatkowe ważne informacje Nadzorowane przez ludzi Składanie, dodawanie i korekta danych z baz pierwotnych Np.: SWISS-PROT, PIR, NCBI RefSeq, mrna, bazy danych rodzin białkowych Pochodne komputerowe Np.: UniGene Łączone Np.: NCBI Genome Assembly

Struktura rekordów w bazach danych Jest ściśle określona dla poszczególnych baz danych Musi być w formacie czytelnym dla człowieka i komputera Zawiera absolutnie unikalny element, które precyzyjnie określa dany rekord kod (numer) dostępu Rekordy w bazach danych są tworzone w oparciu o obowiązujący w danej bazie model danych

Model danych NCBI: Rekord bazy GenBank jest rekordem opartym na DNA Pozostałe dane tego modelu tj. translacja regionu kodującego w DNA (o ile występuje) sekwencja białka, cytowania bibliograficzne, struktury trójwymiarowe białka, powiązania taksonomiczne oraz ewentualne powiązania do map genomów stanowią element dodatkowy, który jak najpełniej stara się opisać sekwencję DNA Korzyści takiego modelu danych: Możliwość integracji programów do przeszukiwania baz danych i samych baz danych Możliwość wygodnego śledzenia informacji od sekwencji DNA, jej lokalizacji na mapie chromosomowej do kodowanego białka, jego trójwymiarowego obrazu oraz opublikowanej na dany temat literatur Powiązania plików (białko, cytowanie, struktura) z sekwencją DNA wzbogaca model danych i ułatwia potencjalne nowe odkrycia Łatwość rozszerzania modelu o kolejne powiązania w miarę ich powstawania bez konieczności nieustannej konwersji formatów

Rekord GenBank

Rekord GenBanku Podstawową jednostką informacji bazy danych GenBank jest GBFF (GenBank Flat File) GBBF składa się z 3 podstawowych części: LOCUS AF062069 3808 bp mrna INV 02-MAR-2000 DEFINITION Limulus polyphemus myosin III mrna, complete cds. ACCESSION AF062069 VERSION AF062069.2 GI:7144484 KEYWORDS. SOURCE Atlantic horseshoe crab. ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. (1998) In press REFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitter COMMENT On Mar 2, 2000 this sequence version replaced gi:3132700. 1. Nagłówek

Rekord GenBanku, cd. FEATURES Location/Qualifiers source 1..3808 /organism="limulus polyphemus" /db_xref="taxon:6850" /tissue_type="lateral eye" CDS 258..3302 /note="n-terminal protein kinase domain; C-terminal myosin heavy chain head; substrate for PKA" /codon_start=1 /product="myosin III" /protein_id="aac16332.2" /db_xref="gi:7144485" /translation="meykcisehlpfetlpdpgdrfevqelvgtgtyatvysaidkqa NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWLGI EFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAVQYLHENSIIHRDIRAANIMF SKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNYTCDVWSIG ITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYR PCIQEIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQ BASE COUNT 1201 a 689 c 782 g 1136 t ORIGIN 1 tcgacatctg tggtcgcttt ttttagtaat aaaaaattgt attatgacgt cctatctgtt 2. Tabela cech 3. Sekwencja // 3781 aagatacagt aactagggaa aaaaaaaa GBFF jest formą w jakiej wymieniane są dane pomiędzy GenBank, EMBL, DDBJ

Struktura rekordu w GenBanku 1. Nagłówek: część rekordu charakterystyczna dla bazy danych Pierwszy wiersz nagłówka we wszystkich GBFF to wiersz LOCUS Nazwa Locus (dawniej oznaczała faktyczną nazwę locus którego dotyczył np. HUMBG) GB Division (dawniej miało znaczenie taksonomiczne) LOCUS AF062069 3808 bp mrna INV 02-MAR-2000 Długość sekwencji Typ cząsteczki mrna (= cdna) rrna snrna DNA Data wprowadzenia lub modyfikacji

Nagłówek c.d. DEFINITION Limulus polyphemus myosin III mrna, complete cds. wiersz definicji - tytuł podsumowuje informację biologiczną rekordu ACCESSION AF062069 Accession Number (kod dostępu) Zapisywany jako 1+5 albo 2+6 VERSION AF062069.2 GI:7144484 Wersja Accession, Historia aktualizacji Numer gi (kolejny numer rekordu w bazie danych) (znika z rekordów od 09-2016)

Nagłówek c.d. Słowa Kluczowe Nazwa zwyczajowa Nazwa gatunkowa KEYWORDS. SOURCE Atlantic horseshoe crab. ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. Powiązania taxonomiczne według GenBanku

Nagłówek c.d. Odnośniki literaturowe REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. (1998) In press REFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitter COMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.

2. Tabela Cech środkowy segment GBFF Cecha: źródło biologiczne -pochodzenie materiału genetycznego, Cecha: sekwencja kodująca białko (jeśli DNA koduje białko) FEATURES Location/Qualifiers source 1..3808 /organism="limulus polyphemus" /db_xref="taxon:6850" /tissue_type="lateral eye" CDS 258..3302 /note="n-terminal protein kinase domain; C-terminal myosin heavy chain head; substrate for PKA" /codon_start=1 /product="myosin III" /protein_id="aac16332.2" /db_xref="gi:7144485" /translation="meykcisehlpfetlpdpgdrfevqelvgtgtyatvysaidk NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWL " Jeśli DNA koduje białko pojawiają się dodatkowe informacje tzw. kwalifikatory -rodzaj kodu genetycznego -faza (ramka )odczytu kodonów odnośniki krzyżowe do bazy danych sekwencji białkowych

3. Sekwencja Statystyka składu sekwencji nt Początek podawania sekwencji BASE COUNT 1201 a 689 c 782 g 1136 t ORIGIN 1 tcgacatctg tggtcgcttt ttttagtaat aaaaaattgt attatgacgt cctatctgtt <opuszczona sekwencja> 3721 accaatgtta taatatgaaa tgaaataaag cagtcatggt agcagtggct gtttgaaata 3781 aagatacagt aactagggaa aaaaaaaa // Znak: koniec rekordu

Format EMBL Numer dostępu OPIS

Odnośniki literaturowe Tabela cech: Nazwa organizmu, taksonomia, ramka odczytu itp. Odsyłacze (odnośniki krzyżowe) do rekordów innych baz powiązanych z tą sekwencją

Format Fasta maksymalnie uproszczona wersja rekordu Numer w bazie Identyfikator bazy danych: gb oznacza Opis rekordu i nazwa genu GenBank Kod dostępu >gi 205364858 gb DQ836933.2 Rhizobium leguminosarum bv. trifolii strain TA1 lipid A oxidase (lpxq) gene, complete cds AAAAGCCATATGCCGTCGAGGGCAAGGTCAGCTGCGGCACCAAATAGCGCCGCAGCCGAAATTTACTCTT ACCAGTGGAACGATACGCCGACGTTGACGGCATTCGTGAAGATGTTGGTCTTCAGGTCCACGCCGCTATC GATCGGAACGTCGATGCGCGAATAGGTGCCCTTGTATTCGACGAAGGTCGACCAGCGCTCGGTCACCTTG AAGTCGACGCCGGCCTGGGCCTGCAGCGTCACGCCGCCGAATTCATAAGCCCAGGTCTTGCCCTCAGGGC GAATCACTTCGACATGCGGAATGTTCACGCCGATGCCGGCGCCGAGATAGGGCGTCCAGCGGCGGGTCGG ATCCTGGAAGCGATAGAGACCGTTCACCGTGATGAGGTTCAGGCCGTCGGTGAATTCGAAATGCGACCAG CCGGTCTTGGCCAGCGTATCGTCGTCGGCATAGACCTTGTCATGGGTATAATCGAGCGAGATACCCCAGT TCGGTTTGTTGAAGTTCTCGAGCCACCAGGTGACGCGGCCGCCGTAATAAGGCGGGCTGCCGAAGGACTT GCCTTCCCAGCCGGCGGTGAAATGCGTGCCGTCGGAGAGATCGACGCCGCTGTGTGGTGCGGTCTGATAG CCGCCGTAGACGGAGAATTGCAGATCTTCCGCCGAGGCGGAAGCTGCCGAACAGATGGTGAAAAACGCGA TGCCCGCAAGCAGTGAAGCGGAGGAACGCAGCGCATATGTCATTGAATAGCCCCGATATTGCAAATGTGT CGACTCTTAGGCAGGTTTGCCAGCTTTTGGCCGCAAAGTCTAAGCAAAACAAAAGGCGCGTCAAATGCGC