http://theta.edu.pl/ Podstawy Bioinformatyki II BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH 1
Czym jest bioinformatyka? 2
Bioinformatyka Bioinformatyka jest interdyscyplinarną dziedziną nauki obejmującą wykorzystanie metod obliczeniowych do badania danych biologicznych Higgs P., Attwood T., Bioinformatyka i ewolucja molekularna Bioinformatyka a biologia obliczeniowa 3
Bioinformatyka Interdyscyplinarność : biologia (molekularna) dane biologiczne, biotechnologiczne dane dotyczące kwasów nukleinowych, białek, lipidów, węglowodanów i innych makrocząsteczek Informatyka i matematyka - narzędzia, metody i obliczenia komputerowe nauki i techniki komputerowe, matematyka stosowana, statystyka, teoria prawdopodobieństwa 4
Cele bioinformatyki Organizacja i zarządzanie informacjami o danych biologicznych w formie skomputeryzowanych zapisów BAZY DANYCH Analiza danych tworzenie NARZĘDZI (programów, metod, algorytmów) systemy operacyjne (Unix, Linux) języki programowania (C, C++, PERL, Python, Ruby, JAVA, R, FORTRAN, itd.) 5
Dane 6
Dane (NGS) 7
Dane (NGS) Wzrost olbrzymiej ilości i objętości surowych danych potrzeba gromadzenia danych potrzeba stworzenia skomplikowanych procedur komputerowych do zarządzania danymi JAKIEJ WIELKOŚCI MOGĄ BYĆ DANE NGS? 8
Dane (NGS) Format tekstowy Cały genom buhaja N = 50 172 242 9
Jednostki pamięci xxx KB xxx MB 1,44 KB 700 MB 4,7 GB 25 GB 10
Dane (NGS) Wzrost olbrzymiej ilości i objętości surowych danych potrzeba gromadzenia danych potrzeba stworzenia skomplikowanych procedur komputerowych do zarządzania danymi 1 osobnik (cały genom) Katedra Genetyki: 200 buhajów 32 krowy 11
Biologiczne bazy danych Pierwszorzędowe (pierwotne) Surowe dane biologiczne, archiwa sekwencji lub dane strukturalne wprowadzane do baz przez naukowców GenBank, PDB Drugorzędowe (wtórne) Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych informacji z pierwszorzędowych baz danych SWISS-PROT, PIR Specjalistyczne Specjalistyczne zagadnienia FlyBase, baza danych HIV, Ribosomal Database Project 12
Xiong J., 13 Podstawy bioinformatyki
Pobieranie informacji tworzenie zapytań Sformułowanie zapytań do baz danych często wymaga skorzystania z operatorów logicznych i konstruowania wyrażeń boolowskich (wskazanie powiązań, relacji pomiędzy słowami) AND, OR, NOT, (), itp. 14
Pułapki w bazach danych Dane niekompletne (np. niekompletna adnotacja) Błędy: - błędy technologii (np. sekwenatora), zanieczyszczenia - błędna adnotacja Rozprzestrzenianie błędów Wysoka redundacja informacji (non-redundant RefSeq) 15
www.ncbi.nlm.nih.gov 16
FORMATY DANYCH 17
Format GenBank Xiong J., 18 Podstawy bioinformatyki
Format GenBank Xiong J., 19 Podstawy bioinformatyki
Format GenBank Xiong J., 20 Podstawy bioinformatyki
Format FASTA Prosty Popularny Czytelny dla wielu programów do analizy bioinformatycznej Zapis sekwencji kwasów nukleinowych oraz białek (jednoliterowe skróty) Identyfikator sekwencji opis >gi 52693750 dbj AB175071.1 Neomys fodiens mitochondrial cytb gene for cytochrome b, complete cds ATGACCAACTTTCGAAAAACCCATCCATTAATAAAAATTCTTAACAACTCATTCATCGATCTCCCAGCCC CATCAAACATTTCATCATGATGAAATTTCGGGTCCCTTCTAGGATTGTGCCTAGTAATCCAGATCCTGAC TGGCCTCTTTCTAGCAATACATTACACTTCAGATACCATGACCGCCTTTTCATCAGTAACCCATATTTGT CGAGACGTCAACTATGGATGATTAATTCGATACCTACACGCTAATGGAGCATCTATATTTTTCATCTGCT 21
Komputerowy zapis sekwencji nukleotydowej Symbol Description Bases represented Symbol Description Bases represented A Adenine A C Cytosine C B not A (B comes after A) C G T G Guanine G T Thymine T U Uracil U W Weak A T S Strong C G M amino A C K Keto G T R purine A G Y pyrimidine C T 1 2 D H V N or - not C (D comes after C) not G (H comes after G) not T (V comes after T and U) any base (not a gap) A G T 3 A C T A C G A C G T 4 22
http://theta.edu.pl/ LISTA ZADAŃ 23