Podstawy bioinformatyki - biologiczne bazy danych
Czym jest bioinformatyka?
Bioinformatyka Bioinformatyka jest interdyscyplinarną dziedziną nauki obejmującą wykorzystanie metod obliczeniowych do badania danych biologicznych Higgs P., Attwood T., Bioinformatyka i ewolucja molekularna Bioinformatyka a biologia obliczeniowa
Bioinformatyka Interdyscyplinarność : biologia (molekularna) dane biologiczne, biotechnologiczne dane dotyczące kwasów nukleinowych, białek, lipidów, węglowodanów i innych makrocząsteczek Informatyka i matematyka - narzędzia, metody i obliczenia komputerowe nauki i techniki komputerowe, matematyka stosowana, statystyka, teoria prawdopodobieństwa
Cele bioinformatyki Organizacja i zarządzanie informacjami o danych biologicznych w formie skomputeryzowanych zapisów BAZY DANYCH Analiza danych tworzenie NARZĘDZI (programów, metod, algorytmów) systemy operacyjne (Unix, Linux) języki programowania (C, C++, PERL, Python, Ruby, JAVA, R, FORTRAN, itd.)
Cele bioinformatyki Organizacja i zarządzanie informacjami o danych biologicznych w formie skomputeryzowanych zapisów BAZY DANYCH Analiza danych tworzenie NARZĘDZI (programów, metod, algorytmów) systemy operacyjne (Unix, Linux) języki programowania (C, C++, PERL, Python, Ruby, JAVA, R, FORTRAN, itd.)
Dane
Dane (NGS)
Dane (NGS) Wzrost olbrzymiej ilości i objętości surowych danych potrzeba gromadzenia danych potrzeba stworzenia skomplikowanych procedur komputerowych do zarządzania danymi 1 osobnik Katedra Genetyki: 200 buhajów 32 krowy
Dane N = 44 926 270
Biologiczne bazy danych Pierwszorzędowe (pierwotne) Surowe dane biologiczne, archiwa sekwencji lub dane strukturalne wprowadzane do baz przez naukowców GenBank, PDB Drugorzędowe (wtórne) Informacje przetworzone komputerowo, lub poprawione ręcznie na podstawie oryginalnych informacji z pierwszorzędowych baz danych SWISS-PROT, PIR Specjalistyczne Specjalistyczne zagadnienia FlyBase, baza danych HIV, Ribosomal Database Project
Xiong J., Podstawy bioinformatyki
Pobieranie informacji tworzenie zapytań Sformułowanie zapytań do baz danych często wymaga skorzystania z operatorów logicznych i konstruowania wyrażeń boolowskich (wskazanie powiązań, relacji pomiędzy słowami) AND, OR, NOT, (), itp.
Pułapki w bazach danych Dane niekompletne (np. niekompletna adnotacja) Błędy: - błędy technologii (np. sekwensera), zanieczysczenia - błędna adnotacja Rozprzestrzenianie błędów Wysoka redundacja informacji (non-redundant RefSeq)
Przeszukajmy wspólnie bazę NCBI! http://www.ncbi.nlm.nih.gov/
Format GenBank Xiong J., Podstawy bioinformatyki
Format GenBank Xiong J., Podstawy bioinformatyki
Format GenBank Xiong J., Podstawy bioinformatyki
Format FASTA Prosty Popularny Czytelny dla wielu programów do analizy bioinformatycznej Zapis sekwencji kwasów nukleinowych oraz białek (jednoliterowe skróty) Identyfikator sekwencji opis >gi 52693750 dbj AB175071.1 Neomys fodiens mitochondrial cytb gene for cytochrome b, complete cds ATGACCAACTTTCGAAAAACCCATCCATTAATAAAAATTCTTAACAACTCATTCATCGATCTCCCAGCCC CATCAAACATTTCATCATGATGAAATTTCGGGTCCCTTCTAGGATTGTGCCTAGTAATCCAGATCCTGAC TGGCCTCTTTCTAGCAATACATTACACTTCAGATACCATGACCGCCTTTTCATCAGTAACCCATATTTGT CGAGACGTCAACTATGGATGATTAATTCGATACCTACACGCTAATGGAGCATCTATATTTTTCATCTGCT
Komputerowy zapis sekwencji nukleotydowej Symbol Description Bases represented Symbol Description Bases represented A Adenine A C Cytosine C B not A (B comes after A) C G T G Guanine G T Thymine T U Uracil U W Weak A T S Strong C G M amino A C K Keto G T R purine A G Y pyrimidine C T 1 2 D H V N or - not C (D comes after C) not G (H comes after G) not T (V comes after T and U) any base (not a gap) A G T 3 A C T A C G A C G T 4
Na podstawie prelekcji wykonaj samodzielnie zadania zawarte w pliku PB_1.pdf (http://theta.edu.pl/teaching/podstawy-bioinformatyki/)