10/9/2013. Bioinformatyka i Biologia Obliczeniowa. BIOINFORMATYKA Co to jest i po co? Czym będziemy zajmować się na kursie: Tematyka wykładu

Bioinformatyka i Biologia Obliczeniowa Małgorzata.Kotulska@pwr.wroc.pl Instytut InŜynierii Biomedycznej i Pomiarowej D1 pok. 115 Konsultacje: czwartek: godz. 9-11 wtorek 9-11 (preferowane info emailowe wcześniej) Tematyka wykładu Podstawy biologii molekularnej (bardzo krótko) Bioinformatyka w genetyce Bioinformatyka strukturalna Podstawy metabolomiki Zagadnienia: Algorytmy Narzędzia obliczeniowe Bazy danych / bazy wiedzy Literatura Bioinformatyka, [wyd.] A. D. Baxevanis, B. F. F. Quellette, PWN 2004. M. Zvelebil, J.O. Baum, Introduction to Bioinformatics, Garland Science 2008 Acknowledgement A.M. Lest,, Introduction to Bioinformatics, 3rd Ed, Oxford University Press 2008 C.P. Fall, E.S. Marland, J.M. Wagner, J.J. Tyson, Computational Cell Biology, Springer, 2002. P. Clote P., R. Backofen, Computational Molecular Biology, Wiley 2000. This course uses some figures from: M. Zvelebil, J.O. Baum, Introduction to Bioinformatics, Garland Science 2008 BIOINFORMATYKA Co to jest i po co? Czym będziemy zajmować się na kursie: Bioinformatyka i Biologia Obliczeniowa? 1

Wzrost liczby danych do analizy Pierwsza molekularna baza danych źródło: GenBank http://www.ncbi.nlm.nih.gov/genbank/genbankstats.html Źródło: Wikipedia- Protein Structure Initiative Margaret Dayhoff - Atlas of Protein Sequence and Structure, 1965. Pierwsza (papierowa) baza danych molekularnych, która ostatecznie doprowadzila do GenBank (NIH). Konsekwencje: Kody jednoliterowe aminokwasów (zmniejszenie objętości bazy) Zorganizowane wpisów wg. rodzin genów Pierwsze macierze substytucji PAM (Point Accepted Mutation), MD 1978 Efektem pierwsza rekonstrukcja drzewa ewolucji OBECNIE Udział róŝnych typów baz danych Co z tego? Human Genome Project (US Dept. Energy, NIH 1990-2003-...) gen struktura 3D białka i miejsce ekspresji PHYSIOME Project (Celera Genomics 1998) Protein Structure Initiative (NIH 2000) IBM Blue Gene Project (2005) Human Proteome Folding Project (Inst. System Biology, 2004) procesy komórkowe funkcjonowanie narządów Problemy w Bioinformatyce Genomika Znajdowanie genów Dopasowywanie sekwencji, pokrewieństwa, ewolucja Genomika funkcjonalna (Mikromacierze, chipy genowe ) Bioinformatyka strukturalna Przewidywanie struktury białek Przewidywanie funkcji białek Dokowanie molekuł, selekcja kandydatów na leki, etc. Biologia obliczeniowa Szlaki metaboliczne i sygnałowe Medycyna spersonalizowana 2

Bioinformatyka Bioinformatyka (?) Biologia obliczeniowa Metabolomika Genomika (Bioinformatyka) Genomika Genomika funkcjonalna Proteomika Bioinformatyka strukturalna 13 Planowane etapy modelowania całego oraganizmu: gen Homo sapiens potassium inwardly-rectifying channel, subfamily J, member 2 (KCNJ2 gene)), mrna Mikromacierze Ekspresja genów i algorytmy klastrowania Genomy róŝnych organizmów Drzewa filogenetyczne http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html 3

Ewolucja gatunków Człowiek? Projekt genomu Neandertalczyka Genom Neandertalczyka opublikowany w : Green i in. Science Maj 2010 Fot. BE&W/www.bew.com.pl Proteomika (Bioinformatyka Strukturalna) Nobel 2013 z chemii za modelowanie molekuł! Struktura białka kanał potasowy PDB: 2XKY Source: Mus musculus Method: Electron Microscopy; Solution Scattering Resolution: 17.2 A Odkrywanie leków Identyfikacja celu Jakie białko moŝemy atakować, Ŝeby powstrzymać chorobę? Identyfikacja poŝądanych cech leku Jaka cząsteczka przyłączy się do tego białka? Toksykologia Czy nie zabije pacjenta? Czy ma efekty uboczne? Czy dotrze do właściwego miejsca? 4

Odkrywanie leków 5 000 10 000 związków wyeliminowanych 250 kandydatów wiodących w testach przedklinicznych Przyłączanie się leków? JEDEN lek zaakceptowany przez FDA KOMPLEMENTARNOŚĆ kształtu chemiczna elektrostatyczna 26 Odkrywanie leków współcześnie Mamy cel ataku który związek go unieczynni? Stary sposób: długotrwałe próby biochemiczne Nowy sposób: selekcja bioinformatyczna Przykład: Proteza HIV 1. Kontakt i infekcja 2. HIV dostaje się do komórki 3. Komórki odczytują kod HIV i same zaczynają produkować jego białka 4. Nowe białka wirusowe przygotowują infekcję innych komórek George Eade, Eade Creative Services, Inc. http://whyfiles.org/035aids/index.html 28 Leki łączą się z aktywnymi centrami białek. Ta proteaza HIV nie umoŝliwi infekcji bo została zablokowana inhibitor jest przyłączony do aktywnego centrum. Struktura (90-te) bardzo pomogła w projektowaniu leków Proteaza HIV celem leków HIV Proteaza + Peptidyl inhibitor (1A8G.PDB) http://www.rcsb.org/pdb/explore/jmol. do?structureid=7hvp&bionumber=1 Proteaza HIV 30 5

Szlaki metaboliczne (Biologia Systemów) Model komórki miocytu hybrydowe modelowanie kanałów jonowych Clancy, C. E. and Y. Rudy (1999). Nature 400(6744): 566-9. Sieci zaleŝności w Reactome Ontologia szlaków wewnątrzkomórkowych Model tkanki Podstawowa metoda opisu morfologii Metoda elementów skończonych (FE Finite Element) Fala spiralna w sercu model zespołu Brugadów Projekty Human Physiome IUPS Physiome Project NSR Physiome Project http://www.physiome.org.nz/ Elisabeth Cherry, Cornell University, http://arrhythmia.hofstra.edu/emc/modeling.html 6

Morfologia - Visible Human Project Składnica modeli ilościowych wewnątrz-komórkowych CellML Około 300 modeli z róŝnych dziedzin http://www.cellml.org/ Virtual Cell przykładowe środowisko Gdzie najlepiej szukać danych? http://www.nrcam.uchc.edu/ Bazy danych Human Genome Project Genome Projects: http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html Dostęp do informacji umoŝliwiają, internetowe bazy danych ontologie oraz bazy wiedzy zakodowane w językach znacznikowych Hunter PJ, Modeling Human Physiology: The IUPS/EMBS Physiome Project, PROC. IEEE 94 (4) 2006, 678-690 7

Pierwsza molekularna baza danych Udział róŝnych typów baz danych Margaret Dayhoff - Atlas of Protein Sequence and Structure, 1965. Pierwsza (papierowa) baza danych molekularnych, która ostatecznie doprowadzila do GenBank (NIH). Konsekwencje: Kody jednoliterowe aminokwasów (zmniejszenie objętości bazy) Zorganizowane wpisów wg. rodzin genów Pierwsze macierze substytucji PAM (Point Accepted Mutation), MD 1978 Efektem pierwsza rekonstrukcja drzewa ewolucji Bazy danych molekularnych Bazy danych molekularnych Relacyjna baza danych Kartotekowa (prosta) baza danych (ang. flat-file) KaŜda tabela jest podłączona do co najmniej jednej innej poprzez współdzielone pole - klucz Schemat modelu relacyjnego Extended Markup Language (XML) Odczyt i przetwarzanie języki: XQUERY Structured Query Language (SQL) XSLT 8

Jak kodujemy rodzaje relacji oraz terminologię: Ontologie Multiple Alignment Ontology (MAO) Gene Ontology (GO), rys. Pesquita C, PLOS 2009 Utrzymywanie jakości danych w bazach i hurtowniach danych Pochodzenie danych Dane powinny być: -potwierdzone -nieredundatne (nienadmiarowe) -spójne Dane mogą być pierwotne lub wtórne Metody: -automatyczne (szybkie) -ręczne, ang. human curation, (wiarygodne, kosztowne, wolne). Tę informację zawsze trzeba sprawdzić jest podana! Gdzie najlepiej szukać danych ogólnych? Inne bazy - aktualne NCBI (NIH, USA) EMBL-EBI (UK) DDBJ (Japonia) Ameryka Europa Azja Nucleic Acic Research (NAR) - Corocznie - pierwszy numer International Nucleotide Sequence Database Collaboration (INSDC) 1988 r. Pierwsze określenie formatu elektronicznego i przepisanie na niego z nośników papierowych. http://insdc.org/ 9

NCBI (przy NIH, USA) National Center for Biotechnology Information od 1988 http://www.ncbi.nlm.nih.gov/ Bazy danych NCBI GenBank - sekwencje DNA (indywidualne laboratoria, European Molecular Biology Laboratory (EMBL), DNA Database of Japan (DDBJ), U.S. Patent and Trademark Office RefSeq - nieredundantny zbiór referencyjny z GenBank, ulepszony przez ekspertów Online Mendelian Inheritance in Man (OMIM) baza fenotypów (chorobowych) dla Human Genome Project Molecular Modeling Database (MMDB) struktury 3D białek Unique Human Gene Sequence Collection (UniGene), Gene Map of the Human Genome, Taxonomy Browser, Cancer Genome Anatomy Project (CGAP), wspólnie z National Cancer Institute. PubMed i PubMedCentral (PMC) publikacje z bazy Medline i współpracujących czasopism (u źródła lub z NCBI) Serwisy i narzędzia NCBI Entrez system przeszukiwania baz danych NCBI BLAST (Basic Local Alignment Search Tool) przeszukiwanie podobieństwa sekwencji (w DNA/RNA, białkach) w celu identyfikacji genów, pokrewieństw, linii dziedziczenia. Wersje (do wybranych zastosowań, np. tylko białka): PSI-BLAST (Position Sensitive Iterated BLAST) lepsza dokł., PHI-BLAST, BLAST2sequences Open Reading Frame Finder (ORF Finder) Electronic PCR, Sequin and BankIt serwis składowania sekwencji.. Wszystkie narzędzia i bazy danych NCBI są dostępne poprzez www oraz ftp przykład-link SEND Formaty danych molekularnych. Zapis do pliku GBFF - GeneBank ( lub GenePept) FlatFile GB FF (*.gb nukleotydy, *.gp-białka) podzielony jest na 3 części: nagłówek (rozmaite) deskryptory całego pliku cechy (FEATURES) anotacje pliku sekwencja nukleotydowa (ORIGIN) // zakończenie pliku Sam plik jest kartotekowego, ale jego przeglądarka umoŝliwia linki Przykład: sequence.gb Wybrane cechy nagłówka LOCUS - pozostałość historyczna, coraz mniejsze znaczenie DEFINITION bardzo istotny, dokładny format zaleŝny od typu molekuły KEYWORDS niechętnie przez NCBI (bo niestandardowe) SOURCE 10

Identyfikatory sekwencji Accession - odpowiada celowi w bazie Nukleotyd: 1 litera+ 5 cyfr lub 2 litery + 6 cyfr Białko: 3 litery + 5 cyfr Prefiksy ujawniają źródło, np. CY (GeneBank, Genome Project) http://www.ncbi.nlm.nih.gov/sequin/acc.html gi (GI) numer przydzielony do kaŝdej sekwencji NCBI (mogą być rózne dla tego samego celu, z róŝnych źródeł). Umieszczony jest w polu: CDS/db_xref (oraz Version)- nukleotydy Version białka Przykład: ACCESSION CY072557 VERSION CY072557.1 GI:304420244 Przykład: Data Element gi Identyfikatory RefSeq Comment "GenBank Identifier", or sequence ID number. "gi " denotes that the number which follows is a unique sequence id. Any change to the sequence data will result in a new gi number. 4557284 The gi number. ref NM_000646.1 gi 4557284 ref NM_000646.1 [4557284] Prefiksy: *M_ (mrna), *R_ (non-coding transcript), *P_ (protein) Indicates that RefSeq is the source database. The RefSeq accession and version number. FASTA >gi 295236985 gb CY062036.1 Influenza A virus (A/New York/0259/2009(H1N1)) segment 6, complete sequence ATGAATCCAAACCAAAAGATAATAACCATTGGTTCGGTCTG TATGACAATTGGAATGGCTAACTTAATATTACAAATTGGAA ACATAATCTCAATATGGATTAGCCACTCAATTCAACTTGGG AATCAAAATCAGATTGAAACATGCAATCAAAGCGTCATTAC TTATGAAAACAACACTTGGGTAAATCAGACATATGTTAACA TCAGC gi kod sekwencji gb- Accession.ver DEFINITION z pliku GBFF EMBL -EBI (na ćwiczeniach) Pierwsza baza danych DNA EMBL (Heidelberg (1982) European Molecular Biology Laboratory EMBL- EBI European Bioinformatics Institute (EBI), 1995, UK Dwie bazy danych : -sekwencje nukleotydowe (EMBL-Bank) sekwencje -białkowe UniProt, 2003 r (UniProt/Swiss-Prot doświadczalne z dokładnna anotacją + UniProt/TrEMBL Translated EMBL) + UniParc (pochodzi z bazy PIR-Protein Information Resource (PIR- PSD, Protein Sequence Database ), funkcjonalnie anotowane sekwencje białkowe) Podsumowanie Koniec wykładu 1 11