10/9/2013. Bioinformatyka i Biologia Obliczeniowa. BIOINFORMATYKA Co to jest i po co? Czym będziemy zajmować się na kursie: Tematyka wykładu

Podobne dokumenty
Kontakt.

Politechnika Wrocławska. BIOINFORMATYKA i BIOLOGIA OBLICZENIOWA

Bioinformatyka. Michał Bereta

PODSTAWY BIOINFORMATYKI

Bioinformatyczne bazy danych

Bioinformatyczne bazy danych

Bioinformatyka. Michał Bereta

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

Biologiczne bazy i modele danych

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

Bazy i modele danych

BIOLOGICZNE BAZY DANYCH SYLABUS

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH

Bioinformatyczne bazy danych

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Bioinformatyka. Bazy danych. Wykład 3. E. Banachowicz. Wykład monograficzny Bioinformatyka. Wykład 3, Zakład Biofizyki Molekularnej IF UAM

Jest to dziedzina biologiczna wywodząca się z biotechnologii. Bioinformatyka

Podstawy bioinformatyki - biologiczne bazy danych

Database resources of the National Center for Biotechnology Information. Magdalena Malczyk

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

Bazy danych i biologia

Historia Bioinformatyki

KARTA PRZEDMIOTU. (pieczęć wydziału)

Porównywanie i dopasowywanie sekwencji

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

BIOLOGICZNE BAZY DANYCH GENOMY I ICH ADNOTACJE. Pracownia Informatyczna 2

Bioinformatyka. Wykład 2 (12.X.2010) I r. studiów magisterskich, biologia (SGGW) Krzysztof Pawłowski

Bioinformatyka Laboratorium, 30h. Michał Bereta

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

ISBN

przedmiotu Nazwa Wydział Nauk Medycznych i Nauk o Zdrowiu Kierunek jednolite studia magisterskie Profil kształcenia (studiów)

Bioinformatyka. z sylabusu...

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

1. KEGG 2. GO. 3. Klastry

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

Porównywanie i dopasowywanie sekwencji

Od jakiego pułapu startujemy? matematyka

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Bioinformatyka. Rodzaje Mutacji

Bioinformatyka 2 (BT172) Struktura i organizacja kursu

Podstawy bioinformatyki dla biotechnologów. plan. Od jakiego pułapu startujemy? Wykład 2. Definicja bioinformatyki

Bioinformatyka Laboratorium, 30h. Michał Bereta

Rozdział 1 Wprowadzenie do baz danych. (c) Instytut Informatyki Politechniki Poznańskiej 1

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

BIOTECHNOLOGIA MEDYCZNA

1

O/F dydaktycznych. 1. Chemia ogólna i nieorganiczna (WBt-ZZ03) wykłady, ćwiczenia O E

Wprowadzenie do bioinformatyki

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Motywacja. Do tej pory: Dzisiaj:

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

Bioinformatyka Laboratorium, 30h. Michał Bereta

PLAN STUDIÓW. Rodzaj zajęć. e-nauczanie,

Informatyka w medycynie Punkt widzenia kardiologa

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

Bioinformatyka. Formaty danych - GenBank

Dopasowanie sekwencji (sequence alignment)

Uniwersytet Łódzki, Instytut Biochemii

1

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Bioinformatyka. wykłady dla I r. studiów magisterskich, biologia (SGGW) 2010/2011. Krzysztof Pawłowski

Dopasowania par sekwencji DNA

Przyrównywanie sekwencji

Samouczek: Konstruujemy drzewo

Public gene expression data repositoris

Genetyka i biologia eksperymentalna studia I stopnia 2017/18/19

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Genetyka i biologia eksperymentalna studia I stopnia 2017/18/19/20

Olimpiada Biologiczna

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

PRZYRÓWNANIE SEKWENCJI

Specjalność (studia II stopnia) Oczyszczanie i analiza produktów biotechnologicznych

Przewidywanie struktur białek

Plan studiów NA KIERUNKU STUDIÓW WYŻSZYCH: BIOCHEMIA II stopień

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

Przewidywanie struktury kanału białkowego z wykorzystaniem probabilistycznych gramatyk formalnych oraz modelu ciągłego przepływu jonów

Uniwersytet Łódzki, Instytut Biochemii

Możliwości i potencjalne zastosowania Zintegrowanego Systemu Analitycznego do innowacyjnych i kompleksowych badań molekularnych

Acknowledgement. Drzewa filogenetyczne

Rok akademicki: 2014/2015 Kod: EIB BN-s Punkty ECTS: 3. Kierunek: Inżynieria Biomedyczna Specjalność: Bionanotechnologie

Generator testów Bioinformatyka wer / 0 Strona: 1

Podstawy biologii. Informacja, struktura i metabolizm.

Bioinformatyka wykład 10.I.2008

Genetyka i biologia eksperymentalna studia I stopnia 2018/19/20/21

Bioinformatyka. Krzysztof Pawłowski. wykłady dla I r. studiów magisterskich, biologia (SGGW) 2012 / 2013

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO

Bioinformatyka wykład 3.I.2008

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

Bazy danych i R/Bioconductor

Algorytmika dla bioinformatyki

Transkrypt:

Bioinformatyka i Biologia Obliczeniowa Małgorzata.Kotulska@pwr.wroc.pl Instytut InŜynierii Biomedycznej i Pomiarowej D1 pok. 115 Konsultacje: czwartek: godz. 9-11 wtorek 9-11 (preferowane info emailowe wcześniej) Tematyka wykładu Podstawy biologii molekularnej (bardzo krótko) Bioinformatyka w genetyce Bioinformatyka strukturalna Podstawy metabolomiki Zagadnienia: Algorytmy Narzędzia obliczeniowe Bazy danych / bazy wiedzy Literatura Bioinformatyka, [wyd.] A. D. Baxevanis, B. F. F. Quellette, PWN 2004. M. Zvelebil, J.O. Baum, Introduction to Bioinformatics, Garland Science 2008 Acknowledgement A.M. Lest,, Introduction to Bioinformatics, 3rd Ed, Oxford University Press 2008 C.P. Fall, E.S. Marland, J.M. Wagner, J.J. Tyson, Computational Cell Biology, Springer, 2002. P. Clote P., R. Backofen, Computational Molecular Biology, Wiley 2000. This course uses some figures from: M. Zvelebil, J.O. Baum, Introduction to Bioinformatics, Garland Science 2008 BIOINFORMATYKA Co to jest i po co? Czym będziemy zajmować się na kursie: Bioinformatyka i Biologia Obliczeniowa? 1

Wzrost liczby danych do analizy Pierwsza molekularna baza danych źródło: GenBank http://www.ncbi.nlm.nih.gov/genbank/genbankstats.html Źródło: Wikipedia- Protein Structure Initiative Margaret Dayhoff - Atlas of Protein Sequence and Structure, 1965. Pierwsza (papierowa) baza danych molekularnych, która ostatecznie doprowadzila do GenBank (NIH). Konsekwencje: Kody jednoliterowe aminokwasów (zmniejszenie objętości bazy) Zorganizowane wpisów wg. rodzin genów Pierwsze macierze substytucji PAM (Point Accepted Mutation), MD 1978 Efektem pierwsza rekonstrukcja drzewa ewolucji OBECNIE Udział róŝnych typów baz danych Co z tego? Human Genome Project (US Dept. Energy, NIH 1990-2003-...) gen struktura 3D białka i miejsce ekspresji PHYSIOME Project (Celera Genomics 1998) Protein Structure Initiative (NIH 2000) IBM Blue Gene Project (2005) Human Proteome Folding Project (Inst. System Biology, 2004) procesy komórkowe funkcjonowanie narządów Problemy w Bioinformatyce Genomika Znajdowanie genów Dopasowywanie sekwencji, pokrewieństwa, ewolucja Genomika funkcjonalna (Mikromacierze, chipy genowe ) Bioinformatyka strukturalna Przewidywanie struktury białek Przewidywanie funkcji białek Dokowanie molekuł, selekcja kandydatów na leki, etc. Biologia obliczeniowa Szlaki metaboliczne i sygnałowe Medycyna spersonalizowana 2

Bioinformatyka Bioinformatyka (?) Biologia obliczeniowa Metabolomika Genomika (Bioinformatyka) Genomika Genomika funkcjonalna Proteomika Bioinformatyka strukturalna 13 Planowane etapy modelowania całego oraganizmu: gen Homo sapiens potassium inwardly-rectifying channel, subfamily J, member 2 (KCNJ2 gene)), mrna Mikromacierze Ekspresja genów i algorytmy klastrowania Genomy róŝnych organizmów Drzewa filogenetyczne http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html 3

Ewolucja gatunków Człowiek? Projekt genomu Neandertalczyka Genom Neandertalczyka opublikowany w : Green i in. Science Maj 2010 Fot. BE&W/www.bew.com.pl Proteomika (Bioinformatyka Strukturalna) Nobel 2013 z chemii za modelowanie molekuł! Struktura białka kanał potasowy PDB: 2XKY Source: Mus musculus Method: Electron Microscopy; Solution Scattering Resolution: 17.2 A Odkrywanie leków Identyfikacja celu Jakie białko moŝemy atakować, Ŝeby powstrzymać chorobę? Identyfikacja poŝądanych cech leku Jaka cząsteczka przyłączy się do tego białka? Toksykologia Czy nie zabije pacjenta? Czy ma efekty uboczne? Czy dotrze do właściwego miejsca? 4

Odkrywanie leków 5 000 10 000 związków wyeliminowanych 250 kandydatów wiodących w testach przedklinicznych Przyłączanie się leków? JEDEN lek zaakceptowany przez FDA KOMPLEMENTARNOŚĆ kształtu chemiczna elektrostatyczna 26 Odkrywanie leków współcześnie Mamy cel ataku który związek go unieczynni? Stary sposób: długotrwałe próby biochemiczne Nowy sposób: selekcja bioinformatyczna Przykład: Proteza HIV 1. Kontakt i infekcja 2. HIV dostaje się do komórki 3. Komórki odczytują kod HIV i same zaczynają produkować jego białka 4. Nowe białka wirusowe przygotowują infekcję innych komórek George Eade, Eade Creative Services, Inc. http://whyfiles.org/035aids/index.html 28 Leki łączą się z aktywnymi centrami białek. Ta proteaza HIV nie umoŝliwi infekcji bo została zablokowana inhibitor jest przyłączony do aktywnego centrum. Struktura (90-te) bardzo pomogła w projektowaniu leków Proteaza HIV celem leków HIV Proteaza + Peptidyl inhibitor (1A8G.PDB) http://www.rcsb.org/pdb/explore/jmol. do?structureid=7hvp&bionumber=1 Proteaza HIV 30 5

Szlaki metaboliczne (Biologia Systemów) Model komórki miocytu hybrydowe modelowanie kanałów jonowych Clancy, C. E. and Y. Rudy (1999). Nature 400(6744): 566-9. Sieci zaleŝności w Reactome Ontologia szlaków wewnątrzkomórkowych Model tkanki Podstawowa metoda opisu morfologii Metoda elementów skończonych (FE Finite Element) Fala spiralna w sercu model zespołu Brugadów Projekty Human Physiome IUPS Physiome Project NSR Physiome Project http://www.physiome.org.nz/ Elisabeth Cherry, Cornell University, http://arrhythmia.hofstra.edu/emc/modeling.html 6

Morfologia - Visible Human Project Składnica modeli ilościowych wewnątrz-komórkowych CellML Około 300 modeli z róŝnych dziedzin http://www.cellml.org/ Virtual Cell przykładowe środowisko Gdzie najlepiej szukać danych? http://www.nrcam.uchc.edu/ Bazy danych Human Genome Project Genome Projects: http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html Dostęp do informacji umoŝliwiają, internetowe bazy danych ontologie oraz bazy wiedzy zakodowane w językach znacznikowych Hunter PJ, Modeling Human Physiology: The IUPS/EMBS Physiome Project, PROC. IEEE 94 (4) 2006, 678-690 7

Pierwsza molekularna baza danych Udział róŝnych typów baz danych Margaret Dayhoff - Atlas of Protein Sequence and Structure, 1965. Pierwsza (papierowa) baza danych molekularnych, która ostatecznie doprowadzila do GenBank (NIH). Konsekwencje: Kody jednoliterowe aminokwasów (zmniejszenie objętości bazy) Zorganizowane wpisów wg. rodzin genów Pierwsze macierze substytucji PAM (Point Accepted Mutation), MD 1978 Efektem pierwsza rekonstrukcja drzewa ewolucji Bazy danych molekularnych Bazy danych molekularnych Relacyjna baza danych Kartotekowa (prosta) baza danych (ang. flat-file) KaŜda tabela jest podłączona do co najmniej jednej innej poprzez współdzielone pole - klucz Schemat modelu relacyjnego Extended Markup Language (XML) Odczyt i przetwarzanie języki: XQUERY Structured Query Language (SQL) XSLT 8

Jak kodujemy rodzaje relacji oraz terminologię: Ontologie Multiple Alignment Ontology (MAO) Gene Ontology (GO), rys. Pesquita C, PLOS 2009 Utrzymywanie jakości danych w bazach i hurtowniach danych Pochodzenie danych Dane powinny być: -potwierdzone -nieredundatne (nienadmiarowe) -spójne Dane mogą być pierwotne lub wtórne Metody: -automatyczne (szybkie) -ręczne, ang. human curation, (wiarygodne, kosztowne, wolne). Tę informację zawsze trzeba sprawdzić jest podana! Gdzie najlepiej szukać danych ogólnych? Inne bazy - aktualne NCBI (NIH, USA) EMBL-EBI (UK) DDBJ (Japonia) Ameryka Europa Azja Nucleic Acic Research (NAR) - Corocznie - pierwszy numer International Nucleotide Sequence Database Collaboration (INSDC) 1988 r. Pierwsze określenie formatu elektronicznego i przepisanie na niego z nośników papierowych. http://insdc.org/ 9

NCBI (przy NIH, USA) National Center for Biotechnology Information od 1988 http://www.ncbi.nlm.nih.gov/ Bazy danych NCBI GenBank - sekwencje DNA (indywidualne laboratoria, European Molecular Biology Laboratory (EMBL), DNA Database of Japan (DDBJ), U.S. Patent and Trademark Office RefSeq - nieredundantny zbiór referencyjny z GenBank, ulepszony przez ekspertów Online Mendelian Inheritance in Man (OMIM) baza fenotypów (chorobowych) dla Human Genome Project Molecular Modeling Database (MMDB) struktury 3D białek Unique Human Gene Sequence Collection (UniGene), Gene Map of the Human Genome, Taxonomy Browser, Cancer Genome Anatomy Project (CGAP), wspólnie z National Cancer Institute. PubMed i PubMedCentral (PMC) publikacje z bazy Medline i współpracujących czasopism (u źródła lub z NCBI) Serwisy i narzędzia NCBI Entrez system przeszukiwania baz danych NCBI BLAST (Basic Local Alignment Search Tool) przeszukiwanie podobieństwa sekwencji (w DNA/RNA, białkach) w celu identyfikacji genów, pokrewieństw, linii dziedziczenia. Wersje (do wybranych zastosowań, np. tylko białka): PSI-BLAST (Position Sensitive Iterated BLAST) lepsza dokł., PHI-BLAST, BLAST2sequences Open Reading Frame Finder (ORF Finder) Electronic PCR, Sequin and BankIt serwis składowania sekwencji.. Wszystkie narzędzia i bazy danych NCBI są dostępne poprzez www oraz ftp przykład-link SEND Formaty danych molekularnych. Zapis do pliku GBFF - GeneBank ( lub GenePept) FlatFile GB FF (*.gb nukleotydy, *.gp-białka) podzielony jest na 3 części: nagłówek (rozmaite) deskryptory całego pliku cechy (FEATURES) anotacje pliku sekwencja nukleotydowa (ORIGIN) // zakończenie pliku Sam plik jest kartotekowego, ale jego przeglądarka umoŝliwia linki Przykład: sequence.gb Wybrane cechy nagłówka LOCUS - pozostałość historyczna, coraz mniejsze znaczenie DEFINITION bardzo istotny, dokładny format zaleŝny od typu molekuły KEYWORDS niechętnie przez NCBI (bo niestandardowe) SOURCE 10

Identyfikatory sekwencji Accession - odpowiada celowi w bazie Nukleotyd: 1 litera+ 5 cyfr lub 2 litery + 6 cyfr Białko: 3 litery + 5 cyfr Prefiksy ujawniają źródło, np. CY (GeneBank, Genome Project) http://www.ncbi.nlm.nih.gov/sequin/acc.html gi (GI) numer przydzielony do kaŝdej sekwencji NCBI (mogą być rózne dla tego samego celu, z róŝnych źródeł). Umieszczony jest w polu: CDS/db_xref (oraz Version)- nukleotydy Version białka Przykład: ACCESSION CY072557 VERSION CY072557.1 GI:304420244 Przykład: Data Element gi Identyfikatory RefSeq Comment "GenBank Identifier", or sequence ID number. "gi " denotes that the number which follows is a unique sequence id. Any change to the sequence data will result in a new gi number. 4557284 The gi number. ref NM_000646.1 gi 4557284 ref NM_000646.1 [4557284] Prefiksy: *M_ (mrna), *R_ (non-coding transcript), *P_ (protein) Indicates that RefSeq is the source database. The RefSeq accession and version number. FASTA >gi 295236985 gb CY062036.1 Influenza A virus (A/New York/0259/2009(H1N1)) segment 6, complete sequence ATGAATCCAAACCAAAAGATAATAACCATTGGTTCGGTCTG TATGACAATTGGAATGGCTAACTTAATATTACAAATTGGAA ACATAATCTCAATATGGATTAGCCACTCAATTCAACTTGGG AATCAAAATCAGATTGAAACATGCAATCAAAGCGTCATTAC TTATGAAAACAACACTTGGGTAAATCAGACATATGTTAACA TCAGC gi kod sekwencji gb- Accession.ver DEFINITION z pliku GBFF EMBL -EBI (na ćwiczeniach) Pierwsza baza danych DNA EMBL (Heidelberg (1982) European Molecular Biology Laboratory EMBL- EBI European Bioinformatics Institute (EBI), 1995, UK Dwie bazy danych : -sekwencje nukleotydowe (EMBL-Bank) sekwencje -białkowe UniProt, 2003 r (UniProt/Swiss-Prot doświadczalne z dokładnna anotacją + UniProt/TrEMBL Translated EMBL) + UniParc (pochodzi z bazy PIR-Protein Information Resource (PIR- PSD, Protein Sequence Database ), funkcjonalnie anotowane sekwencje białkowe) Podsumowanie Koniec wykładu 1 11