Wykład 10 2008-04-30. Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM



Podobne dokumenty
Bioinformatyka Bioinformatyka. Wykład 6. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Spis treści 8 Ewolucja molekularna Ewolucyjne podstawy porównywania sekwencji Identyfikacja sekwencji i jej funkcji...

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Bioinformatyka 2 (BT172) Struktura i organizacja kursu

Bioinformatyka Laboratorium, 30h. Michał Bereta

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Bioinformatyka wykład 10

Bioinformatyka wykład 8, 27.XI.2012

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Bioinformatyka wykład 3.I.2008

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

Bioinformatyka wykład 11, 11.I.2011 Białkowa bioinformatyka strukturalna c.d.

Porównywanie i dopasowywanie sekwencji

Bioinformatyka wykład 9

Bioinformatyka. Porównywanie sekwencji

Detekcja motywów w złożonych strukturach sieciowych perspektywy zastosowań Krzysztof Juszczyszyn

Bioinformatyka. Bazy danych. Wykład 3. E. Banachowicz. Wykład monograficzny Bioinformatyka. Wykład 3, Zakład Biofizyki Molekularnej IF UAM

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna

PRZYRÓWNANIE SEKWENCJI

białka wiążące specyficzne sekwencje DNA czynniki transkrypcyjne

Porównywanie i dopasowywanie sekwencji

Historia Bioinformatyki

dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Dopasowanie sekwencji (sequence alignment)

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Dopasowania par sekwencji DNA

Przyrównywanie sekwencji

Budowa kwasów nukleinowych

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Bioinformatyka 2 (BT172) Ukryte modele Markowa

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Generator testów Bioinformatyka wer / 0 Strona: 1

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

POPULARNE POLECENIA SKRYPTY. Pracownia Informatyczna 2

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

Statystyczna analiza danych

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

3 Przeszukiwanie baz danych

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Bioinformatyczne bazy danych

Bioinformatyka. Rodzaje Mutacji

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

Homologia, podobieństwo i analogia

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

Bioinformatyka. z sylabusu...

Kamila Muraszkowska Znaczenie wąskich gardeł w sieciach białkowych. źródło: (3)

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Bioinformatyka. Program UGENE

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

Generator testów bioinformatyka wer / Strona: 1

Bioinformatyczne bazy danych

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO

WPROWADZENIE DO GENETYKI MOLEKULARNEJ

DNA musi współdziałać z białkami!

Wykład 5 Dopasowywanie lokalne

RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych

WPROWADZENIE DO GENETYKI MOLEKULARNEJ

THE UNFOLDED PROTEIN RESPONSE

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Bioinformatyka: Wykład 2. Algorytm Smitha Watermana implementacja w języku Python

BIOLOGICZNE BAZY DANYCH SYLABUS

Proteomika: umożliwia badanie zestawu wszystkich lub prawie wszystkich białek komórkowych

Porównywanie sekwencji białkowych

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Database resources of the National Center for Biotechnology Information. Magdalena Malczyk

Bioinformatyka. z sylabusu...

Bioinformatyka Laboratorium, 30h. Michał Bereta

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Bioinformatyka wykład 10.I.2008

Wyróżniamy dwa typy zadań projektowych.

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Przewidywanie struktury kanału białkowego z wykorzystaniem probabilistycznych gramatyk formalnych oraz modelu ciągłego przepływu jonów

Wstęp do Biologii Obliczeniowej

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka II Modelowanie struktury białek

Dzisiejszy wykład. Wzorce projektowe. Visitor Client-Server Factory Singleton

Modelowanie homologiczne

Jest to dziedzina biologiczna wywodząca się z biotechnologii. Bioinformatyka

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

Bioinformatyka II Modelowanie struktury białek

Samouczek: Konstruujemy drzewo

Wybrane techniki badania białek -proteomika funkcjonalna

SEMINARIUM 8:

TATA box. Enhancery. CGCG ekson intron ekson intron ekson CZĘŚĆ KODUJĄCA GENU TERMINATOR. Elementy regulatorowe

Bioinformatyka. Michał Bereta

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

Dopasowanie par sekwencji

Wykład 14 Biosynteza białek

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

na podstawie artykułu: Modeling Complex RNA Tertiary Folds with Rosetta Clarence Yu Cheng, Fang-Chieh Chou, Rhiju Das

Transkrypt:

Bioinformatyka Wykład 9 E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas 1 Konsekwencje zestawieo wielu sekwencji - rodziny białkowe, domeny, motywy i wzorce 2 Bioinformatyka, 2008 1

Do czego prowadzą zestawienia wielosekwencyjne (MSA) wykrywanie zachowawczych(zakonserwowanych) regionów w sekwencjach i budowania ich modeli: Consensus sequences (uzgodnione, zachowacze sekwencje) Patterns (wzorce) Position Specific Score Matrices (PSSMs), Profiles (profile) etc. 3 Bazy domen i rodzin białkowych CD wykład 8 Databases of protein domains and families InterPro - Integrated Resources of Proteins Domains and Functional Sites PROSITE - PROSITE dictionary of protein sites and patterns BLOCKS - BLOCKS db Pfam - Protein families db (HMM derived) [Mirrors at St. Louis (USA), Sanger Institute, UK, Karolinska Institutet (Sweden)] PRINTS - Protein Motif fingerprint db ProDom - Protein domain db (Automatically generated) PROTOMAP - An automatic hierarchical classification of Swiss-Prot proteins SBASE - SBASE domain db SMART - Simple Modular Architecture Research Tool STRING - Search Tool for the Retrieval of Interacting Genes/Proteins TIGRFAMs - TIGR protein families db 4 Bioinformatyka, 2008 2

Pattern (wzorzec) The PROSITE database of protein domains, families and functional sites Prosite (http://www.expasy.org/prosite/) zbiór alternatywnych sekwencji wyrażony za pomocą regular expression 5 Definiowanie matryc sekwencji - Patterns Sposób zapisu matrycy (wzorca): motyw receptora jadrowego: C-x(2)-C-x-[DE]-x(5)-[HN]-[FY]-x(4)-C-x(2)-C-x(2)-F-F-x-R [DE]: D lub E x(5): 5 niezdefiniowanych, dowolnych pozycji {FYW}: dowolny niearomatyczny aminokwas 6 Bioinformatyka, 2008 3

Przykład zapisu wzorca (pattern) Profil PSSMs, HMM - A G G C T A T C A C C T G T A G C T A C C A - - - G C A G C T A C C A - - - G C A G C T A T C A C G G C A G C T A T C G C G G A 1 1.8 C.6 1.4 1.6.2 G 1.2.2.4 1 T.2 1.6.2 -.2.8.4.8.4 Oczywiste jest porównanie sekwencji do sekwencji. Czy można porównad/zestawid sekwencję z profilem? Czy można porównad/zestawid profil z profilem? 8 Bioinformatyka, 2008 4

Przykład tworzenia profilu (matrycy) Bioinformatyka, 2008 5

Przykłady: Zinc finger AGE1_YEAST CFTR_HUMAN (P13569) MECP2_HUMAN (P51608) L-X(6)-LX(6)-LX(6)-L Q5SWW9_HUMAN (Q5SWW9) Bioinformatyka, 2008 6

domena zawierająca motyw palca cynkowego zinc finger motif (Cys-x2-Cys-x(16,17)-Cys-x2-Cys) Bioinformatyka, 2008 7

Motywy - motyw może byd powiązany ze strukturą drugorzędową E.coli trp repressor 15 Motyw zamka leucynowego Leucine zipper motif L-X(6)-LX(6)-LX(6)-L 16 Bioinformatyka, 2008 8

Strukturalna klasyfikacja białek Bioinformatyka, 2008 9

Motyw zamka leucynowego L-X(6)-LX(6)-LX(6)-L 19 Domeny Domena jednostka strukturalna Granice domen mogą wynikad ze specyficznej sekwencji podobne domeny (takie same) związane są z taką samą funkcją 20 Bioinformatyka, 2008 10

http://www.sanger.ac.uk/pfam 21 Pfam-A rozpoznane i opisane rodziny 75% sekwencji 7868 rodzin HMM ukryte modele Markova 22 Bioinformatyka, 2008 11

http://smart.embl-heidelberg.org.de/ 23 http://www.ebi.ac.uk/interpro 24 Bioinformatyka, 2008 12

PSI-BLAST Position-specific-interated BLAST Iteracyjne stosowanie BLASTa do znalezienia sekwencji o niskim podobieostwie: zastosowanie BLASTAp utworzenie PSSM (Position Specific Substitution Matrix) z zestawieo o najwyższej puktacji powtórzenie przeszukiwania (tym razem szukanie sekwencji podobnych do PSSM 25 Position Specific Score Matrix (PSSM) PSSM jest macierzą opartą na częstotliwości występowania aminokwasów (nukleotydów) w każdej pozycji porównywanych sekwencji PSSM przypisuje aminokwasom występującym w określonym miejscu częściej niż przez przypadek nową punktację (w zestawieniu) (Profile, utryty model Markowa HMMs) 26 Bioinformatyka, 2008 13

Position Specific Score Matrix (PSSM) macierz F macierz F: kolumna 1: f A,1 = 0/5,, f G,1 =5/5=1, kolumna 2: f A,2 =0/5,., f H,2 =5/5=1,... kolumna 15: f A,15 =2/5=0.4, f C,15 =1/5=0.2,. 27 Position Specific Score Matrix (PSSM) kolumna 1: f A,1 = 0/5 = 0,, f G,1 =5/5=1, kolumna 2: f A,2 = 0/5 = 0,., f H,2 =5/5=1,... kolumna 15: f A,15 =2/5 = 0.4, f C,15 =1/5 = 0.2,. zbiór pseudo-counts dla 1: (1 na 20 aminokwasów) kolumna 1: f A,1 = (0+1)/(5+20) = 0.04,,f G,1 =(5+1)/(5+20)=0.24, kolumna 2: f A,2 = (0+1)/(5+20) = 0.04,.,f H,2 =(5+1)/(5+20)=0.24, kolumna 15: f A,15 =(2+1)/(5+20)=0.12, f C,15 =(1+1)/(5+20) = 0.8,. 28 Bioinformatyka, 2008 14

Position Specific Score Matrix (PSSM) (Score) Punktacja jest liczona jako stosunek częstotliwości obserwowanej do spodziewanej (dokładniej: logarytm ze stosunku tych czestotliwości) Score ij punktacja i-tego aminokwasu w pozycji j. f ij wzglęna częstotliwośd dla i- tego aminokwasu w pozycji j, q i względna spodziewana częstotliwośd wystepowania i-tego aminokwasu w przypadkowej sekwencji. 29 Position Specific Score Matrix (PSSM) 30 Bioinformatyka, 2008 15

Position Specific Score Matrix (PSSM) szukanie sekwencji podobnej PSSM jest przesuwna wzdłuż porównywanej sekwencji i w każdej pozycji liczona jest nowa punktacja - pozycja z najwyższą punktacją przechodzi dalej 31 32 Bioinformatyka, 2008 16

Przykład:MJ0414 (Methanococcus jannaschii ) 35 Bioinformatyka, 2008 17

36 37 Bioinformatyka, 2008 18

sekwencja podobna do siebie samej i sekwencji z 3 innych archea i bakterii 38 39 Bioinformatyka, 2008 19

40 41 Bioinformatyka, 2008 20

42 zestawienie pozwoliło przewidzied aktywnośd ligazy DNA białka porównywanego z ligazą II DNA z drożdży. ważna dla aktywności katalitycznej lizyna Zachowane w ligazach motywy 43 Bioinformatyka, 2008 21

Problem z PSI-BLASTem A B A znajduje B B znajduje C C Nie ma podobieństwa między A a C! 44 Koniec Bioinformatyka, 2008 22