Bioinformatyka Wykład 9 E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas 1 Konsekwencje zestawieo wielu sekwencji - rodziny białkowe, domeny, motywy i wzorce 2 Bioinformatyka, 2008 1
Do czego prowadzą zestawienia wielosekwencyjne (MSA) wykrywanie zachowawczych(zakonserwowanych) regionów w sekwencjach i budowania ich modeli: Consensus sequences (uzgodnione, zachowacze sekwencje) Patterns (wzorce) Position Specific Score Matrices (PSSMs), Profiles (profile) etc. 3 Bazy domen i rodzin białkowych CD wykład 8 Databases of protein domains and families InterPro - Integrated Resources of Proteins Domains and Functional Sites PROSITE - PROSITE dictionary of protein sites and patterns BLOCKS - BLOCKS db Pfam - Protein families db (HMM derived) [Mirrors at St. Louis (USA), Sanger Institute, UK, Karolinska Institutet (Sweden)] PRINTS - Protein Motif fingerprint db ProDom - Protein domain db (Automatically generated) PROTOMAP - An automatic hierarchical classification of Swiss-Prot proteins SBASE - SBASE domain db SMART - Simple Modular Architecture Research Tool STRING - Search Tool for the Retrieval of Interacting Genes/Proteins TIGRFAMs - TIGR protein families db 4 Bioinformatyka, 2008 2
Pattern (wzorzec) The PROSITE database of protein domains, families and functional sites Prosite (http://www.expasy.org/prosite/) zbiór alternatywnych sekwencji wyrażony za pomocą regular expression 5 Definiowanie matryc sekwencji - Patterns Sposób zapisu matrycy (wzorca): motyw receptora jadrowego: C-x(2)-C-x-[DE]-x(5)-[HN]-[FY]-x(4)-C-x(2)-C-x(2)-F-F-x-R [DE]: D lub E x(5): 5 niezdefiniowanych, dowolnych pozycji {FYW}: dowolny niearomatyczny aminokwas 6 Bioinformatyka, 2008 3
Przykład zapisu wzorca (pattern) Profil PSSMs, HMM - A G G C T A T C A C C T G T A G C T A C C A - - - G C A G C T A C C A - - - G C A G C T A T C A C G G C A G C T A T C G C G G A 1 1.8 C.6 1.4 1.6.2 G 1.2.2.4 1 T.2 1.6.2 -.2.8.4.8.4 Oczywiste jest porównanie sekwencji do sekwencji. Czy można porównad/zestawid sekwencję z profilem? Czy można porównad/zestawid profil z profilem? 8 Bioinformatyka, 2008 4
Przykład tworzenia profilu (matrycy) Bioinformatyka, 2008 5
Przykłady: Zinc finger AGE1_YEAST CFTR_HUMAN (P13569) MECP2_HUMAN (P51608) L-X(6)-LX(6)-LX(6)-L Q5SWW9_HUMAN (Q5SWW9) Bioinformatyka, 2008 6
domena zawierająca motyw palca cynkowego zinc finger motif (Cys-x2-Cys-x(16,17)-Cys-x2-Cys) Bioinformatyka, 2008 7
Motywy - motyw może byd powiązany ze strukturą drugorzędową E.coli trp repressor 15 Motyw zamka leucynowego Leucine zipper motif L-X(6)-LX(6)-LX(6)-L 16 Bioinformatyka, 2008 8
Strukturalna klasyfikacja białek Bioinformatyka, 2008 9
Motyw zamka leucynowego L-X(6)-LX(6)-LX(6)-L 19 Domeny Domena jednostka strukturalna Granice domen mogą wynikad ze specyficznej sekwencji podobne domeny (takie same) związane są z taką samą funkcją 20 Bioinformatyka, 2008 10
http://www.sanger.ac.uk/pfam 21 Pfam-A rozpoznane i opisane rodziny 75% sekwencji 7868 rodzin HMM ukryte modele Markova 22 Bioinformatyka, 2008 11
http://smart.embl-heidelberg.org.de/ 23 http://www.ebi.ac.uk/interpro 24 Bioinformatyka, 2008 12
PSI-BLAST Position-specific-interated BLAST Iteracyjne stosowanie BLASTa do znalezienia sekwencji o niskim podobieostwie: zastosowanie BLASTAp utworzenie PSSM (Position Specific Substitution Matrix) z zestawieo o najwyższej puktacji powtórzenie przeszukiwania (tym razem szukanie sekwencji podobnych do PSSM 25 Position Specific Score Matrix (PSSM) PSSM jest macierzą opartą na częstotliwości występowania aminokwasów (nukleotydów) w każdej pozycji porównywanych sekwencji PSSM przypisuje aminokwasom występującym w określonym miejscu częściej niż przez przypadek nową punktację (w zestawieniu) (Profile, utryty model Markowa HMMs) 26 Bioinformatyka, 2008 13
Position Specific Score Matrix (PSSM) macierz F macierz F: kolumna 1: f A,1 = 0/5,, f G,1 =5/5=1, kolumna 2: f A,2 =0/5,., f H,2 =5/5=1,... kolumna 15: f A,15 =2/5=0.4, f C,15 =1/5=0.2,. 27 Position Specific Score Matrix (PSSM) kolumna 1: f A,1 = 0/5 = 0,, f G,1 =5/5=1, kolumna 2: f A,2 = 0/5 = 0,., f H,2 =5/5=1,... kolumna 15: f A,15 =2/5 = 0.4, f C,15 =1/5 = 0.2,. zbiór pseudo-counts dla 1: (1 na 20 aminokwasów) kolumna 1: f A,1 = (0+1)/(5+20) = 0.04,,f G,1 =(5+1)/(5+20)=0.24, kolumna 2: f A,2 = (0+1)/(5+20) = 0.04,.,f H,2 =(5+1)/(5+20)=0.24, kolumna 15: f A,15 =(2+1)/(5+20)=0.12, f C,15 =(1+1)/(5+20) = 0.8,. 28 Bioinformatyka, 2008 14
Position Specific Score Matrix (PSSM) (Score) Punktacja jest liczona jako stosunek częstotliwości obserwowanej do spodziewanej (dokładniej: logarytm ze stosunku tych czestotliwości) Score ij punktacja i-tego aminokwasu w pozycji j. f ij wzglęna częstotliwośd dla i- tego aminokwasu w pozycji j, q i względna spodziewana częstotliwośd wystepowania i-tego aminokwasu w przypadkowej sekwencji. 29 Position Specific Score Matrix (PSSM) 30 Bioinformatyka, 2008 15
Position Specific Score Matrix (PSSM) szukanie sekwencji podobnej PSSM jest przesuwna wzdłuż porównywanej sekwencji i w każdej pozycji liczona jest nowa punktacja - pozycja z najwyższą punktacją przechodzi dalej 31 32 Bioinformatyka, 2008 16
Przykład:MJ0414 (Methanococcus jannaschii ) 35 Bioinformatyka, 2008 17
36 37 Bioinformatyka, 2008 18
sekwencja podobna do siebie samej i sekwencji z 3 innych archea i bakterii 38 39 Bioinformatyka, 2008 19
40 41 Bioinformatyka, 2008 20
42 zestawienie pozwoliło przewidzied aktywnośd ligazy DNA białka porównywanego z ligazą II DNA z drożdży. ważna dla aktywności katalitycznej lizyna Zachowane w ligazach motywy 43 Bioinformatyka, 2008 21
Problem z PSI-BLASTem A B A znajduje B B znajduje C C Nie ma podobieństwa między A a C! 44 Koniec Bioinformatyka, 2008 22