Bioinformatyka Bioinformatyka. Wykład 6. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Transkrypt

1 Bioinformatyka Wykład 6 E. Banachowicz Zakład Biofizyki Molekularnej IF UAM 1 Algorytmy macierze punktowe (DotPlot) programowanie dynamiczne metody heurystyczne (BLAST, FASTA) metody statystyczne (modele Markova, statystyka Bayesa) Rodzaje dopasowań pokrycie sekwencji globalne, lokalne liczba sekwencji porównywanych para (pairwise sequence alignment) więcej niż dwie (multiple sequences alignment) 2 Wykład 7,

2 Zestawienia wielosekwencyjne Multiple Sequence Alignment 3 Zestawienia wielosekwencyjne Multiple Sequence Alignment porównanie dwóch sekwencji szukanie podobieństwa: przeniesienie informacji o strukturze i funkcji (właściciel dwóch zegarków nigdy dokładnie nie wie, która jest godzina) porównanie wielu sekwencji? znalezione podobieństwa mogą być bardziej istotne jeśli występują w wielu sekwencjach 4 Wykład 7,

3 Multiple Sequence Alignment Kiedy? Tylko z sekwencjami homologicznymi Po co? wskazanie regionów podobnych, zróżnicowanych, domen oraz funkcyjnie istotnych motywów poprawienie przewidywania; poprawienie błędów! tworzenie sekwencji konsensusowej (uzgodnionej), odszukiwanie nowych motywów Jak? Metody automatyczne: Clustal, MAGI półautomatyczne: Hidden Markov Models (HMM) analiza ręczna : Jalview, Cinema 5 MSA - Metody Clustal W, MAGI (EBI) (PBIL) (EMBnet-CH) (MAGI) półautomatyczne: Hidden Markov Models (HMM) Ręczna analiza zestawienia: Jalview, Cinema CINEMA: 6 Wykład 7,

4 hemoglobina, leghemoglobina i mioglobina Wykład 7,

5 Wykład 7,

6 Wykład 7,

7 2GDM (leghemoglobin) vs 1HLB (hemoglobin), id.21% Wykład 7,

8 Multiple Sequence Alignment (MSA) pozwala na znalezienie najbardziej podobnych fragmentów w zbiorze sekwencji domeny funkcyjne domeny strukturalne Jeśli struktura jednego z białek jest znana możliwe jest dopasowanie struktury do pozostałych członków zestawienia 15 Zestawienie wielosekwencyjne a zestawienie dwóch sekwencji Podejście macierzowe = programowanie dynamiczne prowadzi do optymalnego zestawienia dwóch sekwencji. Dla zestawień wielosekwencyjnych trudne liczba porównań rośnie gwałtownie z liczbą sekwencji. 16 Wykład 7,

9 Seq2 seq 2 MSA - dynamiczne Seq 1 zestawienie optymalne dla dwóch sekwencji seq 1:seq 2 18 seq 1 Dodanie kolejnego zestawienia seq 1:seq 2 seq 2:seq 3 19 Wykład 7,

10 seq 2 seq 2 seq 1 Dodanie kolejnego zestawienia seq 1:seq 2 seq 2:seq 3 seq 3:seq 1 20 seq 1 Optymalne zestawienie wielosekwencyjne dla więcej niż 3 sekwencji potrzebna jest przestrzeń N wymiarowa 21 Wykład 7,

11 Punktacja MSA punktacja każdego zestawienia dwóch sekwencji. Suma Par (SP score). stała kara za przerwy (Gaps-constant penalty) dla dowolnego rozmiaru przerwy. 22 Siatka zestawienia 2-D i 3-D V W 2-D przestrzeń Zestawienie globalne oznacza przejście przez całą przestrzeń po przekątnej 3-D przestrzeń 23 Wykład 7,

12 komórka 2-D i 3-D zestawienia W 2-D, 3 krawędzie na każdą komórkę W 3-D, 7 krawędzi na każdą komórkę 24 Architektura komórki 3-D zestawienia (i-1,j-1,k-1) (i-1,j,k-1) (i-1,j-1,k) (i-1,j,k) (i,j-1,k-1) (i,j,k-1) (i,j-1,k) (i,j,k) porównaj Wykład 4 (algorytmy programowania dynamicznego) 25 Wykład 7,

13 Zasady programowania dynamicznego Multiple Alignment: Dynamic Programming s i,j,k = max s i-1,j-1,k-1 + (v i, w j, u k ) s i-1,j-1,k + (v i, w j, _ ) s i-1,j,k-1 + (v i, _, u k ) s i,j-1,k-1 + (_, w j, u k ) s i-1,j,k + (v i, _, _) s i,j-1,k + (_, w j, _) s i,j,k-1 + (_, _, u k ) przekątna sześcianu: bez przerw przekątna boku: jedna przerwa krawędź: dwie przerwy (x, y, z) wartość 3-D macierzy punktacji 26 Zasady programowania dynamicznego Multiple Alignment: Dynamic Programming s i,j,k = max s i-1,j-1,k-1 + (v i, w j, u k ) s i-1,j-1,k + (v i, w j, _ ) s i-1,j,k-1 + (v i, _, u k ) s i,j-1,k-1 + (_, w j, u k ) s i-1,j,k + (v i, _, _) s i,j-1,k + (_, w j, _) s i,j,k-1 + (_, _, u k ) przekątna sześcianu: bez przerw przekątna boku: jedna przerwa krawędź: dwie przerwy (x, y, z) wartość 3-D macierzy punktacji 27 Wykład 7,

14 Zasady programowania dynamicznego Multiple Alignment: Dynamic Programming s i,j,k = max s i-1,j-1,k-1 + (v i, w j, u k ) s i-1,j-1,k + (v i, w j, _ ) s i-1,j,k-1 + (v i, _, u k ) s i,j-1,k-1 + (_, w j, u k ) s i-1,j,k + (v i, _, _) s i,j-1,k + (_, w j, _) s i,j,k-1 + (_, _, u k ) przekątna sześcianu: bez przerw przekątna boku: jedna przerwa krawędź: dwie przerwy (x, y, z) wartość 3-D macierzy punktacji 28 Metody hierarchiczne Wykład 7,

15 Metody hierarchiczne tworzenie drzewa przewodniego Multiple sequence alignments CHERRIES PEARS CLEMENTINES GREENAPPLES CHERRIES P-EAR--S CLEMENTIN-ES 7 GRE-ENAPPLES P-EARS----- GREENAPPLES CLEMENTINES GREENAPPLES CHERR---IES P-EARS----- CLEMENTINES 23 0 CHERR--I-ES ClareSansom 31 Wykład 7,

16 Multiple sequence alignments GREENAPPLES CLEMENTINES CHERRIES PEARS GREENAPPLES CLEMENTINES CHERR---IES P-EARS Multiple sequence alignments CLUSTAL W (1.7) multiple sequence alignment Q40236/1-193 GTF-DQLQLVLRWPTSFCNGKNCKRTPKDFTIHGLWPDSEAGELNFCNPRASYTIVRHGTF Q40241/ QLQLVLRWPTSFCNGKNCKRTPKDFTIHGLWPDSEAGELNFCNPRASYTIVRHGTF Q42513/1-193 GTF-NQLQLVLRWPASFCKGKKCERTPNNFTIHGLWPDIKGTILNNCNPDAKYASVTGGKF G255586/1-194 GAF-EYMQLVLQWPTAFCHTTPCKNIPSNFTIHGLWPDNVSTTLNFCGKEDDYNIIMDGP- Q40379/1-194 GAF-EYMQLVLQWPTTFCHTTPCKNIPSNFTIHGLWPDNVSTTLNFCGKEDDYNIIMDGP- :****:**::**:. *:. *.:*********. ** *..* : * Jalview Q40236/1-193 Q40241/1-189 Q42513/1-193 G255586/1-194 Q40379/1-194 EKRN---KHWPDLMRSKDNSMDNQEFWKHEYIKHGSCCTDLFNETQYFDLALVLKDRFDLLT EKRN---KHWPDLMRSKDNSMDNQEFWKHEYIKHGSCCTDLFNETQYFDLALVLKDRFDLLT VKRN---KHWPDLILTEAASLNSQGFWAYQFKKHGTCCSDLFNQEKYFDLALILKDKFDLLT EK-NGLYVRWPDLIREKADCMKTQNFWRREYIKHGTCCSEIYNQVQYFRLAMALKDKFDLLT EK-NGLYVRWPDLIREKADCMKTQNFWRREYIKHGTCCSEIYNQVQYFRLAMALKDKFDLLT :* * :****: :.:..* ** :: ***:**::::*: :** **: ***:***** Q40236/1-193 Q40241/1-189 Q42513/1-193 G255586/1-194 Q40379/1-194 TFRIHGIVPRSSHTVDKIKKTIRSVTGVLPNLSCTKNMDLLEIGICFNREASKMIDCTRP TFRIHGIVPRSSHTVDKIKKTIRSVTGVLPNLSCTKNMDLLEIGICFNREASKMIDCTRP TFRNKGIIPKSTCTINKIQKTIRTVTGVVPNLSCTPTMELLEVGICFNRDASKLIDCDQP SLKNHGIIRGYKYTVQKINNTIKTVTKGYPNLSCTKGQELWEVGICFDSTAKNVIDCPNP SLKNHGIIRGYKYTVQKINNTIKTVTKGYPNLSCTKGQELWEVGICFDSTAKNVIDCPNP ::: :**:. *::**::**::** ****** :* *:****: *.::***.* Q40236/1-193 Q40241/1-189 Q42513/1-193 G255586/1-194 Q40379/1-194 KTCNPGEDNLIGFP KTCNPGEDNLIGFP KTCDTSGNTEIFFP KTCKTASNQGIMFP KTCKTASNQGIMFP ***... : * ** 33 Wykład 7,

17 Profile Profile Representation of Multiple Alignment na przykładzie DNA - A G G C T A T C A C C T G T A G C T A C C A G C A G C T A C C A G C A G C T A T C A C G G C A G C T A T C G C G G A C G T Profile Profile Representation of Multiple Alignment - A G G C T A T C A C C T G T A G C T A C C A G C A G C T A C C A G C A G C T A T C A C G G C A G C T A T C G C G G A C G T Wykład 7,

18 Profile Profile Representation of Multiple Alignment - A G G C T A T C A C C T G T A G C T A C C A G C A G C T A C C A G C A G C T A T C A C G G C A G C T A T C G C G G A C G T Profil porównanie profili - A G G C T A T C A C C T G T A G C T A C C A G C A G C T A C C A G C A G C T A T C A C G G C A G C T A T C G C G G A C G T Oczywiste jest porównanie sekwencji do sekwencji. Czy można porównać/zestawić sekwencję z profilem? Czy można porównać/zestawić profil z profilem? 37 Wykład 7,

19 Zestawianie zestawień Aligning alignments x GGGCACTGCAT y GGTTACGTC-- Alignment 1 z GGGAACTGCAG w GGACGTACC-- Alignment 2 v GGACCT Zestawianie zestawień Aligning alignments Czy można porównać dwa zestawienia? zestawienia odpowiednich profili (zestawianie zestawień prowadzi do zestawienia wielosekwencyjnego nowy sposób?) x GGGCACTGCAT y GGTTACGTC-- z GGGAACTGCAG w GGACGTACC-- v GGACCT----- Combined Alignment 39 Wykład 7,

20 Zestawienia wielosekwencyjne greedy aproach Zestawienie wielosekwencyjne Multiple Alignment: Greedy Approach Podejście: Wybranie najbardziej podobnej pary łańcuchów i złożenie ich w jeden profil redukcja zestawienia k sekwencji do k-1 sekwencji/profili. To jest metoda heurystyczna (heuristic greedy method) k u 1 = ACGTACGTACGT u 2 = TTAATTAATTAA u 3 = ACTACTACTACT u 1 = ACg/tTACg/tTACg/cT u 2 = TTAATTAATTAA u k = CCGGCCGGCCGG k-1 u k = CCGGCCGGCCGG greedy łakomy, pazerny 41 Wykład 7,

21 Greedy Approach: Przykład s1 GATTCA s2 GTCTGA s3 GATATT s4 GTCAGC 42 Greedy Approach: Przykład 4 2 = 6 możliwych zestawień s2 GTCTGA s4 GTCAGC (score = 2) s1 GAT-TCA s2 G-TCTGA (score = 1) s1 GAT-TCA s3 GATAT-T (score = 1) s1 GATTCA-- s4 G T-CAGC(score = 0) s2 G-TCTGA s3 GATAT-T (score = -1) s3 GAT-ATT s4 G-TCAGC (score = -1) 43 Wykład 7,

22 Greedy Approach: Przykład s 2 i s 4 są najbardziej podobne; kombinacja: s2 GTCTGA s4 GTCAGC s 2,4 GTCt/aGa/cA (profil) Nowy zestaw 3 sekwencji: s 1 s 3 s 2,4 GATTCA GATATT GTCt/aGa/c 44 Zestawienie progresywne Progressive Alignment Progressive alignment jest ulepszoną wersją zestawienia za pomocą podejścia greedy poprawiona strategia wybierania najlepszych sekwencji do zestawień Zestawienie progresywne dobrze działa dla podobnych sekwencji, gorzej dla odległych 45 Wykład 7,

23 ClustalW numer jeden na świecie W oznacza ważone (różne fragmenty zestawienia mają różna wagę ). Trzy kroki: 1) Tworzenie zestwień dwóch sekwencji 2) Budowa Guide Tree (drzewo przewodnie/naprowadzające) 3) Zestawienie progresywne wykorzystujące drzewo 46 Krok 1: Zestwienia dwusekwencyjne Zestawienie sekwencji każda z każdą macierz podobieństwa podobieństwo = identyczne / długość sekwencji (%identycznych) v 1 v 2 v 3 v 4 v 1 - v v v (.17 oznacza 17 % identycznych) 47 Wykład 7,

24 Krok 2: Drzewo (Guide Tree) Budowa drzewa na podstawie macierzy podobieństwa ClustalW stosuje metode łączenia sąsiadów (neighbor-joining) Drzewo (guide tree) odzwierciedla z grubsza związki ewolucyjne między sekwencjami 48 Krok 2: Drzewo (Guide Tree) v 1 v 2 v 3 v 4 v 1 - v v v v 1 v 3 v 4 v 2 obliczenia: v 1,3 = alignment (v 1, v 3 ) v 1,3,4 = alignment((v 1,3 ),v 4 ) v 1,2,3,4 = alignment((v 1,3,4 ),v 2 ) 49 Wykład 7,

25 Krok 3: Zestwienie progresywne na początek dwie najbardziej podobne sekwencje Zgodnie z guide tree,dodawane są kolejne sekwencje, zestawiane z istniejącym zestwieniem Wstawianie przerw w razie potrzeby FOS_RAT FOS_MOUSE FOS_CHICK FOSB_MOUSE FOSB_HUMAN PEEMSVTS-LDLTGGLPEATTPESEEAFTLPLLNDPEPK-PSLEPVKNISNMELKAEPFD PEEMSVAS-LDLTGGLPEASTPESEEAFTLPLLNDPEPK-PSLEPVKSISNVELKAEPFD SEELAAATALDLG----APSPAAAEEAFALPLMTEAPPAVPPKEPSG--SGLELKAEPFD PGPGPLAEVRDLPG-----STSAKEDGFGWLLPPPPPPP LPFQ PGPGPLAEVRDLPG-----SAPAKEDGFSWLLPPPPPPP LPFQ.. : **. :.. *:.* *. * **: Kropki i gwiazdki pokazują stopień zachowania (zakonserwowania)kolumny 50 Zestawienie wielosekwencyjne: Punktacja (Scoring ) liczba dopasowań (punktacja najdłuższej wspólnej sekwencji) Entropia (Entropy score) Suma par (Sum of pairs, SP-Score) 51 Wykład 7,

26 Punktacja najdłuższej wspólnej sekwencji Multiple LCS Score kolumna jest dopasowana (match) jeśli wszystkie litery w kolumnie są równe AAA AAA AAT ATC tylko dla bardzo podobnych sekwencji 52 AAA AAA AAT ATC Entropia Określa częstotliwość z jaką każda litera pojawia się w każdej kolumnie zestawienia wielosekwencyjnego p A = 1, p A = 0.75, p T = 0.25, p T = p G =p C =0 (1. kolumna) p G =p C =0 (2.kolumna) p A = 0.50, p T = 0.25, p C =0.25 p G =0 (3. kolumna) entropie oblicza się dla każdej kolumny: X A, T, G, C p X log p X 53 Wykład 7,

27 przypadek najlepszy przypadek najgorszy Entropia: przykład A T entropy G C A A entropy 0 A A 1 1 log ( 2) Entropia zestawienia Multiple Alignment: Entropy Score Entropia zestwienia wielosekwencyjnego jest sumą entropii z wszystkich kolumn : przez wszystkie kolumny X=A,T,G,C p X logp X 55 Wykład 7,

28 Entropia zestawienia : przykład entropia kolumn: -( p A logp A + p C logp C + p G logp G + p T logp T ) A A A A C C A C G A C T kolumna 1 = -[1*log(1) + 0*log0 + 0*log0 +0*log0] = 0 kolumna 2 = -[( 1 / 4 )*log( 1 / 4 ) + ( 3 / 4 )*log( 3 / 4 ) + 0*log0 + 0*log0] = -[ ( 1 / 4 )*(-2) + ( 3 / 4 )*(-.415) ] = kolumna 3 = -[( 1 / 4 )*log( 1 / 4 )+( 1 / 4 )*log( 1 / 4 )+( 1 / 4 )*log( 1 / 4 ) +( 1 / 4 )*log( 1 / 4 )] = 4* -[( 1 / 4 )*(-2)] = +2.0 Entropia zestawienia = = Zestawienie wielosekwencyjne generuje zestawienia par Każde zestawienie wielosekwencyjne prowadzi do zestawienia par Pary: x: AC-GCGG-C y: AC-GC-GAG z: GCCGC-GAG x: ACGCGG-C; x: AC-GCGG-C; y: AC-GCGAG y: ACGC-GAC; z: GCCGC-GAG; z: GCCGCGAG 57 Wykład 7,

29 Zestawienie par z zestawienia wielosekwencyjnego da się wyprowadzić z każdego zestawienia wielosekwencyjnego, ale nie koniecznie będzie to zestawienie optymalne projekcja 3-D ścieżki zestawienia wielosekwencyjnego na 2-D powierzchnie sześcianu 58 Projekcja zestawienia wielosekwencyjnego All 3 Pairwise Projections of the Multiple Alignment 59 Wykład 7,

30 Suma Punktacji Par (SP-Score) zestawienie dwóch sekwencji v i i v j uzyskane w zestawieniu wielosekwencyjnym k sekwencji Nieoptymalna punktacja tej pary: s*(v i, v j ) suma punktacji wszystkich par: s(v 1,,v k ) = Σ i,j s*(v i, v j ) 60 Obliczanie SP-Score Zestawienie 4 sekwencji= 6 zestwień par sekwencje v 1,v 2,v 3,v 4 : s(v 1 v 4 ) = s*(v i,v j ) = s*(v 1,v 2 ) + s*(v 1,v 3 ) + s*(v 1,v 4 ) + s*(v 2,v 3 ) + s*(v 2,v 4 ) + s*(v 3,v 4 ) 61 Wykład 7,

31 SP-Score: Przykład v 1. v k ATG-C-AAT A-G-CATAT ATCCCATTT do obliczenia każdej kolumny: * n S( v ) Ss * (( vi, v 1... vk j ) i, j 2 Par sekwencji A A G 1 1 Score=3 m 1 1 A C m Kolumna 1 Kolumna 3 G Score = 1 2m 62 Problemy w MSA Wielodomenowe białka ewoluowałny, nie tylko przez mutacje punktowe, ale i przed duplikacje i rekombinacje domen Nie ma algorytmu MSA, który pozwalałby na zestawienie sekwencji, które uległy rearanżacji Zwykle możliwe jest porównanie pełnej długości wielu sekwencji 63 Wykład 7,

32 Źródło Chris Lee, POA, UCLA An introduction to Bioinformatics algorithms, N.C. Jones&P.A.Pevzner 64 Do czego prowadzą zestawienia wielosekwencyjne (MSA) wykrywanie zachowawczych(zakonserwowanych) regionów w sekwencjach i budowania ich modeli: Consensus sequences (uzgodnione, zachowacze sekwencje) Patterns (wzorce) Position Specific Score Matrices (PSSMs), Profiles (profile) etc. budowanie drzew filogenetycznych śledzenie pokrewieństwa 65 Wykład 7,

33 Bazy domen i rodzin białkowych Databases of protein domains and families InterPro - Integrated Resources of Proteins Domains and Functional Sites PROSITE - PROSITE dictionary of protein sites and patterns BLOCKS - BLOCKS db Pfam - Protein families db (HMM derived) [Mirrors at St. Louis (USA), Sanger Institute, UK, Karolinska Institutet (Sweden)] PRINTS - Protein Motif fingerprint db ProDom - Protein domain db (Automatically generated) PROTOMAP - An automatic hierarchical classification of Swiss-Prot proteins SBASE - SBASE domain db SMART - Simple Modular Architecture Research Tool STRING - Search Tool for the Retrieval of Interacting Genes/Proteins TIGRFAMs - TIGR protein families db (CDN) 66 Terminologia dla białek rodzina (family): grupa białek o podobnej funkcji biochemicznej i identyczności sekwencji ok. 50%. podobieństwo jest przechodnie: jeśli A B i B C, to A C nawet jeśli id<50% nadrodzina (superfamily) grupa rodzin białkowych związanych odległym ale wykrywalnym podobieństwem Wykład 7,

34 Terminologia dla sekwencji Blok (block): zakonserwowany wzorzec sekwencji białkowych(pattern) nie zawierający przerw Motyw: zakonserwowany wzorzec sekwencji znaleziony dla wielu sekwencji białkowych o podobnej aktywności biochemicznej (zwykle w pobliżu miejsca aktywnego) Moduł: zakonserwowany fragment sekwencji zawierający jeden lub więcej motywów, traktowany jako fundamentalna jednostka strukturalna lub funkcyjna Terminologia dla sekwencji Domena (homologiczna): rozszerzony wzorzec (pattern) sekwencji wskazujący na wspólne ewolucyjne pochodzenie, zawierający jeden lub więcej motywów i ew. przerwy. Domena (struktulana): fragment łańcucha białkowego, który zwija się do struktury 3D niezależnie od pozostałych fragmentów (dotyczy białek wielodomenowych) Wykład 7,

35 Pattern (wzorzec) The PROSITE database of protein domains, families and functional sites Prosite ( zbiór alternatywnych sekwencji wyrażony za pomocą regular expression 70 Definiowanie matryc sekwencji - Patterns Sposób zapisu matrycy (wzorca): motyw receptora jądrowego: C-x(2)-C-x-[DE]-x(5)-[HN]-[FY]-x(4)-C-x(2)-C-x(2)-F-F-x-R [DE]: D lub E x(5): 5 niezdefiniowanych, dowolnych pozycji {FYW}: dowolny niearomatyczny aminokwas 71 Wykład 7,

36 Pattern - wzorzec <A-x-[ST](2)-x(0,1)-{V} Ala na końcu N-, dowolny aminokwas, Ser lub Thr (razy 2), 0 lub dowolny aminokwas, dowolny aminokwas z wyjątkiemval. 72 Przykład zapisu wzorca (pattern) Wykład 7,

37 Profil PSSMs, HMM - A G G C T A T C A C C T G T A G C T A C C A G C A G C T A C C A G C A G C T A T C A C G G C A G C T A T C G C G G A C G T PSSM pozycyjno specyficzna tablica wartościująca 74 Wykład 7,

38 Przykłady: Zinc finger AGE1_YEAST CFTR_HUMAN (P13569) MECP2_HUMAN (P51608) L-X(6)-LX(6)-LX(6)-L Q5SWW9_HUMAN (Q5SWW9) Wykład 7,

39 domena zawierająca motyw palca cynkowego zinc finger motif (Cys-x2-Cys-x(16,17)-Cys-x2-Cys) Wykład 7,

40 Motywy - motyw może być powiązany ze strukturą drugorzędową E.coli trp repressor 81 Motyw zamka leucynowego Leucine zipper motif L-X(6)-LX(6)-LX(6)-L 82 Wykład 7,

41 Strukturalna klasyfikacja białek Wykład 7,

42 Motyw zamka leucynowego L-X(6)-LX(6)-LX(6)-L 85 Domeny Domena jednostka strukturalna Granice domen mogą wynikać ze specyficznej sekwencji podobne domeny (takie same) związane są z taką samą funkcją 86 Wykład 7,

43 87 Pfam-A rozpoznane i opisane rodziny 75% sekwencji 7868 rodzin HMM ukryte modele Markova 88 Wykład 7,

44 Wykład 7,

45 PSI-BLAST Position-specific-interated BLAST Iteracyjne stosowanie BLASTa do znalezienia sekwencji o niskim podobieństwie: zastosowanie BLASTAp utworzenie PSSM (Position Specific Substitution Matrix) z zestawień o najwyższej puktacji powtórzenie przeszukiwania (tym razem szukanie sekwencji podobnych do PSSM 91 PSI-BLAST Query sequence Vs. database PSSM 2 PSSM 5 Wykład 7,

46 Position Specific Score Matrix (PSSM) PSSM jest macierzą opartą na częstotliwości występowania aminokwasów (nukleotydów) w każdej pozycji porównywanych sekwencji PSSM przypisuje aminokwasom występującym w określonym miejscu częściej niż przez przypadek nową punktację (w zestawieniu) (Profile, utryty model Markowa HMMs) 93 Position Specific Score Matrix (PSSM) macierz F macierz F: kolumna 1: f A,1 = 0/5,, f G,1 =5/5=1, kolumna 2: f A,2 =0/5,., f H,2 =5/5=1,... kolumna 15: f A,15 =2/5=0.4, f C,15 =1/5=0.2,. 94 Wykład 7,

47 Position Specific Score Matrix (PSSM) kolumna 1: f A,1 = 0/5 = 0,, f G,1 =5/5=1, kolumna 2: f A,2 = 0/5 = 0,., f H,2 =5/5=1,... kolumna 15: f A,15 =2/5 = 0.4, f C,15 =1/5 = 0.2,. zbiór pseudo-counts dla 1: (1 na 20 aminokwasów) kolumna 1: f A,1 = (0+1)/(5+20) = 0.04,,f G,1 =(5+1)/(5+20)=0.24, kolumna 2: f A,2 = (0+1)/(5+20) = 0.04,.,f H,2 =(5+1)/(5+20)=0.24, kolumna 15: f A,15 =(2+1)/(5+20)=0.12, f C,15 =(1+1)/(5+20) = 0.8,. 95 Position Specific Score Matrix (PSSM) (Score) Punktacja jest liczona jako stosunek częstotliwości obserwowanej do spodziewanej (dokładniej: logarytm ze stosunku tych czestotliwości) Score ij punktacja i-tego aminokwasu w pozycji j. f ij wzglęna częstotliwość dla i- tego aminokwasu w pozycji j, q i względna spodziewana częstotliwość wystepowania i-tego aminokwasu w przypadkowej sekwencji. 96 Wykład 7,

48 Position Specific Score Matrix (PSSM) 97 Position Specific Score Matrix (PSSM) szukanie sekwencji podobnej PSSM jest przesuwna wzdłuż porównywanej sekwencji i w każdej pozycji liczona jest nowa punktacja - pozycja z najwyższą punktacją przechodzi dalej 98 Wykład 7,

49 99 Przykład:MJ0414 (Methanococcus jannaschii ) Wykład 7,

50 Wykład 7,

51 104 sekwencja podobna do siebie samej i sekwencji z 3 innych archea i bakterii 105 Wykład 7,

52 Wykład 7,

53 Wykład 7,

54 zestawienie pozwoliło przewidzieć aktywność ligazy DNA białka porównywanego z ligazą II DNA z drożdży. ważna dla aktywności katalitycznej lizyna Zachowane w ligazach motywy 110 Problem z PSI-BLASTem A B A znajduje B B znajduje C C Nie ma podobieństwa między A a C! 111 Wykład 7,

55 koniec Wykład 7,