Spis treści 8 Ewolucja molekularna Ewolucyjne podstawy porównywania sekwencji Identyfikacja sekwencji i jej funkcji...

Transkrypt

1 Spis treści 8 Ewolucja molekularna Ewolucyjne podstawy porównywania sekwencji Identyfikacja sekwencji i jej funkcji Homologia Modele ewolucji sekwencji białkowej Macierze identycznościowe Macierz PAM Macierze BLOSUM System kar za przerwy Statystyczne znaczenie dopasowań Domenowa budowa białek Porównywanie sekwencji Macierze punktowe Programowanie dynamiczne Statystyczne znaczenie dopasowań Zestwienia wielosekwencyjne Zestawienie wielosekwencyjne: Punktacja (Scoring ) Bazy domen i rodzin białkowych Metody heurystyczne FASTA BLAST Skrypt Bioinformatyka DRAFT Strona 85

2 Skrypt Bioinformatyka DRAFT Strona 86

3 8 Ewolucja molekularna 9 Ewolucyjne podstawy porównywania sekwencji Pierwsze pytanie biologa molekularnego, kiedy odkryje nową sekwencję: Czy w bazie sekwencji są już sekwencje podobne? Celem porównania białek jest między innymi przypisanie informacji znanej dla jednej cząsteczki drugiej cząsteczce (genomika/proteomika porównawcza) - identyfikacja przez porównanie z innymi sekwencjami. Sekwencje są identyczne nic nowego. Sekwencja jest podobna (ma krewnych ) nowy członek znanej rodziny Sekwencja ma kilka podobnych regionów, motywów lub domen można zaproponować funkcję Nie ma znaczącego podobieństwa dużo pracy, trzeba eksperymentalnie dowieść funcji. 9.1 Identyfikacja sekwencji i jej funkcji Białka spokrewnione ze sobą (posiadające wspólnego przodka) mają podobne sekwencje, strukturę i funkcję Pewne istotne fragmenty (motywy) są konserwatywne i charakteryzują rodzinę białek (Bazy rodzin białkowych: PROSITE, PRINTS, InterPro) Ale: czy wszystkie białka spokrewnione mają tę samą funkcję? czy podobieństwo krótkich fragmentów może być przypadkowe? czy wszystkie białka pełniące tę samą funkcje muszą być spokrewnione? Ewolucyjne podstawy porównywania sekwencji Skrypt Bioinformatyka DRAFT Strona 87

4 Nic w Biologii (Bioinformatyce) nie ma sensu jeśli rozpatruje się to w oderwaniu od ewolucji. Theodosis Dobzhansky ( ) 9.2 Homologia homologia -podobieństwo ze względu na wspólnego przodka (dywergencja) homoplazja podobieństwo ze względu na konwergencję Dywergencja rozwoju - w rozwoju ewolucyjnym różnokierunkowe kształtowanie się narządu lub postaci osobników jakiegoś szczepu, wskutek działania odmiennych warunków środowiskowych; np. dywergencja rozwoju kończyn ssaków. Źródło Konwergencja (łac. convergere, zbierać się, upodabniać się) - w biologii, proces powstawania morfologicznie i funkcjonalnie podobnych cech (czyli analogicznych) w grupach organizmów odlegle spokrewnionych (niezależnie w różnych liniach ewolucyjnych), odrębnych dla tych grup cech pierwotnych, w odpowiedzi na podobne lub takie same wymagania środowiskowe, np. podobny typ pokarmu, wymagania lokomocyjne Sekwencje homologiczne są podobne, ale sekwencje podobne nie muszą być homologiczne! Homologia = wspólny przodek Skrypt Bioinformatyka DRAFT Strona 88

5 Homologi: paralogi (wspólny przodek w czasie duplikacji) ortologi (wspólny przodek w czasie specjacji: a1-a2) Przykłady homologów: Hemoglobina (łańcuch α), Mioglobina, Leghemoglobina Skrypt Bioinformatyka DRAFT Strona 89

6 Rysunek: Molecular Cell Biology,4ed. Lodish, Berk, Matsudaira, Kaiser, Krieger, Scott, Zipursky, and Darnell Rysunek: (Biochemistry, J.Berg, J.Tymoczko, L.Stryer.,PWN 2005). homologi: ortologi -różne gatunki, taka sama funkcja (specjacja) paralogi-podobna funkcja, ale ewoluowały niezależnie (duplikacja,ten sam organizm) analogi: różne sekwencje, różne motywy, ale identyczna orientacja ważnych aminokwasów Skrypt Bioinformatyka DRAFT Strona 90

7 Homologia podobne funkcje, konserwatywność fragmentów Tryspsyna (myszy) P07146 i trypsyna (langusty) P Skrypt Bioinformatyka DRAFT Strona 91

8 Homologia nie zawsze podobne funkcje 1a4v.pdb 5lyz.pdb Skrypt Bioinformatyka DRAFT Strona 92

9 Homologia nie zawsze podobne funkcje Zeta-krystalina (soczewka oka kręgowców, human) Q08257, Oksydoreduktaza chininowa (E.Coli) P28304 Analogi Triose phosphate isomerase, i 1,4 - beta - xylanase Triose-phosphate isomerase (TPI or TIM), is an enzyme (EC ) that catalyzes the reversible interconversion of the triose phosphate isomers dihydroxyacetone phosphate and D-glyceraldehyde 3-phosphate. Xylanase (EC ) is the name given to a class of enzymes which degrade the linear polysaccharide beta-1,4-xylan into xylose [1], thus breaking down hemicellulose, which is a major component of the cell wall of plants. Skrypt Bioinformatyka DRAFT Strona 93

10 Proteazy serynowe hydrolizujące wiązanie peptydowe Chymotrypsin: His57, Asp102, Ser195 Subtilisin: His64, Asp32, Ser Modele ewolucji sekwencji białkowej Czy gen człowieka jest bardziej podobny do genu szympansa czy goryla? Potrzebny jest ilościowy model ewolucji. Np. wyznaczenie dopasowania sekwencji i obliczenie odsetka pozycji, na których wystąpiły różnice. S punktacja za dopasowanie, Score = Max(S) S = (dopasowania) - (niedopasowania) - (przerwy) Wartości substytucji i kary za przerwy Schemat punktacji bardziej złożony: macierze substytucji Skrypt Bioinformatyka DRAFT Strona 94

11 9.3.1 Macierze identycznościowe [...] Macierz PAM PAM (point accepted mutations = punktowe mutacje utrwalone) macierz uwzględniająca tempo i typ możliwych podstawień aminokwasowych. (1 jednostka PAM- stopień zróznicowania ewolucyjnego, w którym zmienił się 1% aminokwasów) M M ij ij P ( t) ij A N ij i P ij (t)- prawdopodobieństwo zamiany aminokwasu i na j w czasie t δt - tempo zmian aminokwasów(1 jednostka PAM- stopień zróżnicowania ewolucyjnego, w którym zmienił się 1% aminokwasów) N i - częstość zmian przypadkowych częstość tła (liczba wystąpień i w całym zbiorze sekwencji) A ij - częstość substytucji częstość docelowa zmiany pojawiające się w białkach spokrewnionych (liczba obserwowanych podstawień) Skrypt Bioinformatyka DRAFT Strona 95

12 Macierz PAM250 wartości w macierzy są proporcjonalne do logarytmu z (cz. docelowej/cz.tła) zbudowana na podstawie analizy par blisko spokrewnionych (1PAM) i ekstrapolowana do 250PAM ekstrapolacje można przeprowadzić dla różnych odległości ewolucyjnych PAM duże PAM stosuje się do porównywania sekwencji o dużym stopniu dywergencji ewolucyjnej małe PAM do badania sekwencji podobnych Skrypt Bioinformatyka DRAFT Strona 96

13 Dayhoff Macierz PAM250, substytucja F Y Macierz PAM250, substytucja W W Skrypt Bioinformatyka DRAFT Strona 97

14 fragment macierz PAM250 - substytucja A A skład aminokwasowy białek {Argos and McCaldon} Skrypt Bioinformatyka DRAFT Strona 98

15 Macierz substytucji a właściwości fizykochemiczne. Skrypt Bioinformatyka DRAFT Strona 99

16 9.3.3 Macierze BLOSUM Powstały w oparciu o bazę BLOCKS dopasowanie sekwencji daleko spokrewnionych (oszacowanie częstotliwości docelowych, bez modelu ewolucyjnego) Rodzina macierzy: różnice (indeksu) związane są z maksymalnym stopniem identyczności sekwencji wziętych do obliczeń () BLOSUM90 do analizy sekwencji blisko spokrewnionych BOLSUM30 do analizy odległych ewolucyjnie sekwencji BLOSUM62 Skrypt Bioinformatyka DRAFT Strona 100

17 Reprezentacja macierzy BLOSUM 62 DEHKR naładowane NQST polarne ACGP hydrofobowe FILMVWY duże i hydrofobowe (Biochemistry, Berg, Jeremy M.; Tymoczko, John L.; and Stryer, Lubert. New York: W. H. Freeman and Co.; (2002), Rys.7.9 ) System kar za przerwy nie-afiniczne kary za przerwy każda przerwa traktowana jest tak samo afiniczny model kar za przerwy: G + Ln, G- utworzenie przerwy, Ln-wydłużenie przerwy Skrypt Bioinformatyka DRAFT Strona 101

18 9.3.5 Statystyczne znaczenie dopasowań jaka jest wartość/ istotność dopasowania? Jaka jest wartość świadczy o homologii, a jaka o przypadkowym podobieństwie? Istotność dopasowania można ocenić przez porównanie obliczonej wartości dla danego dopasowania z wartościami obliczonymi dla wielu dopasowań przypadkowych sekwencji o podobnym składzie i długości np. dopasowanie sekwencji α hemoglobiny ludzkiej i mioglobiny ludzkiej Skrypt Bioinformatyka DRAFT Strona 102

19 przypadkowe sekwencje o podobnym składzie: sekwencja jednego z białek zostaje wielokrotnie potasowna Skrypt Bioinformatyka DRAFT Strona 103

20 Dla sekwencji dłuższych niż 100 aminokwasów identyczność wyższa niż 25% prawie na pewno nie jest przypadkowa prawdopodobieństwo homologii identyczność niższa niż 15% mało prawdopodobne, żeby podobieństwo było statystycznie istotne Brak statystycznej istotności nie wyklucza homologii Wykorzystanie macierzy substytucji do szukania dalekich krewnych. Skrypt Bioinformatyka DRAFT Strona 104

21 9.4 Domenowa budowa białek Kolejny aspekt ewolucyny, który musi zostać uwzględniony w czasie porównywania sekwencji: Domenowa budowa białek Tasowanie domen Skrypt Bioinformatyka DRAFT Strona 105

22 dopasowanie globalne dopasowanie wzdłuż całej sekwencji (zastosowanie: do białek składających się z pojedynczej domeny lub homologicznych słabo zróżnicowanych) dopasowanie lokalne uwzględnia domenową naturę białek, szuka subsekwencji (zastosowanie: do białek wielodomenowych, mrna z sekwencją genomową) 10 Porównywanie sekwencji Porównanie sekwencji odbywa się przez ich zestawienie = uliniowienie = alignment. Ogólne spojrzenie na problem. BLAST2Sequences: Algorytmy macierze punktowe (DotPlot) programowanie dynamiczne metody heurystyczne (BLAST, FASTA) metody statystyczne (modele Markova, statystyka Bayesa) 10.1 Macierze punktowe Macierze punktowe nazywane także Dot Matrix Plots, albo DotPlots opierają się na wizualnej analizie podobieństwa. W niektórych przypadkach sprawdzają się lepiej niż zestawienia liniowe sekwencji. Są bardzo czułe na powtarzające się fragmenty sekwencji i dlatego przydatne są do wykrywania powtórzeń, rearanżacji i podobieństw lokalnych. Najczęściej wykorzystywane do porównywania RNA. Skrypt Bioinformatyka DRAFT Strona 106

23 DotPlot Dotter: : Dotter niektóre układy punktów tworzą ścieżkę każda ścieżka odpowiada jednemu dopasowaniu DotPlot- Dotter Dotter: wykrywają fragmenty powtarzalne i rearanżacje opierają się na ocenie wizualnej czasami skuteczniejszej niż alignment idealny do szukania lokalnego podobieństwa Dotter - sekwencje Dotter - sekwencje Dotter SMART ( Liniowe zestawienie dwóch sekwencji Pairwise Sequence Alignment Skrypt Bioinformatyka DRAFT Strona 107

24 Punktownia przerw programowanie dynamiczne Najlepsza ścieżka Najlepsza ścieżka? Algorytm Needlemana-Wunscha strategia najlepszej ścieżki programowanie dynamiczne przeszukiwanie dotyczy pełnego zakresu sekwencji (obszaru dopasowania)- dopasowanie globalne każda podścieżka stanowić może fragment optymalnej ścieżki. Ścieżki szuka się poszerzając zakres podscieżek. Algorytm Smitha-Watermana dopasowanie lokalne ścieżka dopasowania nie musi osiągać krawędzi analizowanej sekwencji ścieżka jest lokalnie optymalna jeśli jej wydłużanie/skracanie nie poprawia obliczonej dla niej wartości system wartościowania dopasowania zaniża wartości w regionach słabego dopasowania = przerwanie ścieżki mogą istnieć ścieżki złożone z kilku połączonych ścieżek Szukanie wielu dopasowań -subdopasowania Metoda optymalna daje zawsze najlepsze dopasowanie nawet jeśli nie ma ono znaczenia biologicznego znaczących, niezachodzących na siebie dopasowń lokalnych można naleźć kilka subdopasownia Trzeba szukać więcej niż jednego dopasowania! (lalign, SIM) Dopasowanie optymalne i suboptymalne Dopasowanie optymalne Skrypt Bioinformatyka DRAFT Strona 108

25 i suboptymalne SIM Wartości substytucji i kary za przerwy schemat wartościowania I: (match) dopasowany: +1 (mismatch) niedopasowany: -1 (gap) przerwa: -1 (nie-afiniczne kary za przerwy każda przerwa traktowana jest tak samo) Punktacja Punktowanie przerw non-affine model (nieafinicznie): równo (match:4, mismatch:-3, gap:-4) affine model (afinicznie): G + L n (match:4, mismatch:-3, gap creation:-8, gap:-4) Programowanie dynamiczne najlepsza ścieżka schemat wartościowania I: (match) dopasowany: +1 (mismatch) niedopasowany: -1 (gap) przerwa: -1 (nie-afiniczne kary za przerwy każda przerwa traktowana jest tak samo) od tego miejsca tekst jest wklejony bezpośrednio z prezentacji i nie przetworzony - w trakcie tworzenia! 10.2 Programowanie dynamiczne zasady: Skrypt Bioinformatyka DRAFT Strona 109

26 Programowanie dynamiczne Programowanie dynamiczne - pseudokody 10.3 Statystyczne znaczenie dopasowań jaka jest wartość/ istotność dopasowania? 10.4 Zestwienia wielosekwencyjne (Zestawienia wielosekwencyjne - Multiple Sequence Alignment -MSA) porównanie dwóch sekwencji: szukanie podobieństwa: przeniesienie informacji o strukturze i funkcji porównanie wielu sekwencji? znalezione podobieństwa mogą być bardziej istotne jeśli występują w wielu sekwencjach Kiedy? Tylko z sekwencjami homologicznymi Poco? wskazanie regionów podobnych, zróżnicowanych, domen oraz funkcyjnie istotnych motywów poprawienie przewidywania; poprawienie błędów! Skrypt Bioinformatyka DRAFT Strona 110

27 tworzenie sekwencji konsensusowej (uzgodnionej), odszukiwanie nowych motywów Jak? Metody automatyczne: Clustal, MAGI półautomatyczne: Hidden Markov Models (HMM) analiza ręczna : Jalview, Cinema Metody Automatyczna :Clustal W, MAGI (EBI) (PBIL) (EMBnet-CH) (MAGI) półautomatyczne: Hidden Markov Models (HMM) Ręczna analiza zestawienia: Jalview, Cinema Multiple Sequence Alignment (MSA) pozwala na znalezienie najbardziej podobnych fragmentów w zbiorze sekwencji o domeny funkcyjne o domeny strukturalne Jeśli struktura jednego z białek jest znana możliwe jest dopasowanie struktury do pozostałych członków zestawienia Różnica między zestawieniem wielu sekwencji (Multiple Sequence Alignment) a estawieniem pary (Sequence Pair Alignment) Podejście macierzowe = programowanie dynamiczne prowadzi do optymalnego zestawienia dwóch sekwencji. Dla zestawień wielosekwencyjnych trudne liczba porównań rośnie gwałtownie z liczbą sekwencji. MSA - dynamiczne Skrypt Bioinformatyka DRAFT Strona 111

28 Dodanie kolejnego zestawienia seq 1:seq 2 seq 2:seq 3 Skrypt Bioinformatyka DRAFT Strona 112

29 dla więcej niż 3 sekwencji potrzebna jest przestrzeń N wymiarowa Punktacja MSA punktacja każdego zestawienia dwóch sekwencji. Suma Par (SP score). stała kara za przerwy (Gaps-constant penalty) dla dowolnego rozmiaru przerwy. Uogólnienie zestawienia dwóch sekwencji Zestawienie 2 sekwencji jest reprezentowane przez macierz 2-wierszową Skrypt Bioinformatyka DRAFT Strona 113

30 Zestawienie 3 sekwencji jest reprezentowane przez macierz 3-wierszową A T - G C G - A - C G T - A A T C A C - A Punktacja (Score): im bardziej zachowane (conserved) kolumny tym lepsze zestawienia Alignments = ścieżka Zestawienie Siatka zestawienia 2-D i 3-D komórka 2-D i 3-D zestawienia Architektura komórki 3-D zestawienia Zasady programowania dynamicznego Multiple Alignment: Dynamic Programming Zasady programowania dynamicznego Multiple Alignment: Dynamic Programming Zasady programowania dynamicznego Multiple Alignment: Dynamic Programming Zestawienie wielosekwencyjne: czas obliczeń Dla 3 sekwencji o długości n, czas obliczeń wynosi 7n3; O(n3) dla k sekwencji, (2k-1)(nk); O(2knk) Programowanie dynamiczne można łatwo zastosować do zestawień wielosekwencyjnych, ale czas obliczeń rośnie ekspotencjalnie. Multiple sequence alignments Profile Profile Representation of Multiple Alignment Skrypt Bioinformatyka DRAFT Strona 114

31 Profil porównanie profili Oczywiste jest porównanie sekwencji do sekwencji. Czy można porównać/zestawić sekwencję z profilem? Czy można porównać/zestawić profil z profilem? Zestawianie zestawień Aligning alignments Zestawianie zestawień Aligning alignments Czy można porównać dwa zestawienia? zestawienia odpowiednich profili (zestawianie zestawień prowadzi do zestawienia wielosekwencyjnego nowy sposób?) Zestawienie wielosekwencyjne Multiple Alignment: Greedy Approach Podejście: Wybranie najbardziej podobnej pary łańcuchów i złożenie ich w jeden profil redukcja zestawienia k sekwencji do k-1 sekwencji/profili. To jest metoda heurystyczna (heuristic greedy method) Greedy Approach: Przykład Greedy Approach: Przykład = 6 możliwych zestawień Greedy Approach: Przykład Zestawienie progresywne Progressive Alignment Progressive alignment jest ulepszoną wersją zestawienia za pomocą podejścia greedy poprawiona strategia wybierania najlepszych sekwencji do zestawień Skrypt Bioinformatyka DRAFT Strona 115

32 Zestawienie progresywne dobrze działa dla podobnych sekwencji, gorzej dla odległych ClustalW numer jeden na świecie W oznacza ważone (różne fragmenty zestawienia mają różna wagę ). Trzy kroki: 1) Tworzenie zestwień dwóch sekwencji 2) Budowa Guide Tree (drzewo naprowadzające) 3) Zestawienie progresywne wykorzystujące drzewo Krok 1: Zestwienia dwusekwencyjne Zestawienie sekwencji każda z każdą macierz podobieostwa podobieństwo = identyczne / długość sekwencji (%identycznych) Krok 2: Drzewo (Guide Tree) Budowa drzewa na podstawie macierzy podobieństwa ClustalW stosuje metode łączenia sąsiadów (neighbor-joining) Drzewo (guide tree) odzwierciedla z grubsza związki ewolucyjne między sekwencjami Krok 2: Drzewo (Guide Tree) Krok 3: Zestwienie progresywne na początek dwie najbardziej podobne sekwencje Zgodnie z guide tree,dodawane są kolejne sekwencje, zestawiane z istniejącym zestwieniem Wstawianie przerw w razie potrzeby Zestawienie wielosekwencyjne: Punktacja (Scoring ) liczba dopasowań (punktacja najdłuższej wspólnej sekwencji) Entropia (Entropy score) Suma par (Sum of pairs, SP-Score) Punktacja najdłuższej wspólnej sekwencji Skrypt Bioinformatyka DRAFT Strona 116

33 Multiple LCS Score Entropia Określa częstotliwość z jaką każda litera pojawia się w każdej kolumnie zestawienia wielosekwencyjnego pa = 1, pt=pg=pc=0 (1. kolumna) pa = 0.75, pt = 0.25, pg=pc=0 (2.kolumna) pa = 0.50, pt = 0.25, pc=0.25 pg=0 (3. kolumna) entropie oblicza się dla każdej kolumny: Entropia: przykład Entropia zestawienia Multiple Alignment: Entropy Score Entropia zestawienia : przykład Zestawienie wielosekwencyjne generuje zestawienia par Każde zestawienie wielosekwencyjne prowadzi do zestawienia par x: AC-GCGG-C y: AC-GC-GAG z: GCCGC-GAG Pary: x: ACGCGG-C; x: AC-GCGG-C; y: AC-GCGAG y: ACGC-GAC; z: GCCGC-GAG; z: GCCGCGAG Zestawienie par z zestawienia wielosekwencyjnego da się wyprowadzić z każdego zestawienia wielosekwencyjnego, ale nie koniecznie będzie to zestawienie optymalne projekcja 3-D ścieżki zestawienia wielosekwencyjnego na 2-D powierzchnie sześcianu Skrypt Bioinformatyka DRAFT Strona 117

34 Projekcja zestawienia wielosekwencyjnego Suma Punktacji Par (SP-Score) zestawienie dwóch sekwencji ai i aj uzyskane w zestawieniu wielosekwencyjnym k sekwencji Nieoptymalna punktacja tej pary: s*(ai, aj) suma punktacji wszystkich par: s(a1,,ak) = Σi,j s*(ai, aj) Obliczanie SP-Score SP-Score: Przykład Problems with Multiple Alignment Multidomain proteins evolve not only through point mutations but also through domain duplications and domain recombinations Although MSA is a 30 year old problem, there were no MSA approaches for aligning rearranged sequences (i.e., multi-domain proteins with shuffled domains) prior to 2002 Often impossible to align all protein sequences throughout their entire length Problems with Multiple Alignment Multidomain proteins evolve not only through point mutations but also through domain duplications and domain recombinations Although MSA is a 30 year old problem, there were no MSA approaches for aligning rearranged sequences (i.e., multi-domain proteins with shuffled domains) prior to 2002 Often impossible to align all protein sequences throughout their entire length Źródło Chris Lee, POA, UCLA An introduction to Bioinformatics algorithms, N.C. Jones&P.A.Pevzner Do czego prowadzą zestawienia wielosekwencyjne Skrypt Bioinformatyka DRAFT Strona 118

35 (MSA) wykrywanie zachowawczych(zakonserwowanych) regionów w sekwencjach i budowania ich modeli: Consensus sequences (uzgodnione, zachowacze sekwencje) Patterns (wzorce) Position Specific Score Matrices (PSSMs), Profiles (profile) etc. Sekwencja konsensusowa Pattern (wzorzec) zbiór alternatywnych sekwencji wyrażony za pomocą: regular expression Prosite ( The Prosite syntax for patterns uses the standard IUPAC one-letter codes for amino acids (G=Gly, P=Pro,...), each element in a pattern is separated from its neighbor by a -, the symbol X is used where any amino acid is accepted, ambiguities are indicated by square parentheses [ ] ([AG] means Ala or Gly), amino acids that are not accepted at a given position are listed between a pair of curly brackets {} ({AG} means any amino acid except Ala and Gly), repetitions are indicated between parentheses ( ) ([AG](2,4) means Ala or Gly between2 and 4 times, X(2) means any amino acid twice, a pattern is anchored to the N-term and/or C-term by the symbols < and > respectively. Definiowanie matryc sekwencji -Patterns Sposób zapisu matrycy (wzorca): motyw receptora jadrowego: C-x(2)-C-x-[DE]-x(5)-[HN]-[FY]-x(4)-C-x(2)-C-x(2)-F-F-x-R [DE]: D lub E x(5): 5 niezdefiniowanych, dowolnych pozycji {FYW}: dowolny niearomatyczny aminokwas Skrypt Bioinformatyka DRAFT Strona 119

36 Pattern - wzorzec <A-x-[ST](2)-x(0,1)-{V} Ala na końcu N-, dowolny aminokwas, Ser lub Thr (razy 2), 0 lub dowolny aminokwas, dowolny aminokwas z wyjątkiemval Bazy domen i rodzin białkowych Databases of protein domains and families InterPro - Integrated Resources of Proteins Domains and Functional Sites PROSITE - PROSITE dictionary of protein sites and patterns BLOCKS - BLOCKS db Pfam - Protein families db (HMM derived) [Mirrors at St. Louis (USA), Sanger Institute, UK, Karolinska Institutet (Sweden)] PRINTS - Protein Motif fingerprint db ProDom - Protein domain db (Automatically generated) PROTOMAP - An automatic hierarchical classification of Swiss-Prot proteins SBASE - SBASE domain db SMART - Simple Modular Architecture Research Tool STRING - Search Tool for the Retrieval of Interacting Genes/Proteins TIGRFAMs - TIGR protein families db 10.5 Metody heurystyczne Heurystyczny - pomocny w rozwiązaniu, służący odkryciu, przeciwstawienie ślepego szukania, ale nie gwarantujący rozwiązania. FASTA i BLAST Metody dynamiczne dobre są do zestawienia (porównania) dwóch sekwencji FASTA i BLAST Skrypt Bioinformatyka DRAFT Strona 120

37 Rozmiar baz danych (rośnie ekspotencjalnie) białkowa: ok reszt aminokwasowych nukleotydowa: nukleotydów FASTA i BLAST wspólna strategia: szybkie przejrzenie bazy sekwencji wyeliminowanie sekwencji niepodobnych zestawienie (alignment) najlepszych FASTA website: ftp://ftp.virginia.edu/pub/fasta web-interface: FASTA Założenie: sekwencje podobne posiadają przekątne o wysokim podobieństwie FASTA Strategia: 4 etapy znalezienie najlepszych regionów na przekątnych powtórne sprawdzenie 10 najlepszych regionów przy użyciu macierzy PAM połączenie wybranych regionów obliczenie optymalnego zestawienia za pomocą programowania dynamicznego ekstra. obliczenie istotności punktacji zestawienia FASTA etap 1 znalezienie najlepszych regionów na przekątnej za pomocą tabel lookup table (lookup table lista wszystkich słów o zadanej długości ktup i ich pozycji w sekwencjach) FASTA etap 1 znalezienie najlepszych regionów na przekątnej za pomocą tabel lookup table (lookup table lista wszystkich słów o zadanej długości ktup i ich pozycji w sekwencjach) FASTA etap 1 Skrypt Bioinformatyka DRAFT Strona 121

38 FASTA etap 2 dla każdego regionu obliczana jest punktacja (PAM250) lokalne podobieństwo (punkty za identyczność, kary za zamianę) 10 najlepszych regionów przechodzi do etapu 2 ponowne obliczenie punktacji z macierzą PAM250 (lub BLOSUM50) lokalne podobieństwo bez przerw. dla każedego regionu znaleziona jest subsekwencja z maksymalną punktacja (init1) przycięcie regionu FASTA etap 3 łączenie przekątnych (próba łączenia przyciętych regionów zestawienie z przerwami) FASTA etap 4 tworzenie zestawienia całkowitego za pomocą lokalnego programowania dynamicznego (NWS Needleman-Wunch-Sellers) FASTA etap 4/ekstra oszacowanie istotności porównania FASTA - zastosowanie przykład: ECGF1 (GI ) Visual FASTA FASTA - Results Visual FASTA FASTA Alignments display FASTA - MView BLAST Basic Lolcal Alignment Search Tool BLAST oparty na wynikach statystycznych dystrybucji punktacji lokalnych zestawień P(S>x) = 1- exp(-kmne-λx) Skrypt Bioinformatyka DRAFT Strona 122

39 BLAST dla nukleotydów - BLASTn podzielenie query na nakładające się słowa przeszukanie bazy szukanie słów o długości W wydłużenie zestawienia od słowa identycznego tworzenie MSP (maximal segment pair), obliczenie istotności dla MSP lokalne programowanie dynamiczne wokół MSP BLAST dla białek - BLASTp podzielenie query na nakładające się słowa określenie słów pokrewnych i przeszukanie bazy szukanie słów wydłużenie zestawienia od słowa identycznego tworzenie MSP (matching segment pair), obliczenie istotności dla MSP lokalne programowanie dynamiczne wokół MSP BLASTp etap 1 BLASTp etap 2 słowa pokrewne BLASTp etap 2 BLAST - etap 2 BLAST zależność od wartości T BLAST etap 3 BLASTp etap 3 BLAST etap 4 podobnie jak dla FASTA programowanie dynamiczne (Smith-Waterman) wokół HSP statystyczne szacowanie istotności zestawienia BLAST etap 4 BLAST etap 4 Rodzaje BLASTów Rodzaje BLASTów BLAST - praktyka przykład: DNA Skrypt Bioinformatyka DRAFT Strona 123