Porównywanie sekwencji białek i kwasów nukleinowych

Podobne dokumenty
0 + 0 = 0, = 1, = 1, = 0.

Metoda Karnaugh. B A BC A

WYRAŻENIA ALGEBRAICZNE

PRZYRÓWNANIE SEKWENCJI

Programowanie dynamiczne

Porównywanie populacji

Programowanie celowe #1

Macierze. Rozdział Działania na macierzach

Porównywanie i dopasowywanie sekwencji

INŻYNIERIA BEZPIECZEŃSTWA LABORATORIUM NR 2 ALGORYTM XOR ŁAMANIE ALGORYTMU XOR

Rozdział 5. Macierze. a 11 a a 1m a 21 a a 2m... a n1 a n2... a nm

Arkusz maturalny nr 2 poziom podstawowy ZADANIA ZAMKNIĘTE. Rozwiązania. Wartość bezwzględna jest odległością na osi liczbowej.

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Programowanie dynamiczne

Spacery losowe generowanie realizacji procesu losowego

Funkcje wyszukiwania i adresu PODAJ.POZYCJĘ

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

5. Rozwiązywanie układów równań liniowych

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Pochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych

Mathcad c.d. - Macierze, wykresy 3D, rozwiązywanie równań, pochodne i całki, animacje

FUNKCJA LINIOWA - WYKRES

FUNKCJA LINIOWA - WYKRES. y = ax + b. a i b to współczynniki funkcji, które mają wartości liczbowe

Funkcja kwadratowa. f(x) = ax 2 + bx + c,

Pochodna i różniczka funkcji oraz jej zastosowanie do rachunku błędów pomiarowych

Uniwersytet Kazimierza Wielkiego w Bydgoszczy Zespół Szkół nr 5 Mistrzostwa Sportowego XV Liceum Ogólnokształcące w Bydgoszczy

PODSTAWY > Figury płaskie (1) KĄTY. Kąt składa się z ramion i wierzchołka. Jego wielkość jest mierzona w stopniach:

Następnie przypominamy (dla części studentów wprowadzamy) podstawowe pojęcia opisujące funkcje na poziomie rysunków i objaśnień.

Analiza progu rentowności

Wykład z równań różnicowych

Co to jest arkusz kalkulacyjny?

Układy równań liniowych

Funkcja kwadratowa. f(x) = ax 2 + bx + c = a

b) bc a Rys. 1. Tablice Karnaugha dla funkcji o: a) n=2, b) n=3 i c) n=4 zmiennych.

macierze jednostkowe (identyczności) macierze diagonalne, które na przekątnej mają same

1. A 2. A 3. B 4. B 5. C 6. B 7. B 8. D 9. A 10. D 11. C 12. D 13. B 14. D 15. C 16. C 17. C 18. B 19. D 20. C 21. C 22. D 23. D 24. A 25.

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Wyrównanie ciągu poligonowego dwustronnie nawiązanego metodą przybliżoną.

Układy równań i nierówności liniowych

Zadanie 1. Suma silni (11 pkt)

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

1 Macierze i wyznaczniki

EGZAMIN MATURALNY Z INFORMATYKI MAJ 2010 POZIOM ROZSZERZONY CZĘŚĆ I WYBRANE: Czas pracy: 90 minut. Liczba punktów do uzyskania: 20 WPISUJE ZDAJĄCY

Znaleźć wzór ogólny i zbadać istnienie granicy ciągu określonego rekurencyjnie:

Funkcje liniowe i wieloliniowe w praktyce szkolnej. Opracowanie : mgr inż. Renata Rzepińska

Pętla for. Matematyka dla ciekawych świata -19- Scilab. for i=1:10... end. for k=4:-1:1... end. k=3 k=4. k=1. k=2

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Rys Wykres kosztów skrócenia pojedynczej czynności. k 2. Δk 2. k 1 pp. Δk 1 T M T B T A

Publiczna Szkoła Podstawowa nr 14 w Opolu. Edukacyjna Wartość Dodana

Opis ćwiczenia. Cel ćwiczenia Poznanie budowy i zrozumienie istoty pomiaru przyspieszenia ziemskiego za pomocą wahadła rewersyjnego Henry ego Katera.

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Trik 1 Autorejestrowanie zmian dokonanych w obliczeniach

ARYTMETYKA BINARNA. Dziesiątkowy system pozycyjny nie jest jedynym sposobem kodowania liczb z jakim mamy na co dzień do czynienia.

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

2. Układy równań liniowych

Wyszukiwanie binarne

Postać Jordana macierzy

O MACIERZACH I UKŁADACH RÓWNAŃ

A. Kasperski, M. Kulej, Badania operacyjne, Wykład 4, Zagadnienie transportowe1

Macierze - obliczanie wyznacznika macierzy z użyciem permutacji

Temat: Algorytm kompresji plików metodą Huffmana

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.

1 Macierz odwrotna metoda operacji elementarnych

Arytmetyka komputera. Na podstawie podręcznika Urządzenia techniki komputerowej Tomasza Marciniuka. Opracował: Kamil Kowalski klasa III TI

Wykład 5 Dopasowywanie lokalne

Aproksymacja funkcji a regresja symboliczna

PRZYKŁADY ZADAŃ MATURALNYCH Z MATEMATYKI NA POSZCZEGÓLNE STANDARDY DLA WYBRANYCH TREŚCI PROGRAMOWYCH Z POZIOMU PODSTAWOWEGO I ROZSZERZONEGO

METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH

Analiza korespondencji

Rekurencja. Przykład. Rozważmy ciąg

ABC Excel 2016 PL / Witold Wrotek. Gliwice, cop Spis treści

Rachunek wektorowy - wprowadzenie. dr inż. Romuald Kędzierski

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

2. Charakterystyki geometryczne przekroju

Wprowadzenie do MS Excel

Urządzenia Techniki. Klasa I TI. System dwójkowy (binarny) -> BIN. Przykład zamiany liczby dziesiętnej na binarną (DEC -> BIN):

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Obliczenia iteracyjne

Wykład 4 Przebieg zmienności funkcji. Badanie dziedziny oraz wyznaczanie granic funkcji poznaliśmy na poprzednich wykładach.

Graficzne opracowanie wyników pomiarów 1

Funkcje Tablicowe podstawy

FUNKCJA LINIOWA, RÓWNANIA I UKŁADY RÓWNAŃ LINIOWYCH

Przykładowe zadania z teorii liczb

Dla człowieka naturalnym sposobem liczenia jest korzystanie z systemu dziesiętnego, dla komputera natomiast korzystanie z zapisu dwójkowego

Hierarchiczna analiza skupień

3. FUNKCJA LINIOWA. gdzie ; ół,.

Rozdział 4. Macierze szyfrujące. 4.1 Algebra liniowa modulo 26

Podstawy programowania. Wykład 7 Tablice wielowymiarowe, SOA, AOS, itp. Krzysztof Banaś Podstawy programowania 1

Wymagania kl. 3. Zakres podstawowy i rozszerzony

Przewodnik dla każdego po: Dla każdego coś miłego Microsoft Excel 2010

Zestaw 12- Macierz odwrotna, układy równań liniowych

Analiza obrazów - sprawozdanie nr 2

Rozkład materiału nauczania

Treść wykładu. Pierścienie wielomianów. Dzielenie wielomianów i algorytm Euklidesa Pierścienie ilorazowe wielomianów

Spis treści. Definicje prawdopodobieństwa. Częstościowa definicja prawdopodobieństwa. Wnioskowanie_Statystyczne_-_wykład

Zadania do wykonania. Rozwiązując poniższe zadania użyj pętlę for.

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć

5 Wyznaczniki. 5.1 Definicja i podstawowe własności. MIMUW 5. Wyznaczniki 25

Wykład 2 - model produkcji input-output (Model 1)

Kody blokowe Wykład 2, 10 III 2011

Transkrypt:

Porównywanie sekwencji białek i kwasów nukleinowych Krzysztof Lewiński 1. Podobieństwo i jego miara Wprawdzie podobieństwo jest pojęciem często używanym w życiu codziennym ale nie oznacza to, że możemy łatwo i precyzyjnie podać jego ogólną definicję. Dwa wyrazy, np. rozmnażać i rozmrażać są do siebie podobne chociaż oznaczają zupełnie inne czynności, z kolei znaczenie wyrazów kapcie i pantofle jest to samo chociaż same wyrazy nie są do siebie podobne. W przypadku porównywania ze sobą sekwencji aminokwasów dwóch białek, szukamy podobieństw wyrazów czyli ciągów liter symbolizujących sekwencję w nadziei, że kryje się za nimi również podobieństwo budowy i funkcji obu cząsteczek czyli to samo znaczenie. Kiedy mówimy o podobieństwie do siebie dwóch osób zazwyczaj nie możemy w sposób ilościowy określić na czym to podobieństwo polega. Mówimy, że wyglądają tak samo ale nie, że długość nosa w stosunku do rozstawu oczu jest wyrażona tą samą liczbą szczególnie, że nie musi to być prawdą. A zatem, nasza opinia nie jest ani ilościowa ani nawet nie jest obiektywna gdyż ktoś inny może być innego zdania i twierdzić, że te dwie osoby wcale nie są do siebie podobne. Chcąc porównywać sekwencje białek musimy zatem określić zasady przy pomocy których podobieństwo sekwencji da się opisać w sposób obiektywny i ilościowy. W tym celu należy wprowadzić pojęcie miary podobieństwa, parametru pozwalającego w sposób ilościowy określić stopień podobieństwa. Miara podobieństwa jest funkcją, która przypisuje wartość liczbową parze sekwencji w taki sposób, że większa wartość funkcji oznacza większe podobieństwo. Im większe jest podobieństwo tym mniejsze są różnice i na odwrót, a zatem jako kryterium oceny podobieństwa możemy także przyjąć większy lub mniejszy brak tegoż podobieństwa. en parametr określa się jako miarę dystansu i jest on często używany do porównań zamiennie z miarą podobieństwa. Dla dwóch sekwencji s i t (w tym przypadku nukleotydów) o równych długościach możemy wyznaczyć zarówno podobieństwo (liczbę identycznych par) jak i dystans (liczbę par różnych) 1

sekwencja s AA AGCAA AGCACACA sekwencja t AA ACAA ACACACA dystans 2 3 6 podobieństwo 1 2 2 aka miara podobieństwa jest użyteczna ale dla wielu rzeczywistych przypadków bywa zbyt ograniczona. Nie uwzględnia ona faktu, że porównywane sekwencje mogą mieć różne długości oraz, że możemy je złożyć ze sobą na wiele sposobów. Przedstawiona powyżej trzecia para zawiera sekwencje najwyraźniej mało podobne do siebie, z ośmiu par nukleotydów aż 6 jest różnych. Ale zauważmy, że jeśli usuniemy G z sekwencji s i z sekwencji t to obie sekwencje staną się identyczne! A zatem możemy powiedzieć, że różnią się one nie aż sześcioma ale tylko dwoma nukleotydami. W przyrodzie, w trakcie replikacji DNA zachodzą dość często przypadki powstawania błędów polegających na braku jakiegoś nukleotydu (delecja) lub wbudowaniu dodatkowego (insercja). Możemy zatem (a nawet musimy) dodać znak - jako oznaczenie przerwy w sekwencji. Dzięki niemu nasze dwie sekwencje mogą zostać zmodyfikowane i przyjmą postać: s: AGCACAC-A t: A-CACACA Zamiast usuwać z pierwszej sekwencji nukleotyd dla którego nie mamy pary, wprowadzamy do drugiej sekwencji znak przerwy. ak złożone sekwencje mają teraz taką samą długość i aż siedem par identycznych a tylko dwie pary różne. Przyjmijmy następujące oznaczenia dla operacji, które musimy wykonać aby otrzymać identyczność par sekwencji s i t: (a,a) (a,-) (a,b) (-,b) zgodność (brak zmian) delecja symbolu a w sekwencji s zamiana symbolu a w sekwencji s na symbol b w sekwencji t insercja symbolu b w sekwencji s Dla każdej operacji możemy określić arbitralnie koszt w (zwany też wagą ) jej wykonania i w ten sposób wyznaczyć wartość liczbową miary dystansu. Na przykład, dla symboli a i b przyjmujemy że koszt poszczególnych operacji wynosi: w(a,a) = 0 2

w(a,b) = 1 gdy a b w(a,-) = w(-,b) = 1 Umożliwia nam to zdefiniowanie następujących pojęć: Koszt zrównania dwóch sekwencji s i t jest sumą kosztów wszystkich operacji, które trzeba wykonać aby z sekwencji s otrzymać sekwencję t. ptymalne zrównanie sekwencji s i t jest to takie zrównanie, którego koszt jest najniższy ze wszystkich możliwych kosztów zrównań. Dystans sekwencji s i t jest to koszt optymalnego zrównania tych sekwencji przy użyciu funkcji w. znaczamy go jako d w (s,t) Korzystając z podanej powyżej funkcji kosztu możemy obliczyć, że koszt zrównania sekwencji tak jak poniżej s: AGCACAC-A t: A-CACACA wynosi 2, natomiast koszt zrównania tych sekwencji w inny sposób, np.: s: AG-CACACA t: ACACAC-A wynosi 4. Wykonując próby zrównania przedstawionych powyżej sekwencji na jeszcze inne sposoby przekonamy się, że zrównanie pierwsze jest optymalne dla użytej funkcji kosztu. 3

2. Porównywanie dwóch sekwencji Przypuśćmy, że mamy dwie sekwencje (nukleotydów) o różnych długościach i chcemy je optymalnie zrównać. Dla uproszczenia porównywania będziemy używać macierzy jednostkowej i nie będą wprowadzane przerwy w sekwencji. sekwencja 1: sekwencja 2: Sekwencja 2 jest przesuwana względem sekwencji pierwszej w zakresie od +4 do 5 pozycji i dla każdego przesunięcia jest obliczany wynik zgodności. Pionowa kreska oznacza identyczność symboli w parze odpowiadających sobie nukleotydów. PRZESUNIĘCIE WYNIK 4 5 3 9 2 10 1 6 0 2-1 6-2 4 4

-3 5-4 15-5 10 Powyższy przykład pokazuje, że dwie sekwencje mogą zostać porównane bez względu na to czy są do siebie podobne czy też nie. Dla każdego zrównania możemy wyliczyć parametr umożliwiający ilościową ocenę jego jakości przy czym widać, że możliwych jest wiele zrównań o podobnych wynikach. Najlepszy wynik równy 15 otrzymaliśmy dla przesunięcia o 4 natomiast dla przesunięć o 2, -5 i 3 otrzymaliśmy bardzo zbliżone wyniki. cena jakości tych zrównań nie jest jednak prosta, szczególnie jeśli sekwencje są długie. Pewnym ułatwieniem jest wykonanie wykresu punktowego (ang. dot plot ). Na wykresie punktowym dwie sekwencje są drukowane tak aby tworzyły wiersz i kolumnę macierzy, której pola zawierają znak kropki (w naszym przypadku jest to x ) gdy symbole w odpowiednim wierszu i kolumnie są identyczne (Rys. 1). aki sposób przedstawienia daje dla odpowiadających sobie fragmentów sekwencji znaki układające się wzdłuż linii równoległych do przekątnej macierzy co ułatwia wyszukanie podobieństw. W przypadku gdy obie sekwencje, tak jak w przedstawianym przykładzie, różnią się dość znacznie od siebie, a równocześnie są kombinacją tylko czterech różnych symboli, otrzymany obraz wcale nie jest prosty w interpretacji a wręcz przeciwnie, trudno się w nim doszukać jakichś regularności. znacza to, że szukany sygnał jest zbyt słaby i ginie w szumie. Aby zmniejszyć ten szum należy zastosować dodatkowe kryterium selekcji, które usunie z wykresu przypadkowe pary symboli. Możemy na przykład uznać, że obserwujemy odpowiedniość sekwencji wtedy gdy dwa kolejne symbole są identyczne w obu sekwencjach. Miejsca te zaznaczone są na rysunku 2 znakiem o. Widać, że w kilku miejscach znaki te układają się wzdłuż linii równoległych do przekątnej. Kropki na wykresie wskazują odpowiedniość sekwencji zgodną z dwoma najlepszymi wyrównaniami z poprzedniego przykładu. 5

t x x x x x x x x x x x x x t x x x x x x x x x x x x x t x x x x x x x x x x x x x 25g x x x x x x x a x x x x x x x x x x g x x x x x x x a x x x x x x x x x x a x x x x x x x x x x 20g x x x x x x x t x x x x x x x x x x x x x a x x x x x x x x x x t x x x x x x x x x x x x x c x x x x x x 15a x x x x x x x x x x a x x x x x x x x x x a x x x x x x x x x x t x x x x x x x x x x x x x g x x x x x x x 10a x x x x x x x x x x a x x x x x x x x x x c x x x x x x t x x x x x x x x x x x x x g x x x x x x x 5 g x x x x x x x t x x x x x x x x x x x x x a x x x x x x x x x x g x x x x x x x t x x x x x x x x x x x x x a t g g t a a t g g c a c a a t t g a c t t t c c t g a a t t t c t g a 5 10 15 20 25 30 35 Rys. 1. Wykres punktowy. Znak x oznacza parę identycznych symboli o o o o o o o o o o o 25G A o o G A o o A o o o 20G o o o o o o o A o o o o.o o o C o.o 15A o. o. o A o. o. o A.. o.. G.. 10A o.. o o A. o. o C.. o o.o. G.o.o 5 G.o.o o o.o.o o o A. o o G o o o o o A G G A A G G C A C A A G A C C C G A A C G A 5 10 15 20 25 30 35 Rys. 2. Wykres punktowy dla identycznych par dinukleotydów 6

Pomimo to, ze względu na niskie podobieństwo sekwencji, wykres nie jest zbyt czytelny i nie dostarcza jednoznacznej odpowiedzi, które zrównanie sekwencji jest najlepsze. Aby uzyskać bardziej przejrzysty obraz należy udoskonalić technikę oddzielenia sygnału od szumu poprzez znaczenie na wykresie tylko tych punktów gdzie podobieństwo jest większe niż założony próg. Wykonuje się to w ten sposób, że porównuje się nie pojedyncze symbole ale ciągi symboli tworzące okna o określonej szerokości. Uznajemy, że dwa okna są podobne jeśli liczba identycznych par przekroczy wymagane minimum i rysujemy symbol zgodności dla pozycji środka okna. Na rysunku 3 zamieszczonym poniżej używane było okno o długości 9 a minimalna liczba zgodnych par w oknie (ang. stringency ) wynosiła 5. 25G A G A A 20G A C 15A A A G 10A A C G 5 G A G A G G A A G G C A C A A G A C C C G A A C G A 5 10 15 20 25 30 35 Rys. 3. Wykres punktowy dla co najmniej 5 zgodnych par w oknie o szerokości 9 Wprawdzie wykres ten znacznie wyraźniej niż poprzedni wskazuje na położenie zrównania dającego najlepszy wynik gdyż zdecydowanie mniejszy jest udział przypadkowych podobieństw, jednak z wykresu nie możemy dowiedzieć się gdzie jest położony początek i koniec obu wyrównanych sekwencji, wiemy tylko że mieści się on gdzieś we wnętrzu okna. Widać też, że fragment sekwencji pionowej w zakresie od 5 do 10 odpowiada dwóm różnym fragmentom sekwencji poziomej. Jeżeli porównamy jeszcze raz ze sobą te sekwencje to zobaczymy, że wcale nie są one aż tak bardzo podobne jak sugeruje to wykres punktowy. 7

Musimy użyć dodatkowych informacji aby zadecydować, które zrównanie sekwencji kryje w sobie istotne znaczenie biologiczne, duże podobieństwo krótkiego fragmentu czy też słabsze podobieństwo ale na większej długości. ak więc, bez względu na liczbowe parametry określające podobieństwo tych sekwencji do siebie w obu złożeniach, ostateczna decyzja o tym, które zrównanie jest lepsze musi należeć do człowieka. 8

3. Analityczne porównywanie dwóch sekwencji Liczba możliwych sposobów zrównania ze sobą dwóch długich sekwencji mogących dodatkowo zawierać przerwy jest gigantyczna i nawet przy użyciu szybkich komputerów trwało by to niezwykle długo gdyby nie algorytm Dynamic Programming, pozwalający w szybki i systematyczny sposób znaleźć optymalne rozwiązanie problemu. Rozważmy dwa fragmenty sekwencji s i t o elementach w zakresie od 0 do i oraz od 0 do j i oznaczmy je jako 0:s:i oraz 0:t:j gdzie i,j 1. Przyjmijmy, że znamy optymalne wyrównanie wszystkich krótszych fragmentów, w szczególności: 0:s:(i-1) oraz 0:t:(j-1) 0:s:(i-1) oraz 0:t:j 0:s:i oraz 0:t:(j-1) ptymalne wyrównanie 0:s:i oraz 0:t:j musi być rozszerzeniem o kolejny symbol jednego z wcześniejszych wyrównań poprzez:: zastąpienie lub zgodność (s i,t j ) delecję (s i,-) lub insercję (-,t j ) Jako kryterium wyboru operacji przyjmujemy minimum funkcji kosztu d w wynoszącej: d w (0:s:i, 0:t:j) = min { d w (0:s:(i-1), 0:t:(j-1)) + w(s i, t j ), d w (0:s:(i-1), 0:t:j) + w(s i, -), d w (0:s:i, 0:t:(j-1)) + w(-, t j ) } Jeśli jeden z indeksów i lub j jest równy zero wówczas d w (0:s:0, 0:t:0) = 0 d w (0:s:i, 0:t:0) = d w (0:s:(i-1), 0:t:0) + w(s i, -) dla i 1,..., m d w (0:s:0, 0:t:j) = d w (0:s:0, 0:t:(j-1)) + w(-, t j ) dla j 1,..., n ak więc wartość funkcji kosztu w punkcie (i, j) zależy od wartości tej funkcji w trzech komórkach poprzedzających ją: (i-1, j-1), (i-1, j) oraz (i, j-1). Dla uproszczenia, zapis (i,j) oznacza wartość funkcji kosztu dla d w (0:s:i, 0:t:j), możemy te wartości wpisać do macierzy o odpowiednich elementach (i, j). 9

Dla naszych przykładowych sekwencji obliczone wartości funkcji kosztu wynoszą: s: AGCACACA t: ACACACA (0, 0) = 0 (1, 0) = (0, 0) + (1, -) = 1 (0, 1) = (0, 0) + (-, 1) = 1 Dla kolejnych coraz dłuższych fragmentów przyjmują one zawsze najmniejszą z trzech możliwych wartości:(zaznaczoną czcionką pogrubioną): (1, 1) = [ (0, 0) + (1, 1) = 0 + 0 = 0 ] lub [ (0, 1) + (1, -) = 1 + 1 = 2 ] lub [ (1, 0) + (-, 1) = 1 + 1 = 2 ] (1, 2) = [ (0, 1) + (1, 2) = 1 + 1 = 2 ] lub [ (0, 2) + (1, -) = 2 + 1 = 3 ] lub [ (1, 1) + (-, 2) = 0 + 1 = 1 ] (2, 1) = [ (1, 0) + (2, 1) = 1 + 1 = 2 ] lub [ (1, 1) + (2, -) = 0 + 1 = 1 ] lub [ (2, 0) + (-, 1) = 2 + 1 = 3 ] (2, 2) = [ (1, 1) + (2, 2) = 0 + 1 = 1 ] lub [ (1, 2) + (2, -) = 1 + 1 = 2 ] lub [ (2, 1) + (-, 2) = 1 + 1 = 2 ] (3, 1) = [ (2, 0) + (3, 1) = 2 + 1 = 3 ] lub [ (2, 1) + (3, -) = 1 + 1 = 2 ] lub [ (3, 0) + (-, 1) = 3 + 1 =4 ] (3, 2) = [ (2, 1) + (3, 2) = 1 + 0 = 1 ] lub [ ( 2, 2) + (3, -) = 1 + 1 = 2 ] lub [ (3, 1) + (-, 2) = 2 + 1 = 3 ] (1, 3) = [ (0, 2) + (1, 3) = 2 + 0 = 2 ] lub [ ( 0, 3) + (1, -) = 3 + 1 = 4 ] lub [ (1, 2) + (-, 3) = 1 + 1 = 2 ] (2, 3) = [ (1, 2) + (2, 3) = 1 + 1 = 2 ] lub [ ( 1, 3) + (2, -) = 2 + 1 = 3 ] lub [ (2, 2) + (-, 3) = 1 + 1 = 2 ] (3, 3) = [ (2, 2) + (3, 3) = 1 + 1 = 2 ] lub [ (2, 3) + (3, -) = 2 + 1 = 3 ] lub [ (3, 2) + (-, 3) = 1 + 1 = 2 ] Wyniki obliczeń dla wszystkich wartości i oraz j przedstawione są w poniższej tablicy. 10

A C A C A C A 0 1 2 3 4 5 6 7 8 A 1 0 1 2 3 4 5 6 7 G 2 1 1 2 3 4 5 6 7 C 3 2 1 2 2 3 4 5 6 A 4 3 2 1 2 2 3 4 5 C 5 4 3 2 1 2 2 3 4 A 6 5 4 3 2 1 2 3 3 C 7 6 5 4 3 2 1 2 3 A 8 7 6 5 4 3 2 2 2 Interpretację tych wyników zaczynamy od ostatniej komórki czyli w tym przypadku (8, 8). Aby odtworzyć optymalne wyrównanie musimy wiedzieć która komórka została użyta do wyznaczenia wartości w komórce bieżącej, w tym przypadku z trzech możliwych komórek (8, 7), (7, 7) lub (7, 8) użyta była (7, 7). znacza to, że do wyrównanych sekwencji (0:s:7) i (0:t:7) dodane zostały kolejne symbole (8:s:8) i (8:t:8) czyli A i A. Do obliczenia optymalnej funkcji kosztu w komórce (7, 7) użyto komórki (7, 6) a zatem d w (0:s:7, 0:t:7) = d w (0:s:7, 0:t:6) + w(-, t 7 ) co oznacza operację wstawienia przerwy do sekwencji s. Uzyskaliśmy w ten sposób dwa ostatnie symbole w obu sekwencjach s:(-a) i t:(a). Kontynuując analizę dla kolejnych komórek otrzymamy na końcu optymalne wyrównanie obu sekwencji, które ma postać: s: AGCACAC-A t: A-CACACA Kolejne komórki użyte do tego wyrównania są zaznaczone w tabeli poprzez pogrubienie i podkreślenie wartości funkcji kosztu. 11

4. Macierze wag dla aminokwasów Wszystkie algorytmy służące do porównywania sekwencji oparte są na jakimś schemacie ważenia operacji (a,b) zdefiniowanym dla wszystkich możliwych par aminokwasów lub kwasów nukleinowych. Przedstawia się je w postaci macierzy o wymiarach n n gdzie n jest liczbą użytych symboli bez znaku przerwy. Często macierze są tak zdefiniowane żeby zamiast minimalizować koszt optymalnego zrównania, maksymalizować wynik (ang. score ) otrzymany z sumowania wag dla otrzymanych par. Najprostszą macierzą używaną do zrównywania sekwencji aminokwasów jest macierz jednostkowa. Wynik dla par różnych aminokwasów wynosi 0 natomiast dla par aminokwasów identycznych wynosi 1. aka macierz jest mało efektywna w przypadku gdy sekwencje nie są bardzo podobne do siebie. Liczba par zgodnych w stosunku do liczby wszystkich par jest określana jako procent identyczności i ten parametr jest często używany przy dyskutowaniu podobieństw sekwencji aczkolwiek należy pamiętać, że dla krótkich sekwencji wysoki procent identyczności może być przypadkowy. Schemat ważenia dla macierzy genetycznych oparty jest na częstotliwości obserwowanych podstawień aminokwasów w zrównanych sekwencjach podobnych do siebie białek. Metoda ta jest ilustracją klasycznego problemu jajka i kury, gdyż aby można było zrównać ze sobą sekwencje, trzeba było wcześniej ustalić kryteria ważenia. Początkowe wagi wyznaczane były w oparciu o sekwencje tak podobne do siebie, że zrównanie można było wykonać po prostu ręcznie. becnie najczęściej używa się macierzy wyznaczonych przez Dayhoffa i współpracowników w oparciu o model ewolucyjny. Porównywali oni sekwencje o wysokim stopniu podobieństwa tak aby można było założyć, że obserwowane mutacje np. A D są bezpośrednimi podstawieniami a nie wynikiem kolejnych mutacji A B C D. Liczba obserwowanych mutacji określonego rodzaju była normalizowana w stosunku do częstości występowania danego aminokwasu w analizowanych sekwencjach a następnie wyznaczane było prawdopodobieństwo mutacji dla założonego dystansu ewolucyjnego PAM (Percentage of Acceptable point Mutations per 10 8 years). Najczęściej używana jest tzw. macierz PAM250. en dystans ewolucyjny odpowiada w przybliżeniu sytuacji gdy 80% aminokwasów pierwotnie obserwowanych zostało zamienionych w wyniku kolejnych mutacji punktowych. Można spotkać się też z innymi typami macierzy opartych na obserwowanych podstawieniach aminokwasów, tzw. macierzach BLSUM. Zostały one wyznaczone dla złożeń wielu wyrównanych krótszych fragmentów sekwencji nie zawierających przerw ale bardziej oddalonych ewolucyjnie od siebie. Wyrównania były grupowane w oparciu o 12

C 12 S 0 2-2 1 3 P -3 1 0 6 A -2 1 1 1 2 G -3 1 0-1 1 5 N -4 1 0-1 0 0 2 D -5 0 0-1 0 1 2 4 E -5 0 0-1 0 0 1 3 4 Q -5-1 -1 0 0-1 1 2 2 4 H -3-1 -1 0-1 -2 2 1 1 3 6 R -4 0-1 0-2 -3 0-1 -1 1 2 6 K -5 0 0-1 -1-2 1 0 0 1 0 3 5 M -5-2 -1-2 -1-3 -2-3 -2-1 -2 0 0 6 I -2-1 0-2 -1-3 -2-2 -2-2 -2-2 -2 2 5 L -6-3 -2-3 -2-4 -3-4 -3-2 -2-3 -3 4 2 6 V -2-1 0-1 0-1 -2-2 -2-2 -2-2 -2 2 4 2 4 F -4-3 -3-5 -4-5 -4-6 -5-5 -2-4 -5 0 1 2-1 9 Y 0-3 -3-5 -3-5 -2-4 -4-4 0-4 -4-2 -1-1 -2 7 10 W -8-2 -5-6 -6-7 -4-7 -7-5 -3 2-3 -4-5 -2-6 0 0 17 ---------------------------------------------------------------- C S P A G N D E Q H R K M I L V F Y W Rys. 4. Macierz PAM250 kryterium progu identyczności, przykładowo macierz BLSUM80 była wyznaczona przy użyciu progu 80%. Porównania efektywności działania różnych macierzy nie dają jednoznacznej odpowiedzi na pytania, która macierz jest najlepsza. Wydaje się, że dla zrównań nie zawierających przerw, optymalna jest macierz PAM około 200. Jeśli natomiast porównujemy sekwencje o których nie wiemy z góry czy są spokrewnione, lepiej jest użyć macierzy PAM120. Generalnie, macierze PAM o niskich dystansach ewolucyjnych (np. PAM40) mają tendencję do wyszukiwania krótkich fragmentów o dużym podobieństwie podczas gdy macierze PAM o wysokich dystansach znajdują dłuższe ale słabiej podobne zrównania. esty wyszukiwania znanych sekwencji należących do określonych rodzin białek wykazały przewagę macierzy BLSUM62, jednak w innych przypadkach była ona mniej efektywna od pozostałych macierzy. sobnym zagadnieniem jest kwestia ważenia wprowadzanych przerw w sekwencjach. Stosowany jest system zmiennych wag w zależności od długości przerwy. Pierwsze przerwanie ciągłości sekwencji ma stosunkowo wysoki koszt g i (ang. gap insertion penalty ) natomiast wydłużenie tej przerwy jest obarczone kosztem g e (ang. gap elongation penalty ) wyraźnie niższym niż wprowadzenie kolejnej przerwy w innym miejscu sekwencji. Możemy to zapisać w postaci wzoru: 13

w g = g i + (n-1) g e gdzie n oznacza długość wprowadzonej przerwy. Jest to uzasadnione obserwacją, że często spotyka się usunięte lub wstawione ciągłe odcinki sekwencji o długości co najmniej kilku aminokwasów tworzące w strukturze białka fragmenty, których usunięcie lub dodanie nie wpłynęło istotnie na strukturę i działanie białka a zatem wstawienie jednej długiej przerwy jest bardziej usprawiedliwione niż wstawienie wielu pojedynczych przerw. czywiście, jak zawsze ostateczna decyzja musi być podjęta przez człowieka w oparciu o inne informacje, na przykład wiedzę o tym, które aminokwasy tworzą miejsce aktywne i są w związku z tym zachowane we wszystkich sekwencjach danego białka. W zależności od zastosowanego kosztu wstawienia i przedłużenia przerwy możemy otrzymać bardzo różne wyniki. Rozpatrzmy parę sekwencji s:caaaaga i t:cgagggg stosując jednostkowy koszt dla każdej różnicy oraz przerwy. ptymalne wyrównanie tych sekwencji będzie miało postać: CAAAAGA CGAGGGG a koszt tego wyrównania wynosi 4. Jeżeli natomiast użyjemy dla przedłużenia przerwy kosztu g e = 0.2 wówczas optymalne wyrównanie przybierze postać: CAAAAGA---- C----GAGGGG przy całkowitym koszcie wynoszącym 3.2. 14