Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

Podobne dokumenty
Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

PRZYRÓWNANIE SEKWENCJI

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowanie sekwencji (sequence alignment)

Dopasowania par sekwencji DNA

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Bioinformatyka. Porównywanie sekwencji

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Wykład 5 Dopasowywanie lokalne

dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl

Porównywanie i dopasowywanie sekwencji

Porównywanie sekwencji białkowych

Porównywanie i dopasowywanie sekwencji

Przyrównywanie sekwencji

Bioinformatyka Laboratorium, 30h. Michał Bereta

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Homologia, podobieństwo i analogia

Dopasowanie par sekwencji

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Motywy i podobieństwo

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

Wstęp do Biologii Obliczeniowej

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Bioinformatyka Laboratorium, 30h. Michał Bereta

Statystyczna analiza danych

Generator testów Bioinformatyka wer / 0 Strona: 1

Porównywanie sekwencji białek i kwasów nukleinowych

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

3 Przeszukiwanie baz danych

Algorytmy kombinatoryczne w bioinformatyce

Bioinformatyka II Modelowanie struktury białek

Bioinformatyka Laboratorium, 30h. Michał Bereta

Algorytmy kombinatoryczne w bioinformatyce

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

D: Dopasowanie sekwencji. Programowanie dynamiczne

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

Podstawy bioinformatyki dla biotechnologów

Spis treści 8 Ewolucja molekularna Ewolucyjne podstawy porównywania sekwencji Identyfikacja sekwencji i jej funkcji...

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Bioinformatyka wykład 8, 27.XI.2012

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

SMOP - wykład. Rozkład normalny zasady przenoszenia błędów. Ewa Pawelec

Bioinformatyka II Modelowanie struktury białek

Wstęp do programowania

Bioinformatyka. Podsumowanie algorytmów dynamicznych

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).

Wstęp do programowania

WIZUALIZACJA ALGORYTMÓW OPTYMALNEGO DOPASOWANIA SEKWENCJI NUKLEOTYDÓW I AMINOKWASÓW

KORELACJE I REGRESJA LINIOWA

Rozdział 7 ZARZĄDZANIE PROJEKTAMI

W kierunku równoległej implementacji pakietu T-Coffee

Generator testów bioinformatyka wer / Strona: 1

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Bioinformatyka wykład 10

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

METODY STATYSTYCZNE W BIOLOGII

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

; B = Wykonaj poniższe obliczenia: Mnożenia, transpozycje etc wykonuję programem i przepisuję wyniki. Mam nadzieję, że umiesz mnożyć macierze...

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Bioinformatyka wykład 3.I.2008

Zmienność ewolucyjna. Ewolucja molekularna

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Analizy filogenetyczne

Mechanizmy zmienności ewolucyjnej. Podstawy ewolucji molekularnej.

Wstęp do Informatyki zadania ze złożoności obliczeniowej z rozwiązaniami

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

Bioinformatyka Laboratorium, 30h. Michał Bereta

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Zespół kanoniczny N,V, T. acc o n =min {1, exp [ U n U o ] }

Analiza korespondencji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych

WYKŁAD 8 ANALIZA REGRESJI

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Urszula Poziomek, doradca metodyczny w zakresie biologii Materiał dydaktyczny przygotowany na konferencję z cyklu Na miarę Nobla, 14 stycznia 2010 r.

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Ważne rozkłady i twierdzenia c.d.

STATYSTYKA MATEMATYCZNA

0 + 0 = 0, = 1, = 1, = 0.

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Transkrypt:

Dopasowanie sekwencji Sequence alignment Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012) krzysztof_pawlowski@sggw.pl

terminologia alignment 33000 dopasowanie sekwencji 119 uliniowienie sekwencji 82 uliniowianie sekwencji 125 uliniawianie 6 uliniowanie 3 elajment 2

Uliniowianie Z Wikipedii W bioinformatyce, uliniawianie sekwencji to sposób porównywania sekwencji pierwszorzędowej DN, RN bądź białek w celu identyfikacji regionów podobnych, które mogą być wynikiem funkcjonalnych, strukturalnych bądź ewolucyjnych związków pomiędzy sekwencjami. Uliniowione sekwencje rezyduów nukleotydów bądź aminokwasów zwykle są przedstawiane jako wiersze macierzy Pomiędzy znaki wstawiane są przerwy w taki sposób, aby zapewnić jak największą zgodność porównywanych sekwencji....

dopasowanie (alignment) Ułożenie dwóch sekwencji biopolimerów (DN, RN lub białka) w celu zidentyfikowania regionów podobieństwa istotnego ze względów ewolucyjnych, strukturalnych lub funkcjonalnych (procedura oraz jej efekt). dwie sekwencje - pairwise alignment wiele sekwencji - multiple sequence alignment gap -- --- match mismatch

Edgar llan Poe, he Raven

Różne sekwencje można dopasować NOWORÓD NOWORD NEUBUR NEUHEL NRUWHI NNRHR

Różne sekwencje można dopasować NOWO-RÓD NOWOR-D. NEUBU-R NEUHEL

Różne sekwencje można dopasować NOWO-RÓD NOWOR-D N---RUWHI NN-RHR

Dopasowanie sekwencji - znaczenie Podobieństwo porównywanych sekwencji (similarity) może świadczyć o: podobnej funkcji sekwencji podobnej strukturze białek wspólnej historii ewolucyjnej sekwencji Podobieństwo porównywanych sekwencji (similarity) może wynikać z: homologii - pochodzeniu sekwencji (homologicznych) od wspólnego przodka; sekwencje mogą, ale nie muszą pełnić te same funkcje konwergencji - podobne motywy, które wyewoluowały w obu sekwencjach (analogicznych) niezależnie; np. chymotrypsyna i subtylizyna - różna struktura 3D, ale podobne centrum aktywne (histydyna, seryna, kwas asparaginowy) {... Problem rozróżnienia odległej homologii a analogii }

regiony zachowane = znaczenie funkcjonalne sekwencje trypsyny Mus musculus i stacus astacus S-S * Mouse IVYNEENSVPYQVSLNS-----YHFSLINEQWVVSHYK-------SRIQV rayfish IVDVLEFPYQLSFQEFLFSFHFSIYNENYIHVYDDYENPSLQI * Mouse RLEHNIEVLENEQFINKIIRHPQYDRKLNNDIMLIKLSSRVINRVSISLP rayfish VELDMSVNESEQIVSKIILHENFDYDLLDNDISLLKLSSLFNNNVPILPQ Mouse PPKLISWNSSDYPDELQLDPVLSQKESYP-KISNMFVFLE rayfish HNVIVW-SENPDVLQKVVPLVSDERDDYDEIFDSMIVPE S-S * Mouse KDSQDSPVVN----QLQVVSWDQKNKPVYKVYNYVKWIKNIN rayfish KDSQDSPLSDSYLIVSWYRPYPVYEVSYHVDWIKNV-- S-S

Sequence identity? L1_HUMN vs 1kapp Metalloprotease [Pseudomonas aeruginosa] Z-score -6.8 6% sequence identity L1_HUMN PNVPEDELIQQIKDMVQSLYLFEKRFYFKNVIL 1kapp YSFLKPNDFFNPWKYVSDIYSLKFSFSQQQQKL L1_HUMN IPEWKKDYVRPKLEYKNDVLVESPPNDEPYE 1kapp SLQSWSDVNIHFVDQDQDLFNFSSSVFF L1_HUMN QMNEKERIHLPDFIKKLEYPQRFVHEWH 1kapp LPDVPDLKQSWYLINSSYSNVNP-----QLHEIH L1_HUMN LRWVFDEYNNDE 1kapp --LSHPDYN

różnice między sekwencjami świadczą o mutacjach, które zaszły po rozdzieleniu się sekwencji od wspólnego przodka -- --- -- --- delecja insercja - + -> -> substytucje

dopasowanie - zastosowanie Porównywanie sekwencji jest bardzo pomocne w: poszukiwaniu oraz określaniu funkcji i struktury (białek) dla nowych sekwencji określaniu powiązań filogenetycznych między sekwencjami - homologii między sekwencjami oraz w analizach ewolucyjnych

dopasowanie - metody dopasowanie par sekwencji: Macierz punktów - dot matrix, dotplot Programowanie dynamiczne (DP) Metody słów (k - tuple methods) - szybkie metody stosowane przy przeszukiwaniu baz danych sekwencji z wykorzystaniem programów FS i BLS dopasowanie wielu sekwencji

Dot matrix M S I E L Q W R E V W M S I E Q W R Q V MSIELQWREVW MSIE-QWRQV--

Dot matrix porównanie sekwencji samej z sobą

Dot matrix porównanie dwóch podobnych sekwencji

Dot matrix - metody wstawiania punktów Dla identycznych zasad lub reszt aminokwasowych (symboli) W oparciu o macierz punktacji (PM, BLOSUM), gdy symbole wykazują podobieństwo większe niż pewna wartość punktacji (score) Nadawanie różnych kolorów lub odcieni szarości w zależności od stopnia podobieństwa symboli dy liczba podobnych symboli w danym oknie przekracza pewną wartość

Dot matrix - metody wstawiania punktów 5/74/74/712/20 11/20 rodzaj sekwencji sekwencje DN sekwencje białek sekwencje odległe wielkość okna 15 2-3 15 liczba identycznych symboli 10 2 5

Dot matrix - zastosowanie identyfikacja regionów podobnych lub identycznych porównywanie sekwencji o strukturze wielodomenowej rozpoznawanie dużych insercji i delecji rozpoznawanie regionów powtórzonych i duplikacji rozpoznawanie rearanżacji rozpoznawanie regionów o słabo zróżnicowanym składzie analiza sekwencji i struktury RN

Dot matrix insercja lub delecja ------

Dot matrix duplikacja tandemowa

Dot matrix duplikacja tandemowa w tej samej sekwencji

Dot matrix inwersja

Dot matrix przyłączenie regionu

Dot matrix region o licznych powtórzeniach

Dot matrix - zastosowanie czynnik krzepnięcia XII (F12) F2 E F1 E K atalytic tkankowy aktywator plazminogenu (PL) F1 E K K atalytic F1 F2 E K atalytic powtórzenia fibronektynowe domena podobna do EF domena kringle aktywność katalityczna proteaz serynowych

Dot matrix - zastosowanie czynnik krzepnięcia XII (F12) tkankowy aktywator plazminogenu (PL) F2 E F1 E K atalytic

Programowanie dynamiczne Porównuje każdą parę znaków dwóch sekwencji i tworzy dopasowanie Uwzględnia wszystkie możliwe przyrównania uwzględniając: dopasowania (matches), niedopasowania (mismatches), przerwy (gaps). Przerwy są wstawiane, aby uzyskać wzrost liczby dopasowań w innych miejscach. Przyjmuje pewien system punktacji (scoring system) Rozpatruje wszystkie możliwości Stara się uzyskać maksymalną liczbę dopasowań między identycznymi lub podobnymi znakami Znajduje optymalne dopasowanie (może istnieć więcej niż jedno takie dopasowanie) zas obliczeń proporcjonalny do iloczynu długości sekwencji

Programowanie dynamiczne Przyjęty system punktacji: dopasowanie (match): +1 niedopasowanie (mismatch): -1 przerwa (gap): -1 gap -- --- match mismatch

Programowanie dynamiczne Już utworzone dopasowanie, do którego jest dodawana kolejna para znaków, musi być optymalne. Programowanie dynamiczne uwzględnia każdą dodawaną parę znaków i z powrotem przelicza optymalne dopasowanie. sekwencja 1: sekwencja 2: Dotychczasowe dopasowanie musi być optymalne! + = +1 +1 +1 1 = +2 +1 +1 +1 1 1 = +1 - - - - 1 1 1 1 1 1 1 = 7 - - 1 1 1 +1 +1 1 = 2 - - +1 +1 +1 1 +1 1 = +2

Programowanie dynamiczne worzenie macierzy punktacji, w której każda komórka reprezentuje punktację dla najlepszego dopasowania kończącego się w danej pozycji ofanie się w macierzy, aby znaleźć optymalne dopasowanie sekwencja 1: sekwencja 2: Przyjęty system punktacji: dopasowanie (match): +1 niedopasowanie (mismatch): -1 przerwa (gap): -1

Programowanie dynamiczne dopasowanie jako ścieżka w macierzy Znaki sekwencji ułożone wzdłuż dwu-wymiarowej siatki Węzły siatki znajdują się między znakami

Programowanie dynamiczne dopasowanie jako ścieżka w macierzy elem jest znalezienie optymalnej ścieżki stąd dotąd

Programowanie dynamiczne dopasowanie jako ścieżka w macierzy Każda ścieżka odpowiada poszczególnemu dopasowaniu Które dopasowanie jest optymalne?

Programowanie dynamiczne dopasowanie jako ścieżka w macierzy punktacja dla ścieżki jest sumą przyrastających punktacji krawędzi. porównane z match = +1

Programowanie dynamiczne dopasowanie jako ścieżka w macierzy punktacja dla ścieżki jest sumą przyrastających punktacji krawędzi. porównane z mismatch = -1

Programowanie dynamiczne dopasowanie jako ścieżka w macierzy punktacja dla ścieżki jest sumą przyrastających punktacji krawędzi. porównane z przerwą gap = -1 przerwa porównana z

Programowanie dynamiczne dopasowanie jako ścieżka w macierzy Znaczenie punktu w macierzy: wszystkie znaki do tego miejsca są ze sobą porównane, czego można dokonać na wiele sposobów (ścieżek). Pozycja x oznacza: przyrównanie z x -- - -- -

Programowanie dynamiczne dopasowanie jako ścieżka w macierzy Rozszerzanie się ścieżki i przyrastanie punktacji. 0-1 -1 +1

0 0-1 = -1-1 0-1= -1 0 +1= +1-1 +1

0 0-1 = -1-1 -2-1 -1= -2 0-1= -1 0 +1= +1-1 -1 = -2-1 -1= -2-1 +1-2 -2

0 0-1 = -1-1 -2-1 -1= -2 0-1= -1 0 +1= +1-1 -1= -2-1 +1 +1-1 = 0 +1-1= 0 +1 +1= +2-2 0 0 +2

0 0-1 = -1-1 -2-1 -1= -2 0-1= -1 0 +1= +1-1 -1-1 = -2-1 -1= 0-1 -1= -2 +1-2 +1-1 = 0 +1-1= 0 +1 +1= +2-2 0-2 -2 0 +2

Programowanie dynamiczne dopasowanie jako ścieżka w macierzy Rozszerzanie się ścieżki i przyrastanie punktacji. 0-1 -1 +1

Programowanie dynamiczne dopasowanie jako ścieżka w macierzy Rozszerzanie się ścieżki i przyrastanie punktacji. Wybierana jest najlepsza ścieżka prowadząca do każdego punktu na siatce. 0-1 -1-2 +1-2

Programowanie dynamiczne dopasowanie jako ścieżka w macierzy Rozszerzanie się ścieżki i przyrastanie punktacji. Wybierana jest najlepsza ścieżka prowadząca do każdego punktu na siatce. 0-1 -1-2 +1-20 0 +2

Programowanie dynamiczne dopasowanie jako ścieżka w macierzy Rozszerzanie się ścieżki i przyrastanie punktacji. Wybierana jest najlepsza ścieżka prowadząca do każdego punktu na siatce. 0-1 -2-1 +1-20 -2 0 +2

Programowanie dynamiczne dopasowanie jako ścieżka w macierzy Rozszerzanie się ścieżki i przyrastanie punktacji. Wybierana jest najlepsza ścieżka prowadząca do każdego punktu na siatce. 0-1 -2-3 -1-2 -3 +1-2 0-1 0 +2 +1-1 +1 +3

Programowanie dynamiczne dopasowanie jako ścieżka w macierzy Rozszerzanie się ścieżki i przyrastanie punktacji. Wybierana jest najlepsza ścieżka prowadząca do każdego punktu na siatce. 0-1 -1 +1-2 0-3 -4-5 -1-2 -2 0 +2 +1 0-3 -1-3 +1-4 -5-1 -2-3 +3 0 +2-1 +1 +2 +2 +1 +1 +3 +2

Programowanie dynamiczne dopasowanie jako ścieżka w macierzy Rozszerzanie się ścieżki i przyrastanie punktacji. Wybierana jest najlepsza ścieżka prowadząca do każdego punktu na siatce. 0-1 -1-2 -3-4 +1 0-1 -2-3 -4-5 -2 0 +2 +1 0-1 -2-3 -3-1 +1 +3 +2 +1 0-1 -4-2 0 +2 +2 +1 +2 +1-5 -3-1 +1 +3 +2 +1 +3-6 -4-2 0 +2 +4 +3 +2-7 -5-3 -1 +1 +3 +3 +2-8 -6-4 -2 0 +2 +2 +4-5 -6-7

Programowanie dynamiczne dopasowanie jako ścieżka w macierzy ofanie się do tyłu i wybór optymalnej ścieżki i dopasowania. 0-1 -1-2 -3-4 +1 0-1 -2-3 -4-5 -2 0 +2 +1 0-1 -2-3 -3-1 +1 +3 +2 +1 0-1 -4-2 0 +2 +2 +1 +2 +1-5 -3-1 +1 +3 +2 +1 +3-6 -4-2 0 +2 +4 +3 +2-7 -5-3 -1 +1 +3 +3 +2-8 -6-4 -2 0 +2 +2 +4-5 -6-7

Programowanie dynamiczne dopasowanie jako ścieżka w macierzy Uzyskane dopasowanie -

dopasowanie globalne i lokalne dopasowanie globalne (Needleman & Wunsch, 1970) przyrównuje sekwencje na całej długości; wykorzystuje tak dużo znaków, jak to jest tylko możliwe. dopasowanie lokalne (Smith & Waterman, 1981) przyrównuje fragmenty sekwencji, które wykazują największe podobieństwo; poszukuje najlepiej pasujących regionów; znajduje regiony konserwowane. dy obliczana wartość punktacji w macierzy jest mniejsza od zera, to wartość ta jest ustawiana na zero, a dopasowanie ulega zakończeniu do tego miejsca i rozpoczynany jest nowe` dopasowanie od nowego miejsca Optimalne dopasowanie globalne LPSSKQKS-SRIWDN LN-IKSKIMRLD sekwencje o podobnej długości, blisko spokrewnione Optymal ne dopasowanie lolalne -------K-------- -------K-------- sekwencje o różnych długościach, posiadające regiony i domeny zachowane, podobne tylko w niektórych obszarach

System punktacji Prosty system punktacji: match: +1 +1 mismatch: -1 0 gap: -1-1 Zaawansowany system punktacji (nadawanie różnych wag dla niedopasowań i przerw w zależnosci od ich długości): Macierze podstawień aminokwasów (PM, BLOSUM) Macierze podstawień nukleotydów System punktacji dla przerw: gap penalties, affine gap penalty

ypowe systemy punktacji sekwencje DN Match = +1 Mismatch = -3 ap penalty = -5 ap extension penalty = -2 sekwencje białkowe Macierz Blossum62 ap open penalty = -11 ap extension = -1

Istotność dopasowania zy punktacja dopasowanie jest znacząco większa od punktacji oczekiwanej dla dopasowania losowych sekwencji o tej samej długości i składzie? worzenie metodą Monte arlo losowych(-ej) sekwencji (o tej samej długości i składzie co rzeczywiste). Przyrównanie losowych(-ej) sekwencji (powtórzenie 100-1000 razy) przy tych samych parametrach. Określenie rozkładu punktacji, średniej i odchylenie standardowego (SD). Wyliczenie Z-score: Z = (score obs score ran )/SD ran 3 > Z brak homologii 3 < Z < 6 istnieje homologia Z > 6 silna homologia Rozkład score-ów nie jest normalny i dlatego nie można przekształcić Z-score na prawdopodobieństwo.

Istotność dopasowania Dla dopasowań lokalnych rozkład maksymalnych scorów dopasowania dla sekwencji losowych przyjmuje rozkład wartości ekstremalnych (extreme values distribution)(karlin i ltschul 1990). Log p(s>=s ) S Wykres zależności logarytmu ułamka dopasowań z punktacją S równą lub większą od wartości punktacji S Określenie E-value Oczekiwana liczba przypadkowych dopasowań z punktacją większą niż obserwowana E=Kmn e λs Oczekiwana (wg rozkładu prawdopodobieństwa) liczba dopasowań z punktacją równą przynajmniej S

Bit score- znormalizowana punktacja uwzględniająca warunki jego naliczania i przyjęte systemy punktacji (parametry lambda i K) E=mn 2 S' λs ln K S'= ln2

Prawdopodobieństwo znalezienia przynajmniej 1 dopasowania o punktacji >=S p=1 e E Jeżeli spodziewamy się znaleźć przynajmniej 3 dopasowania o punktacji >= S, to prawdopodobieństwo tego że znajdziemy co najmniej jedno wynosi 0,95. Programy z grupy BLS posługują się wartością E zamiast bezpośrednim prawdopodobieństwem dla wygody przy analizie wyników

Istotność dopasowania alignment significance Łatwiej oszacować istotność statystyczną rudniej ocenić istotność biologiczną