3 Przeszukiwanie baz danych

Podobne dokumenty
danych jest Swiss-Prot. Przeszukiwanie baz danych jest jedna

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Wyk lad 5 W lasności wyznaczników. Macierz odwrotna

Bioinformatyka Laboratorium, 30h. Michał Bereta

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

2 Uliniowienie wielu sekwencji Miara typu suma par (SP) Uliniowienie gwiazdowe dla SP... 24

Porównywanie i dopasowywanie sekwencji

PRZYRÓWNANIE SEKWENCJI

Wyk lad 3 Wyznaczniki

Dopasowania par sekwencji DNA

Dopasowanie sekwencji (sequence alignment)

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Metoda Simplex bez użycia tabel simplex 29 kwietnia 2010

Statystyczna analiza danych

Wyk lad 4 Dzia lania na macierzach. Określenie wyznacznika

Metody Numeryczne Wykład 4 Wykład 5. Interpolacja wielomianowa

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Porównywanie i dopasowywanie sekwencji

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

2 Arytmetyka. d r 2 r + d r 1 2 r 1...d d 0 2 0,

Wyk lad 4 Macierz odwrotna i twierdzenie Cramera

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

0 + 0 = 0, = 1, = 1, = 0.

D: Dopasowanie sekwencji. Programowanie dynamiczne

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Niesimpleksowe metody rozwia zywania zadań PL. Seminarium Szkoleniowe Edyta Mrówka

Generator testów Bioinformatyka wer / 0 Strona: 1

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Wstęp do Biologii Obliczeniowej

Matematyka Dyskretna. Andrzej Szepietowski. 25 czerwca 2002 roku

CZEŚĆ PIERWSZA. Wymagania na poszczególne oceny,,matematyka wokół nas Klasa III I. POTĘGI

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

Procesy stochastyczne

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Algorytmy stochastyczne laboratorium 03

Wyk lad 7 Metoda eliminacji Gaussa. Wzory Cramera

Systemy liczbowe. 1. Przedstawić w postaci sumy wag poszczególnych cyfr liczbę rzeczywistą R = (10).

Wyk lad 9 Baza i wymiar przestrzeni liniowej

Wybrane podstawowe rodzaje algorytmów

Teoretyczne podstawy programowania liniowego

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

Wyk lad 9 Baza i wymiar przestrzeni liniowej

Wstęp do programowania

Metodologia badań psychologicznych. Wykład 12. Korelacje

3. Macierze i Układy Równań Liniowych

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Elementy modelowania matematycznego

ALGORYTMY GENETYCZNE ćwiczenia

Wstęp do programowania

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

W. Guzicki Próbna matura, grudzień 2014 r. poziom rozszerzony 1

Temat: Algorytm kompresji plików metodą Huffmana

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Spacery losowe generowanie realizacji procesu losowego

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

A. Kasperski, M. Kulej Badania Operacyjne- metoda sympleks 1

Algorytmy przeszukiwania wzorca

Liczba 2, to jest jedyna najmniejsza liczba parzysta i pierwsza. Oś liczbowa. Liczba 1, to nie jest liczba pierwsza

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Programowanie liniowe metoda sympleks

Wykład 5 Dopasowywanie lokalne

1 Układy równań liniowych

Programowanie liniowe metoda sympleks

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

0.1 Sposȯb rozk ladu liczb na czynniki pierwsze

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Metody numeryczne I Równania nieliniowe

ZAGADNIENIE DUALNE Rozważmy zagadnienie liniowe(zagadnienie to nazywamy prymalnym) o postaci kanonicznej:

Adaptacyjne sterowanie robotem IRb-6 instrukcja nr 508

Kodowanie i kompresja Tomasz Jurdziński Studia Wieczorowe Wykład Kody liniowe - kodowanie w oparciu o macierz parzystości

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

KONSPEKT FUNKCJE cz. 1.

Kody blokowe Wykład 2, 10 III 2011

Zagadnienie Dualne Zadania Programowania Liniowego. Seminarium Szkoleniowe Edyta Mrówka

Wstęp do Informatyki zadania ze złożoności obliczeniowej z rozwiązaniami

Trigonometria. Funkcje trygonometryczne

Bioinformatyka Laboratorium, 30h. Michał Bereta

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

Przyrównywanie sekwencji

5. Rozwiązywanie układów równań liniowych

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

4.1 Mapy hybrydyzacyjne

Programowanie dynamiczne cz. 2

Bioinformatyka Laboratorium, 30h. Michał Bereta

Procesy Markowa zawdzięczają swoją nazwę ich twórcy Andriejowi Markowowi, który po raz pierwszy opisał problem w 1906 roku.

Macierze. Rozdział Działania na macierzach

Wyk lad 11 Przekszta lcenia liniowe a macierze

celu przyjmijmy: min x 0 = n t Zadanie transportowe nazywamy zbilansowanym gdy podaż = popyt, czyli n

Tablice z haszowaniem

Porównywanie sekwencji białek i kwasów nukleinowych

Podobieństwo dwóch sekwencji. Motywacje

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Transkrypt:

Spis treści 3 Przeszukiwanie baz danych 1 3.1 Heurystyczne algorytmy...................... 1 3.1.1 FASTA........................... 1 3.1.2 BLAST........................... 3 3.2 Macierze substytucyjne....................... 3 3.2.1 PAM............................ 4 3.2.2 BLOSUM.......................... 5 3 Przeszukiwanie baz danych Jest dużo baz danych specjalizuj acych sie w różnych aspektach zwi azanych z sekwencjami naturalnie pojawiaj acymi sie w biologii. Dla sekwencji DNA główne bazy danych to: GenBank (USA), EMBL (Europa), DDBJ (Japonia). Natomiast dla białek główn a baz a danych jest Swiss-Prot. Przeszukiwanie baz danych jest jedn a z głównych metod pracy współczesnego biologa. Poniżej omówimy kilka zagadnień zwi azanych z praktycznymi aspektami przeszukiwania baz. 3.1 Heurystyczne algorytmy Omówimy dwa najbardziej popularne heurystyczne algorytmy używane do obliczania przybliżonej wartości lokalnego uliniowienia. Algorytmy te stanowi a standardowe narzedzie do przeszukiwania baz danych w procesie wyszukiwania podobieństw pomiedzy sekwencjami. 3.1.1 FASTA Jest to heurystyczny algorytm (Lipman, Pearson, 1985) służ acy do przybliżonego obliczania lokalnego uliniowienia danego wzorca wzgledem tekstowej sekwencji wzietej z bazy danych. Zwykle stosuje sie go do kolejnych sekwencji z bazy danych. Na pocz atku użytkownik wybiera liczbowy parametr, zwany ktup. Standardowo sugerowane wartości dla ktup to 6 dla sekwencji DNA oraz 2 dla białek. Przyjmijmy, że jest wartości a parametru ktup. Przez -słowo bedziemy rozumieć dowolne słowo długości. Niech w nastepuj acych czterech krokach. oraz. Działanie algorytmu można przedstawić 1. Dla, algorytm znajduje pary, takie że -słowo zaczynaj ace sie w w pozycji jest identyczne z - słowem zaczynaj acym sie w w pozycji. Każda taka para 1

nazywa sie gor acym miejscem. Operacje te można wykonać efektywnie sporz adzaj ac na pocz atku tablice haszuj ac a dla, lub (rzadziej) dla wszystkich słów z bazy danych. ace miejsce można traktować jako odcinek długości 2. Każde gor leż acy na przek atnej o numerze 1 w tablicy (otrzymanej metod a dynamicznego programowania oczywiście nie mamy). Algorytm przypisuje pewne wartości dodatnie gor acym miejscom oraz wartości ujemne przerwom pomiedzy takimi miejscami (im dłuższa przerwa, tym mniejsza wartość). Dla każdej przek atnej zawieraj acej gor ace miejsce, algorytm wybiera fragment pomiedzy gor acymi miejscami o maksymalnej wartości. W ten sposób zostaje wybranych 10 przek atnych (i zawartych w nich fragmentów) o maksymalnej wartości. Dla każdego z tych fragmentów algorytm znajduje cześć takiego fragmentu (podsłowo) o maksymalnej wartości uliniowienia bez spacji (do obliczania tej wartości stosuje sie tablice PAM lub BLOSUM) Tak a cześć fragmentu nazwiemy poduliniowieniem. Niech init1 bedzie najlepszym poduliniowieniem. 3. Wybrane s a poduliniowienia, których wartość przekracza pewn a z góry ustalon a granice. Z tych dobrych poduliniowień próbuje sie ułożyć uliniowienie o maksymalnej wartości. W tym celu buduje sie nastepuj acy graf poduliniowień. Wierzchołkami s a poduliniowienia. Każdemu wierzchołkowi jest przypisana liczba bed aca wartości a tego poduliniowienia. Jeśli i s a poduliniowieniami, takimi że zaczyna sie w pozycji i kończy w pozycji, a zaczyna sie w pozycji, to tworzymy krawedź od do, gdy oraz, tzn gdy wiersz (kolumna) w którym zaczyna sie jest poniżej wiersza (na prawo od kolumny), w którym kończy sie. Krawedzi tej przypisujemy pewn a wage zależ ac a od liczby spacji jakie trzeba wprowadzić we fragmencie lokalnego uliniowienia, w którym poduliniowienie wystepuje po poduliniowieniu. Im wieksza liczba spacji tym waga takiej krawedzi jest mniejsza. Nastepnie algorytm znajduje droge o maksymalnej wartości w wyżej opisanym grafie. Taka droga wyznacza lokalne uliniowienie pomiedzy dwoma słowami. To nie musi być optymalne lokalne uliniowienie pomiedzy oraz. Oznaczmy to uliniowienie przez initn. 4. Algorytm wraca do poduliniowienia init1 z kroku 2 i znajduje najlepsze lokalne uliniowienie wokół przek atnej zawieraj acej init1 w pasie (dla białek) oraz w pasie (dla DNA). Niech opt bedzie takim uliniowieniem. 1 Główna przekatna ma numer 0, przekatne o numerach dodatnich leża nad główna przekatn a, a o numerach ujemnych pod główna przekatn a. 2

W ten sposób jest porównywane z kolejnymi słowami z bazy danych. Bior ac pod uwage opt lub initn wyznacza sie mał a liczbe słów, najbardziej obiecuj acych z punktu widzenia uliniowienia z. Dla każdego z nich wykonuje sie pełny algorytm Smitha-Watermana obliczaj acy optymalne uliniowienia. 3.1.2 BLAST Algorytm BLAST podaje jako wynik całe spektrum rozwi azań (uliniowień) wraz z oszacowaniem statystycznej istotności znalezionego rozwi azania (czyli prawdopodobieństwa tego, że znaleziona wartość, lub wartość od niej wieksza mogła sie pojawić przypadkiem (z losowej sekwencji)). BLAST porównuje wzorzec z każd a sekwencj a z bazy danych, staraj ac sie zidentyfikować te sekwencje, dla których MSP (maximal segment pair, czyli para podsłów równej długości maksymalizuj aca wartość uliniowienia bez spacji 2 ) jest wieksze od pewnej z góry ustalonej wartości. W ten sposób wybiera sie pewne słowa podejrzane o pewne podobieństwo z. Jak sie szuka takich, dla których MSP jest wieksze od? Ustala sie długość oraz wartość graniczn a. Nastepnie BLAST znajduje wszystkie -podsłowa w, dla których istnieje -podsłowo w o wartości uliniowienia (bez spacji) wiekszej od. Każde takie miejsce jest rozszerzane w celu znalezienia wartości uliniowienia wiekszej od. Jeśli w trakcie rozszerzania wartość uliniowienia (która może rosn ać lub maleć z każdym krokiem rozszerzenia) spadnie poniżej pewnej wartości progowej, to poszukiwania dla takiego miejsca s a przerywane. Dobór wartości, oraz ma kluczowe znaczenie dla jakości znajdowanych wyników. Na przykład, dla porównywania białek jest przyjmowane pomiedzy 3 a 5, natomiast dla DNA jest zwykle równe około 12. 3.2 Macierze substytucyjne Zacznijmy od paru ogólnych uwag. Załóżmy, że dla liter, jest prawdopodobieństwem tego, że aminokwasy oraz pochodz a od wspólnego aminokwasu (przodka) w drodze punktowej mutacji. Mamy dane dwa słowa oraz. Chcemy obliczyć jakie jest prawdopodobieństwo tego że oraz pochodz a od wspólnego przodka w wyniku punktowych zmian. Dla dowolnej litery, niech oznacza prawdopodobieństwo wyst apienia litery w słowie. Wówczas prawdopo- 2 Przy użyciu pewnej macierzy substytucyjnej. 3

dobieństwo pojawienia sie słów oraz to Natomiast prawdopodobieństwo tego, że i pochodz a od wspólnego przodka jest równe. Iloraz tych dwóch wartości nazywa sie odds ratio. Im wieksza jest ta wartość tym bardziej dane dwa słowa nie s a całkowicie losowe (niezależne), ale pochodz a od wspólnego przodka. Ponieważ dużo wygodniej jest pracować z addytywn a miar a podobieństwa, to przechodzimy do logarytmu: liczba jest kar a/nagrod a za zamiane na. 3.2.1 PAM Macierze PAM (percent accepted mutations) zostały zaproponawane przez M. Dayhoff i jej współpracowników około 1978r. S a to tzw. macierze substytucyjne dla aminokwasów i jako takie reprezentuj a funkcje podobieństwa. PAM również używa sie jako jednostki miary opisuj acej ewolucyjn a rozbieżność pomiedzy dwoma ci agami aminokwasów. Powiemy, że dwa słowa i różni a sie o jedn a jednoske PAM, jeśli można otrzymać z w ci agu akceptowalnych punktowych mutacji, tak że średnia liczba akceptowalnych mutacji na 100 aminokwasów wynosi 1. Akceptowalna punktowa mutacja to taka, która albo nie zmieniła funkcji białka, lub była korzystna dla organizmu (co najmniej nie spowodowała śmierci organizmu). Zwróćmy uwage, różnica 1PAM pomiedzy i nie oznacza, że słowa te różni a sie pomiedzy sob a o 1%. Liczba mutacji na pewnej pozycji w słowach może być wieksza od jedynki, a nawet w wyniku tych mutacji ta pozycja nie musi sie zmienić. Jako podstawe do budowy macierzy PAM wzieto pewn a rodzine bardzo podobnych białek (każde dwa nie różniły sie o wiecej niż 15%) i recznie 4

sporz adzono globalne uliniowienia dla tej rodziny. Nastepnie stworzono tablice, tak a że dla aminokwasów, a wyst apień ulino- jest liczb wienia pary w wyżej wymienionych uliniowieniach. Wówczas prawdopodobieństwo mutacji z na jest równe Niech bedzie prawdopodobieństwem wyst apienia litery w w/w białkach. Wówczas wartość oczekiwana (średnia) liczby zamian w losowej parze słów długości wynosi Ponieważ macierz 1PAM to taka, dla której powyższa wartość oczekiwana wynosi 1 dla, to musimy tak przeskalować na aby zachodziło Wystarczy stosownie dobrać stał a i wzi ać: dla dla W ten sposób otrzymujemy 1PAM macierz. Oznaczmy j a przez. Tak wiec (w przybliżeniu) jest prawdopodobieństwem zamiany na w jednej umownej jednostce czasu. Macierz przedstawia pewien łańcuch Markowa. Prawdopodobieństwo zamiany na w jednostkach czasu to, gdzie jest -krotnym iloczynem macierzy przez siebie. Macierze nazywaj a sie PAM macierzami. Wartości do prawdziwej macierzy PAM s a brane z przez stosowanie logarytmu, skalowanie i zaokr aglanie. Bardzo popularne s a 250PAM macierze. 3.2.2 BLOSUM Macierze substytucyjne BLOSUM (blocks substitution matrix) zostały zaproponawane przez S. oraz J. Heinkoff w 1991r. jako efekt krytyki tego, że macierze PAM dla nie oddaj a dobrze wpływu czasu na zmiany sekwencji koduj acych białka. Macierze BLOSUM zostały oparte na białkowej bazie danych BLOCKS w nastepuj acy sposób. Niech. Opiszemy sposób budowania macierzy BLOSUM. Białka z bazy danych s a dzielone na grupy. Do jednej grupy s a zaliczane dwa białka jeśli 5

można przejść od jednego białka do drugiego, używaj ac białek pośrednich wzietych z bazy danych, takich że każde dwa kolejne białka maj a skład identyczny w co najmniej L%. Białka w bazie danych BLOCKS s a uliniowione w tzw. blokach. Tworzymy macierz. Wybierzmy dwie grupy. Dla aminokwasów, liczba jest czestości a z jak a aminokwas pochodz acy z grupy jest uliniowiony z aminokwasem pochodz acym z grupy (liczba ta jest podzielona przez, gdzie jest liczebności a grupy, a jest liczebności a grupy ). otrzymuje sie przez sumowanie po wszystkich parach grup. Maj ac możemy obliczyć prawdopodobieństwo wyst apienia aminokwasu : oraz prawdopodobieństwo zamiany na : Wówczas Najcześciej używane to oraz. 6