Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1
Wyszukiwanie sekwencji Jak wyszukad z baz danych bioinformatycznych sekwencje podobne do sekwencji zadanej (ang. query sequence)? 2
Wyszukiwanie sekwencji Ogólna procedura: Zmierz dopasowanie pomiędzy zadaną sekwencją a każdą sekwencją w bazie np. algorytm Smitha-Watermana (dopasowanie lokalne) Posortuj sekwencje począwszy od najlepiej dopasowanej (tj. najbardziej podobnej) Zaprezentuj zadaną liczbę najbardziej podobnych sekwencji 3
Wyszukiwanie sekwencji Problemy Ile sekwencji podad jako odpowiedź? Czy otrzymane sekwencje są na pewno podobne do sekwencji z zapytania? Czy zaobserwowane podobieostwo przekłada się na rzeczywiste pokrewieostwo (homologia) podobną funkcjonalnośd (np. białka spełniające podobne funkcje) Czy podobieostwo jest statystycznie istotne czy też może wynikad z przypadku? Zawsze dostaniemy coś na pierwszym miejscu listy Czy algorytm dopasowania lokalnego jest najlepszym wyborem? 4
Wyszukiwanie sekwencji Wykorzystanie algorytmu Smitha-Watermana Wykorzystywany przez narzędzie MPsrch Możliwośd wyboru macierzy punktacji i funkcji kary za przerwy Wybór macierzy punktacji oraz kary za przerwy mocno wpływa na otrzymane wyniki wyszukiwania 5
Wyszukiwanie sekwencji Możliwe sytuacje Dopasowanie nie musi obejmowad całej sekwencji z zapytania / bazy Fragment sekwencji z zapytania można dopasowad do Fragmentu sekwencji z bazy Całej sekwencji z bazy Całą sekwencję z zapytania można dopasowad do Fragmentu sekwencji z bazy Całej sekwencji z bazy 6
Wyszukiwanie sekwencji 7
Wyszukiwanie sekwencji 8
Wyszukiwanie sekwencji 9
Wyszukiwanie sekwencji 10
Wyszukiwanie sekwencji Przykład dla białka o numerze dostępu P25044 11
Wyszukiwanie sekwencji 12
Wyszukiwanie sekwencji 13
Wyszukiwanie sekwencji 14
Wyszukiwanie sekwencji 15
Wyszukiwanie sekwencji 16
Wyszukiwanie sekwencji 17
Wyszukiwanie sekwencji Wartośd E (ang. E-value) (czasami w kolumnie Pred. No.) oznacza spodziewaną liczbę sekwencji w bazie danych, których dopasowanie z zadaną sekwencją zostałoby ocenione co najmniej równie dobrze jak zawarta w danym wierszu obserwowana ocena dopasowania. Jeśli E << 1, wynik jest istotny statystycznie Jeśli E >1 to wynik dopasowania może równie dobrze wynikad z przypadku. 18
Wyszukiwanie sekwencji Uwaga: Wartośd E zależy od rozmiaru bazy! Na wyszukiwanie duży wpływ ma sposób punktacji np. macierze PAM o niskim numerze nadają się do wyszukiwania sekwencji mocno podobnych (np. lokalnie), mocno konserwatywne odcinki potencjalnie duże kary za przerwy macierze PAM o wysokim numerze nadają się do wyszukiwania sekwencji słabo podobnych (np. podobieostwo rozciąga się na dłuższym odcinku, z przerwami), potencjalnie małe kary za przerwy Analogiczne rozumowanie dla macierzy BLOSUM 19
Metody heurystyczne Algorytmy SW oraz NW są algorytmami szybkimi ale jednak wykonywane dla dużej bazy zabierają odpowiednio dużo czasu Heurystyki pozwalają na przyspieszenie obliczeo i otrzymanie prawie równie dobrych wyników 20
Motywacje do stosowania heurytyk Zdecydowana większośd sekwencji w bazie nie będzie podobna do sekwencji z zapytania Szybko wybrad najbardziej obiecujące sekwencje i tylko dla nich wykonad dokładne obliczenia np. algorytmem SW Różne heurystyki mają różne techniki wybierania obiecujących sekwencji Opierają się na pewnych cechach charakterystycznych dla podobnych sekwencji a szybkich do sprawdzenia jeśli ich brak to nie ma sensu wykonywad dokładnych obliczeo SW. Dodatkowo podobieostwo często jest lokalne nie ma sensu wykonywad dokładnych obliczeo poza tymi obszarami 21
Boxplot 22
FASTA Wyszukuje w bazie fragmentów sekwencji o minimalnej długośd ktup Dla białek ktup=2 Dla sekwencji nukleotydów ktup=6 Fragmenty te dokładnie pasują do odpowiednich fragmentów sekwencji w zapytaniu 23
FASTA Następnie identyfikowane są tzw. ciągi diagonalne (ang. diagonal runs) Zawierają największą liczbę fragmentów ktup występujących względnie blisko siebie Następnie, wykorzystywanych jest 10 najlepiej ocenionych ciągów diagonalnych (odpowiadają one lokalnym dopasowaniom bez przerw) Ustalane jest, które ciągi diagonalne mogą byd ze sobą połączone (lokalne dopasowania z przerwami) 24
FASTA Taka przybliżona ocena dopasowania lokalnego jest używana jako kryterium uporządkowania sekwencji z baz danych Dla sekwencji z początku listy są wykonywane dokładne algorytmy programowania dynamicznego, przy czym dodatkowa oszczędnośd czasu wynika z ograniczenia procedury wypełniania tabeli ocen cząstkowych do komórek znajdujących sięw paśmie, którego środek odpowiada położeniu najwyżej ocenionego ciągu diagonalnego 25
BLAST (ang. Basic Local Alignment Tool) Pierwsza generacja Wyznacza się najlepsze lokalne dopasowanie bez przerw sekwencji w zapytaniu do kolejnych sekwencji z bazy Parametr: długośd słowa w Podobne znaczenie jak ktup w FASTA Zazwyczaj w=3 oraz w=12 dla, odpowiednio, sekwencji aminokwasowych oraz nukleotydowych 26
BLAST (ang. Basic Local Alignment Tool) BLAST szuka w bazie słów o długości w, które mają ocenę dopasowania ze słowami w sekwenji powyżej progu T Następnie szuka się lokalnego dopasowania poprzez rozbudowę na obu koocach słowa Wydłużanie dopasowania jest przerywane w chwili, gdy jakoś dopasowania spadnie względem wcześniej znalezionego maksimum o więcej niż zadany parametr Spośród tak znalezionych dopasowao lokalnych zwracane jest to z najlepszą oceną 27
BLAST (ang. Basic Local Alignment Tool) Nowa wersja algorytmu umożliwia wstawianie przerw podczas wykonywania procedury wydłużania na koocach słowa Oprarta jest ona na algorytmie SW 28
BLAST (ang. Basic Local Alignment Tool) PRZYKŁAD Prawdopodobne początkowe słowo dobrze dopasowane do sekwencji w zapytaniu 29
BLAST (ang. Basic Local Alignment Tool) Podsumowanie trzy kroki Seeding Extension Evaluation 30
BLAST (ang. Basic Local Alignment Tool) Seeding Sterowane parametrem T (minimalna wartośd akceptowanego dopasowania). Nie muszą to byd identyczne słowa (np. w przypadku aminokwasów) 31
BLAST (ang. Basic Local Alignment Tool) Seeding Przykład 32
BLAST (ang. Basic Local Alignment Tool) Seeding 33
BLAST (ang. Basic Local Alignment Tool) Seeding Skupiając się jedynie na diagonalnych grupach słów można nie zwracad uwagi na nieznaczące przypadkowe słowa. T nie jest używany w przypadku sewkencji nukleotydowych. 34
BLAST (ang. Basic Local Alignment Tool) Extension 35
BLAST (ang. Basic Local Alignment Tool) Extension - przykład Przykładowo, od początkowego T, jedynie w prawo: Bez wstawiania przerw - BLAST pierwszej generacji 36
BLAST (ang. Basic Local Alignment Tool) Evaluation Należy ocenid, kóre dopasowania lokalne są statystycznie istotne Nie wystarczy usunąd najgorzej ocenianych (jak ustawid próg?) 37
BLAST (ang. Basic Local Alignment Tool) Evaluation Przykładowy problem: Rozważ dopasowanie między sekwencją aminokwasów oraz jej nukleotydowym źródłem. Jaki wpływ ma fakt występowania intronów? Introny powodują, że oczekujemy wielu lokalnych dopasowao zamiast jednego długiego. Czy każdy z tych mniejszych dopasowao będzie uznany za statystycznie istotny? Jak oceniad je wspólnie? 38
BLAST (ang. Basic Local Alignment Tool) Evaluation Spójne dopasowania są porównywane z ostatecznym progiem decyzyjnym w celu uznania ich lub nie za statystycznie istotne. 39
BLAST (ang. Basic Local Alignment Tool) Evaluation W rzeczywistości są dwie rundy wydłużania (extension) i ewaluacji: bez uwzględniania przerw i z przerwami. W skrócie, wersja z przerwami jest uruchamiana jedynie wtedy, kiedy znalezione jest odpowiednio dobrze ocenione doapsowanie bez przerw. 40
BLAST (ang. Basic Local Alignment Tool) Różne wersje BLAST BLASTP szukanie sekwenji aminokwasowej w bazie sekwencji aminokwasów BLASTN szukanie sekwencji nukleotydowej w bazie sewkencji nukleotydowej BLASTX dokonuje translacji sekwencji nukleotydowej na sekwencję aminokwasową i przeszukuje bazę sekwencji aminokwasowych TBLASTN dla zadanej sekwencji aminokwasowej przeszukuje bazę sekwencji nukleotydowych, które poddawane są najpierw translacji 41
BLAST (ang. Basic Local Alignment Tool) Różne wersje BLAST 42
PSI-BLAST (ang. Position-Specific Iterated BLAST) Wykorzystuje w przeszukiwaniu informacje zawarte w grupie spokrewnionych ewolucyjnie sekwencji Pierwszy etap: korzystając z BLAST wyszukiwane są sekwencje, których podobieostow jest wysoko oceniane np. E<0.01 Konstruowane jest dopasowanie wielosekwencyjne (przybliżone) dla sekwencji w zapytaniu oraz znalezionych sekwencji Pod sekwencją w zapytaniu umieszczane są kolejno znalezione sekwencje Pomija się te fragmenty sekwencji z bazy, których dodanie do dopasowania wielosekwencyjnego wymagałoby wstawienie przerwy w sekwencji w zapytaniu 43
PSI-BLAST (ang. Position-Specific Iterated BLAST) Tak znaleione doapsowanie wielosekwencyjne jest wykorzystywane w kolejnej iteracji przeszukiwania bazy Ocenie podlega dopasowanie reszty z sekwencji z bazy z całą kolumną dopasowania wielosekwencyjnego Ocena ta zależy od częstości występowania reszt w danej kolumnie Taki system oceny nazywa się pozycyjnie zróżnicowaną macierzą wartościującą (ang. Position specific scoring matrix, PSSM) 44
PSI-BLAST (ang. Position-Specific Iterated BLAST) W wynikach przeszukiwania w kolejnych iteracjach mogą pojawid się nowe sekwencje Są once dodawane do dopasowania wielasekwencyjnego PSSM jest przeliczana Iteracje trwają dopóki znajdowane są nowe sekwencje 45
PSI-BLAST (ang. Position-Specific Iterated BLAST) Czasami metoda ta potrafi znaleźd sekwencje odlegle spokrewnione, które nie mógł znaleźd BLAST Powód: dopasowanie wielosekwencyjne zawiera informacje, których nie zawiera żadna z sekwencji z osobna Problem: czasami dodanie zbyt wielu sekwenji powoduje, że wyszukiwane są sekwencje bez związku z oryginalną sekwencją 46
Wyszukiwanie sekwencji Czego oczekujemy po wynikach wyszukiwania? Jak rozumiemy prawdziwy związek między sekwencjami? Wspólny przodek Wspólna funkcja Funkcja wynika z trójwymiarowej struktury białka, podczas gdy wyszukiwanie bierze pod uwagę jednowymiarową sekwencję 47
Wyszukiwanie sekwencji Możliwe kryterium porównania algorytmów wyszukiwania: Jeśli dysponujemy wiedzą o pewnej rodzinie białek to możemy sprawdzid, na ile dany algorytm jest zdolny do wyszukania sekwencji wszystkich białek w tej rodzinie (jako statystycznie istotnych) Pożądane wyniki prawdziwie dodatnie, brak fałszywie ujemnych wyszukania białek tylko z tej rodziny (jako statystycznie istotnych) Pożądane wyniki prawdziwie ujemne, bez wyników fałszywie dodatnich 48
Wyszukiwanie sekwencji Czułośd algorytmu = prawdziwie dodatnie / (prawdziwie dodatnie + fałszywie ujemne) Swoistośd algorytmu = prawdziwie dodatnie / (prawdziwie dodatnie + fałszywie dodatnie) Ciężko jest maksymalizowad oba te kryteria. 49
Wyszukiwanie sekwencji Wartośd E jako kryterium wyboru wyników wyszukiwania Obliczenia statystycznej istotności są trudne i nie zawsze dokładne Na to czy w zbiorze wybranych sekwencji są wszytkie istotne większy wpływ może mied nie wartośd progowa E ale raczej odpowiedni dobór funkcji oceny dopasowania W warunkach testowych pokazano, że lepiej działają macierze BLOSUM Pokazano, że dla tej samej macierzy punktacji algorytm SW działa lepiej niż FASTA oraz BLOSUM Jednak każdy z nich jest w stanie znaleźd sekwencje, które są istotnie podobne do sekwencji w zapytaniu Jeśli chcemy znaleźd jak najwięcej pdobnych sekwencji (nawet odlegle) to dobrze jest korzystad z różnych algorytmów 50
Wyszukiwanie sekwencji 51