Bioinformatyka Laboratorium, 30h. Michał Bereta

Podobne dokumenty
PRZYRÓWNANIE SEKWENCJI

Dopasowania par sekwencji DNA

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Porównywanie i dopasowywanie sekwencji

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Bioinformatyka Laboratorium, 30h. Michał Bereta

Porównywanie i dopasowywanie sekwencji

Bioinformatyka Laboratorium, 30h. Michał Bereta

Dopasowanie sekwencji (sequence alignment)

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Wykład 5 Dopasowywanie lokalne

3 Przeszukiwanie baz danych

Bioinformatyka. Program UGENE

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Statystyczna analiza danych

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

Generator testów Bioinformatyka wer / 0 Strona: 1

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

Wprowadzenie do programu RapidMiner, część 4 Michał Bereta

Przyrównywanie sekwencji

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Bioinformatyka Laboratorium, 30h. Michał Bereta

Internet, jako ocean informacji. Technologia Informacyjna Lekcja 2

Wyszukiwanie podobnych sekwencji w bazach danych. Wyszukiwanie w sekwencji nukleotydów czy aminokwasów? Czułość i selektywność

Prawdopodobieństwo czerwonych = = 0.33

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (16.XI.2010) krzysztof_pawlowski@sggw.pl

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Dopasowanie par sekwencji

Potencjalne pole elektrostatyczne. Przypomnienie

Złożoność obliczeniowa zadania, zestaw 2

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Dopasowanie sekwencji c.d. Sequence alignment. Bioinformatyka, wykład 5 (6.XI.2012) krzysztof_pawlowski@sggw.pl

EGZAMIN - Wersja A. ALGORYTMY I STRUKTURY DANYCH Lisek89 opracowanie kartki od Pani dr E. Koszelew

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Bioinformatyka Laboratorium, 30h. Michał Bereta

Algorytmy i struktury danych. Wykład 4 Tablice nieporządkowane i uporządkowane

Bioinformatyka Laboratorium, 30h. Michał Bereta

Ćwiczenie 3 z Podstaw programowania. Język C++, programy pisane w nieobiektowym stylu programowania. Zofia Kruczkiewicz

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

D: Dopasowanie sekwencji. Programowanie dynamiczne

Funkcje wyszukiwania i adresu PODAJ.POZYCJĘ

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

TEMAT: SPOSOBY ADRESOWANIA W

Bioinformatyka. Michał Bereta

Bioinformatyka. Michał Bereta

Obiektowy PHP. Czym jest obiekt? Definicja klasy. Składowe klasy pola i metody

Indukcja matematyczna

Zaawansowane metody numeryczne

Kwerendy, czyli zapytania. Opracowała: I. Długoń

5. Bazy danych Base Okno bazy danych

Zaawansowane metody numeryczne

Programowanie dynamiczne cz. 2

Programowanie liniowe

Algorytmy równoległe. Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2010

Dokowanie molekularne. Karol Kamel Uniwersytet Warszawski

Algorytmy sortujące i wyszukujące

Wstęp do programowania

1. Napisz program wypisujący w kolejnych wierszach standardowego wyjścia pojedyncze słowa następującego napisu Bardzo dlugi napis. 2.

Funkcje dwóch zmiennych

dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia

Wykrywanie twarzy na zdjęciach przy pomocy kaskad

Programowanie Współbieżne. Algorytmy

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI

Wprowadzenie do baz danych

Księgarnia PWN: Paul G. Higgs, Teresa K. Attwood - Bioinformatyka i ewolucja molekularna

MSA i analizy filogenetyczne

Heurystyczne metody przeszukiwania

Formuły formułom funkcji adresowania odwoływania nazwy Funkcja SUMA argumentami SUMA

Bioinformatyka Laboratorium, 30h. Michał Bereta

Sortowanie przez wstawianie Insertion Sort

plansoft.org Zmiany w Plansoft.org Panel wyszukiwania PLANOWANIE ZAJĘĆ, REZERWOWANIE SAL I ZASOBÓW

Znajdowanie wyjścia z labiryntu

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Konfiguracja programu

Uniwersytet Zielonogórski Instytut Sterowania i Systemów Informatycznych. Algorytmy i struktury danych Laboratorium 7. 2 Drzewa poszukiwań binarnych

XIV Sympozjum Onkologia w Otorynolaryngologii

a) 7 b) 19 c) 21 d) 34

Optymalizacja ciągła

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Praktyczny Excel. 50 praktycznych formuł na każdą okazję

Ćwiczenie 1 Planowanie trasy robota mobilnego w siatce kwadratów pól - Algorytm A

Wykład I. Wprowadzenie do baz danych

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

WYMAGANIA EDUKACYJNE Z INFORMATYKI dla klasy III gimnazjalnej, Szkoły Podstawowej w Rychtalu

Data Mining z wykorzystaniem programu Rapid Miner

Kodowanie i kompresja Tomasz Jurdziński Studia Wieczorowe Wykład Kody liniowe - kodowanie w oparciu o macierz parzystości

Wstęp do programowania

Obliczenia iteracyjne

Transkrypt:

Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1

Wyszukiwanie sekwencji Jak wyszukad z baz danych bioinformatycznych sekwencje podobne do sekwencji zadanej (ang. query sequence)? 2

Wyszukiwanie sekwencji Ogólna procedura: Zmierz dopasowanie pomiędzy zadaną sekwencją a każdą sekwencją w bazie np. algorytm Smitha-Watermana (dopasowanie lokalne) Posortuj sekwencje począwszy od najlepiej dopasowanej (tj. najbardziej podobnej) Zaprezentuj zadaną liczbę najbardziej podobnych sekwencji 3

Wyszukiwanie sekwencji Problemy Ile sekwencji podad jako odpowiedź? Czy otrzymane sekwencje są na pewno podobne do sekwencji z zapytania? Czy zaobserwowane podobieostwo przekłada się na rzeczywiste pokrewieostwo (homologia) podobną funkcjonalnośd (np. białka spełniające podobne funkcje) Czy podobieostwo jest statystycznie istotne czy też może wynikad z przypadku? Zawsze dostaniemy coś na pierwszym miejscu listy Czy algorytm dopasowania lokalnego jest najlepszym wyborem? 4

Wyszukiwanie sekwencji Wykorzystanie algorytmu Smitha-Watermana Wykorzystywany przez narzędzie MPsrch Możliwośd wyboru macierzy punktacji i funkcji kary za przerwy Wybór macierzy punktacji oraz kary za przerwy mocno wpływa na otrzymane wyniki wyszukiwania 5

Wyszukiwanie sekwencji Możliwe sytuacje Dopasowanie nie musi obejmowad całej sekwencji z zapytania / bazy Fragment sekwencji z zapytania można dopasowad do Fragmentu sekwencji z bazy Całej sekwencji z bazy Całą sekwencję z zapytania można dopasowad do Fragmentu sekwencji z bazy Całej sekwencji z bazy 6

Wyszukiwanie sekwencji 7

Wyszukiwanie sekwencji 8

Wyszukiwanie sekwencji 9

Wyszukiwanie sekwencji 10

Wyszukiwanie sekwencji Przykład dla białka o numerze dostępu P25044 11

Wyszukiwanie sekwencji 12

Wyszukiwanie sekwencji 13

Wyszukiwanie sekwencji 14

Wyszukiwanie sekwencji 15

Wyszukiwanie sekwencji 16

Wyszukiwanie sekwencji 17

Wyszukiwanie sekwencji Wartośd E (ang. E-value) (czasami w kolumnie Pred. No.) oznacza spodziewaną liczbę sekwencji w bazie danych, których dopasowanie z zadaną sekwencją zostałoby ocenione co najmniej równie dobrze jak zawarta w danym wierszu obserwowana ocena dopasowania. Jeśli E << 1, wynik jest istotny statystycznie Jeśli E >1 to wynik dopasowania może równie dobrze wynikad z przypadku. 18

Wyszukiwanie sekwencji Uwaga: Wartośd E zależy od rozmiaru bazy! Na wyszukiwanie duży wpływ ma sposób punktacji np. macierze PAM o niskim numerze nadają się do wyszukiwania sekwencji mocno podobnych (np. lokalnie), mocno konserwatywne odcinki potencjalnie duże kary za przerwy macierze PAM o wysokim numerze nadają się do wyszukiwania sekwencji słabo podobnych (np. podobieostwo rozciąga się na dłuższym odcinku, z przerwami), potencjalnie małe kary za przerwy Analogiczne rozumowanie dla macierzy BLOSUM 19

Metody heurystyczne Algorytmy SW oraz NW są algorytmami szybkimi ale jednak wykonywane dla dużej bazy zabierają odpowiednio dużo czasu Heurystyki pozwalają na przyspieszenie obliczeo i otrzymanie prawie równie dobrych wyników 20

Motywacje do stosowania heurytyk Zdecydowana większośd sekwencji w bazie nie będzie podobna do sekwencji z zapytania Szybko wybrad najbardziej obiecujące sekwencje i tylko dla nich wykonad dokładne obliczenia np. algorytmem SW Różne heurystyki mają różne techniki wybierania obiecujących sekwencji Opierają się na pewnych cechach charakterystycznych dla podobnych sekwencji a szybkich do sprawdzenia jeśli ich brak to nie ma sensu wykonywad dokładnych obliczeo SW. Dodatkowo podobieostwo często jest lokalne nie ma sensu wykonywad dokładnych obliczeo poza tymi obszarami 21

Boxplot 22

FASTA Wyszukuje w bazie fragmentów sekwencji o minimalnej długośd ktup Dla białek ktup=2 Dla sekwencji nukleotydów ktup=6 Fragmenty te dokładnie pasują do odpowiednich fragmentów sekwencji w zapytaniu 23

FASTA Następnie identyfikowane są tzw. ciągi diagonalne (ang. diagonal runs) Zawierają największą liczbę fragmentów ktup występujących względnie blisko siebie Następnie, wykorzystywanych jest 10 najlepiej ocenionych ciągów diagonalnych (odpowiadają one lokalnym dopasowaniom bez przerw) Ustalane jest, które ciągi diagonalne mogą byd ze sobą połączone (lokalne dopasowania z przerwami) 24

FASTA Taka przybliżona ocena dopasowania lokalnego jest używana jako kryterium uporządkowania sekwencji z baz danych Dla sekwencji z początku listy są wykonywane dokładne algorytmy programowania dynamicznego, przy czym dodatkowa oszczędnośd czasu wynika z ograniczenia procedury wypełniania tabeli ocen cząstkowych do komórek znajdujących sięw paśmie, którego środek odpowiada położeniu najwyżej ocenionego ciągu diagonalnego 25

BLAST (ang. Basic Local Alignment Tool) Pierwsza generacja Wyznacza się najlepsze lokalne dopasowanie bez przerw sekwencji w zapytaniu do kolejnych sekwencji z bazy Parametr: długośd słowa w Podobne znaczenie jak ktup w FASTA Zazwyczaj w=3 oraz w=12 dla, odpowiednio, sekwencji aminokwasowych oraz nukleotydowych 26

BLAST (ang. Basic Local Alignment Tool) BLAST szuka w bazie słów o długości w, które mają ocenę dopasowania ze słowami w sekwenji powyżej progu T Następnie szuka się lokalnego dopasowania poprzez rozbudowę na obu koocach słowa Wydłużanie dopasowania jest przerywane w chwili, gdy jakoś dopasowania spadnie względem wcześniej znalezionego maksimum o więcej niż zadany parametr Spośród tak znalezionych dopasowao lokalnych zwracane jest to z najlepszą oceną 27

BLAST (ang. Basic Local Alignment Tool) Nowa wersja algorytmu umożliwia wstawianie przerw podczas wykonywania procedury wydłużania na koocach słowa Oprarta jest ona na algorytmie SW 28

BLAST (ang. Basic Local Alignment Tool) PRZYKŁAD Prawdopodobne początkowe słowo dobrze dopasowane do sekwencji w zapytaniu 29

BLAST (ang. Basic Local Alignment Tool) Podsumowanie trzy kroki Seeding Extension Evaluation 30

BLAST (ang. Basic Local Alignment Tool) Seeding Sterowane parametrem T (minimalna wartośd akceptowanego dopasowania). Nie muszą to byd identyczne słowa (np. w przypadku aminokwasów) 31

BLAST (ang. Basic Local Alignment Tool) Seeding Przykład 32

BLAST (ang. Basic Local Alignment Tool) Seeding 33

BLAST (ang. Basic Local Alignment Tool) Seeding Skupiając się jedynie na diagonalnych grupach słów można nie zwracad uwagi na nieznaczące przypadkowe słowa. T nie jest używany w przypadku sewkencji nukleotydowych. 34

BLAST (ang. Basic Local Alignment Tool) Extension 35

BLAST (ang. Basic Local Alignment Tool) Extension - przykład Przykładowo, od początkowego T, jedynie w prawo: Bez wstawiania przerw - BLAST pierwszej generacji 36

BLAST (ang. Basic Local Alignment Tool) Evaluation Należy ocenid, kóre dopasowania lokalne są statystycznie istotne Nie wystarczy usunąd najgorzej ocenianych (jak ustawid próg?) 37

BLAST (ang. Basic Local Alignment Tool) Evaluation Przykładowy problem: Rozważ dopasowanie między sekwencją aminokwasów oraz jej nukleotydowym źródłem. Jaki wpływ ma fakt występowania intronów? Introny powodują, że oczekujemy wielu lokalnych dopasowao zamiast jednego długiego. Czy każdy z tych mniejszych dopasowao będzie uznany za statystycznie istotny? Jak oceniad je wspólnie? 38

BLAST (ang. Basic Local Alignment Tool) Evaluation Spójne dopasowania są porównywane z ostatecznym progiem decyzyjnym w celu uznania ich lub nie za statystycznie istotne. 39

BLAST (ang. Basic Local Alignment Tool) Evaluation W rzeczywistości są dwie rundy wydłużania (extension) i ewaluacji: bez uwzględniania przerw i z przerwami. W skrócie, wersja z przerwami jest uruchamiana jedynie wtedy, kiedy znalezione jest odpowiednio dobrze ocenione doapsowanie bez przerw. 40

BLAST (ang. Basic Local Alignment Tool) Różne wersje BLAST BLASTP szukanie sekwenji aminokwasowej w bazie sekwencji aminokwasów BLASTN szukanie sekwencji nukleotydowej w bazie sewkencji nukleotydowej BLASTX dokonuje translacji sekwencji nukleotydowej na sekwencję aminokwasową i przeszukuje bazę sekwencji aminokwasowych TBLASTN dla zadanej sekwencji aminokwasowej przeszukuje bazę sekwencji nukleotydowych, które poddawane są najpierw translacji 41

BLAST (ang. Basic Local Alignment Tool) Różne wersje BLAST 42

PSI-BLAST (ang. Position-Specific Iterated BLAST) Wykorzystuje w przeszukiwaniu informacje zawarte w grupie spokrewnionych ewolucyjnie sekwencji Pierwszy etap: korzystając z BLAST wyszukiwane są sekwencje, których podobieostow jest wysoko oceniane np. E<0.01 Konstruowane jest dopasowanie wielosekwencyjne (przybliżone) dla sekwencji w zapytaniu oraz znalezionych sekwencji Pod sekwencją w zapytaniu umieszczane są kolejno znalezione sekwencje Pomija się te fragmenty sekwencji z bazy, których dodanie do dopasowania wielosekwencyjnego wymagałoby wstawienie przerwy w sekwencji w zapytaniu 43

PSI-BLAST (ang. Position-Specific Iterated BLAST) Tak znaleione doapsowanie wielosekwencyjne jest wykorzystywane w kolejnej iteracji przeszukiwania bazy Ocenie podlega dopasowanie reszty z sekwencji z bazy z całą kolumną dopasowania wielosekwencyjnego Ocena ta zależy od częstości występowania reszt w danej kolumnie Taki system oceny nazywa się pozycyjnie zróżnicowaną macierzą wartościującą (ang. Position specific scoring matrix, PSSM) 44

PSI-BLAST (ang. Position-Specific Iterated BLAST) W wynikach przeszukiwania w kolejnych iteracjach mogą pojawid się nowe sekwencje Są once dodawane do dopasowania wielasekwencyjnego PSSM jest przeliczana Iteracje trwają dopóki znajdowane są nowe sekwencje 45

PSI-BLAST (ang. Position-Specific Iterated BLAST) Czasami metoda ta potrafi znaleźd sekwencje odlegle spokrewnione, które nie mógł znaleźd BLAST Powód: dopasowanie wielosekwencyjne zawiera informacje, których nie zawiera żadna z sekwencji z osobna Problem: czasami dodanie zbyt wielu sekwenji powoduje, że wyszukiwane są sekwencje bez związku z oryginalną sekwencją 46

Wyszukiwanie sekwencji Czego oczekujemy po wynikach wyszukiwania? Jak rozumiemy prawdziwy związek między sekwencjami? Wspólny przodek Wspólna funkcja Funkcja wynika z trójwymiarowej struktury białka, podczas gdy wyszukiwanie bierze pod uwagę jednowymiarową sekwencję 47

Wyszukiwanie sekwencji Możliwe kryterium porównania algorytmów wyszukiwania: Jeśli dysponujemy wiedzą o pewnej rodzinie białek to możemy sprawdzid, na ile dany algorytm jest zdolny do wyszukania sekwencji wszystkich białek w tej rodzinie (jako statystycznie istotnych) Pożądane wyniki prawdziwie dodatnie, brak fałszywie ujemnych wyszukania białek tylko z tej rodziny (jako statystycznie istotnych) Pożądane wyniki prawdziwie ujemne, bez wyników fałszywie dodatnich 48

Wyszukiwanie sekwencji Czułośd algorytmu = prawdziwie dodatnie / (prawdziwie dodatnie + fałszywie ujemne) Swoistośd algorytmu = prawdziwie dodatnie / (prawdziwie dodatnie + fałszywie dodatnie) Ciężko jest maksymalizowad oba te kryteria. 49

Wyszukiwanie sekwencji Wartośd E jako kryterium wyboru wyników wyszukiwania Obliczenia statystycznej istotności są trudne i nie zawsze dokładne Na to czy w zbiorze wybranych sekwencji są wszytkie istotne większy wpływ może mied nie wartośd progowa E ale raczej odpowiedni dobór funkcji oceny dopasowania W warunkach testowych pokazano, że lepiej działają macierze BLOSUM Pokazano, że dla tej samej macierzy punktacji algorytm SW działa lepiej niż FASTA oraz BLOSUM Jednak każdy z nich jest w stanie znaleźd sekwencje, które są istotnie podobne do sekwencji w zapytaniu Jeśli chcemy znaleźd jak najwięcej pdobnych sekwencji (nawet odlegle) to dobrze jest korzystad z różnych algorytmów 50

Wyszukiwanie sekwencji 51