Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Podobne dokumenty
Bioinformatyka. Program UGENE

Jak przeglądać publikacje w formacie DjVu?

PCSHEMATIC AUTOMATION Instalacja aktualizacji baz aparatury

Archiwum DG 2016 PL-SOFT

etrader Pekao Podręcznik użytkownika Strumieniowanie Excel

5. Bazy danych Base Okno bazy danych

OpenOfficePL. Zestaw szablonów magazynowych. Instrukcja obsługi

Pokaz slajdów na stronie internetowej

Bioinformatyka Laboratorium, 30h. Michał Bereta

PROJEKT CZĘŚCIOWO FINANSOWANY PRZEZ UNIĘ EUROPEJSKĄ. Opis działania raportów w ClearQuest

Asystent jakie to proste!

INSTRUKCJA UŻYTKOWANIA

instrukcja użytkownika terminala ARGOX PA-20 SYSTEMY AUTOMATYCZNEJ IDENTYFIKACJI

Instrukcja wyszukiwania w katalogach i bazach Biblioteki

Instrukcja wyszukiwania w katalogach i bazach Biblioteki

Podręcznik Użytkownika 360 Księgowość Projekty i centra kosztów

plansoft.org Zmiany w Plansoft.org Panel wyszukiwania PLANOWANIE ZAJĘĆ, REZERWOWANIE SAL I ZASOBÓW

plansoft.org Zmiany w Plansoft.org Błyskawiczny eksport danych PLANOWANIE ZAJĘĆ, REZERWOWANIE SAL I ZASOBÓW

Instrukcja importu deklaracji pacjentów. do dreryka

Rozdział 5: Style tekstu

Pomoc dla systemu WordPress

finiownia loginów. W zależności od ustawionej opcji użytkownik login:

IBM SPSS Statistics - Essentials for R: Instrukcje instalacji dla System Mac OS

INSTRUKCJA OBSŁUGI KATALOGU NA CD KROK PO KROKU. v Copyright Gardinery Sp. z o.o.

Skrócona instrukcja obsługi programu EndymionKOL

Szybka instrukcja tworzenia testów dla E-SPRAWDZIAN-2 programem e_kreator_2

Instrukcja Użytkownika (Nauczyciel Akademicki) Akademickiego Systemu Archiwizacji Prac

Poradnik użytkownika systemu BibbyNet. Część III Raporty, export plików, pozostałe

Jak przygotować pliki gotowe do publikacji w sieci za pomocą DigitLabu?

Za pomocą niniejszej instrukcji baza programu MAK zostanie przygotowania do eksportu na METALIB.

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Jak zamówić zdjęcia przez FotoSender?

Ogólnopolskie Repozytorium Prac Dyplomowych

Przetwarzanie subskrypcji jest ustawione jako usługa systemowa i uruchamia się automatycznie w określonych odstępach czasowych.

Automatyka i Robotyka ROK III TEMAT: TWORZENIE I ZARZĄDZANIE INTERNETOWĄ BAZĄ DANYCH

OBSŁUGA PRACY DYPLOMOWEJ W APD PRZEZ STUDENTA

Instalacja i obsługa aplikacji MAC Diagnoza EW

EKSPLOATACJA SYSTEMÓW TECHNICZNYCH - LAB. Wprowadzenie do zajęć

dokumentacja Edytor Bazy Zmiennych Edytor Bazy Zmiennych Podręcznik użytkownika

Instrukcja odnawiania certyfikatów. przez stronę elektronicznypodpis.pl

INSTRUKCJA OBSŁUGI ZGŁOSZEŃ W PROGRAMIE SPLASH ENTRY - EDYTOR.

e-sprawdzian instrukcja programu do sprawdzania wiedzy ucznia przy pomocy komputera (WINDOWS & LINUX)

MATERIAŁY - udostępnianie materiałów dydaktycznych w sieci SGH

Problemy techniczne. Jak uruchomić program Optivum dla wybranej licencji w przypadku, gdy jednostka posiada dwie licencje na używanie programu?

Raporty dodatkowe nr 1 Ewidencja Wyposażenia PL+

Wyniki operacji w programie

Dopasowania par sekwencji DNA


Kalipso wywiady środowiskowe

Miejski System Zarządzania - Katowicka Infrastruktura Informacji Przestrzennej Pozwolenia wodnoprawne i zgłoszenia przydomowych oczyszczalni ścieków

Instalacja programu Warsztat 3 w sieci

Miejski System Zarządzania - Katowicka Infrastruktura Informacji Przestrzennej

Rozkłady zajęć- notatki

KATOWICE, LIPIEC 2018 WERSJA 1.0

Instrukcja użytkownika. Aplikacja dla Comarch ERP XL

Budowa aplikacji ASP.NET współpracującej z bazą dany do obsługi przesyłania wiadomości

Aby pobrać program FotoSender naleŝy na stronę lub i kliknąć na link Program do wysyłki zdjęć Internetem.

Kalipso wywiady środowiskowe

Instrukcja użytkownika NAUCZYCIELA AKADEMICKIEGO SYSTEMU ARCHIWIZACJI PRAC

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

W nowej wersji Aplikacji wprowadzono udoskonalenia w funkcjonowaniu legendy.

Wykład II. dr Artur Bartoszewski Wydział Nauczycielski, Kierunek Pedagogika Wprowadzenie do baz danych

WPROWADZANIE ZLECEŃ POPRZEZ STRONĘ INSTRUKCJA UŻYTKOWNIKA

UMOWY INSTRUKCJA STANOWISKOWA

Opis modułu pl.id w programie Komornik SQL-VAT

Tworzenie własnych map dla UI-View

Zalogowanie generuje nowe menu: okno do wysyłania plików oraz dodatkowe menu Pomoc

POLITECHNIKA WARSZAWSKA

Zadania semestralne. Programowanie obiektowe sem. II, lato 2014/2015

Laboratorium - Użycie narzędzia Przywracanie systemu w Windows Vista

Instrukcja obsługi Multiconverter 2.0

Instrukcja użytkownika ARSoft-WZ3

SPIS ILUSTRACJI, BIBLIOGRAFIA

Laboratorium - Przechwytywanie i badanie datagramów DNS w programie Wireshark

I. Program II. Opis głównych funkcji programu... 19

ERGODESIGN - Podręcznik użytkownika. Wersja 1.0 Warszawa 2010

Przewodnik po systemie Antyplagiat dla Użytkownika Indywidualnego

Instrukcja użytkownika WYKŁADOWCY AKADEMICKIEGO SYSTEMU ARCHIWIZACJI PRAC

Księgowanie i eksport wynagrodzeń do systemu WF-FaKir

5.3. Tabele. Tworzenie tabeli. Tworzenie tabeli z widoku projektu. Rozdział III Tworzenie i modyfikacja tabel

R-LINK Evolution Instrukcja instalacji oprogramowania

Korporacja Kurierska

INSTRUKCJA UŻYTKOWNIKA GENERATORA WNIOSKÓW O DOFINANSOWANIE DLA WNIOSKODAWCÓW

Miejski System Zarządzania - Katowicka Infrastruktura Informacji Przestrzennej

Krzysztof Kluza proste ćwiczenia z baz danych

Nowe funkcjonalności w wersji Automatyczne uzupełnianie zakładek w dokumentach WORD przy podpisywaniu

CENTRALNA BIBLIOTEKA STATYSTYCZNA PRZEWODNIK PO KATALOGU KOMPUTEROWYM SYSTEM ALEPH WERSJA 22

2. Dostosuj listę Szybkiego Dostępu

W oknie konfiguratora Importu/Exportu należy wprowadzić odpowiednie ustawienia poprzez zaznaczenie pól kursorem myszki przy poszczególnych opcjach.

Wybierz polecenie z menu: Narzędzia Listy i dokumenty

Instalacja i obsługa aplikacji MAC Diagnoza EP w celu wykonania Arkusza obserwacji

CMS - INFORMACJE. *** Mirosław Kuduk E mail: tel. kom DODATKOWE FUNKCJE - PANEL ADMINISTRATORA

Instrukcja do modułu Kontroli Zarządczej (KZ)

OPTIMA PC v Program konfiguracyjny dla cyfrowych paneli domofonowy serii OPTIMA ELFON. Instrukcja obsługi. Rev 1

Praca z wynikami w ALOORA

Generatory pomocy multimedialnych

Przykładowe B+ drzewo

Transkrypt:

Bioinformatyka Ocena wiarygodności dopasowania sekwencji www.michalbereta.pl Załóżmy, że mamy dwie sekwencje, które chcemy dopasować i dodatkowo ocenić wiarygodność tego dopasowania. Interesujące nas pytanie brzmi: na ile jest prawdopodobne, by podobny wynik otrzymać dla dwóch losowych sekwencji o podobnej zawartości, tzn. takich, w których procentowa zawartość znaków jest taka sama. W tym celu wykorzystamy pakiet programów fasta. Ze strony http://faculty.virginia.edu/wrpearson/fasta/fasta36/ pobierz plik fasta-36.3.6f.zip a następnie rozpakuj go. http://faculty.virginia.edu/wrpearson/fasta/fasta36/fasta-36.3.6f.zip www.michalbereta.pl/fasta-36.3.6f.zip 1

W pakiecie tym w katalogu bin znajdują się implementacje wielu algorytmów. Nas interesuje program ssearch36.exe, w którym zaimplementowano algorytm Smitha-Watermana. Jest to program bez interfejsu graficznego, musimy go zatem uruchomić z linii poleceń. W katalogu doc znaleźć można plik fasta_guide.pdf. 2

Program uruchamia się bezpośrednio z linii poleceń. Po jego nazwie następuje lista parametrów potrzebnych do wykonania zamierzonych obliczeń, przede wszystkim plik z sekwencją stanowiącą zapytanie (query.file), oraz plik z sekwencjami stanowiącymi naszą lokalną bazę danych sekwencji (libr ary.file). Dodatkowo, do programu przesłać można szereg parametrów, z których najważniejsze przedstawiono poniżej. 3

Z powyższego wynika, że programów z tego pakietu możemy używać jeśli mamy znaczną liczbę sekwencji lokalnie na naszym komputerze i chcemy ją przeszukać na podstawie interesującej nas sekwencji. Algorytm Smitha-Watermana nie jest najszybszym algorytmem, który możemy użyć w tym celu, jednak to właśnie on zostanie przez nas wykorzystany tym razem. Rozważymy trzy przypadki: 1. Jedna sekwencja stanowiąca zapytanie oraz plik z bazą sekwencji o znacznej liczbie (więcej niż 500) 2. Jedna sekwencja stanowiąca zapytanie oraz plik z bazą sekwencji o niewielkiej liczbie (mniej niż 500) 3. Dwie sekwencje, które chcemy ze sobą porównać i otrzymać dodatkowo oszacowanie statystyczne jakości tego dopasowania. Celem analizy jest wnioskowanie o homologii dopasowanych sekwencji. 4

1. Jedna sekwencja stanowiąca zapytanie oraz plik z bazą sekwencji o znacznej liczbie (więcej niż 500) Ze strony ftp://ftp.ebi.ac.uk/pub/databases/embl/release/std pobierz plik rel_est_mam_10_r123.dat.gz z fragmentem bazy EMBL (wybieramy go z powodu stosunkowo niewielkich rozmiarów). www.michalbereta.pl/rel_est_mam_10_r123.zip Rozpakuj pobrane archiwum. Jego zawartość to wiele rekordów w znanym nam formacie. Dla ułatwienia, wyszukiwać w tym pliku będziemy sekwencję pierwszego rekordu z tego pliku (numer dostępu AC JK123687), lekko zmodyfikowaną. 5

Po małych modyfikacjach, szukana sekwencja jest następująca: Gggagctgcgtctggagctcggctgttggctggagtgggcgcttatctggtgtggggaaggcggcgggactcaggcctagcattgtcctacataa tggtagaggatgaactggcactgttcgataaaagcataaatgaattttgattcaaaagtacggacacctcctgtcaaatggcgggaataagacta agagatacctacaaggactccatcaaagcatttgcagaaaagctgtctgtgaaattaaaggaagaagaacgaatggttgagatgtttctggaat atcaaaatcagatcaggaggcaaaataagctcattcaagaaaaaaaggataacttgttaaaattgattgctgaagtaaaaggcaaaaagcagg aattggaagtactgactgcaaatatccaggatcttaaggaagaatattctaggaagaaggaaactatttctactgctaataaagcgaatgcaga gaggttgaaaaggctgcagaaatctgcagacttgtataaagatcgacttggactagaaattcgaaaaatttatggtgagaaattgcagtttatatt cactaatattgaccctaagaatcctgagagcccatttatgttttccctgcatctaaatgaagcaagggactatgaagtgtcagatagtgcccctcat cttga Zapisz ją do pliku z rozszerzeniem fasta, np. sekwencja_1.fasta. Dla ułatwienia, załóżmy, że wszystkie potrzebne nam pliki są w katalogu C:\bioinf 6

Aby uruchomić linię poleceń, kliknij w menu główne (dolny lewy róg) a następnie wybierz uruchom. Wpisz cmd. Należy przejść do swojego katalogu roboczego za pomocą polecenia cd C:\bioinf. Możemy teraz wydać polecenie ssearch36.exe sekwencja_1.fasta rel_est_mam_10_r123.dat > output.txt 7

W katalogu bioinf pojawi się plik output.txt. Okazuje się jednak, że program nie znalazł żadnej sekwencji w naszym pliku z bazą. Dzieje się tak dlatego, że domyślnie program oczekuje plików w formacie fasta. Jeśli pliki są w innym formacie, należy wskazać za pomocą odpowiedniego parametru, jaki to format. 8

Z pliku fasta_guide.pdf: Zatem w naszym przypadku poprawne polecenie to: Tym razem proces przeszukiwania bazy może potrwać kilka minut. Po jego zakończeniu, w pliku output.txt znajdziemy raport. 9

Raport ten zawiera kilka części. Poniżej zaznaczono nagłówek, zawierający informację o programie i jego wersji. 10

Następnie zaznaczono podsumowanie sekwencji z zapytania oraz pliku z bazą sekwencji. Możemy odczytać, że nasza baza zawiera 17490 sekwencji. 11

Poniżej zaznaczono fragment z podsumowaniem parametrów (np. gap open / extend), czasem skanowania oraz oszacowanymi parametrami statystycznymi, które wynikają z przyjętego modelu probabilistycznego. 12

W dalszej części raportu zestawiono najlepsze wyniki przeszukiwania. Zwróć uwagę, że rzeczywiście rekord o numerze dostępu JK123687 został odnaleziony jako najlepiej pasujący. Dostępne są wartości E-value, podobnie jak miało to miejsce podczas wyszukiwania na stronie internetowej EBI. Wartość nawiasie E(17490) oznacza, że parametry modelu oszacowane zostały na podstawie zawartości bazy, czyli 17490 sekwencji. Warto podkreślić, że wyniki zależą od sekwencji w bazie ale również od samej ich liczby. Jeśli rozmiar bazy się zmieni, zmienią się wartości w kolumnie E. Jeśli rozmiar bazy wzrośnie, wartości E wzrosną by odzwierciedlić fakt, że im więcej w bazie sekwencji, tym bardziej zwiększa się szansa na losowe uzyskanie dobrego dopasowania. W ostatniej części prześledzić możemy wyniki dopasowania najlepszych sekwencji. 13

Przeszukiwać możemy również bazę sekwencji aminokwasów. Można również doprecyzować wartości parametrów algorytmu takich jak kara za przerwy czy macierz punktacji. Przykładowo, pobierzmy fragment bazy sekwencji białkowych Uniprot. www.michalbereta.pl/uniprot_sprot_viruses.zip ftp://ftp.ebi.ac.uk/pub/databases/uniprot/current_release/knowledgebase/taxonomic_divisions/ Pobierz plik dotyczący wirusów. Wyszukiwać będziemy sekwencję: MAFSAEDVLKEYDRRRRMEALLLSLYYPNDRKLLDYKEWSPPRVQVECPKAPVEWNNPPS EKGLIVGHFSGIKYKGEKAQASEVDVNKMCCWVSKFKDAMRRYQGIQTCKIPGKVLSDLD AKIKAYNLTVEGVEGFVRYSRVTKQHVAAFLKELRHSKQYENVNLIHYILTDKRVDIQHL EKDLVKDFKALVESAHRMRQGHMINVKYILYQLLKKHGHGPDGPDILTVKTGSKGVLYDD SFRKIYTDLGWKFTPL Umieść ją w pliku sekwencja_2.fasta 14

W katalogu C:\bioinf powinny się teraz znajdować następujące pliki: Wykonajmy polecenie przeszukania pliku z bazą sekwencji, używając macierzy Blosum62, kary za przerwy gap open=-10 oraz gap extend=-1. Zawartość pliku z raportem: 15

Sekwencja z zapytania najlepiej pasuje do rekordu o ID 001R_FRG3G w pliku uniprot_sprot_viruses.dat. Jest to pierwszy w kolejności rekord w tym pliku. 16

2. Jedna sekwencja stanowiąca zapytanie oraz plik z bazą sekwencji o niewielkiej liczbie (mniej niż 500) Jeśli nasza baza zawiera mniej niż 500 sekwencji, oszacowanie parametrów modelu na podstawie zawartości bazy nie będzie wiarygodne. W takich przypadkach stasuje się metodę polegającą na generowaniu losowych sekwencji na podstawie istniejących w bazie. Takie losowo wygenerowane sekwencje są dopasowywane do sekwencji z zapytania w celu sprawdzenia na jaką jakość dopasowania możemy liczyć w wyniku losowych zdarzeń. 17

Wykorzystajmy plik CytBDNA.txt jako bazę. Wyszukiwać będziemy sekwencję Lungfish Protopterus dolloi. Skopiuj ją do osobnego pliku fasta o nazwie sekwencja_3.fasta. Zawartość katalogu roboczego: Wykonaj polecenie: W raporcie przedstawionym poniżej zwróć uwagę, że na podstawie 20 sekwencji z bazy wykonano 500 przetasowań w celu uzyskania 500 losowych sekwencji. 18

Losowego przetasowania sekwencji można wykonać na parę sposobów. Wyborem konkretnego podejście steruje parametr z. 19

Przykładowo: 20

3. Dwie sekwencje, które chcemy ze sobą porównać i otrzymać dodatkowo oszacowanie statystyczne jakości tego dopasowania. Z pliku CytBProt.txt wybierz dwie pierwsze sekwencje i zapisz każdą w osobnym pliku. sekwencja_4.fasta sekwencja_5.fasta Zawartość katalogu roboczego: Wykonaj polecenie: W raporcie zobaczymy, że otrzymaliśmy nie tylko dopasowanie, ale również wartość E oszacowaną na podstawie losowych przetasowań sekwencji. Wartość E jest bliska 0 co oznacza wiarygodne dopasowanie i umożliwia wnioskowanie o homologii. 21

Dla porównania, wygeneruj losową sekwencję: Umieść ją w pliku sekwencja_6.fasta. 22

Wykonaj polecenie: W raporcie możemy sprawdzić, że w tym przypadku wartość E zdecydowanie nie jest bliska 0. Dopasowanie zatem nie jest wiarygodne. 23