Samouczek: Konstruujemy drzewo



Podobne dokumenty
Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

etrader Pekao Podręcznik użytkownika Jak zacząć pracę z etrader Pekao?

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

PRZEWODNIK PO ETRADER PEKAO ROZDZIAŁ I. JAK ZACZĄĆ PRACĘ Z ETRADER PEKAO? SPIS TREŚCI

Porównywanie i dopasowywanie sekwencji

Pokaz slajdów na stronie internetowej

PCSHEMATIC AUTOMATION Instalacja aktualizacji baz aparatury

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

netster instrukcja obsługi

Instrukcja obsługi programu CMS Dla rejestratorów HANBANG

Nawigacja. Drukowanie Kliknij ikonę, aby uzyskać dalsze informacje: Obsługa papieru Wyświetlanie dokumentacji online. Konserwacja

PIERWSZE URUCHOMIENIE PROGRAMU ITNC PROGRAMMING STATION

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Rozdział II. Praca z systemem operacyjnym

Instrukcja użytkowania

Porównywanie i dopasowywanie sekwencji

Instalowanie certyfikatów celem obsługi pracy urządzenia SIMOCODE pro V PN z poziomu przeglądarki internetowej w systemie Android

Edytor materiału nauczania

Szkolenie dla nauczycieli SP10 w DG Operacje na plikach i folderach, obsługa edytora tekstu ABC. komputera dla nauczyciela. Materiały pomocnicze

Budowa argumentacji bezpieczeństwa z użyciem NOR-STA Instrukcja krok po kroku

uczyć się bez zagłębiania się w formalnym otoczeniu,

Instrukcjaaktualizacji

5.2. Pierwsze kroki z bazami danych

Jak zaimportować bazę do system SARE

New Features in Allplan Allplan Nowy system licencjonowania w Allplan

Przygotowanie środowiska Java do prawidłowej obsługi podpisu elektronicznego w epuap

Archiwizowanie nagrań i naprawa bazy danych

Baza wiedzy instrukcja

Jak dodać wpis? Po zalogowaniu na blog znajdujesz się w panelu administracyjnym. Po lewej stronie widzisz menu:

Podręcznik użytkownika Platformy Edukacyjnej Zdobywcy Wiedzy (zdobywcywiedzy.pl)

ERGODESIGN - Podręcznik użytkownika. Wersja 1.0 Warszawa 2010

Spotkanie. Agenda spotkania: o sobie wstęp jak założyć Skype podstawy korzystania ze Skype. Pamiętaj, jeśli czegoś nie rozumiesz, pytaj od razu.

Instalowanie VHOPE i plików biblioteki VHOPE

UNIFON podręcznik użytkownika

Problemy techniczne. Jak umieszczać pliki na serwerze FTP?

edycja szablonu za pomocą programu NVU

Rejestrator radiowy temperatury Arexx TL-500

AKTUALIZACJA KROK 1. INSTALACJA PROGRAMU PC UTILITY.

E-PLATFORMA ShoeBAT. NARZĘDZIE ONLINE DLA NAJLEPSZYCH DOSTĘPNYCH TECHNIK W EUROPEJSKIM PRZEMYŚLE OBUWNICZYM I GARBARSKIM

Włączanie/wyłączanie paska menu


Instrukcja korzystania z Krajowego Rejestru Agencji Zatrudnienia

Każde menu jest połączone z modułem, którym zarządza się w menedżerze modułów. Cztery dostępne menu widać na pasku Menu (rysunek 4.38).

1. Przypisy, indeks i spisy.

Synchronizator plików (SSC) - dokumentacja

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Zadanie1. Wykorzystując serwis internetowy Wikipedii wyjaśnij następujące pojęcia: wirtualizacja, VirtualBox, Vmware, KVM, Virtual PC, Hyper-V.

Dopasowanie sekwencji (sequence alignment)

CZĘŚĆ A PIERWSZE KROKI Z KOMPUTEREM

- 1 Laboratorium fotografii cyfrowej Foto Video Hennig

Laboratorium - Monitorowanie i zarządzanie zasobami systemu Windows 7

Zadanie 11. Przygotowanie publikacji do wydrukowania

Wstęp do obsługi bazy danych Reaxys

Skrócona instrukcja funkcji logowania

Laboratorium - Narzędzia linii uruchamiania w systemie Windows 7

Jak posługiwać się edytorem treści

PLAN REALIZACJI MATERIAŁU NAUCZANIA Z INFORMATYKI II. Uczeń umie: Świadomie stosować się do zasad regulaminów (P).

ApSIC Xbench: Szybki start wydanie Mariusz Stępień

STAŁY KLIENT PODRĘCZNIK UŻYTKOWNIKA WERSJA 1.1.3

1. Platforma e-learningowa

documaster documaster Campus Instrukcja obsługi Bezobsługowy system drukowania, kopiowania i skanowania

Program EWIDENCJA ODZIEŻY ROBOCZEJ INSTRUKCJA UŻYTKOWNIKA Przejdź do strony producenta programu

Instrukcja korzystania z portalu Diagnoza Nowej Ery

Konfiguracja podglądu obrazu z kamery IP / rejestratora BCS przez sieć LAN.

Przewodnik dla użytkownika do systemu STUDIO

INSTALACJA DOSTĘPU DO INTERNETU

Jak korzystać z przeglądarki danych ESS SoftReport

Instrukcja aktualizacji programu FAKTURY i Rachunki 2013

Instrukcja obsługi certyfikatów w programie pocztowym MS Outlook Express 5.x/6.x

Cykl lekcji informatyki w klasie IV szkoły podstawowej. Wstęp

Zgrywus dla Windows v 1.12


Podręcznik Użytkownika aplikacji NOVO Szkoła. Profil Ucznia

Al. Akacjowa 16A Wrocław

Jak na podstawie danych zgromadzonych w arkuszu przygotować różne zestawienia i dokumenty?

PROBLEMY TECHNICZNE. Co zrobić, gdy natrafię na problemy związane z użytkowaniem programu DYSONANS

Poradnik korzystania z usługi FTP

Instrukcja instalacji oprogramowania Flow!Works na komputerze z systemem Windows 7

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

Po wstawieniu tabeli (i zawsze wtedy, gdy w tabeli jest kursor) pojawia się na wstążce nowa grupa zakładek o nazwie Narzędzia tabel.

KOMPUTEROWY SYSTEM WSPOMAGANIA OBSŁUGI JEDNOSTEK SŁUŻBY ZDROWIA KS-SOMED

Szybki. Internet. podręcznik użytkownika Modem Thomson SpeedTouch 330

SYSTEMY OPERACYJNE I SIECI KOMPUTEROWE

Konfiguracja oprogramowania w systemach MS Windows dla kont z ograniczonymi uprawnieniami

Państwowa Wyższa Szkoła Zawodowa w Gorzowie Wlkp. Laboratorium architektury komputerów

Instrukcja szybkiej obsługi

Obsługa programu Paint. mgr Katarzyna Paliwoda

Szybki. Internet. podręcznik użytkownika Modem ZTE ZXDSL 852

PRZYRÓWNANIE SEKWENCJI

Podręcznik użytkownika programu. Ceremonia 3.1

EBSCOhost Wyszukiwanie podstawowe dla Bibliotek akademickich

Zadanie 1. Stosowanie stylów

Nawigacja po trasie wycieczki

esupplier A User Guide for 3M s Vendors

Przewodnik po Notowaniach Statica mdm 4

Damian Daszkiewicz Tworzenie strony-wizytówki dla firmy XYZ

Dodawanie stron do zakładek

Dodawanie stron do zakładek

Transkrypt:

ROZDZIAŁ 2 Samouczek: Konstruujemy drzewo Po co nam drzewa filogenetyczne? Drzewa filogenetyczne często pojawiają się dzisiaj w pracach z dziedziny biologii molekularnej, które nie mają związku z filogenetyką czy ewolucją per se. Autorzy tych prac coraz częściej je zamieszczają, ponieważ mają świadomość, że drzewa umożliwiają lepsze zrozumienie procesów biologicznych. Pozwalają lepiej zrozumieć relacje pokrewieństwa interesującego nas białka z innymi białkami oraz wyciągnąć wnioski na temat jego funkcji biologicznej, która bez tego mogłaby być nieuchwytna. Wraz z coraz powszechniejszym sekwencjonowaniem całych genomów, nasza wiedza na temat sekwencji makrocząsteczek znacznie wyprzedziła wiedzę na temat ich funkcji biologicznej i biochemicznej. W rezultacie często jesteśmy zmuszeni do przypisywania funkcji niektórym białkom jedynie na podstawie homologii sekwencji. W bazach danych znajduje się coraz więcej sekwencji o funkcjach określonych na podstawie homologii z sekwencjami, którym funkcje przypisano tymczasowo na podstawie homologii z jeszcze innymi sekwencjami. Odwołanie się do filogenezy pozwala określić, jak blisko nasza sekwencja jest spokrewniona z sekwencją, której funkcję znamy na podstawie informacji biologicznej lub biochemicznej. Do niedawna przeglądano bazy danych w poszukiwaniu sekwencji pokrewnych, po czym publikowano wyniki w postaci tabel podających homologie par sekwencji, wyrażanych jako ich procentowe podobieństwo lub stopień identyczności. W miarę rozrastania się baz sekwencji, przedstawianie tabel zawierających wszystkie homologi stało się niemożliwe i zaczęto tworzyć przyrównania wielu sekwencji za pomocą takich programów jak Clustal czy PileUp. Przyrównanie wielu sekwencji zaczyna się od przyrównania wszystkich sekwencji parami względem siebie i na tej podstawie tworzy się przybliżone drzewo przewodnie. Biologowie

10 ROZDZIA 2 molekularni często publikują je jako drzewo filogenetyczne. Ponieważ takie drzewa powstają na podstawie porównań sekwencji parami, nie zaś na podstawie przyrównania wszystkich sekwencji na raz, ich podstawą nie jest ocena miejsc, które są homologiczne we wszystkich sekwencjach. Dlatego też drzewa przewodnie mogą zawierać poważne błędy i prowadzić do nieprawidłowej interpretacji danych. Aby tego uniknąć należy tworzyć drzewa oparte na pełnych danych. W tej książce omówiono kolejne etapy budowy drzewa filogenetycznego na podstawie sekwencji makrocząsteczek: 1. Wybór interesującej nas sekwencji białkowej lub DNA. 2. Wybór innych, spokrewnionych sekwencji i uzyskanie ich w postaci elektronicznej. 3. Przyrównanie tych sekwencji. 4. Zbudowanie drzewa filogenetycznego na podstawie uzyskanego przyrównania. 5. Wydrukowanie (oraz ewentualne opublikowanie) otrzymanego drzewa. Skoro czytasz tę część, zapewne masz już za sobą etap 1. Do przeprowadzenia pozostałych etapów będzie niezbędny komputer podłączony do Internetu i zestaw odpowiednich programów. Niniejszy podręcznik poprowadzi cię przez te etapy, zasugeruje właściwe programy i poradzi jak je zdobyć. Czego nauczymy siœ z tego samouczka Zasadniczym celem tego samouczka jest zaznajomienie czytelnika z głównymi funkcjami programu MEGA przy okazji objaśniania podstawowych etapów budowy drzewa filogenetycznego. Strategia wybrana w przykładzie omawianym w tym rozdziale jest daleka od optymalnej. W kolejnych rozdziałach zajmiemy się szczegółami, które pozwolą na znaczne udoskonalenie zaproponowanego tu podejścia. Niemniej, poznanie podstawowych właściwości programu MEGA będzie bardzo pomocne, a uzyskane drzewo będzie wystarczająco wiarygodne. MEGA Zanim cokolwiek zaczniemy robić, musimy zainstalować program MEGA, najlepiej na komputerze pracującym bezpośrednio pod systemem Windows. Możemy też zainstalować program na Maku z procesorem Intel, wykorzystując program Parallels lub na Maku PowerPC z włączonym Virtual PC, albo też na komputerze pracującym pod systemem Linux

Samouczek: Konstruujemy drzewo 11 z Windows uruchomionymi poprzez Wine. Jeśli nie mamy jeszcze programu MEGA lub poprzednie zdanie jest dla nas niezrozumiałe, to musimy przeczytać rozdział 11. Warto też przeczytać artykuł, w którym S. Kumar opisuje program MEGA (Kumar et al. 2004). MEGA zawiera znakomite, wrażliwe na kontekst, menu pomocy Help, które dostarcza podstawowych, ale wystarczająco szczegółowych informacji na temat każdej z jego funkcji. W programie znajduje się też znakomita instrukcja zawierająca samouczki dotyczące najważniejszych funkcji programu. Gorąco polecam skorzystanie z tej instrukcji i samouczków. Włączamy zatem MEGA i pojawia się główny ekran programu(rys. 2.1). RYSUNEK 2.1 Zdobywanie pokrewnych sekwencji za pomoc programu BLAST Niniejszy samouczek najlepiej spełni swoje zadanie, jeśli używając komputera przerobicie wszystkie opisane etapy. Takie założenie zostało przyjęte, toteż nie zamieszono tu zdjęć ekranu, przedstawiających wszystkie najdrobniejsze etapy działania programu. Najpewniej dysponujecie już interesującą was sekwencją białka lub kwasu nukleinowego i chcecie znaleźć inne, spokrewnione z nią sekwencje. Określenie spokrewnione oznacza, że sekwencje są wystarczająco podobne, aby można było uznać, że mają wspólne pochodzenie, czyli wywodzą się od wspólnego przodka.

12 ROZDZIA 2 Najprostszym sposobem na znalezienie spokrewnionych sekwencji jest poszukiwanie w komputerowych bazach danych sekwencji do nich podobnych. Poszukiwania takie można przeprowadzić dzięki uprzejmości różnych instytucji rządowych. My będziemy używali przeszukującego i importującego programu o nazwie BLAST. BLAST przeszukuje połączone światowe bazy danych sekwencji białkowych i kwasów nukleinowych, wykorzystując naszą sekwencje jako zapytanie. Zakładam, że macie już swoją sekwencję w postaci elektronicznej, być może w postaci prostego zbioru tekstowego albo zbioru z jakiegoś programu do obróbki sekwencji. Prawie każdy format będzie dobry. Jako przykładu użyję genu nuok z E. colik12, który koduje podjednostkę K dehydrogenazy NADH. Sekwencja DNA genu nuok znajduje się w zbiorze nuok. Chapter 2: nuok Etap 1: Szukamy sekwencji spokrewnionych z twoj sekwencj za pomoc programu BLAST. Z menu Alignment w głównym oknie MEGA wybierz Do BLAST Search, (Rys. 2.2). RYSUNEK 2.2

Samouczek: Konstruujemy drzewo 13 Wbudowana w program przeglądarka przeniesie cię na stronę BLAST w NCBI (Rys. 2.3). RYSUNEK 2.3

14 ROZDZIA 2 Skopiuj sekwencje DNA nuok zawartą w ściągniętym pliku nuok i wklej ją do ramki Enter accession number, gi, or FASTA sequence na stronie BLAST. Niżej na tej stronie, w miejscu wyboru bazy danych Choose Search Set, Database, wybierz ostatnią opcję Others (nr etc.): (Rys. 2.4). RYSUNEK 2.4 Kliknij przycisk BLAST. Aby go zobaczyć, konieczne może być przewinięcie strony w dół. Przez pewien czas BLAST będzie wyświetlał informacje, że przeszukuje bazę danych, a strona może być automatycznie co jakiś czas uaktualniana (Rys. 2.5). Po pewnym czasie (zależnym od obciążenia serwera) pojawi się bardzo długa strona z wynikami (Rys. 2.6).

Samouczek: Konstruujemy drzewo 15 RYSUNEK 2.5 RYSUNEK 2.6 Istnieje możliwość zmiany układu tej strony na taki, jaki był stosowany we wcześniejszych wersjach programu. Służy do tego hiperłącze Reformat these Results w górnej części ekranu. Po jego kliknięciu pojawia się okno dialogowe formatu wyników. Zmiany dokonamy, odznaczając pole wyboru Advanced View, a zaznaczając pole Use old BLAST report format. W celu potwierdzenia zmian należy kliknąć przycisk View report.

16 ROZDZIA 2 Przewijając stronę w dół, natrafimy najpierw na wyniki Rozkładu trafień (ang. Distribution of Hits), przedstawione w postaci diagramu (Rys. 2.7). RYSUNEK 2.7 RYSUNEK 2.8

Samouczek: Konstruujemy drzewo 17 Kolory pasków wskazują na wyniki przyrównań odzwierciedlające podobieństwo określonej sekwencji do sekwencji nuok. Najdłuższe paski mają kolor czerwony (nie widać tego na ilustracjach) co oznacza wynik 4200. Długość paska odpowiada odcinkowi sekwencji, który wykazuje podobieństwo do sekwencji zapytania. Najdłuższelinieoznaczają sekwencje, które można przyrównać do całej sekwencji zapytania, liczącej 300 pozycji. Niżej znajdują się krótsze linieoznaczające sekwencje, które można przyrównać jedynie do części sekwencji zapytania. Przesuwając się dalej w dół, zobaczymy tabelę z listą wybranych sekwencji(rys. 2.8). Pozycja sekwencji na liście zależy od jej podobieństwa do sekwencji zapytania. Etap 2: Decydujemy, które z pokrewnych sekwencji w czyæ do naszego drzewa Tabela składa się z kilku kolumn. W pierwszej kolumnie (Accession) znajdują się niebieskie hiperłącza do strony danej sekwencji w witrynie GenBank. Druga kolumna (Description) to krótki opis sekwencji. Następne dwie kolumny przedstawiają wynik przyrównania w postaci maksymalnego wyniku lokalnego (Max score) i wyniku całkowitego sumującego wszystkie możliwe przyrównania wybranej sekwencji (Total score). Pierwsza pozycja ma wartość zbliżoną do 580. Im wyższa jest ta wartość, tym bliżej dana sekwencja jest spokrewniona z sekwencją zapytaniem. Kolejna kolumna (Query coverage) zawiera procentowe udziały sekwencji zapytania wykorzystane przy obliczaniu wyniku całkowitego (Total score), zaś następna (E-value) wartości oczekiwane (E). Gdy wartość oczekiwana jest mniejsza od 0,01 to prawie dokładnie odpowiada prawdopodobieństwu tego, że wybrana sekwencja nie jest homologiczna z sekwencją zapytaniem. Na dole tabeli (Rys. 2.9) znajdują się wartości oczekiwane 41,0, które na pewno nie równają się powyższemu prawdopodobieństwu, ale mogą wciąż służyć do oceny czy możliwe jest to, że wybrana sekwencja jest homologiczna z sekwencją zapytaniem. Kwestia prawdopodobieństwa tego, że wybrane sekwencje są homologiczne jest istotna, gdyż do budowy drzewa filogenetycznego należy wybrać wyłącznie sekwencje homologiczne. W filogenetyce zakłada się, że wszystkie sekwencje (lub organizmy) na drzewie pochodzą od wspólnego przodka. W istocie termin homologiczne oznacza odziedziczone po wspólnym przodku. Dokładniej przedyskutujemy to zagadnienie w rozdziale 3. Tymczasem wybierzemy tylko te sekwencje, co do których możemy mieć mocne przekonanie, że sąhomologiczne. Na razie ustalimy granicę wartości E 5 10 3, (na drzewie znajdą się zatem tylko te sekwencje, dla których wartość E 5 10 3 ). Gdy już zdecydowaliśmy, które sekwencje możemy umieścić na drzewie, powinniśmy się zastanowić, które z nich naprawdę chcemy uwzględnić. Zauważmy, że w zestawie jest wiele sekwencji z różnych szczepów E. coli

18 ROZDZIA 2 RYSUNEK 2.9 RYSUNEK 2.10