Samouczek: Konstruujemy drzewo

ROZDZIAŁ 2 Samouczek: Konstruujemy drzewo Po co nam drzewa filogenetyczne? Drzewa filogenetyczne często pojawiają się dzisiaj w pracach z dziedziny biologii molekularnej, które nie mają związku z filogenetyką czy ewolucją per se. Autorzy tych prac coraz częściej je zamieszczają, ponieważ mają świadomość, że drzewa umożliwiają lepsze zrozumienie procesów biologicznych. Pozwalają lepiej zrozumieć relacje pokrewieństwa interesującego nas białka z innymi białkami oraz wyciągnąć wnioski na temat jego funkcji biologicznej, która bez tego mogłaby być nieuchwytna. Wraz z coraz powszechniejszym sekwencjonowaniem całych genomów, nasza wiedza na temat sekwencji makrocząsteczek znacznie wyprzedziła wiedzę na temat ich funkcji biologicznej i biochemicznej. W rezultacie często jesteśmy zmuszeni do przypisywania funkcji niektórym białkom jedynie na podstawie homologii sekwencji. W bazach danych znajduje się coraz więcej sekwencji o funkcjach określonych na podstawie homologii z sekwencjami, którym funkcje przypisano tymczasowo na podstawie homologii z jeszcze innymi sekwencjami. Odwołanie się do filogenezy pozwala określić, jak blisko nasza sekwencja jest spokrewniona z sekwencją, której funkcję znamy na podstawie informacji biologicznej lub biochemicznej. Do niedawna przeglądano bazy danych w poszukiwaniu sekwencji pokrewnych, po czym publikowano wyniki w postaci tabel podających homologie par sekwencji, wyrażanych jako ich procentowe podobieństwo lub stopień identyczności. W miarę rozrastania się baz sekwencji, przedstawianie tabel zawierających wszystkie homologi stało się niemożliwe i zaczęto tworzyć przyrównania wielu sekwencji za pomocą takich programów jak Clustal czy PileUp. Przyrównanie wielu sekwencji zaczyna się od przyrównania wszystkich sekwencji parami względem siebie i na tej podstawie tworzy się przybliżone drzewo przewodnie. Biologowie

10 ROZDZIA 2 molekularni często publikują je jako drzewo filogenetyczne. Ponieważ takie drzewa powstają na podstawie porównań sekwencji parami, nie zaś na podstawie przyrównania wszystkich sekwencji na raz, ich podstawą nie jest ocena miejsc, które są homologiczne we wszystkich sekwencjach. Dlatego też drzewa przewodnie mogą zawierać poważne błędy i prowadzić do nieprawidłowej interpretacji danych. Aby tego uniknąć należy tworzyć drzewa oparte na pełnych danych. W tej książce omówiono kolejne etapy budowy drzewa filogenetycznego na podstawie sekwencji makrocząsteczek: 1. Wybór interesującej nas sekwencji białkowej lub DNA. 2. Wybór innych, spokrewnionych sekwencji i uzyskanie ich w postaci elektronicznej. 3. Przyrównanie tych sekwencji. 4. Zbudowanie drzewa filogenetycznego na podstawie uzyskanego przyrównania. 5. Wydrukowanie (oraz ewentualne opublikowanie) otrzymanego drzewa. Skoro czytasz tę część, zapewne masz już za sobą etap 1. Do przeprowadzenia pozostałych etapów będzie niezbędny komputer podłączony do Internetu i zestaw odpowiednich programów. Niniejszy podręcznik poprowadzi cię przez te etapy, zasugeruje właściwe programy i poradzi jak je zdobyć. Czego nauczymy siœ z tego samouczka Zasadniczym celem tego samouczka jest zaznajomienie czytelnika z głównymi funkcjami programu MEGA przy okazji objaśniania podstawowych etapów budowy drzewa filogenetycznego. Strategia wybrana w przykładzie omawianym w tym rozdziale jest daleka od optymalnej. W kolejnych rozdziałach zajmiemy się szczegółami, które pozwolą na znaczne udoskonalenie zaproponowanego tu podejścia. Niemniej, poznanie podstawowych właściwości programu MEGA będzie bardzo pomocne, a uzyskane drzewo będzie wystarczająco wiarygodne. MEGA Zanim cokolwiek zaczniemy robić, musimy zainstalować program MEGA, najlepiej na komputerze pracującym bezpośrednio pod systemem Windows. Możemy też zainstalować program na Maku z procesorem Intel, wykorzystując program Parallels lub na Maku PowerPC z włączonym Virtual PC, albo też na komputerze pracującym pod systemem Linux

Samouczek: Konstruujemy drzewo 11 z Windows uruchomionymi poprzez Wine. Jeśli nie mamy jeszcze programu MEGA lub poprzednie zdanie jest dla nas niezrozumiałe, to musimy przeczytać rozdział 11. Warto też przeczytać artykuł, w którym S. Kumar opisuje program MEGA (Kumar et al. 2004). MEGA zawiera znakomite, wrażliwe na kontekst, menu pomocy Help, które dostarcza podstawowych, ale wystarczająco szczegółowych informacji na temat każdej z jego funkcji. W programie znajduje się też znakomita instrukcja zawierająca samouczki dotyczące najważniejszych funkcji programu. Gorąco polecam skorzystanie z tej instrukcji i samouczków. Włączamy zatem MEGA i pojawia się główny ekran programu(rys. 2.1). RYSUNEK 2.1 Zdobywanie pokrewnych sekwencji za pomoc programu BLAST Niniejszy samouczek najlepiej spełni swoje zadanie, jeśli używając komputera przerobicie wszystkie opisane etapy. Takie założenie zostało przyjęte, toteż nie zamieszono tu zdjęć ekranu, przedstawiających wszystkie najdrobniejsze etapy działania programu. Najpewniej dysponujecie już interesującą was sekwencją białka lub kwasu nukleinowego i chcecie znaleźć inne, spokrewnione z nią sekwencje. Określenie spokrewnione oznacza, że sekwencje są wystarczająco podobne, aby można było uznać, że mają wspólne pochodzenie, czyli wywodzą się od wspólnego przodka.

12 ROZDZIA 2 Najprostszym sposobem na znalezienie spokrewnionych sekwencji jest poszukiwanie w komputerowych bazach danych sekwencji do nich podobnych. Poszukiwania takie można przeprowadzić dzięki uprzejmości różnych instytucji rządowych. My będziemy używali przeszukującego i importującego programu o nazwie BLAST. BLAST przeszukuje połączone światowe bazy danych sekwencji białkowych i kwasów nukleinowych, wykorzystując naszą sekwencje jako zapytanie. Zakładam, że macie już swoją sekwencję w postaci elektronicznej, być może w postaci prostego zbioru tekstowego albo zbioru z jakiegoś programu do obróbki sekwencji. Prawie każdy format będzie dobry. Jako przykładu użyję genu nuok z E. colik12, który koduje podjednostkę K dehydrogenazy NADH. Sekwencja DNA genu nuok znajduje się w zbiorze nuok. Chapter 2: nuok Etap 1: Szukamy sekwencji spokrewnionych z twoj sekwencj za pomoc programu BLAST. Z menu Alignment w głównym oknie MEGA wybierz Do BLAST Search, (Rys. 2.2). RYSUNEK 2.2

Samouczek: Konstruujemy drzewo 13 Wbudowana w program przeglądarka przeniesie cię na stronę BLAST w NCBI (Rys. 2.3). RYSUNEK 2.3

14 ROZDZIA 2 Skopiuj sekwencje DNA nuok zawartą w ściągniętym pliku nuok i wklej ją do ramki Enter accession number, gi, or FASTA sequence na stronie BLAST. Niżej na tej stronie, w miejscu wyboru bazy danych Choose Search Set, Database, wybierz ostatnią opcję Others (nr etc.): (Rys. 2.4). RYSUNEK 2.4 Kliknij przycisk BLAST. Aby go zobaczyć, konieczne może być przewinięcie strony w dół. Przez pewien czas BLAST będzie wyświetlał informacje, że przeszukuje bazę danych, a strona może być automatycznie co jakiś czas uaktualniana (Rys. 2.5). Po pewnym czasie (zależnym od obciążenia serwera) pojawi się bardzo długa strona z wynikami (Rys. 2.6).

Samouczek: Konstruujemy drzewo 15 RYSUNEK 2.5 RYSUNEK 2.6 Istnieje możliwość zmiany układu tej strony na taki, jaki był stosowany we wcześniejszych wersjach programu. Służy do tego hiperłącze Reformat these Results w górnej części ekranu. Po jego kliknięciu pojawia się okno dialogowe formatu wyników. Zmiany dokonamy, odznaczając pole wyboru Advanced View, a zaznaczając pole Use old BLAST report format. W celu potwierdzenia zmian należy kliknąć przycisk View report.

16 ROZDZIA 2 Przewijając stronę w dół, natrafimy najpierw na wyniki Rozkładu trafień (ang. Distribution of Hits), przedstawione w postaci diagramu (Rys. 2.7). RYSUNEK 2.7 RYSUNEK 2.8

Samouczek: Konstruujemy drzewo 17 Kolory pasków wskazują na wyniki przyrównań odzwierciedlające podobieństwo określonej sekwencji do sekwencji nuok. Najdłuższe paski mają kolor czerwony (nie widać tego na ilustracjach) co oznacza wynik 4200. Długość paska odpowiada odcinkowi sekwencji, który wykazuje podobieństwo do sekwencji zapytania. Najdłuższelinieoznaczają sekwencje, które można przyrównać do całej sekwencji zapytania, liczącej 300 pozycji. Niżej znajdują się krótsze linieoznaczające sekwencje, które można przyrównać jedynie do części sekwencji zapytania. Przesuwając się dalej w dół, zobaczymy tabelę z listą wybranych sekwencji(rys. 2.8). Pozycja sekwencji na liście zależy od jej podobieństwa do sekwencji zapytania. Etap 2: Decydujemy, które z pokrewnych sekwencji w czyæ do naszego drzewa Tabela składa się z kilku kolumn. W pierwszej kolumnie (Accession) znajdują się niebieskie hiperłącza do strony danej sekwencji w witrynie GenBank. Druga kolumna (Description) to krótki opis sekwencji. Następne dwie kolumny przedstawiają wynik przyrównania w postaci maksymalnego wyniku lokalnego (Max score) i wyniku całkowitego sumującego wszystkie możliwe przyrównania wybranej sekwencji (Total score). Pierwsza pozycja ma wartość zbliżoną do 580. Im wyższa jest ta wartość, tym bliżej dana sekwencja jest spokrewniona z sekwencją zapytaniem. Kolejna kolumna (Query coverage) zawiera procentowe udziały sekwencji zapytania wykorzystane przy obliczaniu wyniku całkowitego (Total score), zaś następna (E-value) wartości oczekiwane (E). Gdy wartość oczekiwana jest mniejsza od 0,01 to prawie dokładnie odpowiada prawdopodobieństwu tego, że wybrana sekwencja nie jest homologiczna z sekwencją zapytaniem. Na dole tabeli (Rys. 2.9) znajdują się wartości oczekiwane 41,0, które na pewno nie równają się powyższemu prawdopodobieństwu, ale mogą wciąż służyć do oceny czy możliwe jest to, że wybrana sekwencja jest homologiczna z sekwencją zapytaniem. Kwestia prawdopodobieństwa tego, że wybrane sekwencje są homologiczne jest istotna, gdyż do budowy drzewa filogenetycznego należy wybrać wyłącznie sekwencje homologiczne. W filogenetyce zakłada się, że wszystkie sekwencje (lub organizmy) na drzewie pochodzą od wspólnego przodka. W istocie termin homologiczne oznacza odziedziczone po wspólnym przodku. Dokładniej przedyskutujemy to zagadnienie w rozdziale 3. Tymczasem wybierzemy tylko te sekwencje, co do których możemy mieć mocne przekonanie, że sąhomologiczne. Na razie ustalimy granicę wartości E 5 10 3, (na drzewie znajdą się zatem tylko te sekwencje, dla których wartość E 5 10 3 ). Gdy już zdecydowaliśmy, które sekwencje możemy umieścić na drzewie, powinniśmy się zastanowić, które z nich naprawdę chcemy uwzględnić. Zauważmy, że w zestawie jest wiele sekwencji z różnych szczepów E. coli

18 ROZDZIA 2 RYSUNEK 2.9 RYSUNEK 2.10