Tworzenie drzew filogenetycznych

1 Tworzenie drzew filogenetycznych Wyszukiwanie pokrewnych sekwencji za pomocą programu BLAST Załóżmy, że dysponujemy już interesującą nas sekwencją białka lub kwasu nukleinowego i chcemy znaleźć inne, spokrewnione z nią sekwencje. Określenie spokrewnione oznacza, że sekwencje są wystarczająco podobne, aby można było uznać, że mają wspólne pochodzenie, czyli wywodzą się od wspólnego przodka. Najprostszym sposobem na znalezienie spokrewnionych sekwencji jest poszukiwanie w komputerowych bazach danych sekwencji do nich podobnych. Poszukiwania takie można przeprowadzić dzięki uprzejmości różnych instytucji rządowych. My będziemy korzystać z poznanego już wcześniej programu BLAST. Jako sekwencję kwerendową wykorzystamy sekwencję genu nuok z E. colik12, który koduje podjednostkę K dehydrogenazy NADH. Po otwarciu okna programu MEGA wybieramy z menu Align opcję Do BLAST search. Wbudowana w program przeglądarka przeniesie nas na stronę BLAST w NCBI. Skopiujmy sekwencję genu nuok z pliku o tej samej nazwie i wklejmy ją w pole edycyjne Enter accession number, gi, or FASTA sequence. W miejscu wyboru bazy danych (Choose Search Set, Database) wybierzmy ostatnią opcję (Others (nr etc.)). Następnie naciskamy przycisk BLAST. Po pewnym czasie pojawi się lista z wynikami. Istnieje możliwość zmiany układu strony na taki, jaki był stosowany we wcześniejszych wersjach programu. Wykorzystujemy w tym celu łącze Formatting options w górnej części ekranu i zaznaczamy pole Old View, a następnie klikamy przycisk Reformat. Wybór pokrewnych sekwencji, które mają być włączone do drzewa Przewijając stronę w dół natrafiamy najpierw na diagram, poniżej którego znajduje się tabela. Dla przypomnienia: w pierwszej kolumnie (Accession) znajdują się łącza do rekordu danej sekwencji w bazie GenBank. Druga kolumna to krótki opis sekwencji. Następne dwie kolumny przedstawiają wynik przyrównania w postaci maksymalnego wyniku lokalnego (Max score) oraz wyniku całkowitego sumującego wszystkie możliwe przyrównania wybranej sekwencji (Total score). Pierwsza pozycja ma wartość zbliżoną do 580. Im wyższa ta wartość, tym bliżej dana sekwencja jest spokrewniona z sekwencją kwerendową. Kolejna kolumna (Query coverage) zawiera procentowe udziały sekwencji kwerendowej wykorzystane przy obliczaniu wyniku całkowitego (Total score), zaś następna (E-value) wartości oczekiwane (E). Wartość E dostarcza informacji o prawdopodobieństwie, że dane skojarzenie sekwencji jest wynikiem czystego przypadku. Im niższa wartość E, tym mniejsze prawdopodobieństwo, że skojarzenie jest wynikiem zdarzenia losowego, a zatem tym bardziej jest ono istotne. Empiryczna interpretacja wartości tego parametru jest następująca. Jeśli wartość E<1e-50, to z bardzo dużym prawdopodobieństwem, graniczącym z pewnością, można stwierdzić, że skojarzone sekwencje są homologami. Jeśli ta wartość znajduje się w zakresie od 1e-50 do 0,01, to skojarzone sekwencje można uznać za homologiczne. Jeśli wartość E znajduje się między 0,01 a 10, to skojarzenie nie jest istotne, ale może wskazywać odległe pokrewieństwo dwóch sekwencji. Potrzebny jest wówczas dodatkowy dowód potwierdzający homologię. Jeśli E>10, to analizowane sekwencje albo są niespokrewnione, albo ich pokrewieństwo jest tak odległe, że nie można go wykryć obecnie dostępnymi metodami. Kwestia tego, że wybrane sekwencje są homologami jest istotna, gdyż do budowy drzewa filogenetycznego należy wybrać wyłącznie sekwencje homologiczne. W filogenetyce zakłada się, że wszystkie sekwencje (lub organizmy) pochodzą od wspólnego przodka. W

2 istocie termin homologiczne oznacza odziedziczone po wspólnym przodku. Wybierzemy więc tylko te sekwencje, co do których możemy mieć mocne przekonanie, że są homologiczne. Na nasze potrzeby ustalimy granicę E<0,001 (na drzewie znajdą się zatem tylko te sekwencje, dla których E<0,001). Gdy już zdecydowaliśmy, które sekwencje możemy umieścić na drzewie, powinniśmy zastanowić się, które z nich naprawdę chcemy uwzględnić. Zauważmy, że w zestawie jest wiele sekwencji z różnych szczepów E. coli. Chociaż niektóre z nich mogą się nieznacznie różnić między sobą, to w naszym przykładzie wybierzemy tylko po jednej sekwencji z każdego gatunku. Aby ostatecznie zdecydować, czy chcemy uwzględnić daną sekwencję, powinniśmy się przyjrzeć jej przyrównaniu z sekwencją kwerendową. Aby to uczynić, należy kliknąć na wartość wyniku Max score dla danej sekwencji. W kolumnie Max score znajdują się łącza, kierujące do przyrównań na dole strony. Kliknięcie wartości odpowiadającej sekwencji Escherichia coli str. K12 substr. MG1655 przeniesie nas do jej przyrównania. Widać, że jest ona zgodna z sekwencją kwerendową w 300 na 300 pozycji, bez żadnych przerw (idealna zgodność). Wynika to z tego, że sekwencja ta pochodzi właśnie z tego szczepu. W wierszu bezpośrednio nad przyrównaniem znajduje się informacja: Strand=Plus/Minus. Oznacza to, że sekwencja w bazie GenBank pochodzi z nici komplementarnej do sekwencji kwerendowej. Nieco wyżej, pod wierszem Features in this part of subject sequence: widać dwa łącza zaczynające się od NADH:ubiquinone oxidoreductase, z których jedno kończy się na membrane subunit K. Ponieważ gen nuok koduje podjednostkę K, to jest to sekwencja z E. coli, którą chcemy włączyć do drzewa. Sprowadzanie sekwencji z GenBank Klikamy łącze subunit K, aby przejść do widoku rekordu tej sekwencji w bazie GenBank. Następnie po prawej stronie rozwijamy menu Customize view i zaznaczamy Show Reverse complement oraz klikamy Update view. Uzyskana sekwencja jest kodowana na nici komplementarnej do sekwencji kwerendowej, więc dopiero wtedy znajdzie się we właściwej orientacji. Następnie przewijamy stronę do samego dołu, gdzie znajdziemy właściwie zorientowaną sekwencję kodującą genu nuok. Jeśli do przeszukiwania baz danych za pomocą BLAST użylibyśmy innej niż MEGA przeglądarki, to należałoby teraz zapamiętać uzyskaną sekwencję w formacie FASTA. Po zapisaniu wszystkich sekwencji, które chcielibyśmy użyć do budowy drzewa, należałoby je zestawić w jednym pliku, a następnie otworzyć ten plik w programie do przeprowadzania przyrównań, takim jak ClustalW czy ClustalX. MEGA ułatwia nam to zadanie. Klikamy na przycisk Add to Alignment (oznaczony czerwonym krzyżykiem), znajdujący się na pasku poleceń, a MEGA otworzy okno Input Sequence Label, w którym wybieramy sposób nazwania sekwencji. Jednocześnie zostanie otwarte okno eksploratora przyrównań, w którym została umieszczona sekwencja. W przeglądarce MEGA cofamy się do okna zawierającego zestawienie sekwencji wybranych przez program BLAST. Dodajemy kolejno sekwencje, po jednej z każdego gatunku, za każdym razem przyglądając się uważnie przyrównaniu. Załóżmy, że dokonaliśmy wyboru następujących sekwencji: 1. Escherichia coli str. K-12 substr. MG1665 complete genome 2. Schigella flexnerii 2a str. 301 complete genome 3. Schigella boydii Sb227 complete genome 4. Schigella dysenteriae Sd 197 complete genome 5. Schigella sonnei Ss046 complete genome

3 6. Escherichia fergusonii ATCC 35469 chromosome complete genome 7. Citrobacter rodentium ICC168 complete genome 8. Enterobacter cloacae subsp. dissolvens SDM complete genome 9. Salmonella enterica subsp. enterica serovar Heidelberg str. B182 complete genome. Po zakończeniu dodawania sekwencji, warto by było zapisać zawartość eksploratora przyrównań, aby nie utracić wykonanej do tej pory pracy. Wybieramy polecenie Save session z menu Data, a następnie określamy nazwę zbioru (np. nuok). Będzie on miał rozszerzenie mas, co oznacza, że jest to zbiór z przyrównaniem. Na tym kończymy pracę z przeglądarką i możemy zamknąć jej okno. Przyrównywanie sekwencji Podstawową przesłanką w filogenetyce jest homologiczność wszystkich sekwencji na drzewie. Ponadto wszystkie metody budowy drzew zakładają, że w zestawie homologicznych sekwencji wszystkie zasady w kolumnach są również homologiczne (tzn. pochodzą od wspólnej ancestralnej zasady obecnej w tej pozycji w sekwencji przodka). Jeśli w analizowanych sekwencjach nie zdarzyła się żadna insercja ani delecja, to wypisanie ich, jedna pod drugą, wystarczy do spełnienia tego założenia. Insercje i delecje, zwane łącznie indelami, zmieniają długości sekwencji i powodują przesunięcie zasad lub aminokwasów. Przyrównanie jest procesem mającym na celu wprowadzenie przerw w sekwencjach, po to, aby z powrotem przesunąć zasady do ich homologicznych pozycji. Jest ono niezwykle ważne, gdyż jakość drzewa filogenetycznego nie może być lepsza od jakości przyrównania. W oknie eksploratora przyrównań z menu Edit opcję Select All, a następnie z menu Alignment wybieramy Align by ClustalW. Wyświetli się nowe okno z parametrami programu ClustalW. Klikamy OK. Na chwilę pojawi się okno przedstawiające postęp obliczeń, po czym okno eksploratora przyrównań pokaże przyrównane sekwencje. Przyrównanie jest gotowe i warto je znowu zapisać. Budowa drzewa metodą NJ (łączenia sąsiadów) Część programu MEGA, która oblicza drzewa nie może korzystać bezpośrednio ze zbioru nuok.mas, lecz wymaga zbioru w specjalnym formacie MEGA. Z menu Data wybieramy Export Alignment, a następnie opcję MEGA format. Nazwijmy plik nuok.meg, aby wiadomo było, że to plik MEGA. Pojawi się okno dialogowe z pytaniem o tytuł danych. Nie ma właściwie znaczenia, co tu wpiszemy (może to być np. sekwencje DNA genu nuok). W kolejnym oknie znajdzie się pytanie, czy są to sekwencje kodujące białko. Klikamy wtedy przycisk Yes to ważne. W ten sposób ukończyliśmy pracę w edytorze przyrównań i możemy zamknąć jego okno. W głównym oknie MEGA klikamy Open A File/Session, odnajdujemy plik nuok.meg, który właśnie utworzyliśmy i otwieramy go. MEGA otworzy okno eksploratora sekwencji (Sequence Data Explorer), aby powiadomić nas o udanym otwarciu pliku. Wracamy do głównego okna programu MEGA i wybieramy Phylogeny> Construct/Test Neighbor- Joining Tree. Program zapyta nas, czy chcemy przeprowadzić analizę dla aktualnego przyrównania klikamy Yes. Otwarte zostanie okno ustawień analizy (Analysis Preferences), które umożliwia ustawienie warunków wszystkich analiz przeprowadzanych przez program MEGA. Klikamy przycisk Compute (Policz). Wyświetli się drzewo NJ w oknie eksploratora drzew. W ten sposób otrzymaliśmy właściwe, choć, niewielkie drzewo filogenetyczne. Zwróćmy uwagę, że większość czasu poświęciliśmy wyborowi sekwencji i sprowadzeniu ich

4 z bazy GenBank. Końcowy etap właściwej konstrukcji drzewa nie wymagał zbyt wielkiego wysiłku. Dzięki programowi MEGA można znacznie przyśpieszyć pobieranie sekwencji (wystarczy kliknąć czerwony krzyżyk); nic jednak nie przyspieszy procesu podejmowania decyzji. Musimy wziąć pod uwagę wartość E wybranej sekwencji i długość jej przyrównania z sekwencją kwerendową, ale przede wszystkim własną wiedzę na temat biologii sekwencji oraz to, co chcemy osiągnąć poprzez poznanie filogenezy. Potrafimy już wykorzystać program MEGA do: Przeszukiwania bazy sekwencji za pomocą BLAST w celu identyfikacji sekwencji homologicznych z sekwencją, która nas interesuje. Wybrania z uzyskanego zestawu sekwencji, które zostaną użyte do odtworzenia filogenezy. Pobrania tych sekwencji do eksploratora przyrównań. Zapisania wybranych sekwencji. Przyrównania ich za pomocą programu ClustalW. Zbudowania na podstawie przyrównania drzewa NJ. Przedstawienia, zapamiętania i wydrukowania tego drzewa. Część II. Wybór sekwencji homologicznych Homologię trzeba odróżnić od podobieństwa. Homologia oznacza, że dwa taksony lub sekwencje pochodzą od jednego przodka, jak również to, że identyczne reszty w jakimś miejscu w przyrównaniu są identyczne na skutek dziedziczenia. Podobieństwo odzwierciedla jedynie procent pozycji, które są identyczne. Dwie niespokrewnione sekwencje mogą być tak przyrównane, że niektóre pozycje będą identyczne, ale ta identyczność nie koniecznie musi wynikać z pochodzenia od wspólnego przodka. Oczywiście umieszczenie dwóch niespokrewnionych sekwencji na tym samym drzewie nie ma sensu, bez względu na ich podobieństwo, ponieważ celem budowy drzewa jest pokazanie procesu dziedziczenia po wspólnych przodkach. W pewnym sensie wszystkie sekwencje wywodzą się od wspólnej sekwencji ancestralnej. Jednakże w miarę jak geny i białka ewoluują, dochodzi do takiego ich zróżnicowania, że dwa geny mogą być równie mało do siebie podobne, jak dwie sekwencje wybrane losowo. Ich homologia jest wtedy niewidoczna i nie powinno się ich umieszczać na tym samym drzewie sekwencji. Znajdowanie sekwencji homologicznych za pomocą programu BLAST W poprzedniej części dowiedzieliśmy się, że program BLAST jest podstawowym narzędziem do identyfikowania sekwencji, które są homologiczne z interesującą nas sekwencją. Do zilustrowania zagadnień omawianych w tej części posłuży nam plik ebgc, który zawiera zarówno sekwencję DNA genu ebgc, jak i sekwencję kodowanego przezeń białka. Spróbujmy przeszukać bazę danych sekwencji GenBank, stosując jako kwerendę sekwencję genu ebgc. Wyświetlone zostało pierwszych 100 trafień, z których pierwsze 90 ma wartość E<0,01. Przyrównanie sekwencji kwerendowej np. z sekwencją Vibrio parahaemolyticus obejmuje 52 lub 30 zasad (odpowiednio dla pierwszego i drugiego dopasowania), podczas gdy sekwencje E. coli i Shigella przyrównywane są z sekwencją kwerendową na przestrzeni wszystkich 450 zasad. Biorąc pod uwagę regułę (wynikającą z doświadczenia), że wybieramy sekwencje, które przyrównane są przynajmniej na połowie długości mamy ok. 83 homologicznych sekwencji, które mogą być umieszczone na drzewie.

Sekwencje pochodzące z tego samego szczepu E. coli, K12, są identyczne, podobnie jak inne nazwane wildtype ebg operon oraz ebg repressor. Ponieważ E. coli i Shigella są tak blisko spokrewnione, że, poza aspektami medycznymi, mogą być traktowane jako ten sam gatunek, jest to z pewnością bardzo małe, płaskie drzewo z sekwencjami o tak bliskim pokrewieństwie, że wszystkie wartości E wynoszą 0,0. Oczywiście ebgc może mieć bardzo ograniczone występowanie, niemiej chcielibyśmy wiedzieć na pewno, czy homologi istnieją też u dalej spokrewnionych gatunków. Trudność, jaką napotykamy przy poszukiwaniu dalej spokrewnionych homologów, wynika z niskiej wykrywalności homologii DNA, gdzie są tylko cztery możliwe stany każdej cechy (A, C, G, T). Zatem, jeśli sekwencje staną się tak różne, że będą identyczne jedynie w ok. 25% miejsc, to będą się wydawać nie bardziej spokrewnione niż dwie wybrane losowo sekwencje niehomologiczne. Sposobem na znalezienie dalej spokrewnionych sekwencji jest użycie w poszukiwaniach jako kwerendy sekwencji białka. W białkach każda pozycja ma 20 możliwych stanów, więc homologia przestaje być wykrywalna, gdy podobieństwo spadnie do ok. 5%. Spróbujemy zatem przeszukać bazę danych sekwencji GenPept stosując jako kwerendę sekwencję białkową ebgc. Wykorzystujemy w tym celu BLASTP. W parametrach analizy ustawiamy liczbę wyników na 250. Widzimy, że teraz dużo więcej trafień ma wartość E<0,01. Pierwsze przyrównanie wygląda bardzo dziwnie, ale zwróćmy uwagę, że tylko jego pierwsza linia widoczna jest na dole rekordu. Zamiast jednej, czy dwóch cech z jednego trafienia mamy łącza do kilkuset plików. Nagłówek przyrównania informuje, że jest ono identyczne z kwerendą w 149 na 149 pozycji (co stanowi idealne dopasowanie). Wynika to stąd, że pierwsze trafienie jest samą sekwencją kwerendową. Chociaż te wszystkie sekwencje białkowe są identyczne z kwerendą, to geny je kodujące mogą się różnić z powodu tzw. cichych podstawień, które nie powodują zmiany aminokwasu. Jeśli chcemy dokładnie zbadać strukturę drzewa, która ma odzwierciedlać wszystkie najdrobniejsze różnice, niezbędne jest uwzględnienie różnych sekwencji DNA kodujących identyczne białka. Obecnie zajmiemy się drzewem opisującym takie drobne różnice. Chcemy więc wykorzystać każdą odróżniającą się sekwencję, ale nie jesteśmy w stanie stwierdzić, które sekwencje kodujące są identyczne. Nie znaczy to jednak, że musimy pobierać każdą sekwencję. Możemy wyeliminować te, które pochodzą z tego samego szczepu. Niektóre są opisane jako E. coli K12. Dodatkowa wiedza jest potrzebna, aby zidentyfikować te same szczepy, np. szczepy W3110 oraz K12 są identyczne, podobnie jak CFT073, UTI89 oraz 536. Wybór pierwszego łącza prowadzi nas do rekordu z sekwencją aminokwasową białka ebgc z E. coli K12. Nie chcemy jednak przenosić tej sekwencji do eksploratora przyrównań, bowiem jeśli utworzymy drzewo na podstawie sekwencji aminokwasowych, to nie wykryjemy różnic sekwencji wynikających z podstawień cichych. Ponadto, na ogół lepiej jest budować drzewa na podstawie sekwencji kodujących DNA, chociażby z tego powodu, że metody filogenetyczne, szczególnie bayesowska i największej wiarygodności, są bardzo powolne, gdy pracują na sekwencjach białkowych. Po przejściu w dół ekranu pokazuje się sekwencja białkowa, a nieco powyżej znajduje się łącze CDS do sekwencji kodującej. Kliknięcie tego łącza prowadzi do pliku, który zawiera sekwencję kodującą. Kliknięcie czerwonego krzyżyka powoduje dodanie sekwencji do eksploratora przyrównań. Większość plików CDS ale nie wszystkie- pokazuje sekwencje we właściwej orientacji. Jeśli niechcący dodamy do eksploratora przyrównań sekwencję w niewłaściwej orientacji, wystarczy kliknąć prawym przyciskiem myszy nazwę sekwencji i wybrać reverse complement z listy dostępnych opcji. W ten sposób dodajemy do eksploratora przyrównań wybrane (ok.32) niepowtarzające się sekwencje kodujące z pierwszej trafionej sekwencji, a następnie niepowtarzające się sekwencje z każdej kolejnej. W pewnym momencie wartości E stają się zbyt wysokie (to 5

6 oznacza zbyt wysokie ryzyko, że sekwencja nie jest homologiczna z sekwencją kwerendową). Nie ma jednoznacznych wskazówek, jaki poziom odcięcia wartości E należy przyjąć. Niektórzy uważają 1e-05 za sztywną granicę, inni zadowolą się 1e-02. W efekcie wykorzystania sekwencji białkowej jako kwerendy uzyskaliśmy znacznie więcej homologów niż przy wykorzystaniu sekwencji DNA. Zauważmy, że nazwy sekwencji są dość długie. MEGA z założenia tworzy je z pierwszych 40 znaków opisu sekwencji. Powoduje to kilka problemów. Po pierwsze nazwy te zostaną użyte jako identyfikatory sekwencji na drzewie. Czterdziestoliterowe napisy zajmą po prostu zbyt wiele miejsca. Po drugie nazwy się mogą powtarzać i często są mylące. Formaty zbiorów niektórych programów filogenetycznych wymagają nazw do 10 znaków, podczas gdy inne traktują jako znaczące pierwsze 30 znaków. Poza tym, niektóre formaty zbiorów (Nexus) nie dopuszczają znaków innych niż litery i cyfry, więc takie znaki, jak ()*, itd. powodują złe funkcjonowanie tych programów. (Niejednolite formaty zbiorów i ich udziwnienia to jeden z głównych powodów frustracji filogenetyków). Wszystko to powoduje konieczność edytowania nazw sekwencji. Żeby zmienić nazwę w eksploratorze przyrównań należy kliknąć dwa razy nazwę sekwencji i wprowadzić poprawną jej wersję. Ważne, aby zrobić to na tym etapie, ponieważ nie da się jej łatwo zmienić w pliku meg, który używany jest przez program do wykonywania analiz. Kilka wskazówek dotyczących nazw sekwencji przedstawiono poniżej: Każda nazwa musi być niepowtarzalna. Żaden program nie zaakceptuje wielu sekwencji o tej samej nazwie. Należy zlikwidować spacje zastępując je znakiem podkreślenia (_). Wiele programów nie zaakceptuje spacji w nazwie. W nazwach sekwencji należy używać jedynie liter, cyfr, znaku podkreślenia i kropki (.). Szczególnie należy dopilnować usunięcia znaków dwukropków oraz łączników, które bardzo łatwo przeoczyć. Należy starać się ograniczyć nazwy do 10 znaków. Nie jest to niezbędne dla programu MEGA, ale inne programy mogą wymagać krótkich nazw. Nazwy powinny coś znaczyć. W naszym laboratorium możemy używać nazwy WRM22 na oznaczenie szczególnego szczepu C. elegans, ale nie będzie to zrozumiałe dla innych. Z kolei C_elegans_WRM22 będzie dobrą nazwą, odróżniająca ten szczególny szczep od innych. Przyrównywanie sekwencji Na początku otwieramy plik ebgc2.mas (wybieramy opcję Align). Zawiera on zbiór 32 odpowiednio opisanych sekwencji homologicznych dotyczących naszego przykładu. Przed przyrównaniem sekwencji zwróćmy uwagę na etykietę Translated Protein Sequences, znajdująca się w górnej części okna. Kliknięcie jej zamienia sekwencje kodujące na odpowiadające im sekwencje białkowe. Ostatnim znakiem sekwencji jest gwiazdka odpowiadająca kodonowi stop. Gwiazdek nie ma oczywiście wewnątrz sekwencji. Wybieramy kartę DNA sequences, aby wrócić do widoku DNA, gdzie możemy przyrównać sekwencje, jak to zostało przedstawione wcześniej. Jeśli teraz przetłumaczymy dopasowanie na białko, to zobaczymy, że w sekwencjach znajdują się znaki zapytania i gwiazdki. Co takiego się stało? ClustalW wprowadził przerwy zgodnie ze swoim algorytmem. Gdy przerwy pojawiają się wewnątrz kodonów, program tłumaczący napotyka na niezdefiniowane kodony i oznacza je znakiem zapytania. Kiedy występują pojedyncze lub podwójne przerwy, następuje przesunięcie ramki odczytu, co w konsekwencji daje później nonsensowny kodon. Przerwy powinny wskazywać na indele, które kiedyś powstały. Gdyby takie przerwy rzeczywiście

powstały w sekwencji białka przodka, to takie białko straciłoby aktywność i sekwencje potomne nie mogłyby przetrwać do dziś. Jasno więc widać, że z punktu widzenia biologii ClustalW wstawił przerwy w niewłaściwych miejscach. Czemu więc ClustalW zachowuje się w tak absurdalny sposób? Program nie wie nic o biologii czy funkcjonalnych ograniczeniach narzuconych przez przesunięcie ramki odczytu. Po prostu stara się zmaksymalizować wynik przyrównania. Problem źle umiejscowionych przerw (a co za tym idzie źle przyrównanych zasad) możemy rozwiązać przez przyrównania sekwencji białka, zamiast DNA. Powróćmy do okna białkowego dla oryginalnego zestawu sekwencji (przed przyrównaniem sekwencji DNA) i wybierzmy Align by ClustalW z menu Alignment. Pojawi się okno dialogowe ClustalW Parameters, z parametrami programu, lecz domyślne wartości kar za przerwy są inne niż w poprzednim przypadku, gdyż przyrównujemy teraz sekwencje białkowe. Możemy myśleć, że należałoby przyjąć te domyślne wartości, gdyż tak naprawdę nie wiemy, jakie powinny być kary za wprowadzanie przerw. Tak się jednak składa, że domyślne kary za przerwy podczas przyrównywania białek nie są optymalne. Jeśli mamy zamiar zmodyfikować te wartości, powinniśmy rozumieć, co one oznaczają, a to wymaga pewnej wiedzy na temat działania programu ClustalW. Proces przyrównywania sekwencji jest dwustopniowy. Najpierw ClustalW przyrównuje wszystkie sekwencje parami. W każdej parze wprowadza przerwy w obu sekwencjach, starając się zmaksymalizować liczbę pasujących do siebie reszt. Każdemu dopasowaniu przypisuje nagrodę w postaci punktów dodatnich, a wynik dla danego przyrównania jest sumą tych punktów. Program szuka przyrównania, które maksymalizuje ten wynik. Gdybyśmy mogli wprowadzić tyle przerw, ile nam się podoba, to moglibyśmy zapisać dwie zupełnie niespokrewnione ze sobą sekwencje, jedną ponad drugą w taki sposób, że każda litera byłaby ponad taką sama literą lub ponad przerwą. W rezultacie otrzymalibyśmy idealny, lecz nic nie znaczący wynik. Rozwiązaniem tego problemu jest obniżenie wyniku poprzez wprowadzenie kary za każdą przerwę. Zwykle kara za rozpoczęcie przerwy jest duża, a mniejsza za każdy dodatkowy znak w przerwie. Dzięki temu nie są wprowadzane przerwy, które zmniejszają wynik bardziej, niż zyskuje się przez dodatkowo pasujące do siebie litery. ClustalW używa wyników przyrównania sekwencji parami do zbudowania drzewa przewodniego. Nie jest to prawdziwe drzewo filogenetyczne, ponieważ nie opiera się na porównaniu homologicznych miejsc w całym zestawie, jest jednak wykorzystywane w drugiej fazie, w której następuje przyrównanie wszystkich sekwencji w celu uzyskania przyrównania całkowitego. Zwykle w tej drugiej fazie wielokrotnego przyrównania jest stosowany inny zestaw kar. W fazie przyrównań parami odpowiednie są domyślne kary za przerwy, natomiast w fazie przyrównywania wielokrotnego znacznie poprawia wynik ustawienie kary 3,0 za otwarcie przerwy oraz 1,8 za jej rozszerzenie. Po ustaleniu wartości kar i kliknięciu OK otrzymamy przyrównanie sekwencji białkowych. Jedną z cech programu MEGA jest to, że cokolwiek się zrobi w oknie białek, zostanie przeniesione do okna sekwencji DNA. Wszystkie przerwy są więc teraz między kodonami, a nie wewnątrz nich, i szerokość wszystkich jest wielokrotnością trzech pojedynczych przerw, przez co wyeliminowane zostały artefakty, które wynikały z przesunięcia ramki odczytu. Ostatnie badania wskazują, że drzewa skonstruowane na bazie takich przyrównań są dokładniejsze niż drzewa uzyskane przez bezpośrednie przyrównanie sekwencji DNA. Można i zawsze powinno się sprawdzić przyrównanie wizualnie, żeby stwierdzić, czy nie ma miejsc przyrównywanych w sposób oczywisty źle. Istotne jest tu stwierdzenie w sposób oczywisty, bowiem nie należy zbytnio manipulować przyrównaniem. Algorytm programu ClustalW jest bardzo dobry i jest mało prawdopodobne, żeby takie modyfikacje poprawiły wynik. Jeśli rzeczywiście widzimy źle rozmieszczone przerwy, to wykorzystujemy 7

8 strzałki, żeby ręcznie dokonać poprawek. Istotna jest relacja między jakością przyrównania a jakością samego drzewa filogenetycznego. Jeśli dokładność przyrównania wynosi >50%, dalsze powiększanie jego dokładności ma niewielki wpływ na dokładność drzewa. Przyrównanie należy teraz zapisać jako zbiór MEGA. Odrzucanie powtarzających się sekwencji Ponieważ chcieliśmy włączyć do drzewa wszystkie warianty kodującej sekwencji ebgc, załadowaliśmy wszystko, co nie było w sposób oczywisty jej duplikatem. Chociaż różne szczepy, które posiadają tę samą sekwencję białkową ebgc, mogą mieć różne sekwencje kodujące, nie jest tak jednak zawsze. Mogło się zdarzyć, że włączyliśmy dwie identyczne sekwencje. Identyczne sekwencje nie dodają informacji do drzewa, natomiast zaciemniają jego wygląd i przedłużają czas obliczeń, powinny zatem być wyeliminowane. Wczytajmy plik ebgc.meg do programu MEGA. Po otwarciu okna eksploratora sekwencji (Sequence Data Explorer) w głównym oknie wybierzmy Compute Pairwise z menu Distances. Po otwarciu okna opcji analiz (Analysis Preferences) kliknijmy żółte pole w wierszu Substitutions type i z rozwijanego menu wybierzmy Nucleotide, a następnie w wierszu Model/Method wybieramy No. of differences oraz klikamy Compute. Otworzy się okno wyników pokazujące odległości policzone parami. Być może trzeba będzie powiększyć okno, aby zobaczyć całą macierz z odległościami. Pokazane odległości to różnice pomiędzy dwiema porównywanymi sekwencjami. Kiedy odległość wynosi zero, sekwencje są identyczne. Aby ułatwić zlokalizowanie zer, klikamy skierowaną w dół strzałkę w lewym górnym rogu okna. W ten sposób redukujemy liczbę pokazanych miejsc dziesiętnych do zera. Pierwsza sekwencja, E. coli K12, jest identyczna z S. sonnei Ss046, E coli B171, E coli B7A, E coli E2 oraz E coli 101 1 (zauważmy, że pomimo, iż w edytorze przyrównań używaliśmy podkreśleń w nazwach sekwencji, MEGA pokazuje je ze spacjami). Podobnie, identyczne są sekwencje: z dwóch szczepów S flexneri 2a; z S bodyii i S flexneri 8401; z E coli UT189 i E coli APEC; wreszcie z dwóch szczepów E coli O157:H7. Aby wyeliminować wszystkich przedstawicieli, poza jednym z każdego zbioru sekwencji identycznych, wracamy do okna edytora przyrównań i usuwamy powtarzające się sekwencje. Odrzucenie niewątpliwie błędnych sekwencji Gdy przewiniemy okno edytora przyrównań do samego końca w prawo, zauważymy, że sekwencja nazwana po prostu E coli jest dłuższa od pozostałych. Ręczne przesunięcie niedopasowanego fragmentu tej sekwencji o jedno miejsce na prawo do końca przerw w sumie o 7 pozycji dopasowuje ją bardzo ładnie do sekwencji powyżej niej z wyjątkiem długiego ogona wystającego z prawej. Mogło się zdarzyć, że w sekwencji nastąpiła delecja jednej zasady i długa insercja na końcu 3. Bardziej jednak prawdopodobny jest tu błąd sekwencjonowania, gdzie GG zostało odczytane jako G i autorzy czytali dalej sekwencję, aż do pierwszego napotkanego kodonu stop. Ponieważ jest to jedynie kolejna sekwencja z niezidentyfikowanego szczepu E. coli, prawdopodobnie niewiele wnosi do naszego drzewa, a na dodatek jest błędna. Trzeba ją usunąć. Tak dochodzimy do przyrównania, w którym w pewnym obszarze wszystkie sekwencje mają przerwy. Obszary zawierające wyłącznie przerwy nic nie wnoszą do przyrównania i oczywiście nie reprezentują rzeczywistych, historycznych indeli. Żeby usunąć te miejsca, zaznaczmy cale przyrównanie wciskając Ctrl-A, a następnie wybierzmy Delete Gap-only Sites z menu Alignment. Zmodyfikowane przyrównanie zapisujemy jako ebgc_mod.mas, i eksportujemy w formacie MEGA jako ebgc_mod.meg.

9 Czasami można trafić na sekwencję dużo dłuższą niż pozostałe, która nie jest w sposób oczywisty błędna. Taka sekwencja może powstać na skutek fuzji dwóch genów, które zwykle kodują różne podjednostki. W takim przypadku możemy usunąć nadmiarowy fragment przez jego zaznaczenie i wciśnięcie Ctrl-X. Weryfikacja średniego stopnia identyczności aminokwasów W badaniach porównujących ClustalW z innymi programami wykazano, że jeśli średni stopień identyczności aminokwasów przy porównaniu parami, jest zbyt niski, to dokładność wielokrotnego przyrównania spada poniżej poziomu pozwalającego na uzyskanie wiarygodnych drzew filogenetycznych. Należy zaznaczyć, że to wielokrotne przyrównania stanowią dane na podstawie których szacuje się drzewa, a nie sekwencje same w sobie. Jeśli przyrównanie jest niewystarczająco pewne, tak samo jest z drzewem. Badania wykazały, że gdy średnia procentowa identyczność aminokwasów jest poniżej 20%, to mniej niż 50% reszt jest poprawnie przyrównana. W obszarze półmroku, od 20% do 30% identyczności, ok. 80% reszt aminokwasowych jest prawidłowo przyrównanych, a powyżej tego obszaru ponad 90% reszt. Na szczęście, niedawne analizy wykazały, że dokładność drzewa jest zaskakująco odporna na niedokładności przyrównania. Dokładność drzewa w niewielkim stopniu zależy od dokładności przyrównania, jeśli tylko dokładność przyrównania wynosi > 50%. Żeby określić stopień identyczności aminokwasów, otwórzmy plik ebgc_mod.mas, kliknijmy etykietę Translated Protein Sequences i wyeksportujmy to białkowe przyrównanie jako nowy plik meg programu MEGA, o nazwie ebgc_mod_pep.meg. Wczytajmy ten plik, a następnie w głównym oknie programu MEGA z menu Distance wybierzmy Compute Overall Mean Distance. Zmieńmy Model na odległość p, wybierając z rozwijanego menu w wierszu Model/Method opcję p-distance, po czym kliknijmy przycisk Compute. Odległość p wynosi 1 minus identyczność aminokwasów wyrażona ułamkiem dziesiętnym, zatem jeśli średnia odległość p wynosi <0,8 to przyrównanie jest do przyjęcia, gdy zaś jest większe lub równe 0,8 to nie jest. W naszym przypadku średnia odległość wynosi 0,271, co odpowiada 72,9% identyczności i jest w zupełności do przyjęcia. Niekodujące sekwencje DNA Jeśli nasze dane są niekodującymi sekwencjami DNA, to w celu przyjęcia przyrównania jako wystarczająco dokładnego do obliczeń filogenetycznych, nie możemy zastosować 20% identyczności aminokwasowej. Dla niekodujących sekwencji DNA dopiero identyczność sekwencji na poziomie 66% gwarantuje ok. 50% dokładności uszeregowania. Zbadajmy procent identyczności sekwencji DNA, tak jak to zrobiliśmy poprzednio dla aminokwasów: określmy średnią odległość wg modelu odległości p. Jeśli średnia odległość wynosi >0,33, to procent identyczności wynosi <66% i dokładność przyrównania jest prawdopodobnie zbyt niska, aby użyć go do oszacowania filogenezy. Jeśli przyrównanie nie jest wystarczająco wiarygodne, nie budujmy na jego podstawie drzewa filogenetycznego. Otrzymane drzewo nic nie będzie znaczyło i będzie zwodnicze zarówno dla nas, jak i naszych odbiorców. Wyjściem z tej sytuacji jest usuwanie sekwencji najbardziej oddalonych od interesującej nas sekwencji, aż do momentu, gdy średnia odległość p wyniesie <0,8 dla sekwencji białkowych lub <0,33 dla niekodujących sekwencji DNA. Cz. III Budowanie drzew metodą łączenia sąsiadów Metoda łączenia sąsiadów jest jednym z przykładów zastosowań analizy skupień w molekularnej analizie filogenetycznej. Umożliwia ona konstruowanie drzew filogenetycznych

10 nieukorzenionych. Drzewa wyznaczone metodą łączenia sąsiadów wykazują własność addytywności. Drzewo jest addytywne, gdy odległości pomiędzy sekwencjami reprezentowanymi przez liście drzewa są równe sumie długości łączących je gałęzi. Macierz odległości ewolucyjnych jest addytywna, gdy jest możliwe wyznaczenie dla niej drzewa, w którym łączna długość gałęzi łączących dowolne dwie sekwencje przezeń opisywane będzie równa odległości ewolucyjnej między tymi sekwencjami. Metoda łączenia sąsiadów umożliwia konstrukcję drzewa addytywnego, w którym odległości między sekwencjami będą najlepszym możliwym przybliżeniem odległości ewolucyjnych w oryginalnej macierzy. Jeśli taka macierz jest dokładnie addytywna, metoda łączenia sąsiadów gwarantuje wyznaczenie dla niej poprawnego drzewa. W rzeczywistości jednak odległości nie są dokładnie addytywne, dlatego drzewa konstruowane za pomocą metody łączenia sąsiadów mają przybliżony charakter. W nieukorzenionym drzewie dwa liście uważamy za sąsiadów, gdy gałęzie od nich biegnące łączą się w najbliższym (tym samym) węźle. Metoda łączenia sąsiadów rozpoczyna konstrukcję drzewa od zbioru niepołączonych liści odpowiadających poszczególnym sekwencjom. Odległości między poszczególnymi sekwencjami znajdują się w zadanej macierzy. W pierwszym kroku działania algorytmu połączeniu dwóch sąsiadujących ze sobą węzłów i oraz j towarzyszy dodanie węzła n w konstruowanym drzewie. W kolejnych krokach liście/węzły włączone już do rosnącego drzewa są pomijane, co oznacza, że po każdej takiej iteracji liczebność zbioru niepołączonych węzłów zmniejszy się o 1. Algorytm kontynuuje działanie do chwili, gdy wszystkie liście/węzły będą ze sobą połączone. Podsumowując, można stwierdzić, że metoda łączenia sąsiadów daje możliwość szybkiego wyznaczenia względnie wiarygodnego drzewa filogenetycznego i z tego powodu jest dosyć często wykorzystywana w prowadzonych aktualnie badaniach. Z oszacowania złożoności obliczeniowej algorytmu wynika, że wyniki można uzyskać niemal natychmiast, nawet dla bardzo dużych zbiorów sekwencji, podczas gdy bardziej skomplikowane metody mogą być znacznie bardziej wymagające obliczeniowo. Metoda łączenia sąsiadów jest dokładna, jeśli zadana macierz odległości ewolucyjnych jest w przybliżeniu addytywna. Jeśli zadana macierz odległości ewolucyjnych nie jest nawet w przybliżeniu addytywna (np. z powodu niewłaściwej metody wyznaczania odległości ewolucyjnych lub błędów w dopasowaniu wielosekwencyjnym), to zastosowanie metody NJ prowadzi do uzyskania drzewa o błędnej topologii. Pierwszym etapem na drodze do stworzenia drzewa NJ za pomocą programu MEGA jest wczytanie zbioru z danymi (przyrównania) w formacie meg. W naszym przypadku wczytujemy zbiór smalldata.meg. Weryfikacja danych Przede wszystkim należy ustalić, czy dane w ogóle nadają się do budowy drzewa metodą NJ. Autorzy programu MEGA stwierdzają w jednej ze swoich prac, że jeśli średnia odległość między dwiema sekwencjami, liczona wg wzoru Jukesa-Cantora (JC), jest większa od 1, to dane nie nadają się do budowy drzewa metodą NJ i należy zastosować inną metodę. W głównym oknie programu MEGA w menu Distance wybiramy Compute Overall Mean Distance. Pojawi się okno Analysis Preferences służące do wybierania parametrów analiz. W wierszu Gaps/Missing Data pozostawiamy Complete Deletion. Gdyby w uszeregowaniu było bardzo wiele przerw należałoby wybrać Pairwise Deletion. Ustawiamy Model na Jukes-Cantor i klikamy przycisk Compute. Dla zbioru danych smalldata średnia odległość wynosi 0,347, jest więc całkiem odpowiednia do budowy drzewa NJ.

11 Wyliczanie drzewa NJ W głównym oknie programu MEGA z menu Phylogeny wybieramy opcję Construct/Test Neighbor-Joining Tree. Ponownie pojawi się okno parametrów analiz (Analysis Preferences) służące do określania warunków obliczania drzewa. W oknie możemy odczytać, że wybraną analizą jest odtworzenie filogenezy (Phylogeny reconstruction) oraz, że metodą rekonstrukcji jest metoda łączenia sąsiadów. Kliknięcie na którymś z żółtych pól umożliwia wybór parametrów obliczania drzewa. Opcję Test of Phylogeny na razie pominiemy. Opcja Gaps/Missing Data Treatment określa, w jaki sposób algorytm NJ traktuje przerwy w sekwencjach. Wyborem domyślnym jest Complete Deletion, co oznacza, że program ignoruje wszystkie miejsca (kolumny w przyrównaniu) zawierające przerwy w jakiejkolwiek sekwencji. Wybór Complete Deletion jest teraz odpowiedni, gdyż w badanym przyrównaniu jest niewiele przerw. Gdy jednak dane zawierają przyrównanie z wieloma przerwami, wybór Complete Deletion nie jest odpowiedni, gdyż prowadzi do usunięcia dużej części analizowanych pozycji. Jeśli zmienimy Complete Deletion na Pairwise Deletion, to zostaną usunięte tylko te przerwy, które występują przy obliczaniu odległości pomiędzy parami sekwencji. Kolejna opcja Select Codon Positions dotyczy pozycji kodonu. Wyborem domyślnym, którego na ogół dokonujemy, jest użycie wszystkich trzech pozycji. Niemniej możliwa jest budowa drzewa w oparciu o pozycję tylko trzeciej zasady kodonu. Z powodu nadmiarowości kodu genetycznego znaczna część substytucji w trzeciej pozycji będzie cicha i nie będzie w związku z tym podlegała doborowi. Wybór wyłącznie trzeciej pozycji kodonu jest odpowiedni, gdy chcemy precyzyjnie oszacować względne tempo ewolucji wzdłuż gałęzi. Najlepiej jednak używać domyślnej opcji wszystkich trzech miejsc kodonu. Następnym parametrem do wyboru jest model substytucji (Substitution Model). Ponieważ danymi są sekwencje nukleotydowe, wybieramy w wierszu Substitution Type opcję Nucleotide, a potem w wierszu Model/Method jeden z dostępnych modeli. Wyborem domyślnym jest Maximum Composite Likelihood (złożony model największej wiarygodności, MCL), który poleca na wszystkie okazje jeden z twórców MEGA, Sudhir Kumar. Model ten nie był dostępny we wcześniejszych wersjach MEGA (poniżej 4.0). Model Jukesa-Cantora koryguje wielokrotne podstawienia w tych samych pozycjach, model Kimura 2-Parameter (dwuparametryczny model Kimury) dopuszcza różne tempa tranzycji i transwersji, a model Tamura-Nei wprowadza korektę związaną z nierówną częstością zasad, odbiegającą od domyślnej częstości 0,25. Model MCL jest opartą na metodzie największej wiarygodności implementacją modelu Tamury-Nei, która zwiększa dokładność szacowania odległości liczonych parami. Ostatnia opcja Rates among Sites, dopuszcza rózne tempa ewolucji między pozycjami. Wyborem domyślnym jest tempo jednolite (Uniform rates). Alternatywa tempo zmienne zgodnie z rozkładem gamma Different (Gamma Distributed (G)), wymaga określenia parametru kształtu rozkładu α, który musi być oszacowany odpowiednimi metodami. Dla naszych potrzeb przyjmujemy opcję domyślną. Opcjami Substitutions to include oraz Pattern among Lineages również nie będziemy się szczegółowo zajmować. Po prostu zaakceptujemy wybór domyślny. Klikamy Compute, żeby policzyć i wyświetlić drzewo. Ocena rzetelności drzewa Jedną z najważniejszych rzeczy, którą musimy sobie uświadomić przy tworzeniu drzew filogenetycznych jest to, że prawie na pewno są one nieprawidłowe. Nawet jeśli nie uwzględnimy długości gałęzi, to dla drzewa złożonego ze 100 sekwencji istnieje ok. 3 10 74

różnych topologii. Zadaniem metod rekonstrukcji drzew, takich jak NJ, jest próba wyboru jednego drzewa, które odzwierciedla rzeczywisty przebieg historycznego procesu rozgałęziania się drzewa sekwencji. Odtworzone drzewo prawie na pewno nie będzie prawidłowe. Będzie najlepszym przybliżeniem możliwym przy określonych założeniach metody i wybranego modelu oraz implementacji tej metody. Jako, że nie możemy poznać prawdziwego drzewa, pozostaje nam wiara w to, że otrzymane drzewo jest bardzo zbliżone do prawdziwego. Ponieważ otrzymane drzewa są szacunkowe, chcielibyśmy mieć jakieś pojęcie o rzetelności (wiarygodności) tych szacunków. Najczęściej stosowaną metodą szacowania wiarygodności drzew filogenetycznych jest metoda samopróbkowania (ang. bootstrap), chociaż inne metody, jak bayesowskie prawdopodobieństwo a posteriori, czy przybliżony test ilorazu wiarygodności (Approximate Likelihood Ratio Test, alrt), który ostatnio wprowadzono do programu PHYML, zyskują na popularności. Trzeba sobie zdawać sprawę, że są to metody szacowania powtarzalności, nie zaś dokładności. W przypadku samopróbkowania powtarzalność występowania kladów (zbiór wszystkich sekwencji potomnych określonego węzła wewnętrznego) na drzewie jest oparta na tworzeniu z danych wielu pseudo-próbek. Na szczęście samopróbkowanie i prawdopodobieństwo a posteriori są szacunkami konserwatywnymi. Symulacje, w których właściwe drzewo jest znane i może być porównane z drzewami szacunkowymi, pokazują, że obie metody nie doszacowują prawdopodobieństwa istnienia kladu (grupy sekwencji pochodzącej z określonego węzła). Bootstrap jest metodą wprowadzoną przez Felsensteina w roku 1985 i od tamtej pory jest rutynowo wykorzystywana w badaniach filogenetycznych. Podstawienia w sekwencjach są procesem przypadkowym. Nawet jeśli sekwencje ewoluują w sposób poprawnie opisywany przez określony model ewolucji, liczba podstawień występująca w dowolnej gałęzi rzeczywistego drzewa może znacząco odbiegać od spodziewanej średniej liczby podstawień przewidywanych na podstawie modelu. Oznacza to, że mierzone odległości pomiędzy sekwencjami podlegają przypadkowej zmienności. Chcemy wiedzieć, czy opisywana przypadkowa zmienność odległości ewolucyjnych wpływa na konstruowanie drzewa. Metoda bootstrap pozwala uzyskać odpowiedź na takie pytanie na podstawie porównania topologii drzew konstruowanych dla losowo wygenerowanych dopasowań sekwencji, nieznacznie różniących się od zadanego dopasowania wielosekwencyjnego. Generowanie dopasowań sekwencji odbywa się przez losowanie kolumn z zadanego dopasowania sekwencji. Każde z wygenerowanych dopasowań ma taką samą długość, jak wejściowe dopasowanie sekwencji. W wyniku losowania niektóre z kolumn wejściowego przyrównania mogą się pojawić w wygenerowanym przyrównaniu więcej niż jeden raz, inne zaś mogą się w nim w ogóle nie pojawić (mamy tu więc do czynienia z tzw. losowaniem ze zwracaniem). Wygenerowane w ten sposób przyrównania zawierają zatem nieco inną informację filogenetyczną niż oryginalne przyrównanie wielosekwencyjne. Topologia drzewa skonstruowanego dla takich wygenerowanych przyrównań niekoniecznie może być taka sama jak dla przypadku drzewa wyznaczonego na podstawie oryginalnego przyrównania sekwencji. Jeżeli w danych wejściowych zawartych jest dużo informacji filogenetycznej, to informacja o pokrewieństwie ewolucyjnym między poszczególnymi sekwencjami w analizowanym zbiorze jest zawarta na całej długości ich przyrównania. Z tego powodu randomizacja danych nie powinna w takim przypadku wiele zmienić. Czasami jednak sygnał decydujący o umieszczeniu w drzewie pewnych węzłów może być stosunkowo słaby. Szum informacyjny zawarty w wygenerowanych przyrównaniach może wtedy doprowadzić do uzyskiwania drzew o innej topologii. Zwróćmy uwagę, że procedura losowania ze zwracaniem nie jest równoważna zwykłemu przetasowaniu kolejności kolumn. Metody filogenetyczne traktują każdą z kolumn źródłowego przyrównania niezależnie, stąd przyrównanie zawierające te 12

13 same kolumny tylko w innej kolejności zawiera dokładnie taką samą informację, jak oryginalne przyrównanie wielosekwencyjne. Wykorzystanie metody bootstrap do oceny wiarygodności skonstruowanego wcześniej drzewa filogenetycznego obejmuje wygenerowanie wielu przyrównań sekwencji (zazwyczaj między 100 a 1000). Dla każdego z wygenerowanych przyrównań jest wyznaczane drzewo filogenetyczne. W zbiorze takich drzew niektóre drzewa będą miały taką samą topologię, jak drzewa oryginalne. Inne będą się od niego różnić. Każdemu z węzłów w oryginalnym drzewie jest następnie przypisywana wartość bootstrap równa odsetkowi wygenerowanych drzew, w których obserwowano dokładnie takie samo rozgałęzienie linii ewolucyjnych. Wyniki uzyskane za pomocą metody bootstrap często są przedstawiane w postaci drzewa konsensusowego. Najpierw określa się częstość występowania każdego z możliwych kladów (grup sekwencji pochodzących z określonego węzła) w zestawie wygenerowanych drzew, a następnie klady są uporządkowywane wg malejących wartości bootstrap. Konstrukcja drzewa konsensusowego polega na dodawaniu, zgodnie z kolejnością, pojedynczych kladów, poczynając od tych o największych wartościach bootstrap. Dodawany może być wyłącznie taki klad, któremu odpowiada największa możliwa wartość bootstrap oraz którego dodanie nie oznacza konfliktu z wcześniej dodanymi kladami. Topologia drzewa konsensusowego może nieznacznie różnić się od drzewa skonstruowanego dla oryginalnego przyrównania wielosekwencyjnego. W takiej sytuacji należy zdecydować, czy ostatecznie zaprezentować oryginalne drzewo z wartościami bootstrap, czy też drzewo konsensusowe, w którym będą występować klady z wartościami bootstrap większymi niż w oryginalnym drzewie. Dobrze określone klady o dużych wartościach bootstrap prawie zawsze wystąpią zarówno w drzewie oryginalnym, jak i konsensusowym. Zatem kwestia wyboru prezentowanego drzewa sprowadza się do sposobu przedstawienia mniej dokładnie określonych części drzewa. Aby przeprowadzić test samopróbkowania, w głównym oknie programu MEGA z menu Phylogeny wybieramy Construct/Test Neighbor-Joining Tree, a następnie w oknie parametrów analiz, w wierszu Test of Phylogeny z rozwijanego menu wybieramy Bootstrap. W wierszu No. of bootstrap replications, pojawi się domyślna wartość 500. Liczba replikacji powinna być ustawiona na co najmniej 100, a najlepiej na 2000. Im będzie większa, tym test będzie dłużej trwał, jednak metoda NJ działa tak szybko, że można spokojnie wybrać 2000. Większe liczby przynoszą niewielką korzyść. Po ustawieniu liczby powtórzeń, ustawiamy pozostałe parametry dokładnie tak, jak dla filogenezy NJ i klikamy Compute. Pasek postępu pokazuje stopień zaawansowania analizy. Po pojawieniu się drzewa wybierzmy Topology only z menu View, aby wyświetlić drzewo w formacie, w którym lepiej widać porządek rozgałęzień. Liczby obok każdego węzła to procenty samopróbkowania. Wyrażają (w procentach) częstość występowania wszystkich sekwencji pochodzących z danego węzła (kladu) we wszystkich powtórzeniach samopróbkowania. Na koniec z menu File wybieramy Save, aby zapisać drzewo w formacie MEGA (mts). Z tego samego menu można wybrać opcję wydrukowania drzewa. Budowa drzew dla sekwencji białkowych Tak bardzo przywykliśmy do odczytywania sekwencji białkowych z sekwencji DNA, że mogliśmy już zapomnieć o czasach, gdy białka były sekwencjonowane bezpośrednio. Jeśli jednak sekwencje kodujące niektórych interesujących nas białek nie są znane, to drzewo NJ trzeba będzie zbudować w oparciu o sekwencje białkowe. Różnica sprowadza się jedynie do wyboru modelu substytucji aminokwasów zamiast modelu substytucji nukleotydów. Model korekty Poissona z grubsza odpowiada modelowi Jukesa-Cantora, wprowadzając poprawkę

14 na wielokrotne substytucje. Modele Dayhoff i JTT również uwzględniają podstawienia wielokrotne, ale posługują się macierzami temp podstawień utworzonymi na podstawie zaobserwowanych proporcji podstawień w dużych zestawach sekwencji. Macierz Dayhoff pochodzi z roku 1979, natomiast macierze JTT to uaktualnione podejście Dayhoff z roku 1992, oparte na znacznie większym zestawie białek. Do budowy białkowych drzew NJ lepiej jest używać model JTT. Cz. IV Rysowanie drzew filogenetycznych Drzewo filogenetyczne składa się z gałęzi i węzłów. Zapisując wcześniej drzewo, zapisaliśmy jego opis w pliku o specjalnym formacie mts. Na jego podstawie MEGA może szybko narysować drzewo. Drzewo przypomina zbiór współrzędnych XY. Możemy go opisać podając współrzędne, ale częściej wybieramy formę graficzną, w której relacje między elementami zbioru są dla odbiorców bardziej czytelne. Z tego samego powodu wolimy narysować drzewo, które lepiej zilustruje nam historyczne pokrewieństwa między interesującymi nas sekwencjami. Zmiana wyglądu drzewa Drzewo filogenetyczne zawierające tę samą informację możemy, podobnie jak wykres, przedstawić na różne sposoby. Obecnie skoncentrujemy się na różnych sposobach rysowania drzew, po to by móc przekazać odbiorcom informację w jak najbardziej przejrzystej formie. Wybór, którego dokonamy, pomoże odbiorcom skoncentrować się na tym, co chcemy im przekazać za pomocą drzewa. Jeśli odznaczymy wybraną wcześniej opcję Topology Only z menu View, uzyskamy drzewo dla zbioru smalldata w popularnym formacie prostokątnego filogramu. Linie pionowe reprezentują wewnętrzne węzły, a linie poziome gałęzie. W filogramie te długości poziomych linii są proporcjonalne do długości gałęzi. Na dole rysunku znajduje się zwykle skala w postaci linii o określonej długości pokazująca liczbę podstawień na jedno miejsce. Jedną z zalet takiego formatu jest bezpośrednie przedstawienie długości gałęzi. Z drugiej strony, trudno dostrzec porządek rozgałęzień między węzłami połączonymi bardzo krótkimi gałęziami (np. wewnątrz kladu E. coli/shigella), zwłaszcza gdy na drzewie są również bardzo długie gałęzie. Niektórym węzłom nie można też przypisać odpowiadających im wartości samopróbkowania. Wtedy lepszy może być format kladogramu, w którym długości gałęzi nie są proporcjonalne do rzeczywistych odległości między węzłami. Aby przedstawić drzewo w tej postaci w oknie eksploratora drzew klikamy przycisk Display Only Topolgy. Wadą prostokątnego kladogramu jest to, że nie wiemy teraz jak długie są gałęzie. Aby temu zaradzić, klikamy przycisk Options z ikoną przypominająca młotek. Pojawi się okno dialogowe. Klikamy Branch, zaznaczmy pole wyboru długości gałęzi Display Branch length i OK. Pod każdą gałęzią widzimy teraz wydrukowaną jej długość, a po lewej stronie węzła odpowiadającą mu procentową wartość bootstrap. Okno dialogowe Options pozwala na ustalenie z dokładnością do ilu miejsc po przecinku będą zapisane liczby określające długość gałęzi; ustalenie grubości linii, kształtu i stylu czcionki użytej do opisania długości gałęzi, procentowej wartości samopróbkowania, określenie czy te wartości są wyświetlane czy też nie (poprzez zaznaczenie lub odznaczenie pola wyboru Display Statistics/Frequency), ustalenie położenia tych liczb, itd. Okno dialogowe Options pozwala na precyzyjną kontrolę naprawdę wielu czynników wpływających na wygląd drzewa.