Konstrukcja drzew filogenetycznych podstawy teoretyczne.

Podobne dokumenty
Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

ALGORYTMY KONSTRUOWANIA DENDROGRAMÓW STOSOWANYCH PRZY ANALIZIE FILOGENETYCZNEJ MIKROORGANIZMÓW

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

Bioinformatyka Laboratorium, 30h. Michał Bereta

Filogenetyka molekularna I. Krzysztof Spalik

Filogenetyka molekularna. Dr Anna Karnkowska Zakład Filogenetyki Molekularnej i Ewolucji

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Filogenetyka molekularna I. Krzysztof Spalik Zakład Filogenetyki Molekularnej i Ewolucji

Filogenetyka molekularna I

klasyfikacja fenetyczna (numeryczna)

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Urszula Poziomek, doradca metodyczny w zakresie biologii Materiał dydaktyczny przygotowany na konferencję z cyklu Na miarę Nobla, 14 stycznia 2010 r.

Bioinformatyka Laboratorium, 30h. Michał Bereta

Algorytm genetyczny (genetic algorithm)-

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

Rycina 1. Zasięg i zagęszczenie łosi (liczba osobników/1000 ha) w Polsce w roku 2010 oraz rozmieszczenie 29 analizowanych populacji łosi.

Drzewa filogenetyczne jako matematyczny model relacji pokrewieństwa. dr inż. Damian Bogdanowicz

Analizy filogenetyczne

Rys Wykres kosztów skrócenia pojedynczej czynności. k 2. Δk 2. k 1 pp. Δk 1 T M T B T A

Spacery losowe generowanie realizacji procesu losowego

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Teoria ewolucji. Podstawy wspólne pochodzenie.

TEORETYCZNE PODSTAWY INFORMATYKI

Wnioskowanie bayesowskie

Drzewa decyzyjne i lasy losowe

Matematyka dyskretna

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1

Algorytmy genetyczne

Ewolucjonizm NEODARWINIZM. Dr Jacek Francikowski Uniwersyteckie Towarzystwo Naukowe Uniwersytet Śląski w Katowicach

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Ograniczenia środowiskowe nie budzą wielu kontrowersji, co nie znaczy że rozumiemy do końca proces powstawania adaptacji fizjologicznych.

Acknowledgement. Drzewa filogenetyczne

Analiza składowych głównych. Wprowadzenie

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Hierarchiczna analiza skupień

Bioinformatyka Laboratorium, 30h. Michał Bereta

Aproksymacja funkcji a regresja symboliczna

Analiza korespondencji

Matematyka dyskretna. Andrzej Łachwa, UJ, /15

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

6.4 Podstawowe metody statystyczne

Przykłady grafów. Graf prosty, to graf bez pętli i bez krawędzi wielokrotnych.

Systemy uczące się Lab 4

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Automatyczny dobór parametrów algorytmu genetycznego

Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Bioinformatyka Laboratorium, 30h. Michał Bereta

Graf. Definicja marca / 1

Genetyka populacji. Ćwiczenia 7

Wykładnicze grafy przypadkowe: teoria i przykłady zastosowań do analizy rzeczywistych sieci złożonych

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Rachunek prawdopodobieństwa- wykład 2

a) 7 b) 19 c) 21 d) 34

Kody blokowe Wykład 2, 10 III 2011

1 Genetykapopulacyjna

R-PEARSONA Zależność liniowa

Algorytmy ewolucyjne NAZEWNICTWO

PRZYRÓWNANIE SEKWENCJI

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

AiSD zadanie trzecie

Wprowadzenie do analizy korelacji i regresji

Wstęp do Biologii Obliczeniowej

CLUSTERING. Metody grupowania danych

Matematyczne Podstawy Informatyki

Przybliżone algorytmy analizy ekspresji genów.

ZARZĄDZANIE POPULACJAMI ZWIERZĄT SPOKREWNIENIE INBRED

Algorytmy genetyczne

Biologia medyczna, materiały dla studentów

Elementy statystyki wielowymiarowej

Recenzja rozprawy doktorskiej. mgr Marcina Jana Kamińskiego. pt. Grupa rodzajowa Ectateus (Coleoptera: Tenebrionidae) filogeneza i klasyfikacja.

166 Wstęp do statystyki matematycznej

Matematyka dyskretna. Andrzej Łachwa, UJ, /15

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Algorytm hybrydowy dla alokacji portfela inwestycyjnego przy ograniczonych zasobach

Analiza danych. TEMATYKA PRZEDMIOTU

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

Wykład 1 BIOMATEMATYKA DR WIOLETA DROBIK

Pole wielokąta. Wejście. Wyjście. Przykład

Inżynieria oprogramowania. Część 8: Metoda szacowania ryzyka - PERT

Dobór parametrów algorytmu ewolucyjnego

Wybrane podstawowe rodzaje algorytmów

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

5 Błąd średniokwadratowy i obciążenie

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.

RAPORT z diagnozy umiejętności matematycznych

Lista 4. Kamil Matuszewski 22 marca 2016

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

Program MC. Obliczyć radialną funkcję korelacji. Zrobić jej wykres. Odczytać z wykresu wartość radialnej funkcji korelacji w punkcie r=

METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH

Algorytmy genetyczne. Paweł Cieśla. 8 stycznia 2009

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Transkrypt:

Dorota Rogalla Urszula Rogalla Konstrukcja drzew filogenetycznych podstawy teoretyczne. Streszczenie Wśród wyzwań stojących przed genetyką wymienić można nie tylko kojarzone klasycznie poznawanie struktury i funkcji genów, wzorów ich ekspresji czy sekwencji pełnych genomów, ale także opracowanie matematycznych modeli m.in. tłumaczących obserwowaną zmienność genetyczną. Wyjaśnienie zróżnicowania i funkcji sekwencji białkowych i kwasów nukleinowych niejednokrotnie wymaga zrozumienia sił rządzących ewolucją. W niniejszej pracy przedstawione zostały podstawowe metody konstrukcji drzew filogenetycznych pozwalających poznawać mechanizmy prowadzące do powstawania obserwowanego zróżnicowania genetycznego. Słowa kluczowe: DNA, drzewo filogenetyczne, genetyka, maximum likelihood, maximum parsimony. Wstęp Genetyka populacyjna jest nauką zajmującą się wyjaśnianiem mechanizmów prowadzących do powstania dzisiejszego zróżnicowania genetycznego. Innymi słowy, bada zmienność puli genów poprzez opis zależności między fluktuacjami częstości alleli wybranych loci i ich rozkładem a wpływem m.in. dryfu genetycznego, mutacji, przepływu genów i nacisku selekcyjnego. Badania tego rodzaju oparte są w głównej mierze na zobiektywizowanych modelach matematycznych definiujących procesy ewolucyjne i demograficzne. Należy przy tym pamiętać, że nie jest możliwe odtworzenie zależności miedzypopulacyjnych ze stuprocentową pewnością a każdy wynik stanowi jedynie wartość przybliżoną. Jednym z kluczowych zadań genetyki populacyjnej jest wyznaczanie tzw. dystansów genetycznych dzielących zbiory populacji czy zbiory cząsteczek. Każdy rodzaj danych wejściowych wymaga zastosowania odmiennego podejścia, jednak ogólnie można przyjąć, że dystans genetyczny stanowi miarę pokrewieństwa. Wyniki obliczeń najczęściej przedstawiane

są w postaci macierzy, które jednak dla biologa ewolucyjnego są dość trudne i czasochłonne w interpretacji. Aby przedstawić graficznie pary dystansów dla n cząsteczek należałoby wykorzystać n-1 wymiarów, co z oczywistych względów zazwyczaj nie byłoby możliwe. Stąd odległości genetyczne obrazowane są przeważnie z wykorzystaniem analizy wieloczynnikowej, jak skalowanie wielowymiarowe (MDS) czy analiza głównych składowych (PCA). Alternatywnym podejściem jest zastosowanie metod filogenetycznych, wśród których dla omawianych tu zastosowań na szczególną uwagę zasługuje konstrukcja drzew filogenetycznych, których krótka charakterystyka przeglądowa stanowi cel niniejszej pracy. Krótka charakterystyka drzewa filogenetycznego Drzewo filogenetyczne jest szczególnym rodzajem przedstawienia zależności między poszczególnymi rodzajami jednostek (np. populacji czy cząsteczek DNA). Czasem samo w sobie obrazuje nie tylko pokrewieństwo, ale także mechanizmy narastania zmienności. Z matematycznego punktu widzenia drzewa filogenetyczne traktować należy jak spójne grafy acykliczne. Można podzielić je na ukorzenione i nieukorzenione. Pierwsze z wymienionych najczęściej zawierają dodatkową sekwencję (dla ułatwienia można przyjąć, że mowa wyłącznie o DNA/RNA), tzw. grupę zewnętrzną, która pozwala na wyznaczenie położenia korzenia, a która nie jest bliskim krewnym pozostałych badanych sekwencji. Ukorzenienie drzewa pozwala ukierunkować odtwarzanie przebiegu ewolucji. Większość algorytmów pozwala uzyskać tzw. drzewa nieukorzenione, które obrazują jedynie względne zależności między badanymi cząsteczkami. Jeśli w eksperymencie istotne jest ustalenie osi czasu warto na przykład arbitralnie wyznaczyć korzeń pośrodku najdłuższej gałęzi (ang. midpoint rooting) lub włączyć do analizy dalece spokrewnioną z pozostałymi cząsteczkę, która w sposób naturalny ukorzeni cały graf. Topologię drzewa konstytuuje układ tzw. gałęzi, czyli krawędzi łączących kolejno spokrewnione ze sobą cząsteczki/węzły. W niektórych rodzajach drzew długość gałęzi odnosi się do odległości genetycznej w sposób ilościowy. W każdym układzie dwóch połączonych jednostek ta znajdująca się bliżej korzenia jest oczywiście przodkiem każdej dalszej (tzw. potomka) znajdującej się na wspólnej ścieżce stanowiącej szlak ewolucyjny. Na końcu każdej gałęzi znajduje się rzeczywista lub hipotetyczna cząsteczka (której istnienia należy domniemywać a które nie zostało jak dotąd udowodnione), która w przypadku, kiedy znajduje się jednocześnie na końcu ścieżki, zgodnie z teorią grafów określana jest mianem liścia. Dane wejściowe pozwalające kreślić drzewa ująć można w dwóch grupach wspomniane powyżej dystanse genetyczne oraz cechy (rozumiane też jako jednostki

dyskretne np. listingi mutacji danego locus), które pozwalają na wnioskowanie o własnościach genetycznych poprzednich w stosunku do analizowanych pokoleń. Wszystkie metody rekonstrukcji drzew dzielą się na oparte na grupowaniu (ang. clustering) a więc algorytmach iteracyjnych pozwalających uszeregować dane w określonej zhierarchizowanej kolejności oraz na poszukiwaniu (ang. searching) zakładającym typowanie najbardziej prawdopodobnego wedle z góry ustalonych kryteriów drzewa, poprzedzone uzyskaniem puli wyników prawdopodobnych. Dobry algorytm filogenetyczny cechuje się szybkością działania, operuje skutecznie nawet na niewielkiej ilości danych wejściowych, pozwala uzyskać takie samo drzewo po dodaniu kolejnych danych, znajduje wynik nawet jeśli część danych nie wpisuje się w założenia początkowe zadane konkretnym modelem i wreszcie jest falsyfikowalny (Jobling M.A et al., 2004). Jednak w rzeczywistości żadna opracowana dotąd metoda nie spełnia jednocześnie wszystkich powyższych założeń. UPGMA Opinię najmniej skomplikowanej spośród metod konstrukcji drzew zawdzięcza UPGMA (Unweighted Pair-Group Method using arithmetic Averages) (Sokal i Michener, 1958; Sokal i Sneath, 1968; Nei, 1975) prostocie składającego się na nią algorytmu a co za tym idzie także krótkiemu czasowi, jaki należy poświęcić na opracowanie danych i uzyskanie poszukiwanego dendrogramu. Jej istotnym ograniczeniem jest założenie dotyczące stałości tempa ewolucji, które dla większości analiz jest po prostu błędne. Drzewo konstruowane jest w sposób intuicyjny w oparciu o algorytm iteracyjnego grupowania cząsteczek, zgodnie z którym każde dwie cząsteczki, które dzieli najmniejszy spośród wszystkich obliczonych dystans, łączone są krawędzią. Każdy następny krok algorytmu dotyczy przyłączania kolejnych cząsteczek lub ich zgrupowań wedle tej prostej zasady aż do wyczerpania danych i uzyskania pełnego obrazu drzewa. Warto zaznaczyć, że dendrogram uzyskany tą metodą zawsze jest ukorzeniony, co wynika z przyjęcia założeń dotyczących zegara molekularnego. Jakiekolwiek odstępstwo od stałości tempa mutacji prowadzi jednak nieuchronnie do uzyskania błędnego grafu. UPGMA, choć zarzucona przez doświadczonych filogenetyków, nadal pozostaje jedną z częściej używanych w bioinformatyce metod głównie za sprawą wysokiej użyteczności w analizie danych mikromacierzowych. Neighbor-Joining Inną techniką opartą na grupowaniu bottom-up jest tzw. metoda najbliższego sąsiada (Saitou i Nei, 1987) uwarunkowana tymi samymi, co metoda Minimal evolution (Cavalli- Sforza i Edwards, 1967) założeniami i wykorzystująca algorytm iteracyjny.

Metoda ME opiera się na wyznaczeniu długości gałęzi łączących badane populacje na dendrogramie przy użyciu prostego algorytmu a następnie ich zsumowaniu dla wszystkich topologii, które uznać można za wiarygodne. Jako że do założeń ME należy między innymi stwierdzenie, iż ewolucja zachodzi zawsze możliwie najkrótszą z dostępnych dróg, oczywistym jest, że za drzewo najbardziej prawdopodobne uznaje się to, którego suma długości wszystkich gałęzi będzie najmniejsza. Conditio sine qua non znalezienia właściwego drzewa to poddanie analizie dostatecznie dużej ilości danych, na co zwraca uwagę Nei (1996). Z racji jednak, że metoda ta w pierwotnym kształcie wymagała dużych nakładów czasu, Rzhetsky i Nei (1992) zaproponowali, aby analizę rozpoczynać od konstruowania drzewa przy pomocy metody NJ. W oparciu o nie wyznacza się inne, o zbliżonej pod pewnymi względami budowie i dopiero dla nich wyznacza sumy długości gałęzi. Następnym krokiem jest porównanie wszystkich uzyskanych wyników sum długości gałęzi celem znalezienia tego, który ma najmniejszą wartość. Najczęściej zdarza się tak, że otrzymane w ten sposób ostateczne drzewo jest tożsame z drzewem wyjściowym wyznaczonym przez metodę najbliższego sąsiada lub różni się od niego jedynie nieznacznie. Znaczną oszczędność czasu gwarantuje również poleganie wyłącznie na metodzie neighbor-joining opracowanej przez Saitou i Nei (1987), która jest nota bene uproszczoną wersją metody ME. Sam termin sąsiedzi, który w sposób bezpośredni odnosi się do istoty opisywanej metody, używany jest do określenia dwóch spośród badanych sekwencji, które znajdują się najbliżej siebie, tj. w nieukorzenionym bifurkacyjnym drzewie przedstawiane są jako te, które łączy zaledwie jeden węzeł wewnętrzny. Na marginesie zauważyć można, że w przypadku drzewa obrazującego zależność dla czterech lub więcej sekwencji/jednostek analizy taksonomicznej (N) minimalna liczba takich par wynosi dwa, natomiast maksymalna to N/2 dla parzystej ilości N i (N-1)/2 w przypadku nieparzystej. Możliwe jest skonstruowanie pełnego dendrogramu poprzez sukcesywne łączenie sąsiadów i tym samym definiowanie nowych. Cały proces rozpoczyna się od jednego wewnętrznego węzła, od którego promieniście odchodzą gałęzie wszystkich poddawanych analizie sekwencji. Takie wyjściowe drzewo budowane jest w oparciu o całkowicie oczywiście błędne założenie, iż nie zachodzi żadne grupowanie. Obliczona dla niego suma długości gałęzi (S 0 ) jest z całą pewnością wyższa niż dla prawdziwego poszukiwanego drzewa (S F ). N 1 S L D 0 ix i 1 N 1 i j ij (1)

W powyższym wzorze opisującym zależności widziane na Rys. 1a D ij odnosi się do odległości między dwiema cząsteczkami a L ab to długość gałęzi między węzłami a i b. Rys 1. a) Drzewo o topologii gwiaździstej; b) Drzewo z pkt. a) po zgrupowaniu dwóch sekwencji i połączeniu ich węzłem Y (za Saitou i Nei, 1987) a) b) Jak łatwo można się domyślić, niektóre sekwencje są bardziej spokrewnione między sobą aniżeli inne. Ich identyfikacja bywa żmudna a polega na losowym doborze pary sekwencji, następnym usunięciu jej z drzewa-gwiazdy i przyłączeniu do drugiego nowoutworzonego węzła wewnętrznego sąsiadującego z pierwszym. Obliczona dla takiej topologii S powinna być niższa niż S 0, ale zdecydowanie wyższa aniżeli S F. Procedurę należy powtarzać dla wszystkich możliwych par sąsiadów a tę, dla której całkowita długość gałęzi ma wartość najniższą, uznać za właściwą. Zidentyfikowana para jest następnie łączona i traktowana jako pojedyncza sekwencja w kolejnych krokach. Cały proces wyboru sąsiadów i obliczania S kontynuuje się dopóty, dopóki wszystkie tworzące gwiazdy węzły nie zostaną przekształcone w bifurkacje innymi słowy do momentu, kiedy N-3 gałęzie nie zostaną odnalezione. Zasadniczo jednak, nigdy nie można mieć 100% pewności, że obrana para sekwencji DNA w rzeczywistości musi być sąsiadująca. Całkowita długość gałęzi jest wyznaczana dla absolutnie wszystkich możliwych par danych, lecz w praktyce niekoniecznie para cechująca drzewo o najniższym S jest tą właściwą. Tyczy się to szczególnie sytuacji, w których mamy do czynienia z bardzo blisko spokrewnionymi sekwencjami (Nei, 1996). Wówczas tak skonstruowane drzewo powinno być traktowanie wyłącznie jak ogólna wskazówka, ponieważ jest zaledwie pobieżnym odwzorowaniem istniejących zależności. Zazwyczaj dla czysto addytywnego dendrogramu, w którym nie zakłada się istnienia wstecznych ani równoległych mutacji, metoda ta wykazuje wysoką skuteczność. Metoda największej oszczędności Wedle głównego założenia metody największej oszczędności (ang. maximum parsimony) najlepszym możliwym do uzyskania drzewem jest takie, które obrazuje zależności

między wszystkimi elementami zbioru danych z uwzględnieniem warunku najmniejszej koniecznej liczby zmian ewolucyjnych pozwalających wytłumaczyć otrzymany wynik. Przewagą omawianej metody nad wcześniej wymienionymi jest choćby możliwość włączenia do rozważań informacji dotyczących zróżnicowanego tempa występowania różnych rodzajów mutacji (np. tranzycje>>transwersje). Jest to przydatne o tyle, że pozwala poszczególnym mutacjom przypisać różne wagi podczas analizy a co za tym idzie zignorować na przykład występowanie mutacji w tzw. hotspotach, które zbędnie zaburzają obraz filogenezy uzyskany z zastosowaniem metod opartych głównie na dystansach genetycznych. Z drugiej jednak strony pojawia się pułapka dotycząca rewersji i homoplazji, które niewzięte pod uwagę przez mniej doświadczonego badacza z pewnością doprowadzą do uzyskania zatrważająco błędnych wyników. Drzewo MP jest zawsze nieukorzenione i wskazuje względne zależności między elementami zbioru danych, jednak nie daje żadnych wskazówek odnośnie czasu dywergencji. Jeżeli kryterium parsymonii prowadzi do uzyskania kilku równorzędnych drzew, nie istnieje metoda pozwalająca na wybór najbardziej optymalnego spośród nich. Ogólnie rzecz ujmując, poszukiwanie idealnego drzewa metodą MP jest problemem klasy NP a w przypadku dużej ilości danych konieczne jest wykorzystanie metod heurystycznych. Uzyskanie rzeczywiście najlepszego drzewa można często rozpatrywać raczej w kategoriach szczęśliwego trafu. Ma to miejsce na przykład dla zestawu danych, dla których wyznaczone drzewo posiada długie gałęzie (tj. dwie sąsiadujące sekwencje dzieli duża liczba mutacji w wyniku dużego tempa ewolucji), co może wskazywać na występowanie mutacji równoległych. Niemniej, metoda MP cieszy się dużym powodzeniem wśród biologów ze względu na wykorzystanie prymitywnego algorytmu prowadzącego do uzyskania niekoniecznie właściwego, jednak zazwyczaj zadowalającego wyniku. Metoda największej wiarygodności Podobne jednak znacznie bardziej rzetelne wyniki uzyskać można wykorzystując metodę największej wiarygodności (ang. maximum likelihood), którą opracowano w oparciu o założenie, że wszystkie drzewa rozpatrywać można jako alternatywne hipotezy wyjaśniające obserwowaną różnorodność. Najważniejszymi parametrami wszystkich drzew są: topologia, długości gałęzi oraz matematyczne modele powstawania mutacji (odwołanie do łańcuchów Markova). Metoda ML stara się znaleźć taki układ powyższych trzech parametrów, który maksymalizuje prawdopodobieństwo uzyskania odpowiedniego grafu dla danego zbioru danych. Tutaj wszakże pojawia się odwieczny problem jajka i kury aby optymalnie dobrać parametry analizy należałoby najpierw poznać zależności istniejące pomiędzy elementami

zbioru danych a w celu poznania tychże zależności konieczne jest zadanie odpowiednich wartości parametrów. Prawdopodobnie najlepszym algorytmem wykorzystywanym w metodzie ML jest ten zaproponowany przez Felsensteina (Felsenstein, 1981). Niestety, odnalezienie dobrego modelu w ML jest poważnym problemem. O ile długości gałęzi i modele mutacji są zmiennymi typu ciągłego, o tyle topologia jest parametrem dyskretnym i stąd znów pojawia się konieczność odwołania do metod heurystycznych przeszukujących przestrzenie drzew (Posada, 2009). Mimo tego, ML zdaje się dawać lepsze aniżeli MP wyniki choćby ze względu na fakt, że jest metodą stricte statystyczną, jednak o dużej elastyczności pozwalającej dla przykładu uwzględniać działanie negatywnej czy pozytywnej selekcji odrębnie dla poszczególnych gałęzi (Pevsner, 2009). Inne metody oparte na analizie prawdopodobieństwa Istnieje szereg metod opartych na analizie prawdopodobieństwa, które za sprawą zawężenia czy to zasobu danych, czy uwzględnianych parametrów, pozwalają uzyskać dość wiarygodny wynik w krótszym czasie. Wśród nich wymienić warto choćby heurystyczną metodę układania czwórek (ang. quartet puzzling) (Strimmer i von Heaseler, 1996). Algorytm zakłada tworzenie kolejnych nieukorzenionych drzew filogenetycznych z czterech losowych sekwencji i testowanie ich prawdopodobieństwa. W kolejnych krokach dodawane są pojedyncze sekwencje w taki sposób, aby topologia drzewa zgadzała się z tą, dla której wyjściowe wartości ML były najwyższe. Po wykorzystaniu całego zasobu danych kalkuluje się ostateczne prawdopodobieństwo a po przetasowaniu zbioru wyjściowego rozpoczyna procedurę od początku. Innym podejściem jest zastosowanie metod Bayesowskich, które pozwalają poszukiwać nie jedynego właściwego drzewa filogenetycznego a raczej całego ich zbioru o zbliżonych (jednak najwyższych) wartościach prawdopodobieństwa. Podobnie jak w metodzie ML, w tym wypadku bazą są trzy parametry topologia, długość gałęzi i model mutacji. Na tym jednak kończy się analogia. Ogólnie rzecz ujmując, metody Bayesowskie umożliwiają obliczenie prawdopodobieństw a posteriori badanych zdarzeń (tu: wariantów drzew) na podstawie informacji zawartych w danych wejściowych. Dla wymienionych parametrów należy na wstępie określić prawdopodobieństwa a priori (na podstawie dotychczasowych doświadczeń z podobnymi problemami), co często staje się argumentem krytyków tej metody w zastosowaniach filogenetycznych. Analiza Bayesowska odwołuje się do metody Monte Carlo dla łańcuchów Markova (MCMC) w celu uzyskania reprezentatywnego zbioru drzew

(dla których prawdopodobieństwo wystąpienia danego drzewa w zbiorze jest proporcjonalne do iloczynu jego wiarygodności i prawdopodobieństwa a priori) (Higgs i Attwood, 2005). Podsumowanie Rekonstrukcja drzew filogenetycznych, acz z pozoru trywialna, wymaga nie tylko rozległej wiedzy obejmującej mechanizmy ewolucyjne i ich modelowanie, ale także najczęściej dużej mocy obliczeniowej. Wystarczy chociażby uzmysłowić sobie fakt, że dziesięć badanych cząsteczek można połączyć ponad 2 milionami różnych nieukorzenionych drzew. O wyborze najlepszej metody rekonstrukcji filogenezy decydują głównie: rodzaj danych poddawanych analizie, znajomość mechanizmów odpowiedzialnych za zróżnicowanie analizowanego zestawu danych oraz dostępna moc obliczeniowa. Wiele zależy także od doświadczenia analityka, I tak na przykład, kiedy zmienne jednostki mają charakter niedyskretny, danych jest dużo a zasoby obliczeniowe są niewielkie najlepszym rozwiązaniem będzie wykorzystanie którejś z prostych metod opartych na dystansach genetycznych. Jeśli z kolei zmienne są dyskretne i istnieją przesłanki świadczące chociażby o istnieniu w badanym zestawie danych homoplazji, jak na przykład w analizie sekwencji genomów mitochondrialnych, znacznie lepszym wyborem będzie zastosowanie MP lub ML (w zależności od ilości danych i możliwości obliczeniowych). Wybór metody w żadnym razie nie powinien być przypadkowy, jako że filogenetyka wbrew pozorom nie jest jedynie zgrabnie ukrytą pod płaszczykiem nauki ars pro arte. Kreślenie drzew filogenetycznych jest bowiem niezwykle cennym narzędziem nie tylko dla ewolucjonistów, ale pozwala m.in określać zróżnicowanie patogennych szczepów bakterii w celu opracowywania bardziej skutecznych szczepionek, ułatwia przewidywanie funkcji genów i stanowi istotną podporę dla epidemiologów zajmujących się chorobami zakaźnymi czy genetycznymi. Bibliografia: Cavalli-Sforza L.L. and Edwards A.W.F. 1967. Phylogenetic analysis: models and estimation procedures. American Journal of Human Genetics 19: 233-257. Felsenstein J. 1981. Evolutionary trees from DNA sequences: a maximum likelihood approach. Journal of Molecular Evolution 17, 368-76. Higgs P.G, Attwood T.K. 2005. Bioinformatics and Molecular Evolution. Blackwell Science Ltd., Oxford.

Jobling M.A, Hurles M., Tyler-Smith C. 2004. Human evolutionary genetics. Origins, Peoples & Disease. Garland Science, New York. Nei M. 1975. Molecular Population Genetics and Evolution. North Holland. Amsterdam & New York. Nei M. 1996. Phylogenetic analysis in molecular evolutionary genetics. Annual Review of Genetics 30: 371-403. Pevsner J. 2009. Bioinformatics and Functional Genomics, 2nd Edition. Willey-Blackwell, Hoboken. Posada D. 2009. Bioinformatics for DNA sequence analysis. Humana Press, New York. Rzhetsky A., Nei M. 1993. Theoretical foundation of the minimum- evolution method of phylogenetic inference. Molecular Biology and Evolution 10: 1073-1095. Saitou N., Nei M. 1987. The neighbor- joining method: A new method for reconstructing phylogenetic trees. Molecular Biology and Evolution 4(4): 406-425. Sokal R.R., Michener C.D. 1958. A statistical Method for Evaluating Systematic Relationships. The University of Kansas Scientific Bulletin 38: 1409-1438. Sokal R.R., Sneath P.H.A. 1963. Principles of Numerical Taxonomy. Freeman, San Francisco. Strimmer K. i von Haeseler A. 1996. Quartet puzzling: A quartet maximum likelihood method for reconstructing tree topologies. Molecular Biology and Evolution 13: 964-9.