PROBLEM: KLASTROWANIE DANYCH I DRZEWA FILOGENETYCZNE METODY:

G : PROBLEM: KLASTROWANIE DANYCH I DRZEWA FILOGENETYCZNE METODY: MACIERZ EKSPRESJI KLASTROWANIE HIERARCHICZNE KLASTROWANIE K-ŚREDNICH METODA KLIK ODLEGŁOŚCIOWA REKONSTRUKCJA DRZEWA FILOGENETYCZNEGO MACIERZE ADDYTYWNE REKONSTRUKCJA DRZEWA POPRZEZ KLASTROWANIE METODA NAJWIĘKSZEJ OSZCZĘDNOŚCI : PARSYMONIA Klastrowanie danych ( analiza skupisk) 1 9 4 Znaleźć taką cechę w zebranych danych, która pozwoli je rozdzielić w rozłączne grupy - klastery. Takim problemem jest potrzeba określenia funkcji nowo odkrytego genu. Samo porównywanie sekwencji zazwyczaj nie wystarcza. Funkcjonalności około 40% genów ich nie udaje się określić jedynie poprzez porównanie sekwencji. Nowa technika: mikromacierz ekspresji, pozwala oceniać aktywność genu w różnych warunkach ( np. jest choroba lub jej nie ma), w różnych chwilach czasu i w różnych tkankach. Poziom ekspresji gen jest oceniany poprzez ilość mrna związanego z danym genem (gen jest aktywny jeśli zachodzi transkrypcja; im więcej mrna tym wyższa jest aktywność genu). 1

Eksperymenty z mikromacierzami 1 9 5 kontrola próba Pobieramy mrna Syntezujemy cdna farbujemy go fosforem Mieszamy Hybrydyzujemy Gen jest bardziej aktywny w kontroli niż próbce Gen jest bardziej aktywny w próbce niż w kontroli Aktywność obu grup genów jest identyczna Nie wykryto aktywności żadnego z grup genów Skanujemy Analizujemy obraz Macierz ekspresji genów 1 9 9 I ij to poziom ekspresji genu i w eksperymencie j Wiersz i to wzorzec ekspresji genu i Zadanie: wyszukać w I pary genów o podobnych wzorcach 2

Macierz odległości ekspresji genów 2 0 0 Warunki poprawnego grupowania: jednorodność : geny z tej samej grupy, każdy z każdym, mają wzorce bardzo podobne separacja : geny z różnych grup, każdy z każdym, różnią się znacząco OK Nie OK Techniki klastrowania 20 1 Hierarchiczna : dane organizujemy w drzewa binarne (np.: dendrogram) Optymalizacyjna : szukamy średniego wektora najlepiej reprezentującego klaster Grafowe : klikowe klastery tworzą kliki w grafie odległości z progiem 3

Klastrowanie hierarchiczne 2 0 2 Technika organizowania danych w drzewo: geny to liście krawędzie mają długość Długość ścieżki pomiędzy liśćmi koreluje z wynikiem z macierzy odległości d 2 krok: 1 krok: Start: Klastrowanie hierarchiczne 20 3 Różne możliwości zdefiniowania odległości do nowego węzła 4

Klastrowanie hierarchiczne 20 4 Klastrowanie hierarchiczne 20 5 Michel Eisen i współpracownicy, i ich drzewo klastrowania 8600 genów w 13 chwilach czasowych Macierz odległości to macierz korelacji: Eisen M B et al. PNAS 1998;95:14863-14868 5

Klastrowanie k-średnich 20 8 Klastrowanie K-średnich : popularna metoda grupowania danych wokół K punktów zbioru X. Definicja odległością punktu v od zbioru punktów X={ x1,x2,, xk } nazywamy d( v,{ x, x2,... xk}) min x : x, x,... d( v, x ) 1 i 1 2 xk i Definicja Błąd kwadratowy średni ( błąd deformacji) zbioru punktów V ={v1,v2, vn} od zbioru punktów X={ x1,x2,, xn } nazywamy 1 2 d({ v1, v2,..., vn},{ x1, x2,... xk}) d ( vi,{ x1, x2,... xk}) n i 1,.. n Problem: Dla zadanego zbioru n punktów z m-wymiarowej przestrzeni oraz danej wartości K zbudować zbiór X składający się K punktów (centrów klastrowania) takich, dla których błąd kwadratowy średni jest minimalny. Klastrowanie K- średnich 20 9 6

Algorytm Lloyda ( heurystyczne klastrowanie k-średnich 2 1 0 Algorytm Lloyda ( heurystyczne klastrowanie k-średnich 2 1 1 7

Algorytm Lloyda ( heurystyczne klastrowanie k-średnich 2 1 2 Algorytm Lloyda ( heurystyczne klastrowanie k-średnich 8

Algorytm Lloyda ( heurystyczne klastrowanie k-średnich 214 Jak dobrać K? 216 Jeśli K rośnie to błąd kwadratowy średni maleje (jest zerem gdy K=n, ale wówczas klastrowanie jest bezużyteczne) Strategia: Zwiększaj K dopóki błąd kwadratowy średni ma malejące przyrosty 9

Techniki klastrowania 217 Hierarchiczna : dane organizujemy w drzewa binarne (np.: dendrogram) Optymalizacyjna : szukamy średniego wektora najlepiej reprezentującego klaster Grafowe : klikowe klastery tworzą kliki w grafie odległości z progiem Grafy klikowe 218 Definicje: Grafem zupełnym nazywamy graf, w którym każde dwa wierzchołki są połączone krawędzią. Grafem klikowym nazywamy graf, w którym każda składowa spójna jest grafem zupełnym. Podzbiór V zbioru wierzchołków V grafu G= (V, E) tworzy podgraf zupełny jeśli dowolne dwa wierzchołki z V są połączone krawędzią w G. Kliką w grafie nazywamy maksymalny podgraf zupełny, to znaczy podgraf zupełny, który nie jest zawarty w innym podgrafie. Przykład: 1) Jeden graf o trzech składowych. Każda składowa jest grafem zupełnym. 2) Graf o 7 wierzchołkach, który posiada 4 kliki: {1,2,6,7},{2,3}, {5,6}, {3,4,5}. 10

Grafy klikowe 219 Zauważmy, że każdy podział n elementów na K klastrów może być reprezentowany jako graf klikowy o n wierzchołkach i K klikach. Usunięcie dwóch krawędzi przekształca badany graf w graf klikowy Problem NP trudny. Są metody heurystyczne rozwiązania go. CAST to praktyczny i szybki algorytm Grafy klikowe 220 Od macierzy odległości do grafu odleglości Wierzchołkami grafu są badane geny (u nas g1, g2..g10) Ustal próg dla odległości θ Jeśli odległość dwóch wierzchołków jest mniejsza od θ to rysuj krawędź Zazwyczaj uzyskany tak graf nie jest klikowy 11

Grafy klikowe 221 Ale można go przekształcić w klikowy dodając lub usuwając krawędzie. X X CAST : Claster Affinity Search Technique *** Ewolucja i analiza DNA : zagadka wielkiej pandy 222 https://en.wikipedia.org/wiki/giant_panda niedźwiedź czy szop? 1870 problem postawił Armand David Analiza cech behawioralnych i morfologicznych kształt niedźwiedzia, ale nie hibernuje nie ryczy jak niedźwiedź a beczy jak szop 1985 problem rozwiązał Steven O Brian ze współpracownikami opierając się na badaniach DNA 12

Drzewo ewolucyjne człowieka 223 1965 : Zuckerman i Pauling pracą Evolutionary Divergence and Convergence in Proteins dali początek wykorzystania DNA do rekonstrukcji drzewa filogenetycznego. Obecnie badania DNA są podstawą badań ewolucyjnych W tym samym czasie, gdy Steven O Brien rozwiązał kontrowersje wokół pochodzenia wielkiej pandy, Rebecca Cann, Mark Stoneking i Allan Wilson skonstruowali drzewo ewolucji człowieka. Nowa kontrowersja - hipoteza o afrykańskim pochodzeniu naszego gatunku. Gatunek nasz ma wspólnego przodka, który to żył w Afryce ok. 200,000 lat temu. Temporal and Geographical Distribution of Hominid Populations Redrawn from Stringer (2003) (w oparciu o mtdna ze skamielin) 224 Out-of-Africa versus the multiregional hypothesis Broadly speaking, there are two competing hypotheses on the origin of modern humans: the Out-of-Africa hypothesis and the multiregional hypothesis. Both agree that Homo erectus originated in Africa and expanded to Eurasia about one million years ago, but they differ in explaining the origin of modern humans (Homo sapiens sapiens). The first hypothesis proposes that a second migration out of Africa happened about 100,000 years ago, in which anatomically modern humans of African origin conquered the world by completely replacing archaic human populations (Homo sapiens; Model A). The multiregional hypothesis states that independent multiple origins (Model D) or shared multiregional evolution with continuous gene flow between continental populations (Model C) occurred in the million years since Homo erectus came out of Africa (the trellis theory). A compromised version of the Out-of-Africa hypothesis emphasizes the African origin of most human populations but allows for the possibility of minor local contributions (Model B). 2000 Nature Publishing Group Jin, L. & Su, B. Natives or immigrants: modern human origin in east Asia. Nature Reviews Genetics 1, 127 (2000). All rights reserved. 13

Drzewo ewolucyjne człowieka 225 Drzewo ewolucyjne człowieka 226 14

Drzewa ewolucyjne : teoria 227 Jak drzewa ewolucyjne są budowane z sekwencji DNA? liście reprezentują aktualnie istniejące gatunki wewnętrzne wierzchołki reprezentują wspólnych przodków korzeń reprezentuje najstarszego ewolucyjnie przodka. W szczególności, konstruujemy ważone drzewa binarne: wszystkie wewnętrzne wierzchołki mają stopień 3, liście stopień 1, przy czym Zazwyczaj krawędzie mają wagę Czasem i wierzchołki mają wagę (tzw. zegar molekularny) Bazowe pojęcia: drzewa swobodne a drzewa ukorzenione 228 Drzewa to specjalna klasa grafów: Spójne drzewo o n wierzchołkach ma n-1 krawędzi. Drzewo nie ma cykli Istnieje dokładnie jedna ścieżka łącząca dwa dowolne wierzchołki drzewa. Liście to wierzchołki o stopniu 1 Drzewa mogą być dwojakiego rodzaju: ukorzenione albo swobodne.. Wyróżniony wierzchołek To samo drzewo w reprezentacji od wyróżnionego wierzchołka nie jest binarne Pień drzewa ukorzenionego wskazuje na wspólnego przodka. W drzewie swobodnym wspólny przodek jest nieznany. 15

Rekonstrukcja drzewa bazująca na odległościach 229 Drzewo binarne o sześciu liściach ma cztery węzły wewnętrzne. Mając drzewo ważone możemy dla każdej pary liści obliczyć odległość pomiędzy nimi. Zatem: każde drzewo T ważone wyznacza macierz d i,j (T) odległości pomiędzy wierzchołkami i oraz j. Z drugiej strony: w oparciu o badania n gatunków mamy macierz n x n odległości pomiędzy nimi D i,j. Zadanie: Znaleźć takie drzewo T ważone dla którego d i,j (T) = D i,j dla dowolnych wierzchołków i oraz j. Drzewo dla przypadku n =3 230 Od macierzy D(i,j) do drzewa binarnego nieukorzenionego (swobodnego) T ważonego, takiego gdzie waga krawędzi d(i,j) = D(i,j) 3 równania liniowe o 3 niewiadomych 16

Addytywna macierz odłeglości 231 TWIERDZENIE: Swobodne drzewo binarne o n liściach ma 2n-3 krawędzi Dopasowanie drzewa do zadanej macierzy odległości wymaga rozwiązania układu n(n-1)/2 równań liniowych o 2n-3 zmiennych Definicja: Macierz odległości D(i,j) nazywamy addytywną jeśli istnieje takie binarne i swobodne drzewo T, że odległości w tym drzewie d(i,j) są uzgodnione z macierzą odległości, D(i,j)=d(i,j) 232 d(a,c) =4 D(A,C) = 4 D jest nieaddytywna, gdy nie istnieje takie T 17

Rekonstrukcja drzewa z macierzy addytywnej 233 Odszukaj sąsiadujące liście i, j, to jest liście które mają tego samego ojca k Usuń wiersze oraz kolumny i-te oraz j-te Dopisz nowy wiersz oraz kolumnę odpowiadającą wierzchołkowi k gdzie odległość do dowolnego wierzchołka m jest obliczana jako Tego wierzchołka w D póki co nie było, bo jest to wierzchołek wewnętrzny Jak znaleźć sąsiadujące liście? najbliżsi sąsiedzi w D nie muszą być sąsiadującymi liści w drzewie D(j,k)=12 a D(i,j)=13 czy D(k,l)=13 11 4 6 2 7 Strzyżenie wiszących krawędzi Jak znaleźć sąsiadujące liście bazując na D? 234 Iteracyjnie stosujemy proces strzyżenia krawędzi wiszących Krawędzie wiszące to krawędzie prowadzące do liści drzewa. Macierz D: Strzyżenie krawędzi wiszących to skrócenie wszystkich tych krawędzi o d. Zdegenerowana trójka to zbiór trzech elementów i, j, k w D takich, że D(i,j) +D(j,k) =D(i,k). 18

Strzyżenie wiszących krawędzi 235 Po usunięciu B: Kolejna iteracja: strzyżenie o 3 wyszukiwanie zdegenerowanej trojki Uwaga: tak naprawdę to kolejne iteracje to przede wszystkim wyszukiwanie zdegenerowanych trójek punków. Dopiero, gdy takiej trójki nie mamy, to zaczynamy strzyżenie. Rekonstrukcja drzewa 236 19

Algorytm konstrukcji drzewa z macierzy odległości 237 zakończenie obliczenia przygotowanie zmiennych do dalszego przetwarzania Wyszukiwanie zdegenerowanej trójki, poprawienie macierzy odległości wywołanie rekurencyjne obliczenia Rekonstrukcja drzewa Test czy aktualna D jest addytywna A co jeśli D jest nieaddytywna? 238 Jeśli D nie jest addytywna ( tak jest zazwyczaj) to szukamy T, które najlepiej przybliża D to znaczy takiego T dla którego błąd kwadratowy jest najmniejszy. Problem NP-trudny 20

Przypomnienie: klastrowanie hierarchiczne 23 9 Drzewa ewolucyjne i klastrowanie hierarchiczne 240 UPGMA (Unweighted Pair Group Method with Arithmetic Mean) 21

Drzewa ewolucyjne i klastrowanie hierarchiczne UPGMA zaczyna generowanie poprzez zbudowanie drzewa postaci: 241 Uwaga: z UPGMA nigdy nie powstanie drzewo o takiej strukturze które to wyciąga w górę tak, aby zachodziło: Następnie dobudowuje kolejną gałąź Kolejno powstaje tego typu struktura: drzewo ultrametryczne Odległość od pnia do każdego liścia jest taka sama Drzewa ewolucyjne i klastrowanie hierarchiczne 242 22

X Nie Metody dyskretne rekonstrukcji drzewa ewolucyjnego 243 Dane jest n sekwencji DNA o długości m każda. Mamy zatem macierz dopasowania w rozmiarze n x m. Species A Species B Species C Species D Species E ATGGCTATTCTTATAGTACG ATCGCTAGTCTTATATTACA TTCACTAGACCTGTGGTCCA TTGACCAGACCTGTGGTCCG TTGACCAGTTCTCTAGTTCG Można ją przetransformować na macierz odległości, ale nigdy w drugą stronę. Informacja o dopasowaniu jest bezpowrotnie tracona przy tej transformacji n x m macierz dopasowania tran ma sfor transformacji mac ja powrotnej n x n macierz odległości Lepsza technika: algorytm rekonstrukcji drzewa bazujący na symbolach umożliwia badanie ewolucji dla każdego znaku. Parsymonia w rekonstrukcji drzewa filogenetycznego 244 Parsymonia (oszczędność): kryterium optymalizacyjne - szukamy takiego drzewa, które wyznacza najmniejszą liczbę zdarzeń ewolucyjnych ( podstawienia, zamiany, itp.) Przykład: Szukaj najprostszego wyjaśnienia dla danych { ATCG, ATCC, ACGG} Brzytwa Ockhama 23

Problem małej parsymonii inaczej 245 Znaki naszego drzewa to brwi i usta. Każdy z nich może być w dwóch stanach. Dobierz etykiety węzłów wewnętrznych tak by wynik parsymonii był najmniejszy. Rekonstrukcja drzewa ewolucyjne oparta na symbolach 246 Dwie klasy problemów: małej parsymonii : zakładamy, że struktura drzewa jest dana wielkiej parsymonii : struktura drzewa jest dowolna. 24

Mała parsymonia w rekonstrukcji drzewa filogenetycznego 247 Znaki w łańcuchach są niezależne od siebie (???) zatem problem malej parsymonii może być rozwiązawany dla każdej pozycji oddzielnie Parsymonia w rekonstrukcji drzewa filogenetycznego 248 Punktacja zgodna z tablicą małej parsymonii Punktacja zgodna z przykładową tablicą ważonej małej parsymonii 25

Algorytm Sankoffa 249 Każdy wierzchołek v z drzewa T wyznacza poddrzewo o korzeniu: wierzchołków osiągalnych z v. Etykieta v ma zbierać własności dzieci wierzchołka v. (v) s t s t (u) (w) s t Algorytm dynamiczny Niech s t (v) to wynik parsymonii dla poddrzewa v uzyskany przy założeniu, ze w v umieszczono znak t, czyli st ( v) mini { A, T, C, G} { si ( u) dit} mini { A, T, C, G} { si ( w) dit} Warunek początkowy s t 0 ( v) dla v t dla v t Algorytm Sankoffa 250 A C T G 26

251 A T G C? A C 252 9 7 8 9 A T G C? A C 27

253 9, 7, 8, 9 7, 2, 2, 8 A: + 0,3, 4, 9 + 0,3, 4, 9 min{9,10,12,18} + min{7, 5, 6, 17} = 14 T: + 3, 0, 2, 4 + 3, 0, 2, 4 min{12, 7, 10,13} + min{10, 2, 4, 12} = 9 G: + 4, 2, 0, 4 + 4, 2, 0, 4 min{ 13, 9, 8, 13} + min{11, 4, 2, 12} = 10 C: + 9, 4, 4, 0 + 9, 4, 4, 0 min{18, 11,12, 9} + min{19, 6, 6, 8} = 15 T T T Ojciec dostaje wektor: { 14,9,10,15} A, T, G, C Algorytm Fitcha Idąc od dołu góry przydziel każdemu wierzchołkowi zestaw etykiet: jeśli część wspólna jest niepusta 254 w przeciwnym przypadku Idąc do dołu z góry wybierz wspólny stan dla ojca i jego potomka jeśli taki jest. W przeciwnym wypadku wylosuj jeden i zapłać karę Przykład 1 28

255 Przykład 2 Algorytm Sankoffa versus algorytm Fitcha 256 Macierz punktacji s i (v) - od Sankoffa, jest równoważne S (v) - od Fitch a. 29

Problem wielkiej parsymonii 257 Problem NP-zupełny Przykłady drzew o 4 liściach Ilość drzew ukorzenionych o n liściach : T(n) dla n = 2, 3, 4, 5, 6, 7, 8, 9, 10,. to Zamiana najbliższych sąsiadow w problemie wielkiej parsymonii Najbliżsi sąsiedzi w przestrzeni drzew 258 Każda krawędź pozwala na trzy różne połączenia czterech poddrzew A, B, C i D 30

Problem przeszukiwania przestrzeni drzew 259 Wszystkie drzewa swobodne o pięciu liściach. Drzewa sąsiadujące (poprzez transformację zamiany najbliższych sąsiadów ) są połączone krawędzią Algorytm zachłanny Monte Carlo przeszukuje przestrzeń drzew 31