Przestrzeń algorytmów klastrowania

Wielkość: px

Rozpocząć pokaz od strony:

Download "Przestrzeń algorytmów klastrowania"

Dariusz Stankiewicz
4 lat temu
Przeglądów:

1 20 listopada 2008

2 Plan prezentacji 1 Podstawowe pojęcia Przykłady algorytmów klastrowania 2 Odległość algorytmów klastrowania Odległość podziałów 3 Dane wejściowe Eksperymenty

3 Praca źródłowa Podstawowe pojęcia Przykłady algorytmów klastrowania Landscape of Clustering Algorithms Anil K. Jain, Alexander Topchy, Martin H.C. Law, and Joachim M. Buhmann * Michigan State University, East Lansing, USA * Institute of Computional Science, ETH Zentrum, Zurich, Switzerland

4 Co to jest klasteryzacja? Podstawowe pojęcia Przykłady algorytmów klastrowania Reprezentacja podziału na klastry Podział na klastry możemy reprezentować poprzez funkcję P X : X N, która przypisuje każdej obserwacji ze zbioru X liczbę naturalną oznaczającą numer klastru. Dla danego X przez P X oznaczamy przestrzeń podziałów zbioru X. Zadanie Z algorytmem klasteryzacji możemy utozsamiać funkcję celu F X : P X R, która dla danego zbioru obserwacji X, ocenia podział. Algorytmy klasteryzacji znajdują maksimum funkcji F X.

5 Reprezentacja danych Podstawowe pojęcia Przykłady algorytmów klastrowania Przykłady według cech Dane o obserwacjach są w macierzy X o wymiarach n na p, gdzie n to liczba przykładów, a p to liczba cech (atrybutów).

6 Reprezentacja danych II Podstawowe pojęcia Przykłady algorytmów klastrowania Macierz odległości Macierz o wymiarach n na n, gdzie n to liczność zbioru danych. Posiadamy jedynie dane o odległościach (mniej informacji).

7 Podstawowe pojęcia Przykłady algorytmów klastrowania Algorytmy klastrowania hierarchicznego Ogólny schemat działania algorytmów hierarchicznych: Inicjalizacja: każdy obiekt umieść w oddzielnym klastrze for(i in 1..(n-1)) Połącz 2 najbliższe klastry Odnów macierz odległości pomiędzy klastrami Podstawowe metody liczenia odległości pomiędzy klastrami: single-link: D k.ij = min(d k.i, D k.j ) complete-link: D k.ij = max(d k.i, D k.j ) average-link: D k.ij = n i n i +n j D k.i + n j n i +n j D k.j

8 Algorytm k-średnich Podstawowe pojęcia Przykłady algorytmów klastrowania Inicjalizacja: C-podział startowy repeat for(k in 1..K) m k = argmin m i C k X i m 2 = i C k X i n for(i in 1..N) until OK C(i) = argmin X i m k 2 k Uwaga! Środek nie musi należeć do zbioru obserwacji.

9 Podstawowe pojęcia Przykłady algorytmów klastrowania Jak klastrować algorytmy klastrowania? Porównywanie optymalizowanej funkcji celu Porównywanie wyników algorytmów

10 Odległość algorytmów klastrowania Odległość algorytmów klastrowania Odległość podziałów Założenie Odległość D(F 1, F 2 ) pomiędzy algorytmami klastrowania na zbiorze danych X można przybliżać jako odległość d(, ) pomiędzy podziałami P1 X oraz PX 2 zbioru X na klastry. Zgodnie z założeniem definiujemy: D X (F 1, F 2 ) = d(p X 1, P X 2 ) gdzie: P X i = argmax P X P X F i (P X )

11 Odległość podziałów Odległość algorytmów klastrowania Odległość podziałów Odległość dwóch podziałów zbioru X będziemy liczyć ze wzoru (jest to tak zwany Rand index): d(p X 1, P X 2 ) = a + b a + b + c + d = a ( + b n 2) gdzie: a- liczba par elementów X, które należą do tego samego klastra dla obu podziałów b- liczba par elementów X, które należą do różnych klastrów w podziale P X 1 oraz PX 2 c- liczba par elementów X, które należą do tego samego klastra w P X 1, ale do różnych w PX 2 d- liczba par elementów X, które należą do różnych klastrów w P X 1, ale do tego samego klastra w PX 2 n- liczba elementów X

12 Zbiory danych Dane wejściowe Eksperymenty Użyto rzeczywistych zbiorów danych pobranych z bazy UCI Machine Learning Repository. Atrybuty z NULL owymi wartościami zostały pominięte. Dermatology Galaxy Glass Heart Ionosphere Iris Letter recognition (A,B,C) Segmentation Texture Letter recognition (X,Y,Z) Wdbc Wine Tabela: Wykorzystane zestawy danych

13 Algorytmy Dane wejściowe Eksperymenty Zbadano 35 algorytmów klastrowania, numerowanych liczbami od Niektóre z nich: Algorytm k-średnich (29) Algorytmy klastrowania hierarchicznego z użytymi metodami: SL(30), AL(5), CL(13) oraz Ward(35). Dwie wersje klastrowania spektralnego z dwoma różnymi parametrami odpowiedzialnymi za wpółczynniki skalowania

14 Algorytmy II Dane wejściowe Eksperymenty Algorytmy oparte na 7 funkcjach celu zaimplementowane w programie CLUTO: max I 1 = k S i i=1 n i (27) max I 2 = k i=1 Si (28) min E 1 = k Si R i (18) i=1 n i min G 1 = k Si R i i=1 (19) min E 2 = k i=1 n2 Si R i i (20) max H 1 = I1 E 1 (25) max H 2 = I2 E 1 (26) gdzie n i to rozmiar klastra C i oraz S i = sim(x, y), R i = sum(x, y) x,y C i j x C i,y C j

15 Algorytmy III Dane wejściowe Eksperymenty Rodzina algorytmów realizujących ideę algorytmu kameleonu, wykorzystujące 7 algorytmów opisanych na poprzednim slajdzie. Algorytm kameleon posiada 2 fazy: podziału i łączenia. Do fazy podziału wykorzystano algorytm k-średnich, do wygenerowania dużej liczby małych klastrów. W zależności od algorytmu użytego w fazie łączenia otrzymano 7 algorytmów (6-12).

16 Algorytmy IV Dane wejściowe Eksperymenty 4 algorytmy grafowe, dokonujące podziału poprzez procedurę odcięcia w grafie najbliższych sąsiadów. Algorytmy te używają 4 definicji odległości, które kształtują strukturę sąsiedztwa w grafie: współczynnik korelacji funkcja cosinus odległość euklidesową odległość Jaccarda (d AB = A B A B )

17 Opis eksperymentu 1 Dane wejściowe Eksperymenty 1 Wyznaczenie macierzy odległości 35x35 pomiędzy algorytmami uśrednionej z 12 macierzy dla różnych danych 2 Skalowanie Sammona (stress value=0.0587) 3 Dendogram algorytmów metodą complete-link Rysunek: Przykład skalowania wielowymiarowego

18 Wyniki eksperymentu 1 Dane wejściowe Eksperymenty Obserwacje: algorytm K-średnich(29) w centrum przestrzeni algorytmy typu kameleon blisko siebie (6-12) algorytmy spektralne blisko siebie (31-34)

19 Opis eksperymentu 2 Dane wejściowe Eksperymenty 1 Przygotowano 12 sztucznych zestawów danych zawierających po 3 klastry wygenerowane z 2-wymiarowych rozkładów normalnych 2 Kolejne zbiory danych różnią się poziomem separowalności klastrów 3 W wyniku zmiejszania się separowalności klastrów obserwowano przemieszczanie się algorytmów w przestrzeni

20 Wyniki eksperymentu 2 Dane wejściowe Eksperymenty Rysunek:, ścieżki odpowiadają zmianom położenia algorytmów w wyniku zmiejszania odległości pomiedzy trzema klastrami

Podobne dokumenty

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Co to znaczy eksploracja danych Klastrowanie (grupowanie) hierarchiczne Klastrowanie