Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Konrad Miziński 14 stycznia 2015 1 Temat projektu Grupowanie hierarchiczne na podstawie algorytmu k-średnich. 2 Dokumenty powiazanie Jan Kniahnicki, Konrad Miziński, Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja wstępna 3 Zrealizowane funkcjonalności 3.1 Model danych Model danych wykorzystany w aplikacji przedstawiony został na rysunku 1. Wszystkie obiekty podlegajace grupowaniu sa tego samego typu bazowego - Cluster (realizowanego w Javie w postaci interfejsu). Implementacja tego interfejsu sa zarówno pojedyncze punty jak i ich grupy. Klasa Point reprezentuje punkt w dowolnej przestrzeni n-wymiarowej, zaś klasa PointsCluster grupę dowolnych obiektów typu Cluster (w szczególności klas Point oraz PointsCluster). Podejście takie pozwala na użycie tej samej implementacji algorytmu k-średnich do grupowania punktów (w pierwszej fazie grupowania hierarchicznego) oraz ich grup (w kolejnych jego fazach). 1

Rysunek 1: Model danych użyty w aplikacji 3.2 Miary odległości W aplikacji możliwe jest zdefiniowanie miary odległości, która zostanie wykorzystana przez algorytmy wykonujace grupowanie. Funkcjonalność ta zrealizowana została z wykorzystaniem wzorca strategii. W celu wygenerowania właściwej strategii wyliczania odległości należy skorzystać z klasy DistanceStrategyFactory generujac a odpowiednia strategię na podstawie stopnia odległości Minkowskiego oraz jednej z enumeratywnych wartości oznaczajacych: odległość między centroidami poszczególnych klastrów, średnia odległość pomiędzy punktami klastrów, minimalna odległość pomiędzy punktami poszczególnych klastrów. 3.3 Algorytm k-średnich Grupowanie metoda k-średnich realizuje klasa KMeansClusterer. Do poprawnego działania wymaga zdefiniowania odpowiedniej strategii pomiaru odległości. Dostarczona implementacja pozwala ograniczyć liczbę iteracji algorytmu za pomoca 2 parametrów: oczekiwana dokładność - względna różnica pomiędzy centroidami w danej i poprzedniej iteracji, maksymalna liczba iteracji. Dodatkowo wymagane jest zdefiniowania liczby grup, na które powinien zostać podzielony zbiór punktów. 3.4 Algorytm hierarchiczny Algorytm hierarchiczny (realizuje go klasa HierarhicalClusterer) zbudowany został na podstawie opisane wyżej algorytmu k-średnich. W zaproponowanym podejściu polega na stopniowej redukcji liczby klastrów do ilości zdefiniowanej jako cel grupowania. W 2

pojedynczej iteracji wykorzystuje algorytm k-średnich do pogrupowania klastrów otrzymanych w poprzedniej iteracji w mniejsza ich liczbę. Ilość klastrów powstałych kolejnych iteracjach wyliczana jest na podstawie parametru, zwanego reduce factor, stanowiacego stosunek ilości klastrów w i-tej iteracji do ilości klastrów w iteracji i+1-ej. 3.5 Klasy pomocnice Zostały zdefiniowane następujace klasy pomocnicze: klasa PointsLoader, pozwalajaca na wczytanie zbioru punktów z pliku oraz klasa DrawUtil, pozwalajaca na wizualizację wyników w przestrzeni 2-wymiarowej. 4 Uruchomienie Podstawowym zadaniem dostarczonego zestawu klas jest służenie jako biblioteka języka Java. Projekt zawiera jednak klasę Main pozwalajac a na uruchomienie aplikacji z linii poleceń. Wymaga ona przekazania podczas wywołania wszystkich ww. parametrów algorytmów oraz nazwy pliku, z którego maja być wczytywane dane. Jej działanie polega na: wczytaniu z pliku zbioru punktów, wykonania grupowania algorytmem hierarchicznym, wyświetlenia graficznej reprezentacji grupowania w przestrzeni 2-wymiarowej. Dodatkowo podczas budowania (budowanie należy wykonać programem maven w wersji 2 lub 3) aplikacji tworzony jest podkatalog build zawierajacy. archiwum JAR, uwzględniajace klasę Main w pliku MANIFEST.MF, przykładów testowych w postaci plików tsv, skryptu powłoki zawierajacego przykład uruchomienia aplikacji, wraz z niezbędnymi parametrami, oraz komentarzami opisujacymi znaczenie parametrów. 5 Testy Testy przeprowadzono na zbiorach danych example.tsv, example2.tsv i example3.tsv, dostarczonych wraz ze źródłami projektu oraz zawierajacymi odpowiednio 600, 20000 i 2700 punktów. Testowaniu podlegał podział zadanego zbioru danych na zadana liczbę klastrów za pomoca grupowania hierarchicznego wykorzystujacego algorytm k-średnich przy różnych wartościach następujacych parametrów: metoda pomiaru odległości (patrz 3.2), stopień odległości Minkowskiego, 3

oczekiwana dokładność oraz maksymalna liczba iteracji algorytmu k-sasiadów, parametr reduce factor algorytmu hierarchicznego. Przykłady osiagniętych wyników przedstawiono na rysunkach 2, 3, 4, 5 i 6 zaś wnioski opisano w sekcji 6. Rysunek 2: Grupowanie małej ilości danych. 4

Rysunek 3: Grupowanie większej ilości danych, Rysunek 4: Grupowanie danych z wykorzystaniem odległości Minkowskiego niskiego stopnia. 5

Rysunek 5: Grupowanie dużej ilości danych z rozluźnionymi parametrami algorytmu. Na granicach pomiędzy docelowymi klastrami widać efekty grupowania w mniejsze klastry we wczesnych iteracjach algorytmu. Rysunek 6: Grupowanie wykorzystujace minimalna odległość między punktami jako miarę odległości. 6

6 Wnioski 6.1 Grupowanie małej ilości danych W przypadku małych ilości danych algorytm pozwala na osiagnięcie grupowania wysokiej jakości. Wymaga to jednak ustawienia dość restrykcyjnych parametrów algorytmu. Oczekiwana dokładność algorytmu k-sasiadów powinna wynosić 0, a maksymalna liczba iteracji powinna przewyższać tę, która pozwala taka dokładność osiagn ać. Parametr reduce factor powinien być zbliżony do 1 (Zadowalajace wyniki otrzymywano dla wartości z przedziału 1.1-1.5). Oznacza to, że w pojedynczej iteracji algorytmu hierarchicznego, tylko niektóre klastry podlegaja łaczeniu i w kolejnej iteracji moga być dalej łaczone z innymi niegrupowanymi w tej iteracji klastrami (Co nie możliwe dla wartości >= 2 tego parametru). 6.2 Grupowanie dużych ilości danych Wraz ze wzrostem ilości danych należy stopniowo rozluźniać parametry algorytmu w celu zapewnienia sensownych czasów wykonania. Okazuje się, że zadowalajace efekty można osiagn ać stosujac jedynie 2 iteracje algorytmu k-sasiadów. Oczekiwana dokładność pozostaje wtedy bez znaczenia, gdyż i tak nie zostaje nigdy osiagnięta. Parametr reduce factor powinien być tak dobrany, aby redukować ilość klastrów w kolejnych iteracjach co najmniej dwukrotnie. Podczas testów okazało się, że doskonale w tej roli sprawdzaja się kolejne pierwiastki z liczby grupowanych punktów. Mimo, że grupowanie dużych ilości danych nie zawsze dawało zadowalajace rezultaty, prawie zawsze dało się wskazać takie grupy klastrów, które po połaczeniu dawały zadowalajacy podział na co najmniej 2 klastry. Klastry te mogły być dalej poddawane grupowaniu tym samym algorytmem, ale z bardziej restrykcyjnymi parametrami. Takie podejście pozwoliłoby na osiagnięcie grupowania naprawdę wysokiej jakości, szczególnie gdyby jako parametr grupowania podawać większa liczbę klastrów niż docelowa. Minusem tego podejścia jest konieczność iteracji użytkownika w wykonywanie algorytmu. Przykład pogrupowania dużej ilości punktów widoczny jest na rysunku 5. 6.3 Wpływ miary odległości na jakość grupowania Podczas testów zastosowano 3 sposoby pomiaru odległości: odległość pomiędzy centroidami, średnia odległość między punktami oraz minimalna odległość między punktami. O ile wybór jednego z 2 pierwszych sposobów nie wpływał znaczaco na jakość grupowania, to w 3 przypadku wyniki grupowania były znaczaco różne. Przykład grupowania z wykorzystaniem takiego podejścia przedstawia rysunek 6. Ponieważ wizualizacja wyników odbywała się w przestrzeni euklidesowej. Właśnie ta miara stosowana była do oceny jakości grupowania. Eksperymenty wykonane dla innych stopni odległości Minkowskiego miały charakter jedynie pogladowy. O ile grupowanie dla stopni >=1 nie różniło się zbytnio od grupowania z zastosowaniem miary euklidesowej to dla wartości <<1 otrzymywano dość nieoczekiwane rezultaty. Przykładowy wynik takiego grupowania przedstawia rysunek 4. Oceniajac grupowanie dla różnych odległości Minkowskiego należy wziać pod uwagę degenerację okręgów jednostkowych wraz ze zmiana jej stopnia. O ile nie jest ona aż tak duża w przypadku odległości euklidesowej i miary Czebyszewa (stopień odległości Minkowskiego daż acy do nieskończoności), to dla miary euklidesowej i miary stopnia daż acego do zera jest już ona znaczna. 7