Rozdział 8 Analiza skupień (Cluster Analysis) 8.1 Wstęp Analiza skupień jest techniką statystyczną i neuronową mającą na celu porównywanie i klasyfikowanie obiektów, opisywanych za pomocą wielu atrybutów. Procedury analizy skupień pozwalają utworzyć grupy (skupienia) "najmniej odległych od siebie" lub "najbardziej podobnych do siebie" obiektów, traktowanych jako punkty wielowymiarowej przestrzeni, gdzie wymiar przestrzeni jest określony liczbą zmiennych, ze względu na które są opisywane obiekty. W technice statystycznej odległość (podobieństwo) między obiektami jest mierzona za pomocą odpowiedniej miary odległości (podobieństwa). Natomiast w technice neuronowej uczenie sieci powoduje samoorganizację skupisk. Analiza ta znajduje zastosowanie w wielu dziedzinach badań, np. w badaniach: medycznych do identyfikacji chorób i ich objawów, psychologicznych do wyodrębniania typów osobowości, społeczno-ekonomicznych do analizy typów gospodarstw domowych. Postępujący w ostatnich latach wzrost zastosowań analizy skupień w naukach opisowych, takich jak archeologia, etnografa, literaturoznawstwo, lingwistyka czy w badaniach nad sztuczną inteligencją, został w znacznej mierze spowodowany rozwojem technik komputerowych, w tym włączeniem programów analizy skupień do wielu statystycznych pakietów mikrokomputerowych. 8.2 Znaczenie grupowania obiektów i zmiennych w nauce Grupowanie obiektów wydaje się być immanentnie związane z wszelką działalnością poznawczą człowieka. Operacja grupowania leży u podstaw spostrzegania, myślenia, podejmowania decyzji, czy wreszcie powstawania określonych emocji. Każdy sąd wydawany przez człowieka poprzedzony jest zaliczeniem osądzanego obiektu do takiej czy innej grupy obiektów. Grupowaniu podlegają jednostki, klasy społeczne, 141
ustroje, wszelkie wytwory człowieka, bogactwa mineralne, flora i fauna, czy wreszcie same sposoby grupowania. Grupowanie pozwala człowiekowi nie tylko na poznawanie otaczającej go rzeczywistości, ale również na znalezienie w niej właściwego miejsca dla siebie, zaliczenie się do odpowiadającej mu grupy. Dzięki pogrupowaniu obiektów budujących otaczającą człowieka rzeczywistość ulega redukcji entropia i to co było nieznane, niepewne i nieokreślone staje się możliwe do zbadania i poznania. Problem grupowania obiektów i zmiennych w nauce jest tak stary jak sama nauka. Uporządkowanie otaczającej człowieka rzeczywistości stanowi wyjściowy warunek do zadania pytania o istotę (esencję) badanych zjawisk. Wyodrębnianie podobnych obiektów, łączenie ich w homogeniczne grupy daje możliwość takiego uporządkowania. Należy zwrócić uwagę na dualną naturę zabiegu grupowania. Z jednej strony grupowanie uwarunkowane jest potrzebą (naturalną) człowieka do nazywania, sortowania i zliczania tych wszystkich obiektów otaczającej go rzeczywistości, które są przez niego postrzegane jako różne, z drugiej zaś potrzebą porządkowania tego wszystkiego co jawi mu się jako niewyraźne, amorficzne, bezpostaciowe. Grupując obiekty (zmienne), dokonując ich uporządkowania, badacz robi pierwszy krok na drodze poznawania rzeczywistości. Grupowanie obiektów i zmiennych prowadzi do zmniejszenia entropii i w konsekwencji umożliwia zadawanie pytań dotyczących istoty rzeczy, esencji badanych zjawisk. Badacz, przystępując do grupowania obiektów, decyduje się abstrahować od pewnych ich cech, biorąc pod uwagę tylko te cechy, które są jego zdaniem ważne. Kryterium ważności przyjmuje z punktu widzenia celu badania, celu, któremu dokonywane uporządkowywanie ma służyć. Operacja grupowania w poznaniu naukowym może być wykorzystywana do wykrywania istoty zjawiska. W przypadku biologii, botaniki czy zoologii obiektami poddawanymi grupowaniu są głównie organizmy żywe. Dokonywany proces ich grupowania przyczynia się do odzwierciedlenia i zrozumienia ich morfologii i ewolucji filogenetycznej, udoskonalenia istniejących czy też tworzenia nowych systematyzacji. W naukach medycznych, psychopatologii obiektami grupowanymi są pacjenci, choroby i ich symptomy, dolegliwości, sposoby leczenia itp. Bardzo ważną rolę odgrywa, z punktu widzenia poznania naukowego operacja grupowania w takich naukach opisowych jak: antropologia, archeologia, etnografia, literaturoznawstwo, lingwistyka. Ostatnio grupowanie obiektów znajduje specyficzne zastosowanie w badaniach nad sztuczną inteligencją, komputerowo wspomaganym rozpoznawaniem: 142
obrazów, pisma ręcznego, głosu ludzkiego, sygnałów radiowych. Jak widać funkcja eksploracyjna operacji grupowania w nauce jest w wysokim stopniu znacząca. Grupowanie przyczynia się w znacznej mierze do wykrywania esencji badanych zjawisk, formułowania praw, ich konkrety oraz ich praktycznego wykorzystania. 8.3 Podział metod statystycznych analizy skupień Celem analizy skupień jest podział zbioru obiektów na pewną liczbę (k) grup (zwanych skupieniami) tak, że obiekty znajdujące się w jednej grupie są do siebie podobne (jednorodne), a obiekty w różnych grupach sa bardziej niejednorodne. W procedurach analizy skupień dostępne sa różne techniki grupowania. Techniki te różnią się rozpoczęciem procesu grupowania i hierarchią grupowania. Ze względu na kryterium rozpoczęcia procesu grupowania wyróżnia się techniki [29]: aglomeracyjne podziałowe W technikach aglomeracyjnych punktem wyjścia są pojedyncze obiekty, z których każdy stanowi osobną grupę - jednoelementowe skupienie. Następnie obiekty są łączone w liczniejsze grupy, aż do otrzymania na końcu jednej grupy, zawierającej wszystkie obiekty. W technikach podziałowych zakłada się na początku, że cały zbiór obiektów stanowi jedną grupę. Następnie grupę tę dzieli się na coraz większą liczbę grup, aż do otrzymania grup jednoelementowych. Ze względu na hierarchię grupowania wyróżnia się techniki [29]: hierarchiczne niehierarchiczne Podział metod statystycznych analizy skupień można przedstawić następująco: W technikach hierarchicznych są wyodrębnione szczeble, na których poszczególne obiekty łączą się w grupy (w przypadku aglomeracji) lub rozpadają się na podgrupy 143
Rysunek 8.1: Podział metod analizy skupień (w przypadku podziału). W technikach niehierarchicznych nie uwzględnia się porządku tworzenia grup. Obiekty, które znalazły się w jednej grupie, niekoniecznie muszą pozostawać razem. Obiekty mogą przechodzić z jednej grupy do innej. W badaniach statystycznych, spośród wszystkich technik grupowania, do najczęściej używanych należą hierarchiczne techniki aglomeracyjne. W przypadku hierarchicznych technik aglomeracyjnych najpierw każdy obiekt stanowi osobną grupę, zatem mamy tyle samo grup co obiektów. W pierwszym kroku dwa określone obiekty są łączone w jedną grupę, natomiast grupowanie pozostałych obiektów nie zmienia się. W następnym kroku może zajść jeden z dwóch przypadków: albo dwa inne obiekty zostają połączone w grupę, albo do już utworzonej grupy dwóch obiektów zostaje dołączony trzeci obiekt. Ogólnie, w każdym następnym kroku albo pojedynczy obiekt zostaje dołączony do jakiejś grupy, albo następuje połączenie dwóch istniejących grup. W każdym z tych przypadków przy przejściu do następnego kroku liczba grup zmniejsza się o jeden. Zauważmy, że w hierarchicznych metodach aglomeracyjnych grupy nie mogą rozpadać się w żadnym stadium grupowania. Jeżeli dwa dane obiekty zostaną zaliczone do tej samej grupy w pewnym kroku, to pozostaną już w tej samej grupie. Żaden obiekt nie może przechodzić jednej grupy do 144
innej. Ponieważ w każdym kroku liczba grup zmniejsza się o jeden, po n-l krokach wszystkie obiekty zostają zaliczone do jednej grupy. Za ostateczny podział na grupy przyjmuje się podział uzyskany po n-k iteracjach (mamy wówczas k grup). Liczba k może być ustalona arbitralnie przed rozpoczęciem grupowania lub w pewien sposób optymalizowana. 145
8.4 Metody hierarchiczne analizy skupień Metody hierarchiczne wyróżniają się spośród innych metod skupiania obiektów tym, że w wyniku analizy badacz otrzymuje hierarchiczną strukturę skupień. Jest ona najczęściej prezentowana w formie drzewa skupień (dendrogramu). Uzyskiwana hierarchia zezwala na dokładne określenie jak wzajemnie usytuowane są poszczególne skupienia oraz obiekty zawarte w wyodrębnionych skupieniach. W odróżnieniu od wyników uzyskiwanych na drodze stosowania metod niehierarchicznych, badacz otrzymuje tutaj strukturę skupień i strukturę obiektów uporządkowaną hierarchicznie, zgodnie z malejącym podobieństwem lub rosnącą odległością. W podejściu niehierarchicznym badacz uzyskuje jedynie informacje dotyczą tego, jakie obiekty wchodzą, w skład poszczególnych skupień, jaka jest rozpiętość poszczególnych skupień oraz jaka jest odległość pomiędzy skupieniami. Ujęcie hierarchiczne gwarantuje badaczowi, oprócz informacji uzyskiwanych w metodach niehierarchicznych, informacje dotyczące każdego pojedynczego obiektu w terminach takiej miary odległości czy też podobieństwa, w jakiej badacz pierwotnie wyrażał związki pomiędzy interesującymi go obiektami. Metody hierarchiczne w porównaniu z niehierarchicznymi mniej zniekształcają rzeczywisty obraz. Przetworzenie danych surowych jest tutaj bardziej subtelne. W celu uzyskania ostatecznej struktury skupień nie zostaje dokonana praktycznie żadna ingerencja zakłócająca naturalną konfigurację badanych obiektów. Przekształcenie wyników surowych jest stosunkowo małe. Wszystko to przyczyniło się zapewne do znacznie większej popularności metod hierarchicznych niż niehierarchicznych. Bardzo dobrym wskaźnikiem popularności metod hierarchicznych są programy komputerowe zawarte w popularniejszych pakietach i bibliotekach statystycznych. W zdecydowanej większości poświęcone są one metodom hierarchicznym. Metody niehierarchiczne sprowadzają w zasadzie do paru metod zakładających z góry liczbę skupień jakie badacz chce otrzymać. Są to przeważnie takie metody, jak metoda k- średnich oraz metody tzw. heurystyczne. Charakterystyczne jest to, iż w pakietach zawartych w dużych bibliotekach statystycznych, jak na przykład SPSS (Statistical Pakage for Social Sciences - Pakiet Statystycznych Programów Komputerowych dla Nauk Społecznych) pod hasłem analiza skupień figurują w zasadzie metody analizy hierarchicznej. Metody analizy niehierarchicznej ujmowane są osobno. Jest to zrozumiałe, gdy weźmie się pod uwagę fakt, iż są to przeważnie metody z narzucaną z góry liczbą skupień. A zatem, nie są one typowymi metodami skupiania. Badacz, aby zdecydować się na określoną z góry liczbę skupień musi dysponować pewnym zewnętrznym kryterium, które zezwoli mu na określenie tej liczby. Tym samym metody te znajdują się w zasadzie na pograniczu metod klasyfikowania i skupiania. Metody analizy hierarchicznej sa metodami z wyboru w sytuacji gdy badacz ma do czynienia ze zbiorem obiektów i chce uzyskać pełny, w niczym nie uproszczony obraz struktury podobieństwa pomiędzy badanymi obiektami. 146
8.5 Hierarchiczne dzielące metody analizy skupień na przykładzie algorytmu Gower a Jak było wspomniane wyżej, hierarchiczne metody dzielące analizy skupień prowadzą do otrzymania skupień ułożonych hierarchicznie na drodze dychotomicznych podziałów, następujących po sobie kolejno. Pierwszy podział jest podziałem całego zbioru obiektów poddawanych grupowaniu. Kolejne podziały prowadzone sa wewnątrz otrzymywanych wcześniej skupień. W 1967 roku Gower podał metodę dzielącą skupiania obiektów która składa się z trzech kroków. W pierwszym kroku wybierane są w zbiorze obiektów G takie dwa obiekty O i oraz O j, między którymi występuje największa odległość euklidesowa. Obiekty te stanowią dwa skupienia s 1 = {O i }, które jako jednoelementowe są oczywiście tożsame ze swoimi środkami ciężkości: x s1, x s2. W drugim kroku wyszukuje się te obiekty spośród pozostałych, które leżą najbliżej skupienia pierwszego s 1 i odpowiednio skupienia drugiego s2. Obiekt leżący najbliżej skupienia pierwszego s 1 i odpowiednio skupienia drugiego s 2. Obiekt leżący najbliżej skupienia pierwszego zostaje do niego dołączony, zaś obiekt leżący najbliżej skupienia drugiego zostaje dołączony do skupienia drugiego. W ten sposób uzyskuje się dwa skupienia dwuelementowe. Dla każdego z nich wyznacza się nowe środki ciężkości. W trzecim kroku wyszukiwane sa kolejne dwa obiekty spośród pozostałych, najbliższe odpowiednio pierwszemu i drugiemu skupieniu. Wyznaczane są znów nowe środki ciężkości. Krok trzeci powtarzany jest tak długo, aż wszystkie obiekty zostają zaliczone do jednego z dwóch wyodrębnionych skupień. W efekcie otrzymywany jest podział zbioru obiektów G na dwa skupienia s 1 i s 2. Procedura ta jest powtarzana dla obu otrzymywanych skupień. w wyniku tego obiekty wchodzące w skład skupienia s 1 dzielone są na dwa kolejne skupienia s 11 i s 12, a obiekty wchodzące w skład skupienia s 2 na skupienia s 21 i s 22. Dalsze podziały dychotomiczne kolejnych skupień prowadzone są tak długo, aż każdy pojedynczy obiekt będzie osobnym jednoelementowym skupieniem. Skupienia te określane są mianem tzw. skupień słabych. Dla przykładu można przyjąć sześć obiektów do pogrupowania: O 1, O 2, O 3, O 4, O 5, O 6, z których każdy jest scharakteryzowany przez dwie cechy. Rysunek 8.2 przedstawia te obiekty w dwuwymiarowej przestrzeni cech. Zgodnie z ideą metod analizy dzielącej, badacz ma więc pierwotnie skupienie sześcioelementowe: {O 1, O 2, O 3, O 4, O 5, O 6 }. Skupienie takie bywa często nazywane skupieniem silnym (mocnym). Analizę rozpoczyna się od analizy macierzy odległości (czy też podobieństwa) pomiędzy wszystkimi obiektami. Tabela 8.1 zawiera macierz kwadratów odległości euklidesowych pomiędzy wszystkimi sześcioma obiektami. Posłużenie się macierzą 147
148 algorytmu Gower a Rysunek 8.2: Graficzna prezentacja obiektów w dwuwymiarowej przestrzeni cech. kwadratów odległości, lub inaczej macierzą norm euklidesowych, jest podyktowane względami technicznymi. Posługiwanie się normami euklidesowymi może się okazać wysoce istotne w momencie interpretacji otrzymanych skupień. Jest ono równoważne z wariancją, a więc umożliwia statystyczną ocenę otrzymanych skupień. W ten sposób powstaje skala odległości, która pokazuje, jak odległe są od siebie poszczególne skupienia i obiekty. algorytm Gowera 1. Analizując macierz norm euklidesowych (tabela 8.1) wybiera się najwyższą normę. Jak widać jest to liczba 130, odpowiadająca kwadratowi odległości pomiędzy obiektami O 1 i O 4. W związku z tym obiekty te, zgodnie z algorytmem zostają zidentyfikowane jako dwa pierwsze skupienia. Uzyskano więc dwa skupienia jednoelementowe: s 1 = {O 1 } oraz s 2 = {O 4 }. Obiekty O 1 i O 4 są równocześnie tożsame ze środkami ciężkości x 1,0 oraz x 2,0. 148
O 1 O 2 O 3 O 4 O 5 O 6 O 1 0 O 2 2 0 O 3 74 72 0 O 4 130 128 8 0 O 5 65 53 17 37 0 O 6 45 41 5 25 8 0 Tabela 8.1: Macierz norm euklidesowych pomiędzy obiektami 2. W dalszym ciągu analizując macierz norm euklidesowych (tabela 8.1) wybiera się obiekty najbliższe środkom ciężkości skupień jednoelementowych s 1 i S 2, czyli po prostu obiektom O 1 i odpowiednio O 4. Jak widać, najbliższy środkowi ciężkości x 1,0 jest obiekt O 2 (norma euklidesowa=2). Zgodnie z algorytmem obiekt ten dołączany jest do skupienia s 1. W ten sposób skupienie s 1 staje się skupieniem dwuelementowym. Dla skupienia tego wyliczany jest nowy środek ciężkości x 1,1. aby tego dokonać należy obliczyć średnie wartości ze współrzędnych punktów odpowiadających obiektom O 1 i O 2. Innymi słowy należy obliczyć średnie wartości z pierwszej cechy dla obu obiektów i z drugiej cechy dla obu obiektów. Wyliczone wartości średnie stanowią współrzędne nowego środka ciężkości x 1,1 dla dwuelementowego skupienia s 1. W przypadku środka ciężkości x 2,0 najbliższy okazał się obiekt O 3 (norma euklidesowa=8). A zatem obiekt ten jest dołączany do skupienia s 2. Nowy środek ciężkości x 2,1 wyliczany dla skupienia dwuelementowego s 2, tak samo jak dla skupienia dwuelementowego s 1, ma współrzędne (9,8). 3. W kroku tym modyfikowana jest macierz norm euklidesowych (tabela 8.1), ponieważ obiekty O 1,O 2 budujące skupienie s 1 oraz obiekty O 3 i O 4 budujące skupienie s 2 muszą być zastąpione przez środki ciężkości skupień s 1 i s 2 odpowiednio x 1,1 i x 2,1. Tabela 8.2 prezentuje nową macierz norm euklidesowych pomiędzy środkami ciężkości x 1,1, x 2,1 oraz obiektami, które jeszcze nie weszły do żadnego skupienia, to znaczy obiektami O 5 i O 6. Tabela 8.2: Macierz norm euklidesowych pomiędzy punktami ciężkości i obiektami. x 1,1 x 2,1 O 5 O 6 x 1,1 0 x 2,1 99 9 O 5 59 25 0 O 6 43 13 8 0 Zgodnie z metodą, w macierzy tej wyszukujemy obiekt najbliższy jednemu z 149
150 algorytmu Gower a dwóch środków ciężkości. Jak widać obiekt O 6 jest najbliższy środkowi ciężkości x 2,1. Jednocześnie obiekt O 5 jest bliższy środkowi ciężkości x 2,1 niż środkowi ciężkości x 1,1. Zatem obiekt O 6 zostaje dołączony do skupienia s 2, natomiast do skupienia s 1 nie zostaje dołączony żaden obiekt. Skupienie s 2 po tej operacji jest już skupieniem trzyelementowym. W związku z tym wylicza się dla niego nowy środek ciężkości x 2,2, biorąc oczywiście pod uwagę położenie wszystkich trzech obiektów wchodzących w jego skład. W dalszym ciągu procedury skupiania powtarza się krok trzeci algorytmu. Powstaje zatem nowa macierz norm euklidesowych, uwzględniająca nowy środek ciężkości trzyelementowego skupienia s 2. Tabela 8.3 prezentuje nową macierz. Przeszukując tę macierz stwierdzić można, iż jedyny obiekt, który nie został dotej pory włączony do skupień O 5 jest najbliższy środkowi ciężkości x 2,2. Zatem skupienie s 2 powiększa się o nowy element, obiekt O 5. Obiekt ten jest ostatnim obiektem wprowadzonym do skupienia. Tabela 8.3: Macierz norm euklidesowych pomiędzy punktami ciężkości i obiektem x 1,1 x 2,2 O 5 x 1,1 0 x 2,2 79 O 5 59 10 0 Przystępując do dalszej analizy, zgodnie z algorytmem Gowera, powtarza się wszystkie trzy kroki dla każdego z otrzymanych skupień s 1 i s 2. skupienie s 1, jako dwuelementowe, może być podzielone tylko w jeden sposób na dwa skupienia jednoelementowe: s 1,1 = {O 2 } oraz s 1,2 = {O 1 }. Skupienie s 2 jest skupieniem czteroelementowym, zatem algorytm Gowera musibyć tutaj dalej stosowany. W efekcie algorytmu Gowera uzyskuje się hierarchiczne drzewo skupień (dendrogram) uzyskane dla prezentowanych danych. Przedstawia to rysunek 8.3. 150
Rysunek 8.3: Dendrogram uzyskany w wyniku zastosowania metody dzielącej Gowera 151
8.6 Metody hierarchiczne, aglomeracyjne analizy skupień Wiele autorów twierdzi, iż hierarchiczne aglomeracyjne metody zajmują eksponowane miejsce wśród metod analizy skupień. Punktem wyjścia każdej metody aglomeracyjnej jest macierz podobieństw lub odległości. Wszystkie metody skupiania aglomeracyjnego opierają się na jednym ogólnym schemacie postępowania. Można w nim wyróżnić trzy podstawowe kroki. Przed przystąpieniem do skupiania należy utworzyć z każdego spośród n obiektów skupienie jednoelementowe. Krok pierwszy: Wyszukać w macierzy odległości lub podobieństwa D najbliższą sobie parę skupień (s i,s j ). Krok drugi: Połączyć skupienia s i oraz s j w jedno nowe zaglomerowane skupienie s a. Krok trzeci: Zmienić macierzd uwzględniając fakt powstania nowego skupienia. Zmiany tej dokonać należy zastępując j-ty wiersz i j-tą kolumnę w macierzy D nowymi odległościami (podobieństwami) pomiędzy powstałym w kroku drugim skupieniem s a a wszystkimi pozostałymi skupieniami. Następnie skreślić i-ty wiersz oraz i-tą kolumnę. Jak widać, w kroku trzecim dokonywana jest redukcja macierzy D o jeden wymiar (jeden stopień). Prowadząc procedurę należy wykonywać sekwencyjnie pętlę: krok jeden, dwa i trzy, do momentu, w którym w macierzy D występować będzie tylko jedna wartość charakteryzująca odległość pomiędzy skupieniami. Kończąc skupianie, w ostatniej pętli należy wykonać tylko kroki: jeden i dwa. Poszczególne metody aglomeracyjne różnią się w zasadzie jedynie krokiem trzecim. Decydująca jest tutaj operacja wyznaczająca odległość lub podobieństwo pomiędzy nowo powstałym skupieniem s a a pozostałymi, istniejącymi już skupieniami. Należy zaznaczyć, że istnieje zasadnicza różnica pomiędzy metodą skupiania a jej algorytmem. Różne metody skupiania definiują w różny sposób "zawartość skupień". Innymi słowy można oczekiwać, iż różne metody zastosowane do tego samego zbioru obiektów mogą dać różne rezultaty (różne skupienia o różnej konfiguracji, innej hierarchii, itp.). Algorytmy umożliwiają efektywne uzyskiwanie skupień w obrębie poszczególnych metod. Tę samą metodę można stosować opierając się na różnych algorytmach. Różne algorytmy stosowane w obrębie tej samej metody nie zmieniają w zasadzie uzyskiwanego rezultatu. Propozycje nowych metod skupiania niekiedy są w rzeczywistości jedynie nowymi algorytmami jednej z popularniejszych metod aglomeracyjnych tzw. metody prostych połączeń. Warto wspomnieć iż metoda ta opracowana została po raz pierwszy przez Polaków: K. Florek, J. Łukasiewicz. 152
Spośród metod aglomeracyjnych można wyróżnić następujące metody: 1. Metoda prostych połączeń (Single Linkage Method) lub najbliższego sąsiedztwa (Nearest Neighbor Method), inaczej metoda minimum (Minimum Method). 2. Metoda średnich połączeń (Group Average Method - UPGMA) (Unweighted Pair-Group Method using arithmetic Averages) 3. Metoda średnich połączeń ważonych (Weightes Average Method) - WPGMA (Weighted Pair-Group Method using arithmetic Averages) 4. Metoda zupełnych połączeń (Complete linkage Method), inaczej metoda maksimum (Maximum Method). 5. Metoda środków ciężkości (Unweighted Centroid Method) - UPGMC (Unweighted Pair-Group Method using Centroids). 6. Metoda ważonych środków ciężkości (Weighted Centroid Method) - WPGMC (Weighted Pair- Group Method using Centroids) lub mediany (Median Method). 7. Metoda minimalnej wariancji (Minimum Variance Method) lub Warda (Ward Method). 153
8.6.1 Metoda prostych i zupełnych połączeń Większość algorytmów aglomeracyjnych jest wariantami algorytmów prostych połączeń (ang. single-link algorithms - SLM) lub algorytmów zupełnych połączeń (ang. complete-link algorithms - CLM). Te dwa algorytmy różnią się tylko na drodze charakteryzacji podobieństwa między parą klastrów. W metodzie prostych połączeń między dwoma klastrami, brana jest pod uwagę najmniejsza odległość między parą klastrów. W metodzie zupełnych połączeń bierze się pod uwagę odległość największą. Chociaż algorytm prostych połączeń wydaje się być prostszy z obliczeniowego punktu widzenia, praktycznie uważa się algorytm zupełnych połączeń za lepszy. Jak Klaster 2 Klaster 1 Rysunek 8.4: Najmniejsza odległość między klastrami Klaster 2 Klaster 1 Rysunek 8.5: Największa odległość między klastrami opisane zostało wcześniej, oba typy algorytmów różnią się miarą odległości między klastrami. Dla obu można podać następujące kroki: Umieścić każdą daną w osobnym klastrze. Stworzyć listę odległości między każdym klastrem dla wszystkich różnych par danych. 154
Posortować listę rosnąco. Podążając przez listę odległości, formułujemy dla każdej wartości progowej d k graf danych, gdzie pary danych bliższe od wartości progowej powiązane są w nowym klastrze przez krawędź grafu. Jeśli wszystkie dane należą do powiązanego grafu - STOP. Jeśli nie powtórz ten krok. Wyjściem algorytmu jest zagnieżdżona hierarchia grafu, która może być ucięta na danym poziomie odległości. Przykład Niech danych bedzie pięć zmiennych: x 1 = (0, 2),x 2 = (0, 0),x 3 = (1.5, 0),x 4 = (5, 0),x 5 = (5, 2) Odległości wyliczone między tymi punktami to: d(x 1,x 2 ) = 2 d(x 1,x 3 ) = 2.5 d(x 1,x 4 ) = 5.39 d(x 1,x 5 ) = 5 d(x 2,x 3 ) = 1.5 d(x 2,x 4 ) = 5 d(x 2,x 5 ) = 5.29 d(x 3,x 4 ) = 3.5 d(x 3,x 5 ) = 4.03 d(x 4,x 5 ) = 2 Obliczenia dla każdej z dwóch wymienionych metod są różne. Używając algorytmu aglomeracyjnego na bazie prostych połączeń otrzymujemy: Na wstępie dane x 2 i x 3 są włączane w klaster {x 2,x 3 }, którego minimalna odległość wynosi 1.5. Następnie x 4 i x 5 scalane są w nowy klaster {x 4,x 5 }. W tym samym czasie, minimalna odległość między klastrami {x 2,x 3 } i {x 1 } wynosi również 2. Więc te dwa klastry łączone są na tym samym poziomie podobieństwa wynoszącym jak dane x 3 i x 4. Na końcu, dwa klastry {x 1,x 2,x 3 } i {x 3,x 4 } łączone są na najwyższym poziomie. Dendrogram uzyskany poprze metodę zupełnych połączeń różni się od uzyskanego poprzez metodę prostych połączeń. Najpierw łączone są x 2 i x 3 w klaster {x 2,x 3 }. x 4 i x 5 scalane są w nowy klaster {x 4,x 5 }. Minimalna odległość zupełna między klastrami {x 2,x 3 } i {x 1 } wynosi 2.5, więc klastry te są łączone w nowy. Na końcu klaster {x 1,x 2,x 3 } i {x 4,x 5 } są łączone na poziomie najwyższym. 155
1.5 2.0 2.2 3.5 X2 X3 X1 X4 X5 Rysunek 8.6: Dendrogram stworzony przez metodę prostych połączeń 1.5 2.0 2.2 2.5 3.5 X2 X3 X1 X4 X5 Rysunek 8.7: Dendrogram stworzony przez metodę zupełnych połączeń Wybierając wartość progową podobieństwa s = 2, 2, widzimy, że klastry uzyskane dwiema różnymi metodami nie są takie same. 156
8.6.2 Metoda średnich połączeń (UPGMA) Metoda średnich połączeń określona jest przez równość określającą odległość zaglomerowanego skupienia s a od każdego innego skupienia s k : d(s a,s k ) = 0.5(d(s i,s k ) + d(s j,s k )) (8.1) Równanie 8.1 podaje przepis na obliczanie odlegości pomiędzy skupieniami na kolejnych etapach procedury prowadzonej w ramach metody średnich połączeń (krok trzeci procedury). Z powyższego równania widać, że każdorazowo wyliczana jest średnia arytmetyczna pomiędzy parami skupień (s i,s k ) i (s j,s k ). Stąd nazwa metody. W analizie skupień prowadzonej według metody średnich połączeń można wyodrębnić trzy podstawowe kroki, które składają się na całość procedury. Krok pierwszy: Przeszukać macierz odległości D i wybrać parę skupień (s i,s j ), które leżą najbliżej siebie. Krok drugi: Połączyć skupienia s i oraz s j w jedno zaglomerowane skupienie s a. Krok trzeci: Zmienic macierz D uwzględniając powstanie nowego skupienia s a. Dokonać tego skreślając i-ty wiersz oraz i-tą kolumnę, zastępując jednocześnie j-ty wiersz i j-tą kolumnę nowymi, złożonymi z odległości pomiędzy skupieniem s a a wszystkimi pozostałymi skupieniami. Odległości te wyliczyć należy jako średnie odległości pomiędzy skupieniami s i,s k oraz s j,s k. Podobnie jak w przypadku metody prostych połączeń, każdy obiekt traktowany jest jako skupienie jednoelementowe, procedura powtarzana jest cyklicznie. Różnica pomiędzy metodą prostych a metodą średnich połączeń sprowadza się w zasadzie do odmiennego wyliczania odległości pomiędzy skupieniami w trzecim kroku. Aby przeanalizować procedurę postępowania dla metody średnich połączeń poddając analizie sześć obiektów. Obiekty te są przedstawione w tabeli 8.4. Tabela 8.4: Obiekty w przestrzeni trójwymiarowej stosowane do analizy. Obiekty X Y Z O 1 0 1 10 O 2 1 0 10 O 3 10 9 8 O 4 1 1 1 O 5 1 2 9 O 6 9 9 10 Natomiast tabela 8.5 zawiera macierz D norm euklidesowych pomiędzy wszystkimi analizowanymi obiektami. Macierz ta stanowi oczywiście punkt wyjścia do prowadzonej analizy. 157
Tabela 8.5: Macierz D norm euklidesowych pomiędzy obiektami O 1, O 2, O 3, O 4, O 5, O 6 O 1 O 2 O 3 O 4 O 5 O 6 O 1 0 O 2 2 0 O 3 168 166 0 O 4 82 82 194 0 O 5 3 5 131 65 0 O 6 145 145 5 209 114 0 Przykład działania algorytmu Krok pierwszy: Podobnie jak w przypadku metody prostych połączeń wybiera się z macierzy D najmniejszą normę n e = 2 odpowiadającą skupieniom jednoelementowym s 1 = {O 1 } oraz s 2 = {O 2 }. Krok drugi: Wyodrębnione skupienia s 1 i s 2 należy połączyć w skupienie zaglomerowane s a = s (1,2). Krok trzeci Należy zmienić macierz D (tabela 8.5) na macierz D 1 (tabela 8.6) biorąc pod uwagę nowo powstałe skupienia s a. Zmiany tej dokonuje się obliczając średnie odległości pomiędzy skupieniem s a a pozostałymi. Tabela 8.6: Macierz D 1 norm euklidesowych pomiędzy skupieniem s (1,2) i obiektami O 3, O 4, O 5 i O 6 s (1,2) O 3 O 4 O 5 O 6 s (1,2) 0 O 3 167 0 O 4 82 194 0 O 5 4 131 65 0 O 6 145 5 209 114 0 Realizując kolejną pętlę algorytmu wykonuje się kolejne kroki: Krok pierwszy: Z macierzy D 1 (tabela 8.6) wybiera się najmniejszą normę n e = 4 odpowiadająca odległości pomiędzy skupieniami s 5 = {O 5 } oraz s (1,2). Krok drugi: Następnie łączy się skupienia s 5 i s (1,2) w nowe zaglomerowane skupienie s (1,2,5). Krok trzeci Zmienia się macierz D 1 (tabela 8.6)na macierz D 2 (tabela 8.7), dokonując odpowiednich przekształceń. 158
Tabela 8.7: Macierz D 2 norm euklidesowych pomiędzy skupieniem s (1,2,5) i obiektami O 3, O 4, O 6 s (1,2,5) O 3 O 4 O 6 s (1,2,5) 0 O 3 149 0 O 4 73,5 194 0 O 6 129,5 5 209 0 W przedostatniej pętli realizuje się kroki: Krok pierwszy: z macierzy D 2 (tabela 8.7)wybrana zostaje wartość n e = 5 odpowiadająca odległości pomiędzy skupieniami s 3 = {O 3 }oraz s 6 = {O 6 }. Krok drugi: Skupienia s 3 i s 6 łączy się w skupienie zaglomerowane s a = s (3,6). Krok trzeci: Dokonując przekształceń macierzy D 2 (tabela 8.7) przewidzianych dla kroku trzeciego otrzymuje się macierz D 2 (tabela 8.8). Tabela 8.8: Macierz D 3 norm euklidesowych pomiędzy skupieniami s (1,2,5), s (3,6) i obiektem O 4 s (1,2,5) s (3,6) O 4 s (1,2,5) 0 s (3,6) 139,25 0 O 4 73,5 201,5 0 Kończąc realizację algorytmu wykonuje się ostatnią pętlę: krok pierwszy: Zostaje wybrana norma n e = 73, 5 odpowiadająca odległości między skupieniami s 4 = {O 4 } oraz s (1,2,5). Drugi krok: Następuje połączenie skupienia zaglomerowanego s a = s 1,2,5,4. Krok trzeci: Przekształca się macierz D 3 (tabela 8.8)w macierz D 4. Tabela 8.9: Macierz D 4 norm euklidesowych pomiędzy skupieniami s (1,2,5,4), s (3,6) s (1,2,5,4) s (3,6) s (1,2,5,4) 0 s (3,6) 170,33 0 159
W macierzy D 4 (tabela 8.9) zawarta jest tylko jedna wartość normy euklidesowej n e = 170, 33 określająca odległość pomiędzy skupieniami s (3,6) oraz s (1,2,5,4). Można te dwa skupienia połączyć tworząc skupienie mocne, spinające całą hierarchię skupień. Krok ten kończy analizę. w wyniku przeprowadzonej analizy przedstawione są graficznie w postaci dendrogramu (rysunek 8.8). Rysunek 8.8: Dendrogram uzyskany w wyniku zastosowania metody średnich połączeń 160
8.6.3 Metoda średnich ważonych połączeń (WPGMA) Metoda średnich ważonych połączeń określona jest następującym równaniem: d(s a,s k ) = gdzie: n i -liczba obiektów należących do skupienia s i n j -liczba obiektów należących do skupienia s j n i (n i + n j ) d(s n j i,s k ) + (n i + n j ) )d(s j,s k ) (8.2) Proste przekształcenie za pomocą równania 8.2 daje ostatecznie równość określająca odległość zaglomerowanego skupienia s a od każdego innego skupienia s k. Z równania 8.2 widać, że każdorazowo wyliczana odległość jest ważoną średnią arytmetyczną pomiędzy parami skupień ((s i,s k ), ((s j,s k ). Stąd nazwa metody. przykład działania algorytmu Procedura skupiania podobnie jak w przypadku metody prostych połączeń i średnich połączeń składa się z trzech podstawowych kroków.dwa pierwsze kroki sa identyczne i sprowadzają się do wyszukania najbliższych skupień i połączenia ich w nowe skupienia zaglomerowane. Różnica występuje w kroku trzecim, w którym dokonywane jest przekształcenie macierzy odległości (podobieństw). dla omawianej tu procedury przekształcenie to opiera się na wyliczaniu średnich ważonych odległości między nowo powstałym skupieniem zaglomerowanym s a a wszystkimi pozostałymi. Jako wagi przyjmowane są liczebności względne skupień, które w kroku drugim łączone sa w skupienie zaglomerowane s a. Jeżeli przyjmie się do analizy dane z omawianego algorytmu UPGMA (tabela 8.5) to kroki algorytmu WPGMA są następujące: Krok pierwszy: Wybiera się z macierzy D (tabela 8.5) najmniejszą normę n e = 2 odpowiadającą skupieniom s 1 = {O 1 } oraz s 2 = {O 2 }. Krok drugi: Skupienia s 1 i s 2 łączy się w skupienie s a = s 1,2. Krok trzeci: Modyfikuje się macierz D (tabela 8.5) w macierz D 1. Dokonuje się tego wprowadzając nowe odległości pomiędzy nowym zaglomerowanym skupieniem s (1,2), a wszystkimi pozostałymi skupieniami. Redukcji macierzy, która jest związana z ta operacją dokonuje się na podobnych zasadach jak w przypadku metod prostych i średnich połączeń. Stosuje się jedynie inny sposób wyliczania nowych odległości (równanie 8.2). Realizując drugą pętlę wykonujemy kroki: 161
Tabela 8.10: Macierz D 1 norm euklidesowych pomiędzy skupieniem s (1,2) i obiektami O3, O4, O5 i O6 s (1,2) O 3 O 4 O 5 O 6 s (1,2) 0 O 3 167 0 O 4 82 194 0 O 5 4 131 65 0 O 6 145 5 209 114 0 Krok pierwszy: Analizując macierz D 1 (tabela 8.10) wybiera się najmniejszą normę n e = 4 charakteryzującą skupienie s (1,2) oraz s 5 = {O 5 }. Krok drugi: Tworzy się nowe skupienie s a = s (1,2,5) Krok trzeci: Przekształcając, zgodnie z obowiązującymi zasadami, macierz D 1 (tabela 8.10) uzyskuje się macierz D 2 (tabela 8.11). Tabela 8.11: Macierz D 2 norm euklidesowych pomiędzy skupieniem s (1,2,5) i obiektami O 3, O 4, O 6 s (1,2,5) O 3 O 4 O 6 s (1,2,5) 0 O 3 155 0 O 4 76,33 194 0 O 6 134,67 5 209 0 Realizując kolejną pętlę wykonujemy kroki: Krok pierwszy: W macierzy D 2 (tabela 8.11) wybiera się normę n e = 5 odpowiadającą skupieniom s 3 = {O 3 } oraz s 6 = {O 6 }. Krok drugi: Buduje się skupienia s a = s (3,6). Krok trzeci: Po odpowiednim przekształceniu macierzy D 2 z tabeli 8.11, uzyskuje się macierz D 3 (tabela 8.12). Pętla przedostatnia wygląda następująco: Krok pierwszy: W macierzy D 3 (tabela 8.12) została wybrana norma n e = 76, 33 charakteryzująca odległość pomiędzy skupieniami s (1,2,5) oraz s 4 = {O 4 }. Krok drugi: Zbudowane zostaje skupienie s a = s ()1,2,5,4. 162
Tabela 8.12: Macierz D 3 norm euklidesowych pomiędzy skupieniami s (1,2,5), s (3,6) i obiektem O 4 s (1,2,5) s (3,6) O 4 s (1,2,5) 0 s (3,6) 144,83 0 O 4 76,33 201,5 0 Tabela 8.13: Macierz D 4 norm euklidesowych pomiędzy skupieniami s (1,2,5,4), s (3,6) s (1,2,5,4) s (3,6) s (1,2,5,4) 0 s (3,6) 159 0 Krok trzeci: Następnie przekształca się odpowiednio macierz D 3 (tabela 8.12) i otrzymuje się macierz D 4 (tabela 8.13). Kończąc analizę algorytmu łączy się dwa pozostałe skupienia tworząc jedno mocne skupienie zaglomerowane s a = s (1,2,5,4,3,6). Wynik skupiania można przedstawić w postaci dendrogramu: 163
Rysunek 8.9: Dendrogram uzyskany w wyniku zastosowania metody średnich ważonych połączeń 164
8.6.4 Metoda środków ciężkości (UPGMC) Metoda środków ciężkości określona jest przez równanie 8.3. d(s a,s k ) = 0.5(d(s i,s k ) + d(s j,s k )) 0.25d(s i,s j ) (8.3) Podobnie jak w przypadku metod opisywanych w poprzednich podrozdziałach, procedura skupiania za pomocą metody środków ciężkości składa się z trzech kroków. Dwa pierwsze sa identyczne z krokami procedur przedstawionych w powyższych metodach klasteryzacji aglomeracyjnej. O odmienności procedury decyduje jak zwykle krok trzeci decydujący o przekształceniu macierzy D. Zasadniczym czynnikiem określającym specyfikę tego przekształcenia jest sposób wyliczania nowych odległości pomiędzy nowym zaglomerowanym skupieniem a skupieniami pozostałymi. Dla omawianej procedury sposób ten jest określony poprzez równanie 8.3. Przykład algorytmu UPGMC Do analizy tej metody wzięto obiekty trójwymiarowe prezentowane w tabeli 8.4 dla których podstawowe odległości są przedstawione w tabeli 8.5. Pierwsza pętla algorytmu jest następująca: Krok pierwszy: Wyszukuje się w macierzy D (tabela 8.5) najmniejszą normę n e. Odpowiada ona skupieniom s 1 = {O 1 } oraz s 2 = {O 2 }. Krok drugi: Buduje się skupienie zaglomerowane s a = s (1,2). Krok trzeci: Przekształca się macierz D (tabela 8.5), posługując się odległościami wyliczonymi z równania 8.3. Uzyskuje się w ten sposób macierz D 1 (tabela 8.14). Tabela 8.14: Macierz D 1 norm euklidesowych pomiędzy skupieniem s (1,2) i obiektami O 3, O 4, O 5 i O 6 s (1,2) O 3 O 4 O 5 O 6 s (1,2) 0 O 3 166,5 0 O 4 81,5 194 0 O 5 3,5 131 65 0 O 6 144,5 5 209 114 0 W kolejnych pętlach algorytm przedstawia się następująco: Krok pierwszy: Z macierzy D 1 (tabela 8.14) wybiera się normę najmocniejszą n e = 3, 5, odpowiadającą skupieniom s (1,2) oraz s 5 = {O 5 }. 165
Krok drugi: Buduje się skupienie s a = s 1,2,5. Krok trzeci: Stosując równanie 8.3 przekształca się macierz D 1 (tabela 8.14) w macierz D 2 (tabela 8.15). Tabela 8.15: Macierz D 2 norm euklidesowych pomiędzy skupieniem s (1,2,5) i obiektami O 3, O 4, O 6 s (1,2,5) O 3 O 4 O 6 Trzecia pętla jest następująca: s (1,2,5) 0 O3 147,875 0 O4 72,375 194 0 O6 128,375 5 209 0 Krok pierwszy: Z macierzy D 2 (tabela 8.15) wybiera się najmniejszą normę n e = 5 odpowiadającą skupieniom s 3 = {O 3 } oraz s 6 = {O 6 }. Krok drugi: Buduje się skupienie zaglomerowane s a = s (3,6). Krok trzeci: Stosując równanie 8.3 przekształca się macierz D 2 w macierz D 3 (tabela 8.16). Tabela 8.16: Macierz D 3 norm euklidesowych pomiędzy skupieniami s (1,2,5), s (3,6) i obiektem O 4 s (1,2,5) s (3,6) O 4 s (1,2,5) 0 s (3,6) 136,87 0 O 4 72,37 200,25 0 Przedostatnia pętla (czwarta) wykonuje następujące kroki: Krok pierwszy: Wybiera się z macierzy D 3 normę n e = 72, 37 odpowiadającą skupieniom s (1,2,5) i s 4 = {O 4 }. Krok drugi: Buduje się skupienie s a = s (1,2,5,4). Krok trzeci: Stosując analogicznie reguły jak w poprzednich pętlach buduje się nowa macierz D 4 (tabela 8.17) Ostatnia pętla ma tylko dwa kroki postępowania: 166
Tabela 8.17: Macierz D 4 norm euklidesowych pomiędzy skupieniami s (1,2,5,4), s (3,6) s (1,2,5,4) s (3,6) s (1,2,5,4) 0 s (3,6) 150,47 0 Krok pierwszy: Macierz D 4 (tabela 8.17) zawiera tylko jedną normę n e = 150, 47 opisującą odległość pomiędzy skupieniami s (1,2,5,4) i s (3,6) Krok drugi: Kończąc analizę buduje się mocne skupienie s a = s (1,2,5,4,3,6) Efektem pracy algorytmu jest dendrogram przedstawiony na rysunku 8.10. Rysunek 8.10: Dendrogram uzyskany w wyniku zastosowania metody środków ciężkości 167
8.6.5 Metoda ważonych środków ciężkości (WPGMC) Metoda ważonych środków ciężkości (WPGMC) określona jest następującym równaniem: d(s a,s k ) = (n id(s i,s k ) + n j d(s j,s k ) ninj n i +n j d(s i,d j )) (n i + n j ) gdzie: n i -liczba obiektów należących do skupienia s i n j -liczba obiektów należących do skupienia s j n k -liczba obiektów należących do skupienia s k (8.4) Równanie 8.4 określa sposób wyliczania odległości pomiędzy nowo powstałymi skupieniem zaglomerowanym s a a pozostałymi skupieniami. Jak w przypadku wszystkich metod aglomeracyjnych omawianych powyżej procedura składa się z trzech kroków. Od dotychczas omówionych procedur odróżnia ją oczywiście tylko krok trzeci, a dokładniej - sposób wyliczania odległości pomiędzy nowo powstałymi skupieniami. Równanie 8.4 określa sposób wyliczania tych odległości. Do analizy tej metody wzięto obiekty trójwymiarowe prezentowane w tabeli 8.4 dla których podstawowe odległości są przedstawione w tabeli 8.5. Przykład algorytmu Krok pierwszy: Podobnie jak w przypadku procedur opisywanych do tej pory, wybiera się z macierzy D (tabela 8.5) najmniejszą normę n e = 2 odpowiadającą odległości pomiędzy skupieniami s 1 = {O 1 } i s 2 = {O 2 }. Krok drugi: Buduje się skupienie s a = s (1,2). Krok trzeci: Posługując się równością 8.4 wylicza się nowe odległości pomiędzy skupieniem s (1,2) a pozostałymi skupieniami. Następnie przekształca się macierz D (tabela 8.5) na macierz D 1 (tabela 8.18). W kolejnych pętlach algorytm przedstawia się następująco: Krok pierwszy: Z macierzy D 1 (tabela 8.18)wybiera się nową normę n e = 3, 5 odpowiadającą skupieniom s (1,2) i s 5 = {O 5 }. Krok drugi: Łączy się skupienia s (1,2) i s 5 w zaglomerowane skupienie s a = s (1,2,5). Krok trzeci: Stosując równanie 8.4 przekształca się macierz D 1 (tabela 8.18) w macierz D 2 (tabela 8.19) 168
Tabela 8.18: Macierz D 1 norm euklidesowych pomiędzy skupieniem s (1,2) i obiektami O 3, O 4, O 5 i O 6 s (1,2) O 3 O 4 O 5 O 6 s (1,2) 0 O 3 166,5 0 O 4 81,5 194 0 O 5 3,5 131 65 0 O 6 144,5 5 209 114 0 Tabela 8.19: Macierz D 2 norm euklidesowych pomiędzy skupieniem s (1,2,5) i obiektami O 3, O 4, O 6 s (1,2,5) O3 O4 O6 s (1,2,5) 0 O3 153,89 0 O 4 72,5 194 0 O 6 133,56 5 209 0 Trzecia pętla jest następująca: Krok pierwszy: W macierzy D 2 (tabela 8.19) wyszukuje się najmniejszą normę n e = 5, która odpowiada skupieniom s 3 = {O 3 } i s 6 = {O 6 }. Krok drugi: Buduje się skupienie s a = s (3,6). Krok trzeci: Zgodnie z obowiązującymi zasadami przekształca się macierz D 2 (tabela 8.19) w macierz D 3 (tabela 8.20). Tabela 8.20: Macierz D 3 norm euklidesowych pomiędzy skupieniami s (1,2,5), s (3,6) i obiektem O 4 s (1,2,5) s (3,6) O4 s (1,2,5) 0 s (3,6) 142,475 0 O 4 75,2 200,25 0 Przedostatnia pętla (czwarta) wykonuje następujące kroki: Krok pierwszy: Z macierzy D 3 (tabela 8.20)wybiera się normę n e = 75, 2. Norma ta odpowiada odległości pomiędzy skupieniami s (1,2,5) oraz s 4 = {O 4 }. Krok drugi: Buduje się skupienie s a = s (1,2,5,4). 169
Krok trzeci: Zgodnie4 z dotychczasowymi zasadami buduje się nową macierz D 4 (tabela 8.21). Tabela 8.21: Macierz D 4 norm euklidesowych pomiędzy skupieniami s (1,2,5,4), s (3,6) s (1,2,5,4) s (3,6) s (1,2,5,4) 0 s (3,6) 142,82 0 Ostatnia pętla ma tylko dwa kroki postępowania: Krok pierwszy: Jedyna norma zawarta w macierzy D 4 (tabela 8.21) n e = 142, 82 charakteryzuje odległość pomiędzy skupieniami s (1,2,5,4) oraz s (3,6). Krok drugi: W końcowym etapie procedury buduje się skupienie mocne s a = s (1,2,5,4,3,6) wyodrębnione w wyniku analizy skupienia. Efektem pracy algorytmu jest dendrogram przedstawiony na rysunku 8.11. Rysunek 8.11: Dendrogram uzyskany w wyniku zastosowania metody ważonych środków ciężkości 170
8.6.6 Metoda minimalnej wariancji Metoda minimalnej wariancji jest określona przez równanie wyliczające odległość zaglomerowanego skupienia s a od każdego innego skupienia s k. d(s a,s k ) = (n i + n k )d(s i,s k ) + (n j + n k )d(s j,s k ) n k d(s i,s j ) (n i + n j + n k ) (8.5) gdzie: n i -liczba obiektów należących do skupienia s i n j -liczba obiektów należących do skupienia s j n k -liczba obiektów należących do skupienia s k Posługując się równaniem 8.5 dokonuje się niezbędnych przekształceń macierzy odległości D w trzecim kroku procedury skupiania. Ważną cechą tej metody jest zapewnienie minimalizacji kryterium wariancyjnego. Kryterium to głosi, że wariancja wewnątrz skupień jest minimalna. Metoda ta zapewnia zatem homogeniczność wewnątrz skupień i heterogeniczność pomiędzy skupieniami (w sensie minimalizacji i maksymalizacji wariancji). Jak w przypadku metod opisywanych wcześniej algorytm minimalnej wariancji składa się z trzech kroków. Różnicującym krokiem jest oczywiście krok trzeci, w którym w przypadku metody minimalnej wariancji odległość pomiędzy nowo powstałymi skupieniami zaglomerowanym s a a skupieniami pozostałymi s k wyliczana jest na podstawie równania 8.5. Do przedstawienia funkcjonowania algorytmu minimalnej wariancji wzięto dane z poprzednich analiz (tabela 8.4) W pętli pierwszej jak zwykle wybiera się z macierzy D (tabela 8.5) najmniejszą normę n e = 2. Następnie w kroku drugim łączy się w jedno zaglomerowane skupienie skupienia jednoelementowe odpowiadające tej normie s a = S (1,2). W kroku trzecim wylicza się nowe odległości pomiędzy skupieniem s (1,2) a wszystkimi pozostałymi skupieniami, przekształcając jednocześnie macierz D w macierz D 1 (tabela 8.22). Tabela 8.22: Macierz D 1 norm euklidesowych pomiędzy skupieniem s (1,2) i obiektami O 3, O 4, O 5 i O 6 s (1,2) O3 O4 O5 O6 s (1,2) 0 O 3 222 0 O 4 108,67 194 0 O 5 4,67 131 65 0 O 6 192,67 5 209 114 0 171
w kolejnych pętlach: drugiej, trzeciej i czwartej z kolejno tworzonych macierzy D 1 (tabela 8.22), D 2 (tabela 8.23), D 3 (tabela 8.24) wybiera się najmniejsze normy i tworzy się odpowiadające im skupienia zaglomerowane: s (1,2,5) i s (6,3) i s (1,2,5,4). Tabela 8.23: Macierz D 2 norm euklidesowych pomiędzy skupieniem s (1,2,5) i obiektami O 3, O 4, O 6 s (1,2,5) O 3 O 4 O 6 s (1,2,5) 0 O 3 230,83 0 O 4 112,83 194 0 O 6 200,34 5 209 0 Tabela 8.24: Macierz D 3 norm euklidesowych pomiędzy skupieniami s (1,2,5), s (3,6) i obiektem O 4 s (1,2,5) s (3,6) O 4 s (1,2,5) 0 s (3,6) 341,94 0 O 4 112,83 267 0 W ostatniej, piątej pętli wykonuje się tylko dwa kroki analizy. buduje się mocne skupienie zaglomerowane na podstawie macierzy D 4 (tabela 8.25), stworzonej w pętli czwartej S (1,2,5,4,3,6). Tabela 8.25: Macierz D 4 norm euklidesowych pomiędzy skupieniami s (1,2,5,4), s (3,6) s (1,2,5,4) s (3,6) s (1,2,5,4) 0 s (3,6) 381 0 W wyniku przeprowadzonej analizy można wykreślić dendrogram ilustrujący otrzymaną hierarchię skupień (rysunek 8.12). 172
Rysunek 8.12: Dendrogram uzyskany w wyniku zastosowania metody minimalnej wariancji 173
8.7 Grupowanie niehierarchiczne Każdy algorytm niehierarchiczny uzyskuje pojedynczy podział zamiast struktury klastrów, takich jak dendrogram stworzony przez algorytmy hierarchiczne. Klasteryzacja niehierarchiczna ma przewagę nad hierarchiczną w aplikacjach zawierających ogromne ilości danych, dla których tworzenie dendrogramu byłoby procesem bardzo złożonym obliczeniowo. Do metod niehierarchicznych można zaliczyć algorytmy: K-Średnich(K-Means), Narastająca, Rozmyty K-Średnich (Fuzzy K-Means). 174
8.7.1 Algorytm K-means Najbardziej popularnym algorytmem niehierarchicznym jest algorytm bazujący na błędzie kwadratowym. Główny cel jest taki, że dla ustalonej liczby klastrów minimalizuje się błąd kwadratowy. Przypuśćmy, że dany mamy zbiór N danych w przestrzeni n-wymiarowej, który ma być podzielony na K klastrów {C 1,C 2,...,C k }, gdzie k = 1,...,K. Średni wektor M k klastra C k jest zwany centrum klastra lub dany jest wzorem: M k = 1 n k x ik (8.6) n k i=1 gdzie x ik jest i-tą zmienną należącą do klastra C k. Błąd kwadratowy dla klastra C k zwany również wariancją wewnątrzklastrową dany jest wzorem: n k e 2 k = (x ik M k ) 2 (8.7) i=1 Błąd kwadratowy dla całej przestrzeni zawierającej klastry jest sumą wariancji wewnątrzklastrowych: K Ek 2 = e 2 k (8.8) Celem tej metody klasterującej jest takie znalezienie podziału na K klastrów, który zminimalizuje Ek 2 dla danego K. Najprostszym i najbardziej rozpowszechnionym algorytmem bazującym na wyliczaniu błędu kwadratowego jest algorytm K-means. Jest to algorytm efektowny obliczeniowo i dający zaskakująco dobre wyniki. Podstawowe jego kroki to: k=1 Wybierz wejściowy podział z K klastrami zawierający losowo wybrane dane i wylicz centra klastrów. Stwórz nowy podział przez przydzielenie każdej danej do najbliższego centrum klastra. Wylicz nowe centra klastrów. powtarzaj kroki 2 i 3 dopóki, dopóty przynależność do klastrów nie ustabilizuje się, bądź optymalna wartość funkcji przypisania jest znana. Przykład Niech dane będą wartości: x 1 = (0, 2),x 2 = (0, 0),x 3 = (1.5, 0),x 4 = (5, 0),x 5 = (5, 2) 175
Przypuśmy, że wymagany jest podział zawierający dwa klastry, i wstępnie sformowane klastry zawierają losowo przydzielone dane C 1 = {x 1,x 2,x 4 } i C 2 = {x 3,x 5 } Wtedy centra tych klastrów wynoszą: M 1 = {(0 + 0 + 5)/3, (2 + 0 + 0)/3} = {1.66, 0.66} M 2 = {(1.5 + 5)/2, (0 + 2)/2} = {3.25, 1.00} Wariancja wewnątrzklastrowa, po wstępnym losowym rozkładzie wynosi: e 2 1 = [(0 1.66) 2 +(2 0.66) 2 ]+[(0 1.66) 2 +(0 0.66) 2 ]+[5 1.66) 2 +(0 0.66) 2 ] = 19.36 e 2 1 = [(1.5 3.25) 2 + (0 1) 2 ] + [(5 3.25) 2 + (2 1) 2 ] = 8.12 Wtedy całkowity błąd kwadratowy wynosi: E 2 = e 2 1 + e 2 2 = 19.36 + 8.12 = 27.48 Teraz, jeśli przeniesiemy dane w zależności od minimalnej odległości od centr M 1 i M 2, wtedy nowy rozkład zmiennych w klastrach będzie wyglądał następująco: d(m 1,x 1 ) = (1.66 2 + 1.34 2 ) = 2.14 i d(m 2,x 1 ) = 3.40 x 1 C 1 d(m 1,x 2 ) = 1.79 i d(m 2,x 2 ) = 3.40 x 2 C 1 d(m 1,x 3 ) = 0.83 i d(m 2,x 3 ) = 2.01 x 3 C 1 d(m 1,x 4 ) = 3.41 i d(m 2,x 4 ) = 2.01 x 4 C 2 d(m 1,x 5 ) = 3.60 i d(m 2,x 5 ) = 2.01 x 5 C 2 Otrzymaliśmy nowe klastry C 1 = {x 1,x 2,x 3 } i C 2 = {x 4,x 5 }, których centra wynoszą teraz: M 1 = {0.5, 0.67} M 2 = {5.0, 1.0} Odpowiednio wariancja wewnątrzklastrowa i całkowity błąd kwadratowy wynoszą teraz: e 2 1 = 4.17 e 2 2 = 2.00 E 2 = 6.17 Jak widać, po pierwszej iteracji błąd kwadratowy został znacząco zredukowany z wartości 27.48 do wartości 6.17. W tym przykładzie pierwsza iteracja jest zarazem 176
ostatnią, ponieważ jeśli przeliczymy odległości między danymi a centrami otrzymamy identyczny rozkład danych w klastrach. Algorytm K-means ma wielu zwolenników dzięki szybkości działania. Jego złożoność czasowa wynosi O(nkl), gdzie n to liczba danych, k to liczba klastrów, a l liczba iteracji. Algorytm ten nie wymaga również wiele pamięci. Jego złożoność przestrzenna wynosi O(k + n) i dzięki temu możliwe jest trzymanie wszystkich danych w pamięci, dzięki czemu czas dostępu do wszystkich elementów jest bardzo mały i algorytm jest bardzo efektywny. Wadą algorytmu jest jego mała odporność na szumy i dane niepasujące, ponieważ znacząco one wpływają na wartość średnią. Odmianą algorytmu K-means, która jest bardziej odporna na szumy jest algorytm K-mediods, który zamiast wartości średnich wylicza obiekty reprezentujące klastry. 177
8.7.2 Rozmyta metoda analizy skupień Rozmyta metoda K-Średnich (Fuzzy C-Means - FCM) jest iteracyjną metodą skupiania, której idea jest podobna do stosowanej w zwykłej metodzie k-średnich. w tej metodzie centra skupień (cluster neters) - tj. obiekty, które najlepiej, według przyjętego kryterium miary odległości reprezentują skupienia - są otrzymywane w toku iteracji. Rozmyta metoda K-Średnich FCM (Fuzzy C-Means) umożliwia porównywanie obiektów, pozwalając na ujęcie (uwzględnienie) niepewności i niedokładności (rozmytości) właściwej dla tego problemu za pomocą aparatu pojęciowego i matematycznego teorii zbiorów rozmytych. Na podstawie tego algorytmu orzeka się nie to, czy obiekty należą czy nie należą do określonej klasy (jak w klasycznej metodzie skupiania), ale określamy ich stopień mniejszy lub większy przynależności do różnych klas. Liczba skupień musi zostać podana przed rozpoczęciem procedury iteracyjnego skupiania. Ta liczba skupień musi być większa lub równa 2 i mniejsza lub równa liczbie obiektów, dla których budowane są skupienia. Musimy też podać tzw. wykładnik m (m > 1) (ang. exponent). Wykładnik m określa stopień rozmytości rezultatów skupiania. Jeżeli m 1, to wyniki stają się coraz bardziej zbliżone do wyników otrzymanych za pomocą metody "nierozmytej". Jeżeli m, to wartości stopni przynależności obiektów do skupień mają tendencję przyjmowania wielkości coraz bliższych do odwrotności liczby klas c, tj. 1 c. Można założyć, że K to liczba obiektów x k (k = 1,...K), które są opisywane przez N cech z wartościami x k,n (n = 1,...,N). Obiekty te można podzielić na c skupień w następujący sposób: 1. Zainicjowanie skupienia i gdzie i = 1,...,c a k = 1,...K (np. losowo), tak że: c = 1 µ ik [0, 1] dla i = 1,...c k = 1,...,K (8.9) i=1 2. Obliczenie centrów ν i, za pomocą wartości µ ik (określonych w kroku poprzednim) K (µ ik ) m x k k=1 ν i = dla i = 1,...,c. (8.10) K (µ ik ) m k=1 3. Obliczenie nowych wartości stopni przynależności µ nowe ik za pomocą centrów skupień ν i z kroku poprzedniego: µ nowe ik = c 1 ( ν i x k j=1 ν j x k ) dla i = 1,...,c k = 1,...,K (8.11) 178