Hierarchiczna analiza skupień
Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym sensie bliskie. Skupiamy się tutaj na problemie klasyfikacji, gdzie nasz materiał (dane) nie są poklasyfikowane liczba i skład klas są nieznane. Jest to sytuacja odmienna do dyskryminacji, gdzie grupy są znane a priori, a naszym celem jest zaproponowanie metody klasyfikacji dla nowych obserwacji predykcja. 2
Podobieństwo obserwacji 3 Podobieństwo obserwacji będziemy mierzyć za pomocą odległości między nimi. Duża odległość oznacza małe podobieństwo i odwrotnie. Odległości są wyznaczane dla każdej pary obserwacji i możemy je zapisać w macierzy odległości o wymiarach nxn: 0 d d 12 1n d 0 d dn1 dn2 0 21 2n - odległość między i-tą i j- tą obserwacją Pozostaje więc zdefiniować metrykę służącą do pomiaru odległości między obserwacjami... d ij
Metryki odległości (1) Najczęściej stosowane sposoby określania odległości opierają się na następujących metrykach: p 2 1) odległość euklidesowa: d ( ) ij = x l 1 il x = jl p 2) odległość miejska: d ij = x l 1 il x = jl 4
Metryki odległości (2) 3) odległość Minkowskiego: Jeśli przyjmiemy p =1, to otrzymamy odległość miejską, a gdy p =2, otrzymujemy odległość Euklidesową. n 1/ p ( ) p ij = l= 1 il jk d x x 5
Odległość Minkowskiego - uwaga Najbardziej naturalny sposób określania odległości opiera się na metryce euklidesowej. Kiedy stosujemy w analizie odległość Minkowskiego (niezależnie od stałej p), to: 1) wszystkie rozpatrywane zmienne muszą być mierzone w tych samych jednostkach miary lub muszą być niemianowane; 2) wartości poszczególnych zmiennych powinny mieć te same rzędy wielkości; w przeciwnym razie zmienne, których wartości mają wyższe rzędy wielkości miałyby większą wagę w wyznaczanej odległości; 6
Zmienne jakościowe (1) 7 Czasami obiekty są porównywane ze sobą na podstawie występowania lub braku pewnych cech - podobne obiekty mają wiele wspólnych cech. Występowanie lub brak pewnych charakterystyk może być opisane za pomocą zmiennych zerojedynkowych wartość 1, jeżeli dana cecha występuje oraz 0 w przypadku jej braku. Zmiennna 1 2 3 4 5 obiekt i 1 0 0 1 1 obiekt j 1 1 0 1 0 Kwadrat odległości Euklidesowej w tej sytuacji oznacza liczbę niezgodnych wartości zmiennych dla obu obiektów. 2 5 2 2 2 2 2 2 ij l= 1 il jl d = ( x x ) = (1 1) + (0 1) + (0 0) + (1 1) + (1 0) = 2
Zmienne jakościowe (2) Podejście takie ma poważną wadę: wspólne wystąpienia 1-1 i 0-0 mają takie same wagi. W wielu praktycznych przypadkach wystąpienie 1-1 jest o wiele większym dowodem na podobieństwo obiektów niż pojawienie się 0-0. Tablica częstości połączeń dla obiektów i oraz j: Obiekt i Obiekt j 1 0 1 a b 0 c d 8
Miary podobieństwa na bazie tablicy częstości 9 a + d Równe wagi dla wystąpień 1-1 i 0-0. a + b + c + d 2( a + d) Podwójna waga dla wystąpień 1-1 i 0-0. 2( a + d) + b + c a + d Podwójna waga dla 1-0 i 0-1. a + 2( b + c) + d a Brak wystąpień 0-0 w liczniku. a + b + c + d a Brak wystąpień 0-0 w liczniku i mianowniku a + b + c (wystąpienia 0-0 są traktowane jako nieważne).
Metody hierarchiczne (1) Metody hierarchiczne polegają na tym, że tworzy się hierarchię klasyfikacji. Jeśli mamy n obserwacji, to uzyskana hierarchia liczy n klasyfikacji składających się odpowiednio z 1, 2, 3,..., n klas. Klasyfikacja zawierająca jedną klasę stanowi zbiór wszystkich obserwacji, natomiast złożona z n klas zawiera wyłącznie klasy jednoelementowe (klasa = pojedyncza obserwacja). 10
Metody hierarchiczne (2) W zależności od sposobu otrzymania ciągu klasyfikacji wyróżnia się dwa rodzaje metod hierarchicznych: 11 aglomeracyjne (grupowania) podziału
Metody aglomeracyjne - algorytm 1) Tworzymy macierz odległości wymiaru n x n. 2) Zakładamy, że każda obserwacja sama tworzy klasę, czyli mamy n klas jednoelementowych. 3) W każdym etapie grupowania znajdujemy taką parę klas, między którymi odległość jest najmniejsza. Obie klasy następnie łączymy w jedną, czyli liczba klas zmniejsza się o 1 (po r-tym etapie grupowania liczba klas jest równa n r). 4) Następnie musimy określić odległość nowo powstałej klasy od pozostałych klas. Odległości zapisujemy w nowej macierzy odległości, która jest wymiaru (n-r) x (n-r). 5) Procedurę opisaną w punktach 3) i 4) powtarzamy aż do uzyskania klasy zawierającej wszystkie obserwacje (czyli n 1 krotnie). 12
Rodzaje analizy hierarchicznej Wielość technik hierarchicznej analizy skupień bierze się z wielu istniejących metod mierzenia odległości między skupieniem jednoelementowym (pojedynczą obserwacją) a skupieniem zawierającym kilka obserwacji, lub między dwoma grupami wieloelementowymi. 13
Metoda najbliższego sąsiada Odległość między skupieniami i oraz j jest równa najmniejszej spośród nn i j odległości między parami obserwacji z których jedna pochodzi z i-tego a druga j-tego skupienia. D KL = min i C K, j C L d ij 14
Metoda najdalszego sąsiada Odległość między skupieniami i oraz j jest równa największej spośród nn i j odległości między parami obserwacji z których jedna pochodzi z i-tego a druga j-tego skupienia. D KL = max i C j C K, L d ij 15
Metoda średniej Odległość między skupieniami i oraz j jest równa uśrednionej wartości nn i j odległości między parami obserwacji z których jedna pochodzi z i-tego a druga j-tego skupienia. 16 D KL 1 = n n K L i C j C K L d ij
Metoda środka ciężkości Odległość między klasami jest określona jako odległość między środkami ciężkości (wektorami średnich) tych dwóch klas. D = ( x x ) KL ki li i 2 17
Metoda Warda Do oszacowania odległości między skupieniami wykorzystuje się podejście analizy wariancji. Metoda ta bowiem zmierza do minimalizacji sumy kwadratów odchyleń wewnątrz skupień. Na każdym etapie spośród wszystkich możliwych do łączenia par skupień wybiera się tą, która w rezultacie łączenia daje skupienie o minimalnym zróżnicowaniu. 18
Problemy z metodami hierarchicznymi Nie ma metody zawsze dającej lepsze rezultaty niż inne. Efektywność metody zależy w dużej mierze od charakteru danych. Na przykład: w przypadku występowania obserwacji nietypowych lepsze wyniki w porównaniu z metodą Warda daje metoda najbliższego sąsiada, ale jeśli dane zawierają kilka skupień zamaskowanych losowym szumem, to sytuacja jest odwrotna. Symulacje: najlepsze Warda, średniej grupowej, najdalszego sąsiedztwa. Efektywność i czytelność metod hierarchicznych maleje wraz ze wzrostem liczby obserwacji. Nie umożliwiają korekty już utworzonych skupień, w związku z tym błędne przypisanie do skupienia nie może zostać skorygowane w kolejnym kroku. 19