Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1
1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja nienadzorowana (unsupervised classification). Idea działania - grupowanie obiektów podobnych. 2
2. Hierarchiczne metody klasteryzacji Polegają na automatycznym wiązaniu skupień. Do takich metod należą: metoda pojedynczego wiazania (ang. single linkage, SLINK), metoda pełnego wiazania (ang. complete linkage, CLINK), metoda wiazania średniego (ang. average linkage, UPGMA). Najczęściej stosuje się dwa podejścia do tworzenia klastrów: aglomeracyjne (ang. agglomerative) - za pomocą łączenia skupień wyodrębnionych w poprzednich krokach w większe skupienia, rozdzielajace (ang. divisive) - za pomocą podziału skupień na mniejsze skupienia. 3
3. Przykład klasteryzacji hierarchicznej Rysunek 1. Przykładowe dane: stopa bezrobocia według województw (listopad 2014r.). Źródło: GUS 4
4. Metoda wiazania średniego (UPGMA) Metoda średniego wiązania (ang. average linkage, lub unweighted pair-group method using arithmetic averages - w skrócie UPGMA) [2,3] opiera się na średniej mierze niepodobieństwa między parami obiektów pochodzących z różnych klastrów. Miarę niepodobieństwa ρ c między klastrami C 1 i C 2 wyliczamy na podstawie wzoru ρ c (C 1, C 2 ) = 1 N 1 N 2 ρ(x i, x j ), (1) i C 1 j C 2 gdzie N 1 i N 2 to odpowiednie liczności klastrów C 1 i C 2. Jest to najpopularniejsza metoda wyznaczania klastrów. 5
4 3.5 3 2.5 2 1.5 1 0.5 6 11 7 9 20 4 5 10 12 27 13 16 8 14 28 25 18 24 21 29 17 30 19 22 26 1 2 23 15 3 Rysunek 2. Drzewo binarne uzyskane metodą średniego wiązania. Na osi poziomej zaznaczone są numery obiektów. Źródło: opracowanie własne na podstawie danych [1] 6
5. Metoda pełnego wiazania (CLINK) Drugie podejście to metoda pełnego wiązania (ang. complete linkage) [2,3,4,5], która jest znana również jako metoda najdalszego sasiedztwa lub najdalszej odległości. Podział na klastry odbywa się wieloetapowo, w każdym kroku maksymalizowana jest miara niepodobieństwa ρ c ρ c (C 1, C 2 ) = max ρ(x i, x j ). (2) i C 1, j C 2 Skutkuje to silnym skupieniem obiektów wewnątrz klastrów. 7
7 6 5 4 3 2 1 7 12 11 8 10 24 9 1 3 23 2 6 20 15 4 5 13 14 18 16 29 17 28 21 26 19 22 25 30 27 Rysunek 3. Drzewo binarne uzyskane metodą pełnego wiązania. Źródło: opracowanie własne na podstawie danych [1] 8
6. Metoda pojedynczego wiazania (SLINK) Metoda pojedynczego wiązania (ang. single linkage) [2,3,4,5] jest zwana także metodą najbliższego sasiedztwa lub najbliższej odległości. W literaturze funkcjonuje również pod nazwą taksonomii wrocławskiej. Podział obiektów na klastry następuje wieloetapowo. W pierwszym kroku dokonujemy podziału wszystkich obiektów na dwa klastry C 1 i C 2 dzięki maksymalizacji miary niepodobieństwa między klastrami ρ c ρ c (C 1, C 2 ) = min ρ(x i, x j ). (3) i C 1, j C 2 9
W kolejnych krokach podziałowi na dwa nowe klastry ulegają obiekty zakwalifikowane w poprzednim kroku do wspólnego skupiska. Podział na podstawie miary ρ c można wykonywać aż do osiągnięcia klastrów składających się z pojedynczych obiektów. W praktyce nie jest konieczne dokonanie wszystkich możliwych kroków tej metody, a jedynie kilku początkowych. 10
1.6 1.4 1.2 1 0.8 0.6 0.4 14 22 9 13 27 3 10 5 7 12 26 18 21 6 8 16 25 30 29 19 20 4 11 17 24 28 1 15 23 2 Rysunek 4. Drzewo binarne uzyskane metodą pojedynczego wiązania. Źródło: opracowanie własne na podstawie danych [1] 11
7. Metoda k-średnich Podział obiektów na k klastrów, skupionych wokół centrów. W pierwszym kroku położenie centrów ustalone lub wybrane losowo. W kolejnych krokach położenia centrów klastrów są poprawiane. Rysunek 5. Klasteryzacja k-średnich. Źródło: [6] 12
Literatura [1] R.A. Fisher, The use of multiple measurements in axonomic problems, Annals of Eugenics, Vol. 7 (1936) pp. 179-188 [2] J. Koronacki, J. Ćwik, Statystyczne systemy uczace się, WNT, Warszawa (2005) [3] A.R. Webb, K.D. Copsey, Statistical Pattern Recognition, 3rd ed., Wiley, (2011) [4] R.O. Duda, P.E. Hart, D.G. Stork, Pattern Classification, 2nd ed., Wiley, (2000) [5] M. Krzyśko, W. Wołyński, T. Górecki, M. Skorzybut, Systemy uczace się. Rozpoznawanie wzorców, analiza skupień i redukcja wymiarowości. WNT, Warszawa (2008) [6] V. Lavrenko, Clustering 4: K-means algorithm, https://www.youtube.com/watch?v=_awzggnrcic 13