Analiza skupień. Idea

Podobne dokumenty
Analiza skupień. Idea

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

Analiza skupień. Idea

Hierarchiczna analiza skupień

Analiza skupień. Waldemar Wołyński, Tomasz Górecki. Wydział Matematyki i Informatyki UAM Poznań. 6 marca 2013

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Analiza składowych głównych. Wprowadzenie

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Skalowanie wielowymiarowe idea

Elementy statystyki wielowymiarowej

Czym jest analiza skupień?

Sieci Kohonena Grupowanie

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Analiza składowych głównych idea

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

STATYSTYKA I DOŚWIADCZALNICTWO

STATYSTYKA I DOŚWIADCZALNICTWO

Spacery losowe generowanie realizacji procesu losowego

Programowanie dynamiczne i algorytmy zachłanne

Wykład 4: Statystyki opisowe (część 1)

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

Taksonomia numeryczna co to jest?

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Optymalizacja ciągła

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Zagadnienie klasyfikacji (dyskryminacji)

Programowanie celowe #1

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Metody numeryczne I Równania nieliniowe

KADD Minimalizacja funkcji

Zmienne zależne i niezależne

Techniki grupowania danych w środowisku Matlab

Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).

Algorytmy genetyczne

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Analiza korespondencji

3. FUNKCJA LINIOWA. gdzie ; ół,.

Stosowana Analiza Regresji

PDF created with FinePrint pdffactory Pro trial version

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Testy nieparametryczne

Analiza składowych głównych

Agnieszka Nowak Brzezińska

Programowanie liniowe

(x j x)(y j ȳ) r xy =

Analiza Skupień Cluster analysis

Drzewa. Jeżeli graf G jest lasem, który ma n wierzchołków i k składowych, to G ma n k krawędzi. Własności drzew

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Rysunek 1: Przykłady graficznej prezentacji klas.

Wykład 5: Statystyki opisowe (część 2)

Algorytm grupowania danych typu kwantyzacji wektorów

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

Metody klasyfikacji i klasteryzacji obiektów wielocechowych.

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

CLUSTERING. Metody grupowania danych

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

Wykład 10 Skalowanie wielowymiarowe

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Metody statystyczne kontroli jakości i niezawodności Lekcja II: Karty kontrolne.

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Relacje. opracował Maciej Grzesiak. 17 października 2011

Metoda simpleks. Gliwice

WYKŁAD 10. kodem pierwotnym krzywej jest ciąg par współrzędnych x, y kolejnych punktów krzywej: (x 1, y 1 ), (x 2, y 2 ),...

Inteligencja obliczeniowa

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium IX: Analiza skupień

Algorytmy i str ruktury danych. Metody algorytmiczne. Bartman Jacek

Digraf. 13 maja 2017

Metody Programowania

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Algorytm grupowania danych typu kwantyzacji wektorów

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Estymacja parametrów w modelu normalnym

Zadanie 1. Za pomocą analizy rzetelności skali i wspólczynnika Alfa- Cronbacha ustalić, czy pytania ankiety stanowią jednorodny zbiór.

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Luty 2001 Algorytmy (4) 2000/2001

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

Badania sondażowe. Schematy losowania. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

Wybrane podstawowe rodzaje algorytmów

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

MODELE SIECIOWE 1. Drzewo rozpinające 2. Najkrótsza droga 3. Zagadnienie maksymalnego przepływu źródłem ujściem

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Systemy uczące się Lab 4

Segmentacja obrazów cyfrowych z zastosowaniem teorii grafów - wstęp. autor: Łukasz Chlebda

Transkrypt:

Idea Analiza skupień Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień. Obiekty należące do danego skupienia powinny być podobne do siebie, a obiekty należące do różnych skupień powinny być z kolei możliwie mocno niepodobne do siebie. Głównym celem tej analizy jest wykrycie z zbiorze danych, tzw. naturalnych skupień, czyli skupień, które dają się w sensowny sposób interpretować.

Algorytm zachłanny Analiza skupień Zwróćmy uwagę, że pod tym terminem kryje się szereg różnych algorytmów. Koncepcyjnie, najprostszym byłby następujący. Ustalamy liczbę skupień K oraz kryterium optymalnego podziału obiektów. Przeszukujemy wszystkie możliwe podziały n obiektów na K skupień, wybierając najlepszy podział ze względu na przyjęte kryterium optymalności. Bezpośrednie sprawdzenie wszystkich możliwych podziałów jest jednak, nawet przy niewielkim n, praktycznie niemożliwe. Ich liczba bowiem jest równa 1 K! K ( K ( 1) K k k k=1 ) k n inp.dlan =100obiektówiK =4skupieńjestrzędu10 58.

Algorytmy hierarchiczne idea Najprostszą i zarazem najczęściej używaną metodą analizy skupień jest metoda hierarchiczna. Wspólną cechą krokowych algorytmów tej metody jest wyznaczanie skupień poprzez łączenie (aglomerację) powstałych, w poprzednich krokach algorytmu, mniejszych skupień. Inne wersje tej metody zamiast idei łączenia skupień, bazują na pomyśle ich dzielenia. Podstawą wszystkich algorytmów tej metody jest odpowiednie określenie miary niepodobieństwa obiektów. Miary niepodobieństwa, to semi-metryki(a często również metryki) na przestrzeni próby X.

Algorytmy hierarchiczne algorytm aglomeracyjny W pierwszym kroku każdy z obiektów tworzy oddzielne skupienie. Zatemskupieńtychjestn.Wkrokudrugimwjednoskupienie połączone zostają dwa najbardziej podobne do siebie obiekty w sensie wybranej miary niepodobieństwa obiektów. Otrzymujemy zatem n 1 skupień. Postępując analogicznie, tzn. łącząc (wiążąc) ze sobą skupienia złożone z najbardziej podobnych do siebie obiektów, w każdym następnym kroku, liczba skupień maleje o jeden. Obliczenia prowadzimy do momentu uzyskania zadeklarowanej, końcowej liczby skupień K lub do połączenia wszystkich obiektów w jedno skupienie.

Algorytmy hierarchiczne dendrogram Graficzną ilustracją algorytmu jest dendrogram, czyli drzewo binarne, którego węzły reprezentują skupienia, a liście obiekty. Liście są na poziomie zerowym, a węzły na wysokości odpowiadającej mierze niepodobieństwa pomiędzy skupieniami reprezentowanymi przez węzły potomki.

Algorytmy hierarchiczne metody wiązania skupień Algorytm ten wykorzystuje nie tylko miary niepodobieństwa pomiędzy obiektami, potrzebne są nam również metody wiązania skupień.niechrisoznaczająskupienia,aρ(r,s)oznaczamiarę niepodobieństwa pomiędzy nimi. Poniżej podano trzy najczęściej wykorzystywane sposoby jej określenia.

Algorytmy hierarchiczne metoda pojedynczego wiązania Metoda pojedynczego wiązania(najbliższego sąsiedztwa). Miara niepodobieństwa pomiędzy dwoma skupieniami jest określona jako najmniejsza miara niepodobieństwa między dwoma obiektami należącymi do różnych skupień, tzn. ρ(r,s) = min i R,j S ρ(x i,x j ). Zastosowanie tego typu odległości prowadzi do tworzenia wydłużonych skupień, tzw. łańcuchów. Pozwala na wykrycie obserwacji odstających, nie należących do żadnej z grup, i warto przeprowadzić klasyfikację za jej pomocą na samym początku, aby wyeliminować takie obserwacje i przejść bez nich do właściwej części analizy.

Algorytmy hierarchiczne metoda pojedynczego wiązania Metoda pełnego wiązania(najdalszego sąsiedztwa). Miara niepodobieństwa pomiędzy dwoma skupieniami jest określona jako największa miara niepodobieństwa między dwoma obiektami należącymi do różnych skupień, tzn. ρ(r,s) = max i R,j S ρ(x i,x j ). Metoda ta jest przeciwieństwem metody pojedynczego wiązania. Jej zastosowanie prowadzi do tworzenia zwartych skupień o małej średnicy.

Algorytmy hierarchiczne metoda pojedynczego wiązania Metoda średniego wiązania. Miara niepodobieństwa pomiędzy dwoma skupieniami jest określona jako średnia miara niepodobieństwa między wszystkimi parami obiektów należących do różnych skupień, tzn. ρ(r,s) = 1 n R n S i Rj S ρ(x i,x j ), gdzien R in S sąliczbamiobiektówwchodzącychwskładskupień RiSodpowiednio. Metoda ta jest swoistym kompromisem pomiędzy metodami pojedynczego i pełnego wiązania. Ma ona jednak zasadniczą wadę. W odróżnieniu od dwóch poprzednich wykorzystywana w niej miara niepodobieństwa nie jest niezmiennicza ze względu na monotoniczne przekształcenia miar niepodobieństwa pomiędzy obiektami.

Algorytmy hierarchiczne inne metody wiązania skupień Omówione metody wiązania skupień, choć najczęściej stosowane, nie są jedyne. W przypadku gdy liczebności skupień są zdecydowanie różne, zamiast metodą średniego wiązania możemy posługiwać się jej ważonym odpowiednikiem. Wagami są wtedy liczebności poszczególnych skupień. Inna popularna metoda wiązania skupień pochodzi od Warda(1963). Do obliczania miary niepodobieństwa pomiędzy skupieniami wykorzystuje on podejście analizy wariancji. Metoda daje bardzo dobre wyniki (grupy bardzo homogeniczne), jednak ma skłonność do tworzenia skupień o podobnych rozmiarach. Często nie jest też w stanie zidentyfikować grup o szerokim zakresie zmienności poszczególnych cech oraz niewielkich grup.

Algorytmy hierarchiczne algorytm aglomeracyjny podsumowanie Algorytm aglomeracyjny jest bardzo szybki i uniwersalny w tym sensie, że może być on stosowany zarówno do danych ilościowych jak i jakościowych. Wykorzystuje on jedynie miary niepodobieństwa pomiędzy obiektami oraz pomiędzy skupieniami. Należy podkreślić zasadniczy wpływ wybranej miary niepodobieństwa na uzyskane w końcowym efekcie skupienia. Do ustalenia końcowej liczby skupień wykorzystać możemy wykresy rozrzutu(przy wielu wymiarach w układzie dwóch pierwszych składowych głównych). Pomocny może być także dendrogram. Ustalamy wtedy progową wartość miary niepodobieństwa pomiędzy skupieniami, po przekroczeniu której zatrzymany zostaje proces ich dalszego łączenia.

Algorytmy hierarchiczne taksonomia wrocławska Innym podobnie uniwersalnym algorytmem jest tzw. taksonomia wrocławska. Jej idea polega na rozpięciu na zbiorze n obiektów najkrótszego dendrytu(drzewa spinającego), zbudowanego na bazie wybranej odległości(miary niepodobieństwa) pomiędzy obiektami, a następnie na wydzieleniu skupień poprzez usunięcie najdłuższych jego krawędzi. Najkrótszym dendrytem nazywamy drzewo, dla którego suma wag przy krawędziach jest najmniejsza. W naszym przypadku wagami są odległości pomiędzy obiektami reprezentowanymi przez wierzchołki drzewa. W przypadku wielowymiarowych danych ilościowych, wykres przedstawiający minimalny dendryt wygodnie jest przedstawić w układzie dwóch pierwszych składowych głównych.

Algorytmy hierarchiczne taksonomia wrocławska algorytm Kruskala Istnieje prosta procedura konstrukcji najkrótszego dendrytu zwana algorytmem Kruskala. 1 Wybieramy krawędź o minimalnej wadze. 2 Z pozostałych krawędzi wybieramy tę o najmniejszej wadze, która nie prowadzi do cyklu(z krawędzi o jednakowych wagach wybieramy dowolną). 3 Powtarzamy krok drugi, aż do uzyskania najkrótszego dendrytu.

Algorytmy hierarchiczne taksonomia wrocławska Jeżeli w najkrótszym dendrycie usuniemy l krawędzi o maksymalnychwagach,torozpadniesięonnak =l +1części, odpowiadających K skupieniom. Końcowa liczba skupień wyznaczona jest przez progową wartość odległości pomiędzy obiektami. Do jej wyznaczenia zastosować można poniższe kryterium. Niech ρ i oznaczawagęi-tejkrawędzidendrytu (i =1,2,...,n 1).Obliczamyśrednią ρiodchylenie standardowes ρ wagwszystkichjegokrawędzi,anastępnie usuwamyteznichdlaktórych ρ i > ρ+cs ρ, przyczymzastałącprzyjmujemyzazwyczaj1lub2.

Metoda hierarchiczna w R Analiza skupień Służy do tego funkcja hclust, której pierwszym argumentem jest macierz odległości, a drugim metoda wiązania skupień. Funkcja rect.hclust pozwala automatycznie przyciąć dendryt, a funkcja cutree pozwala wydzielić zadaną z góry liczbę skupień.

Metoda K-średnich idea Analiza skupień Najbardziej popularnym, niehierarchicznym algorytmem analizy skupień jest algorytm K-średnich. Przyporządkowanie n obiektów do zadanej liczby skupień K, odbywa się niezależnie dla każdej wartości K nie bazując na wyznaczonych wcześniej mniejszych lubwiększychskupieniach.niechc K oznaczafunkcję,która każdemu obiektowi(dokładnie jego numerowi), przyporządkowuje numer skupienia do którego jest on przyporządkowany(przy podziale na K skupień). Zakładamy, że wszystkie cechy są ilościoweowartościachrzeczywistych(przestrzeńpróbyto R p ). Główną ideą metody K-średnich jest taka alokacja obiektów, która minimalizuje zmienność wewnątrz powstałych skupień, a co za tym idzie maksymalizuje zmienność pomiędzy skupieniami.

Metoda K-średnich idea Analiza skupień DlaustalonejfunkcjiC K,przezW(C K )ib(c K )oznaczmy macierze zmienności odpowiednio wewnątrz i pomiędzy skupieniami. Poniższa, znana z analizy wariancji, zależność opisuje związek pomiędzy tymi macierzami. T =W(C K )+B(C K ), gdzie T jest niezależną od dokonanego podziału na skupienia macierzą zmienności całkowitej. Powszechnie stosowane algorytmy metodyk-średnichminimalizująśladmacierzyw(c K ).

Metoda K-średnich algorytm 1 W losowy sposób rozmieszczamy n obiektów w K skupieniach. NiechfunkcjaC (1) K opisujetorozmieszczenie. 2 DlakażdegozKskupieńobliczamywektoryśrednich x k, (k =1,2,...,K). 3 Rozmieszczamy ponownie obiekty w K skupieniach, w taki sposób że C (l) K (i) =arg min ρ 2(x i, x k ). 1 k K 4 Powtarzamykrokidrugiitrzeciażdomomentu,gdy przyporządkowanie obiektów do skupień pozostanie niezmienione,tzn.ażdomomentu,gdyc (l) K =C(l 1) K.

Metoda K-średnich modyfikacje Istnieje wiele modyfikacji powyższego algorytmu. Przykładowo, losowe rozmieszczenie elementów w skupieniach krok pierwszy algorytmu, zastąpione zostaje narzuconym podziałem, mającym na celu szybsze ustabilizowanie się algorytmu. Wszystkie wersje algorytmu K-średnich są zbieżne. Nie gwarantują onejednakzbieżnościdooptymalnegorozwiązaniac K.Niestety,w zależności od początkowego podziału, algorytm zbiega do zazwyczaj różnych lokalnie optymalnych rozwiązań. W związku z tym, aby uzyskać najlepszy podział, zaleca się często wielokrotne stosowanie tego algorytmu z różnymi, wstępnymi rozmieszczeniami obiektów.

MetodaK-średnich wybórk Algorytm metody K-średnich bazuje na minimalizacji zmienności wewnątrz powstałych skupień, wyrażonej poprzez W K =log(tr(w(c K ))).Zwróćmyuwagę,żezmiennośćtamaleje wrazzewzrostemliczbyskupień(dlak =njestwręczzerowa). Wartości te nanosimy na wykres podobny do wykresu osypiska.

MetodaK-średnich wybórk AnalizujemyróżnicepomiędzyW K iw K+1 poszukującróżnic zdecydowanie większych od pozostałych. Sugeruje to, podział na skupienia. Trudno jest jednak precyzyjnie określić, którą z różnic uznać za istotnie małą.

MetodaK-średnich wybórk indeksch W literaturze znaleźć można wiele pomysłów na automatyczne wyznaczania końcowej liczby skupień. Dwa z nich zasługują na szczególną uwagę. Caliński i Harabasz(1974) zaproponowali aby końcową liczbę skupień wybierać w oparciu o wartości pseudo-statystyki F postaci: CH(K) = tr(b(c K))/(K 1) tr(w(c K ))/(n K). Optymalną wartość K dobieramy tak, aby ją zmaksymalizować.

MetodaK-średnich wybórk zarys Z powodu łatwej możliwości wizualizacji coraz popularniejsza staje się miara zwana zarysem. Dla każdej obserwacji i definiujemy a(i) jako średnią miarę niepodobieństwa pomiędzy nią, a wszystkimi obserwacjami z tego samego skupienia. Jest to więc miara, która mówi jak bardzo obiekt jest dopasowany do skupienia(im mniejsza wartość tym lepsze dopasowanie). Następnie znajdujemy średnie odległości obserwacji i do pozostałych skupień. Przez b(i) oznaczamy najmniejszą z tych średnich, czyli jest to w zasadzie średnia odległość do najbliższego skupienia, do którego i nie należy. Zarys definiujemy jako: s i = b(i) a(i) max(a(i),b(i)). Miarataprzyjmujewartościod-1do1.Obserwacje,dlaktórychs i jestbliskie1sąpoprawnieprzydzielone,jeślis i jestbliskie0 obserwacjależynagranicyskupień,jeślinatomiasts i jestujemne obserwacja znajduje się w złym skupieniu.

Metoda K-średnich wybór K współczynnik zarysu Średniawartośćzarysu s k,dlakażdegoskupieniamówiotymjak dobrze dane są przydzielone do tego skupienia. Z tego względu średni zarys dla całego zbioru danych może służyć jako miara jakościpodziału.współczynnikzarysumapostaćsc =max k s k,i jego interpretacja została zawarta w poniższej tabeli. SC Interpretacja 0,71-1,00 Silna struktura 0,51-0,70 Istotna struktura 0,26-0,50 Słaba struktura 0,25 Brak struktury Zarys podlega wizualizacji za pomocą wykresu zarysu.

Metody niehierarchiczne w R Metodę k-średnich realizuje funkcja kmeans, której pierwszym argumentem jest zbiór danych, a drugim liczba skupień. Do wizualizacji można użyć funkcji clusplot z pakietu cluster. W tym samym pakiecie znajdują się również funkcje pam oraz clara, które realizuję wydajniejsze metody poszukiwania skupień za pomocą metod niehierarchicznych(środkiem nie są średnie, ale centroidy). Wykres zarysu otrzymamy za pomocą funkcji silhouette również z pakietu cluster. Pakiet vegan zawiera funkcję cascadekm, która bazując na indeksie CH wyznacza optymalną liczbę skupień.

Metoda hierarchiczna, a niehierarchiczna Obie metody mają swoje wady i zalety. W przypadku metod hierarchicznych istnieje wiele algorytmów dających różne wyniki, z których nie jesteśmy w stanie określić, które rozwiązanie jest najlepsze. Poza tym nie ma możliwości korekty rozwiązania, obiekt raz przydzielony do klasy już w niej pozostaje. Ostatecznie metody hierarchiczne są mało wydajne w przypadku dużych zbiorów danych(duża czaso- i pamięciożerność). Główną wadą metod optymalizacyjnych jest konieczność zadania liczby klas z góry. Dodatkowo bardzo duże znaczenie ma wybór początkowych środków ciężkości. W praktyce często metoda hierarchiczna służy do wstępnej obróbki danych i wyznaczenia punktów startowych dla metody k-średnich(np. jako średnie w skupieniach). Analiza skupień nie jest odporna na zmiany skali, oznacza to, że jeśli różne zmienne mają różne skale, to te największe mogą zdominować odległości. Oczywiście może to być celowe, w takim przypadku pewne zmienne są ważniejsze od innych. W ogólności jednak warto wykonać wpierw skalowanie danych.