PORÓWNANIE STABILNOŚCI ZAGREGOWANYCH ALGORYTMÓW TAKSONOMICZNYCH OPARTYCH NA IDEI METODY BAGGING

Podobne dokumenty
Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

PODEJŚCIE WIELOMODELOWE ANALIZY DANYCH SYMBOLICZNYCH W OCENIE POZYCJI PRODUKTÓW NA RYNKU

Hierarchiczna analiza skupień

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Czym jest analiza skupień?

Próba wykorzystania podejścia wielomodelowego w klasyfikacji jednostek samorządowych

CLUSTERING. Metody grupowania danych

WIELOKRYTERIALNE PORZĄDKOWANIE METODĄ PROMETHEE ODPORNE NA ZMIANY WAG KRYTERIÓW

PROGRAMOWANIE DYNAMICZNE W ROZMYTYM OTOCZENIU DO STEROWANIA STATKIEM

4.3 Grupowanie według podobieństwa

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Agnieszka Nowak Brzezińska Wykład III

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Agnieszka Nowak Brzezińska Wykład III

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

EKONOMETRIA ECONOMETRICS 2(40) 2013

Supervised Hierarchical Clustering with Exponential Linkage. Nishant Yadav

PRACE NAUKOWE Uniwersytetu Ekonomicznego we Wrocławiu

Maszyny wektorów podpierajacych w regresji rangowej

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Agnieszka Nowak Brzezińska

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Testowanie modeli predykcyjnych

Algorytm grupowania danych typu kwantyzacji wektorów

Multiklasyfikatory z funkcją kompetencji

10. Redukcja wymiaru - metoda PCA

Ćwiczenia z teoria liczb, ciąg dalszy (pt 15 maja) Matematyka Dyskretna

Drzewa decyzyjne i lasy losowe

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

PRACE NAUKOWE Uniwersytetu Ekonomicznego we Wrocławiu

OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ DLA DANYCH PORZĄDKOWYCH. 1. Wstęp

MATLAB Neural Network Toolbox przegląd

ALGORYTM RANDOM FOREST

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

SZTUCZNA INTELIGENCJA

A Zadanie

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 8 AiR III

KLASYFIKACJA. Słownik języka polskiego

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu dla odczytu Australia Employment Change

Algorytmy graficzne. Nieliniowa filtracja obrazów monochromatycznych

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

PODOBIEŃSTWA RYNKÓW PRACY W GRUPIE KRAJÓW UE-28

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych

Lekcja 5: Sieć Kohonena i sieć ART

PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Systemy agentowe. Uwagi organizacyjne i wprowadzenie. Jędrzej Potoniec

Podstawy grupowania danych w programie RapidMiner Michał Bereta

OPTYMALIZACJA LICZBY WARSTW DLA ALOKACJI NEYMANA

PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU RESEARCH PAPERS OF WROCŁAW UNIVERSITY OF ECONOMICS

Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze

7. Maszyny wektorów podpierajacych SVMs

Monte Carlo, bootstrap, jacknife

SPOTKANIE 2: Wprowadzenie cz. I

Optymalizacja ciągła

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Wykorzystanie metody TOPSIS w procesie klasyfikacji dobowych obciążeń stacji transformatorowych

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Analiza stanów gry na potrzeby UCT w DVRP

Analiza składowych głównych

Zagadnienie klasyfikacji (dyskryminacji)

Wykład 4: Statystyki opisowe (część 1)

Recenzja rozprawy doktorskiej mgr Mirona Bartosza Kursy p/t. Robust and Efficient Approach to Feature Selection and Machine Learning

Spacery losowe generowanie realizacji procesu losowego

Matematyka dyskretna - wykład - część Podstawowe algorytmy kombinatoryczne

Dariusz Brzeziński. Politechnika Poznańska

Komitety sieci konwolucyjnych w zagadnieniu klasyfikacji przy jednoczesnym zaszumieniu danych wejściowych oraz etykiet klas. Stanisław Kaźmierczak

strona 1 / 12 Autor: Walesiak Marek Publikacje:

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Ścieżka rozwoju polskiej gospodarki w latach gospodarki w latach W tym celu wykorzystana zostanie metoda diagramowa,

WYKAZ PUBLIKACJI I. Artykuły Ia. Opublikowane przed obroną doktorską

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni

FUNKCJA LINIOWA. Poziom podstawowy

1. Grupowanie Algorytmy grupowania:

strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Algorytmy klasyfikacji

KARTA PRZEDMIOTU. 17. Efekty kształcenia:


MODELOWANIE I SYMULACJA Kościelisko, czerwca 2006r. Oddział Warszawski PTETiS Wydział Elektryczny Politechniki Warszawskiej Polska Sekcja IEEE

Prawdopodobieństwo czerwonych = = 0.33

Algorytm genetyczny (genetic algorithm)-

Wprowadzenie. Data Science Uczenie się pod nadzorem

Definicja testu psychologicznego

Interwałowe zbiory rozmyte

Hybrydowa analiza transformat w rozpoznawaniu wysokości dźwięków w polifonicznych nagraniach instrumentów muzycznych

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Deep Learning na przykładzie Deep Belief Networks

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Analiza skupień. Idea

Zachowania odbiorców. Grupa taryfowa G

Przestrzeń algorytmów klastrowania

TYTUŁ PRACY LICENCJACKIEJ/MAGISTERSKIEJ

ANALIZA ZDOLNOŚCI PROCESU O ZALEŻNYCH CHARAKTERYSTYKACH

Transkrypt:

Dorota Rozmus Uniwersytet Ekonomiczny w Katowicach PORÓWNANIE STABILNOŚCI ZAGREGOWANYCH ALGORYTMÓW TAKSONOMICZNYCH OPARTYCH NA IDEI METODY BAGGING Wprowadzenie Pierwotnie podejście zagregowane (wielomodelowe) z dużym powodzeniem yło stosowane w dyskryminacji i regresji w celu podniesienia dokładności predykcji. Zasadnicza idea tego podejścia polega na tym, że w pierwszym kroku są udowane liczne różniące się między soą pojedyncze modele, które następnie za pomocą różnych operatorów są łączone w model zagregowany. W dyskryminacji najczęściej stosowanym operatorem jest głosowanie majoryzacyjne, co oznacza, że jest wyierana ta klasa, która najczęściej yła wskazywana przez pojedyncze modele; natomiast w regresji najczęściej stosuje się uśrednianie wartości teoretycznych zmiennej y. Wśród najardziej znanych metod agregacji należy wymienić: agging [Breiman 996], który jest oparty na losowaniu kolejnych pró oostrapowych oraz oosting [Freund 999] polegający na nadawaniu wyższych wartości wag łędnie sklasyfikowanym oiektom. W ostatnich latach analogiczne propozycje pojawiły się także w taksonomii, ay zapewnić większą poprawność i stailność wyników grupowania [Fern i Brodley 23; Fred 22; Fred i Jain 22; Strehl i Gosh 22]. Zagadnienie agregacji w taksonomii może zostać sformułowane następująco: mając wyniki wielokrotnie przeprowadzonej klasyfikacji, znajdź zagregowany podział ostateczny o lepszej jakości. Liczne adania w tej dziedzinie ustanowiły już nowy oszar w tradycyjnej taksonomii. Istnieje wiele możliwości zastosowania idei podejścia zagregowanego w dziedzinie uczenia ez nauczyciela, wśród których jako najpopularniejsze należy wymienić:

2 Dorota Rozmus. Łączenie wyników grupowania uzyskanych za pomocą różnych metod. 2. Uzyskanie różniących się między soą klasyfikacji z zastosowaniem różnych podziorów danych, np. poprzez losowanie ootstrapowe. 3. Stosowanie różnych podziorów zmiennych. 4. Wielokrotne zastosowanie tego samego algorytmu z różnymi wartościami parametrów lu punktami startowymi (np. losowo wyranymi zalążkami skupień w metodzie k-średnich). Algorytm taksonomiczny powinien charaktryzować się stailnością, a więc powinien yć odporny na niewielkie zmiany w ziorze danych, czy też wartości parametrów tego algorytmu. Wiadomo jednakże również, że kluczem do sukcesu podejścia zagregowanego jest zróżnicowanie klasyfikacji składowych. Klasyfikacja zagregowana, która została zudowana na różniących się między soą elementach składowych jest ardziej dokładna i stailna niż pojedyncze metody taksonomiczne. W niniejszym adaniu uwaga zostanie skupiona na stailności metod taksonomicznych. Głównym celem tego artykułu jest porównanie stailności zagregowanych algorytmów taksonomicznych, a także relacji między stailnością i dokładnością; przy czym pod uwagę zostanie wzięta tylko specyficzna klasa metod agregacji, które są oparte na idei metody agging.. Metoda agging w taksonomii Metoda agging jest pewną ogólną koncepcją, w ramach której narodziły się szczegółowe rozwiązania zaproponowane m.in. przez Hornika [25], Dudoid i Fridlyand [23] oraz Leischa [999]. Pierwszy krok we wszystkich tych metodach jest taki sam: polega na konstrukcji B pró ootstrapowych i zastosowaniu do nich pojedynczego algorytmu taksonomiczego w celu uzyskania klasyfikacji składowych wchodzących w skład klasyfikacji ostatecznej. Poszczególne warianty tej metody różnią się natomiast w kroku drugim, czyli w kroku agregacji wyników. Propozycja Leischa Leisch [999] zaproponował, y w pierwszym kroku na podstawie każdej podpróy ootstrapowej dokonać grupowania przy zastosowaniu tzw. azowej metody taksonomicznej, którą jest jedna z metod iteracyjno-optymalizacyjnych, np. algorytm k-średnich. W kolejnym etapie ostateczne centra skupień są prze-

Porównanie stailności zagregowanych algorytmów taksonomicznych 2 kształcane w nowy ziór danych oejmujący B K oserwacji (K to licza skupień w metodzie azowej), który jest poddawany podziałowi za pomocą metod hierarchicznych. Uzyskany dendrogram jest podstawą ostatecznego podziału oserwacje z pierwotnego zioru są przydzielane do tej grupy, której środek ciężkości znajduje się w minimalnej odległości Euklidesowej. Algorytm zaproponowany przez Leischa przeiega w następujących krokach:. Z pierwotnego N-elementowego zioru G należy wylosować B pró ootstrapowch G n, Gn,..., Gn, losując n oserwacji przy wykorzystaniu schema- 2 B tu losowania ze zwracaniem. 2. Na podstawie każdego zioru za pomocą metod iteracyjno-optymalizacyjnych (np. k-średnich) dokonuje się podziału na grupy oserwacji podonych do sieie, uzyskując w ten sposó B K zalążków skupień c, c2,..., ck, c2,..., c BK, gdzie K oznacza liczę skupień w metodzie azowej, a c k jest k-tym zalążkiem znalezionym na podstawie podpróy G n. 3. Niech zalążki skupień uzyskane na podstawie kolejnych pró ootstrapowych utworzą nowy ziór danych C = C ( K) = { c,..., cbk }. 4. Do tak skonstruowanego zioru należy zastosować hierarchiczną metodę B B taksonomiczną, uzyskując w ten sposó dendrogram. 5. Niech c( x i ) oznacza zalążek znajdujący się najliżej oserwacji x i, i =,, n. Podział na grupy pierwotnego zioru danych jest określany w ten sposó, że dendrogram uzyskany na podstawie zioru C jest cięty na określo- B nym przez adacza poziomie, co prowadzi do uzyskania grup oiektów B B podonych C,..., C m, gdzie m BK. Każda oserwacja x i z pierwotnego zioru danych G jest przydzielana do tej grupy, w której znajduje się najliżej leżący zalążek c x ). ( i Propozycja Duidoid i Fridlyand Metoda agging w wersji zaproponowanej przez Dudoid i Fridlyand [23] stosuje algorytmy iteracyjno-optymalizacyjne do oryginalnego zioru danych i poszczególnych pró ootstrapowych, a po dokonaniu permutacji etykiet klas w wynikach grupowania uzyskanych na podstawie każdej podpróy tak, y zachodziła jak największa zieżność z klasyfikacją oiektów z oryginalnego zioru danych, stosuje głosowanie majoryzacyjne w celu określenia ostatecznej klasyfikacji zagregowanej.

22 Dorota Rozmus Kroki zaproponowanego przez nich algorytmu można ująć według następującego schematu. Dla założonej liczy klas K:. Zastosuj iteracyjno-optymalizacyjny algorytm taksonomiczny T do pierwotnego zioru danych G, uzyskując w ten sposó etykiety klas T ( xi, G) = yˆ i dla każdej oserwacji x i, i =,, n. 2. Skonstruuj -tą próę ootstrapową G n = ( x,..., xn ). 3. Zastosuj algorytm taksonomiczny T do skonstruowanej próy ootstrapowej G n, uzyskując podział na klasy: T ( x i, Gn ) dla każdej oserwacji w ziorze G n. 4. Dokonaj permutacji etykiet klas przyznanych oserwacjom w próie ootstrapowej G n tak, y zachodziła jak największa zieżność z klasyfikacją oiektów z oryginalnego zioru danych G. Niech PR K oznacza ziór wszystkich permutacji zioru licz całkowitych,, K. Znajdź permutację τ PR maksymalizującą: K n i= I (τ ( T ( x, G )) = T ( x, G)), () i n gdzie I( ) to funkcja wskaźnikowa, równa, gdy zachodzi prawda, w przypadku przeciwnym. 5. Powtórz kroki 2-4 B razy. Ostatecznie zaklasyfikuj i-tą oserwację, stosując głosowanie majoryzacyjne, zatem przydzielając ją do tej klasy, dla której zachodzi: k K : x i G n i arg max I( τ ( T ( x, G )) = k). (2) i n Propozycja Hornika W metodzie tej po skonstruowaniu B pró ootstrapowych i zastosowaniu do nich pojedynczego algorytmu taksonomicznego uzyskuje się klasyfikacje składowe. Klasyfikacja zagregowana natomiast jest uzyskiwana za pomocą tzw. podejścia optymalizacyjnego, które ma za zadanie zminimalizować funkcję o postaci:

Porównanie stailności zagregowanych algorytmów taksonomicznych 23 B = 2 dist( c, ) min, (3) c gdzie: C ziór wszystkich możliwych klasyfikacji zagregowanych, dist odległość Euklidesowa, c,..., c ) klasyfikacje wchodzące w skład klasyfikacji zagregowanej. ( B c C 2. Miary stailności i dokładności W celu zadania stailności i dokładności zastosowano koncepcję miar zaproponowanych przez Kunchevę i Vetrova [26]. Mierniki te są oparte na skorygowanym indeksie Randa (AR), którego definicja jest następująca [Huert i Araie 985]: niech A i B ędą wynikami dwóch różnych klasyfikacji zioru Z posiadającego N elementów. Przez l A oznaczmy liczę klas w klasyfikacji A, natomiast przez l B liczę klas w klasyfikacji B; N ij to licza oiektów znajdujących się w klasie i w grupowaniu A i w klasie j w klasyfikacji B; N i to licza oserwacji w klasie i w klasyfikacji A, natomiast N j to licza oserwacji w klasie j w klasyfikacji B. Skorygowany indeks Randa jest dany wzorem: AR( A, B) = l A l B i= j= 2 N 2 ij t ( t + t2 ) t3 3, (4) gdzie: t l = A i= N i, (5) 2 t 2 l = B j= N 2 j, (6)

24 Dorota Rozmus 2t t t 2 3 =. (7) N( N ). STABILNOŚĆ DLA PAR KLASYFIKACJI ZAGREGOWANYCH (ang. pairwise ensemle staility): Z S 2 agr agr agr = AR(Pz, Pl ) Z ( Z ), (8) z, l Z z< l gdzie: Z licza klasyfikacji zagregowanych, AR skorygowany indeks Randa, agr P klasyfikacja na podstawie z-tej klasyfikacji zagregowanej, z agr l P klasyfikacja na podstawie l-tej klasyfikacji zagregowanej. Miara ta ocenia stailność klasyfikacji zagregowanych poprzez ocenę podoieństwa wyników grupowania, które na ich podstawie zostały uzyskane. 2. PRZECIĘTNA DOKŁADNOŚĆ KLASYFIKACJI ZAGREGOWANEJ (ang. average ensemle accuracy): A agr = Z Z z= AR( P agr z, P T ), (9) T gdzie: P rzeczywiste etykiety klas. Miara ta jest uśrednioną po wszystkich klasyfikacjach zagregowanych miarą dokładności i mierzy podoieństwo między ostateczną klasyfikacją zagregowaną a prawdziwymi etykietami klas. 3. Badania empiryczne W adaniach zastosowano sztucznie generowane ziory danych, które standardowo są wykorzystywane w adaniach porównawczych w taksonomii. Są to takie ziory, w których przynależność oiektów do klas jest znana. Ich krótka Ziory zaczerpnięte zostały z pakietu mlench z programu R.

Porównanie stailności zagregowanych algorytmów taksonomicznych 25 charakterystyka znajduje się w taeli, natomiast struktura jest pokazana na rys. -8. Ziory Cassini, Cuoids, Shapes, Smiley oraz Spirals należą do ziorów o wyraźnie separowalnych klasach, natomiast 2dnormals, Ringnorm i Threenorm posiadają nakładające się na sieie, trudno separowalne klasy. Charakterystyka zastosowanych ziorów danych Taela Ziór danych Licza oiektów Licza cech Licza klas Cassini 5 2 3 Cuoids 5 3 4 2dnormals 5 2 2 Ringnorm 5 2 2 Shapes 5 2 4 Smiley 5 2 4 Spirals 5 2 2 Threenorm 5 2 2-2 - 2 -. -.5..5. Rys.. Zastosowane ziory danych ziór Cassini

26 Dorota Rozmus..2.4.6.8. var..2.4.6.8...2.4.6.8. var 2 var 3..2.4.6.8...2.4.6.8...2.4.6.8. Rys. 2. Zastosowane ziory danych ziór Cuoids -2 2 4-3 -2-2 3 Rys. 3. Zastosowane ziory danych ziór 2dnormals

Porównanie stailności zagregowanych algorytmów taksonomicznych 27-4 -2 2 4 Rys. 4. Zastosowane ziory danych ziór Ringnorm -2-2 -4-2 2 4 6 -.5 -. -.5..5..5 2. Rys. 5. Zastosowane ziory danych ziór Shapes

28 Dorota Rozmus -. -.5..5. Rys. 6. Zastosowane ziory danych ziór Smiley -.5..5 -. -.5..5. -. -.5..5. Rys. 7. Zastosowane ziory danych ziór Spirals

Porównanie stailności zagregowanych algorytmów taksonomicznych 29-3 -2-2 3-2 - 2 Rys. 8. Zastosowane ziory danych ziór Threenorm W adaniach empirycznych zastosowano 5 klasyfikacji zagregowanych, a wszystkie oliczenia zostały powtórzone 5 razy, y uzyskać ardziej dokładne i wiarygodne rezultaty. W metodzie agging zaproponowanej przez Leischa po skonstruowaniu pró ootstrapowych jako azowy iteracyjno-optymalizacyjny algorytm taksonomiczny zastosowano metodę k-średnich z wartością parametru k = 5 2, a po przekształceniu ostatecznych zalążków skupień do postaci zioru danych oejmującego 5 oserwacji dokonano podziału za pomocą następujących hierarchicznych metod taksonomicznych 3 : najliższego sąsiedztwa (clust_single), najdalszego sąsiedztwa (clust_complete), centroidy (clust_centroid), mediany (clust_median), średniej odległości (clust_mean), warda (clust_ward). Oliczenia zostały wykonane w programie R z zastosowaniem funkcji clust z pakietu e7. W metodzie agging w wersji zaproponowanej przez Dudoid i Fridlyand oraz przez Hornika po skonstruowaniu 25 pró ootstrapowych zastosowano dwa algorytmy, a mianowicie metodę k-średnich oraz c-średnich, która jest rozmytą wersją metody k-średnich opracowaną przez Bezdeka [98]. Metoda Dudoid i Fridlyand jest oprogramowana w programie R pod nazwą funkcji cl_ag w pakiecie clue (na rysunkach zastosowano nazwy cl_ag_kmeans oraz cl_ag_cmeans), natomiast metodę Hornika można znaleźć w tym samym pakiecie pod nazwą cl_consensus (na rysunkach oznaczenie odnosi się do metody agregacji, gdzie na poszczególnych próach ootstrapowych yła stosowana metoda k-średnich, a metoda c-średnich). 2 Autor metody zaleca, y wartość tego parametru yła większa niż rzeczywista licza skupień. 3 W nawiasach zostały podane skróty nazw stosowane na rysunkach.

3 Dorota Rozmus Rezultaty oliczeń widoczne na rys. 9 pozwalają stwierdzić, że w prawie wszystkich przypadkach najmniej stailną okazała się metoda clust_complete oraz clust_median. Najwyższą stailnością w przypadku większości ziorów danych charakteryzują się metody: clust_single, clust_average oraz clust_centroid (z wyjątkiem metod clust_average oraz clust_centroid dla zioru Spirals oraz metody clust_average dla zioru Threenorm i 2dnormals). Całkiem stailne rezultaty można także zaoserwować dla reszty adanych metod z wyjątkiem metody clust_ward dla ziorów Ringnorm, Threenorm oraz Spirals. Cassini Smiley,2,2 BgC_cmeans BgC_kmeans BgC_kmeans BgC_cmeans Cuoids Spirals,2,2 BgC_kmeans BgC_cmeans BgC_kmeans BgC_cmeans Ringnorm Threenorm,2,2 BgC_kmeans BgC_cmeans BgC_kmeans BgC_cmeans Shapes 2dnormals,2,2 BgC_kmeans BgC_cmeans BgC_kmeans BgC_cmeans Rys. 9. Stailność poszczególnych metod opartych na idei agging dla różnych ziorów danych

Porównanie stailności zagregowanych algorytmów taksonomicznych 3 Cassini Smiley cl_ag_kmeans cl_ag_cmeans Stailność Dokładność cl_ag_kmeans cl_ag_cmeans Stailność Dokładność Cuoids Spirals cl_ag_kmeans cl_ag_cmeans Stailność Dokładność cl_ag_kmeans cl_ag_cmeans Stailność Dokładność Ringnorm Threenorm cl_ag_kmeans cl_ag_cmeans Stailność Dokładność cl_ag_kmeans cl_ag_cmeans Stailność Dokładność Shapes 2dnormals cl_ag_kmeans cl_ag_cmeans Stailność Dokładność cl_ag_kmeans cl_ag_cmeans Stailność Dokładność Rys.. Relacje między stailnością a dokładnością dla poszczególnych metod opartych na idei agging dla różnych ziorów danych Wykresy na rys. pokazujące relacje zachodzące między miarami stailności i dokładności pozwalają stwierdzić rak generalnie oowiązującej zależności. Na przykład dla zioru Cassini oraz Cuoids miary stailności i dokładności osiągają niemalże ten sam poziom (z wyjątkiem metody ). Podonie miary te kształtują się także dla ziorów Shapes oraz Smiley (z wyjąt-

32 Dorota Rozmus kiem metod clust_complete i clust_median dla zioru Shapes oraz metody clust_median dla zioru Smiley). Już dla zioru Ringnorm, Threenorm oraz Spirals można jednak zaoserwować, że miary dokładności kształtują się na niemalże tym samym poziomie, natomiast miary stailności zachowują się różnie dla różnych metod 4. Na przykład dla cl_ag_cmeans, cl_ag_kmeans, means i means przyjmują dosyć duże wartości, a dla clust_ward stosunkowo niskie. Podsumowanie Przechodząc do sformułowania uwag końcowych, należy na wstępie zauważyć, że wyór dorego algorytmu taksonomicznego jest znacznie trudniejszy niż wyór dorego algorytmu dyskryminacyjnego. Wynika to przede wszystkim z faktu, że w klasyfikacji wzorcowej mamy do czynienia z zagadnieniem uczenia z nauczycielem. W taksonomii natomiast nie znamy klas, do których należą oiekty, a tym samym rak jest określonej z góry struktury, która powinna zostać rozpoznana przez algorytm. W związku z tym, y ominąć ryzyko wyoru niewłaściwego algorytmu taksonomicznego, można zastosować podejście zagregowane celem połączenia wyników klasyfikacji różnych algorytmów. Każdy z nich ma swoje mocne i słae strony, ale wydaje się, że ich łączne zastosowanie przyniesie efekt kompensacji. Drugą zaletą podejścia zagregowanego jest uniezależnienie wyników od wyranej metody, czy też wartości pewnych parametrów tych metod (np. początkowo wyranych zalążków skupień w metodzie k-średnich), a także zwiększenie odporności algorytmów taksonomicznych na szum i oserwacje oddalone. Agregacja wyników pozwala zatem na stailizację rezultatów grupowania. Wspomniane zalety powodują, że podejście to jest warte uwagi i tego, y spróować zadać relacje zachodzące między stailnością i dokładnością zagregowanych algorytmów taksonomicznych. W przypadku gdyy między nimi zachodził wyraźny związek, mierniki stailności mogłyy posłużyć jako wskazówka pomagająca wyrać najlepszą metodę podziału. Z przeprowadzonych adań nad stailnością zagregowanych metod taksonomicznych opartych na metodzie agging wynika, że najardziej stailne okazały się metody: clust_single, clust_average, clust_centroid, cl_ag_cmeans, cl_ag_kmeans, means oraz means. Najmniej 4 Głównym punktem zainteresowania adań jest stailność zagregowanych algorytmów taksonomicznych, dlatego przedstawiono wyniki nawet wtedy, gdy dokładność klasyfikacji nie osiągała wysokich wartości.

Porównanie stailności zagregowanych algorytmów taksonomicznych 33 stailne okazały się natomiast metody clust_centroid oraz clust_median; podczas gdy metoda clust_ward dla niektórych ziorów yła ardzo stailna (np. dla ziorów Cassini, Cuoids, Shapes i Smiley), a dla niektórych stailność yła stosunkowo niska. Z adań nad relacją między stailnością i dokładnością w algorytmach opartych na metodzie agging wynika, że nie da się sformułować jasnej i ogólnie oowiązującej zasady. Dla niektórych ziorów danych stailność i dokładność kształtuje się na zliżonym do sieie poziomie, a dla niektórych stwierdza się rak jakiegokolwiek związku między nimi. Literatura Bezdek J.C. (98): Pattern Recognition with Fuzzy Ojective Function Algorithms. Plenum, New York. Breiman L. (996): Bagging Predictors. Machine Learning, No. 26(2). Dudoit S., Fridlyand J. (23): Bagging to Improve the Accuracy of a Clustering Procedure. Bioinformatics, Vol. 9, No. 9. Fern X.Z., Brodley C.E. (23): Random Projection for High Dimensional Data Clustering: A Cluster Ensemle Approach. Proceedings of the 2 th International Conference of Machine Learning. Fred A. (22): Finding Consistent Clusters in Data Partitions. Proceedings of the International Workshop on Multiple Classifier Systems. Fred N.L., Jain A.K. (22): Comining Multiple Clusterings Using Evidence Accumulation. IEEE Transactions on PAMI, No. 27(6). Freund Y. (999): An Adaptive Version of the Boost y Majority Algorithm. Proceedings of the 2 th Annual Conference on Computational Learning Theory. Hornik K. (25): A CLUE for CLUster Ensemles. Journal of Statistical Software, No. 4. Huert L.., Araie P. (985): Evaluating Oject Set Partitions: Free Sort Analysis and Some Generalizations. Journal of Veral Learning and Veral Behaviour, No. 5. Kuncheva L., Vetrov D. (26): Evaluation of Staility of k-means Cluster Ensemles with Respect to Random Initialization. IEEE Transactions On Pattern Analysis And Machine Intelligence, Vol. 28, No.. Leisch F. (999): Bagged Clustering. Adaptive Information Systems and Modeling in Economics and Management Science, Working Paper 5. Strehl A., Ghosh J. (22): Cluster Ensemles A Knowledge Reuse Framework for Comining Multiple Partitions. Journal of Machine Learning Research, No. 3.

34 Dorota Rozmus COMPARISON OF STABILITY OF CLUSTER ENSEMBLES BASED ON BAGGING IDEA Summary Ensemle approach has een successfully applied in the context of supervised learning to increase the accuracy and staility of classification. One of the most popular method is agging ased on ootstrap samples. Recently, analogous techniques for cluster analysis have een suggested in order to increase classification accuracy, roustness and staility of the clustering solutions. Research has proved that, y comining a collection of different clusterings, an improved solution can e otained. A desirale quality of the method is the staility of a clustering algorithm with respect to small perturations of data (e.g., data susampling or resampling, small variations in the feature values) or the parameters of the algorithm (e.g., random initialization). Here, we look at the staility of the ensemle and carry out an experimental study to compare staility of cluster ensemles ased on agging idea.