Marcin Pełka Uniwersytet Ekonomiczny we Wrocławiu Podeście wielomodelowe w analizie danych symbolicznych metoda bagging Streszczenie: W artykule przedstawiono podstawowe poęcia związane z metodą bagging oraz metodą k-nabliższych sąsiadów (NN) dla danych symbolicznych. Zaprezentowano w nim także możliwość zastosowania podeścia wielomodelowego bagging w metodzie k- nabliższych sąsiadów dla danych symbolicznych. W części empiryczne przedstawiono zastosowanie podeścia wielomodelowego dla danych symbolicznych w przypadku przykładowych zbiorów danych wygenerowanych za pomocą funkci cluster.gen z pakietu clustersim w programie R. Słowa kluczowe: analiza danych symbolicznych, podeście wielomodelowe, bagging.. Wprowadzenie Podeście wielomodelowe polega, ogólnie rzecz umuąc, na łączeniu (agregaci) M modeli bazowych D,, DM w eden model zagregowany D [por. uncheva 2004, s. 6-7]. Celem zastosowania podeścia wielomodelowego w miesce poedynczego modelu est zmnieszenie błędu predykci. Model zagregowany est bardzie dokładny niż akikolwiek z poedynczych modeli, które go tworzą [zob. np. Gatnar 2008, s. 62]. Jedną z bardzie znanych metod agregaci modeli bazowych est metoda agregaci bootstrapowe, zaproponowana przez Breimana w 996 r., znana ako bagging [zob. np. Gatnar 2008, s. 40; Breiman 996, s. 23]. Celem artykułu est zaprezentowanie możliwości zastosowania metody bagging w agregaci modeli dyskryminacynych dla danych symbolicznych na przykładzie metody k- nabliższych sąsiadów dla obiektów symbolicznych. Oprócz tego przetestowana zostanie skuteczność metody bagging wykorzystuące metodę k-nabliższych sąsiadów w przypadku, gdy mamy do czynienia ze zmiennymi zakłócaącymi (noisy variables) i obserwacami odstaącymi (outliers). W części empiryczne przedstawiono wyniki symulaci z wykorzystaniem sztucznych zbiorów danych interwałowych wygenerowanych za pomocą pakietu clustersim w programie R. 2. Dane symboliczne
Obiekty symboliczne mogą być opisywane przez następuące rodzae zmiennych symbolicznych [Bock, Diday 2000, s. 2-3]: ) zmienne w uęciu klasycznym, t. ilorazowe, przedziałowe, porządkowe, nominalne; 2) zmienne symboliczne, t. zmienne: interwałowe realizacą są przedziały liczbowe rozłączne lub nierozłączne; wielowariantowe realizacą zmienne est więce niż eden wariant (liczba lub kategoria); wielowariantowe z wagami realizacą zmienne oprócz wielu wariantów są dodatkowo wagi (lub prawdopodobieństwa) dla każdego z wariantów zmienne dla danego obiektu. Niezależnie od typu zmienne w analizie danych symbolicznych możemy mieć do czynienia ze zmiennymi strukturalnymi [Bock, Diday 2000, s. 2-3; 33-37]. Do tego typu zmiennych zalicza się zmienne hierarchiczne (ustalone są a priori reguły decyduące o tym, czy dana zmienna opisue dany obiekt czy nie), taksonomiczne (ustalone są a priori realizace dane zmienne), logiczne (ustalono dla nich a priori reguły logiczne lub funkcyne, które decyduą o wartościach zmienne). W analizie danych symbolicznych wyróżnia się dwa typy obiektów symbolicznych: obiekty symboliczne pierwszego rzędu rozumiane w sensie klasycznym (obiekty elementarne), np. konsument, przedsiębiorstwo, produkt, pacent czy gospodarstwo domowe, obiekty symboliczne drugiego rzędu utworzone w wyniku agregaci zbioru obiektów symbolicznych pierwszego rzędu, np. grupa konsumentów preferuąca określony produkt, region geograficzny (ako wynik agregaci podregionów). 3. Algorytm metody k-nabliższych sąsiadów dla danych symbolicznych Metoda k-nabliższych sąsiadów w swym klasycznym kształcie została zaproponowana przez E. Fixa i J.L. Hodgesa [95]. Adaptacę klasyczne metody k-nabliższych sąsiadów dla danych symbolicznych zawarł w swe pracy zespół Malerby [2003]. Algorytm te metody dla danych symbolicznych można zapisać w następuący sposób: ) Dla każdego obiektu O ze zbioru testowego obliczana est odległość tego obiektu od obiektów ze zbioru uczącego. W pomiarze odległości w analizie danych symbolicznych wykorzystywanych est wiele różnych miar odległości, m.in. miary Ichino-Yaguchiego, miary de Carvalho, miara wzaemnego sąsiedztwa (Gowdy-rishny-Didaya) czy wreszcie 2
uogólniona miara Minkowskiego, pozwalaąca uwzględnić zmienne wielowariantowe z wagami [por. np. Bock, Diday 2000, s. 82]. 2) Znadowanych est k obiektów ze zbioru uczącego nabliższych obiektowi O. Malerba in. [2006] sugeruą, by liczbę k sąsiadów wyznaczyć z przedziału, n, gdzie n liczba obiektów w zbiorze uczącym [zob. Malerba i in. 2006, s. 3], 3) obliczane est prawdopodobieństwo przydzielenia obiektu O do poszczególnych klas zbioru uczącego. Prawdopodobieństwo przydzielenia obiektu O do klasy est obliczane na trzy sposoby [por. Malerba i in. 2004, s. 25, 2006, s. 30-3]: ) eżeli odległość między obiektem O a wszystkimi ego sąsiadami est równa zero, i dodatkowo wszyscy sąsiedzi należą do te same klasy, wówczas prawdopodobieństwo przydzielenia obiektu O do te klasy wynosi ; 2) eżeli odległość między obiektem O a wszystkimi ego sąsiadami est równa zero, a sąsiedzi ci należą do różnych klas, prawdopodobieństwo przydzielenia obiektu O do poszczególnych klas wyraża się wzorem: gdzie: liczba sąsiadów należących do -te klasy, liczba sąsiadów,,, J liczba klas w zbiorze uczącym; P( O C ),,, J, () 3) eżeli odległość między obiektem O a wszystkimi ego sąsiadami est różna od zera, wówczas prawdopodobieństwo przydzielenia obiektu O do poszczególnych klas wyraża się wzorem: gdzie: P( O C ),,, J, (2) J w C, C ), (4) i ( k w i d( O, X ) wagi, (5) i 3
( C, C k ), eżeli klasa, do które należy k-ty sąsiad, est taka sama, ak klasa, do które przyporządkowuemy obiekt O; ( C, C k ) 0, eżeli klasa, do które należy k-ty sąsiad est różna od klasy, do które przyporządkowuemy obiekt O, pozostałe oznaczenia ak we wzorze. W metodzie k-nabliższych sąsiadów dla danych symbolicznych ważnieszy est głos sąsiadów bliższych obiektowi klasyfikowanemu niż pozostałych sąsiadów. 4. Idea metody bagging Jedną z bardzie znanych metod agregaci modeli bazowych est metoda agregaci bootstrapowe, znana ako bagging [por. Gatnar 2008, s. 40; Breinman 996, s. 23; uncheva 2004, s. 203]. Metoda bagging realizue w swe konstrukci architekturę równoległą modeli zagregowanych (zob. rys. ). D D 2 O D 3 Y D(O)... D M Rys.. Architektura równoległa łączenia modeli bazowych Źródło: [Gatnar 2008, s. 68]. Architektura równoległa łączenia modeli bazowych zakłada niezależne działanie każdego z M modeli bazowych za pomocą funkci Dˆ daąc w rezultacie model zagregowany O, O ( O) Y Dˆ,, ˆ D M D [zob. Gatnar 2008, s. 63, 68]. Metoda bagging polega na zbudowaniu M modeli bazowych na podstawie prób uczących U,,U M losowanych ze zwracaniem ze zbioru uczącego U. Próby te nazywane są próbami bootstrapowymi [Gatnar 2008, s. 40; Polikar 2007, s. 60; Polikar 2006, s. 29]. Zwykle około 37% zbioru uczącego nie trafia do żadne z prób uczących. Tworzą one dodatkowy zbiór, tzw. OOB (Out-Of-Bag), który est często wykorzystywany ako dodatkowy zbiór testowy [Gatnar 2008, s. 40]. Algorytm metody bagging można przedstawić za pomocą następuących kroków [Gatnar 2008, s. 40; Polikar 2007, s. 60-6, 2006, s. 29; uncheva 2004, s. 204]: 4
. Ustalenie liczby modeli bazowych M. 2. Następnie dla każdego z modeli bazowych m,,m a) wylosowanie próby bootstrapowe ze zbioru uczącego, : b) zbudowanie modelu bazowego na podstawie próby bootstrapowe (metoda k- nabliższych sąsiadów dla danych symbolicznych). 3. Dokonanie predykci modelu zagregowanego za pomocą modeli bazowych stosuąc metodę głosowania większościowego w przypadku dyskryminaci lub uśrednia wyniki w przypadku regresi. Metoda głosowania większościowego (maority voting) polega na przydzieleniu obserwaci do klasy, którą wskazała nawiększa liczba modeli bazowych [Gatnar 2008, s. 4]: Dˆ M ˆ m m O arg max I D O C 5. Wyniki badań symulacynych Zbiór pierwszy (model I) to 000 obiektów podzielonych na pięć niezbyt dobrze separowalnych klas, opisywanych przez dwie zmienne symboliczne interwałowe. Zbiór uczący stanowiło 800 obiektów, a zbiór testowy 200 obiektów. Zmienne w tym zbiorze są losowane z dwuwymiarowego rozkładu normalnego o średnich (5, 5), ( 3, 3), (3, 3), (0, 0), ( 5, 5) oraz macierzy kowarianci, 0,9. Zbiór ten nie zawiera zmiennych zakłócaących czy obserwaci odstaących. Zbiór drugi (model II) to 200 obiektów podzielonych na dwie klasy o wydłużonym kształcie, opisywane prze dwie zmienne symboliczne interwałowe. Zmienne w tym zbiorze są losowane z dwuwymiarowego rozkładu normalnego o średnich (0, 0), (, 5) i macierzy kowarianci, 0,9. Zbiór nie zawiera zmiennych zakłócaących i l obserwaci odstaących. Elementy zbioru podzielono na zbiór uczący (20 obiektów) i zbiór testowy (80 obiektów). Zbiór trzeci (model III) to 800 obiektów podzielonych na trzy klasy o wydłużonym kształcie, opisywane przez trzy zmienne symboliczne interwałowe. Zbiór uczący zawiera 640 obiektów, a zbiór testowy 60. Zmienne opisuące te obiekty są losowane z dwuwymiarowego rozkładu normalnego o średnich (0, 0), (,5, 7), (3, 4) oraz macierzy l 5
kowarianci, 0,9. Zbiór zawiera edną zmienną zakłócaącą, natomiast l nie zawiera obserwaci odstaących. Zbiór czwarty (model IV) to 660 obiektów podzielonych na dwie klasy o wydłużonym kształcie, opisywane przez dwie zmienne symboliczne interwałowe. Zbiór uczący stanowiło 528 obserwaci, a zbiór testowy 32 obserwace. Zmienne opisuące te zbiory są losowane z dwuwymiarowego rozkładu normalnego o średnich (0, 0), (, 5) oraz macierzy kowarianci, 0,9. Zbiór zawiera 0% obserwaci odstaących, ale nie l zawiera zmiennych zakłócaących. Modele I, II, III oraz IV wygenerowano z wykorzystaniem funkci cluster.gen z pakietu clustersim w programie R. Dla każdego ze zbiorów zastosowano metodę bagging dla metody k-nabliższych sąsiadów dla danych symbolicznych, przymuąc liczbę modeli bazowych od eden do stu, a liczbę k sąsiadów na poziomie trzy razy pierwiastek z liczby obserwaci w zbiorze uczącym. Wyniki symulaci dla modelu I i II przedstawia rysunek 2. a) model I b) model II Rys 2. Wyniki symulaci dla modelu I i II Źródło: obliczenia własne w programie R. Namnieszy błąd klasyfikaci, równy 4,5% w przypadku modelu I, otrzymano dla 59 modeli bazowych. W przypadku modelu II namnieszy błąd klasyfikaci, równy zero, otrzymano dla 60 modeli bazowych. Dla modelu III, który zawierał edną zmienną zakłócaącą, błąd klasyfikaci wyniósł aż 62,5% (dla 4 modeli bazowych). W przypadku modelu IV, którego zbiór zawierał obiekty 6
odstaące, błąd klasyfikaci wyniósł 0% (klasyfikacę obiektów ze zbioru uczącego dla 50 modeli bazowych zawarto w tabeli ). Tabela. lasyfikaca obiektów dla modelu IV Faktyczna przynależność do klas Źródło: obliczenia własne w programie R. Predykca przynależności do klas lasa lasa 2 lasa 56 0 lasa 2 0 64 Obserwace odstaące 7 5 W przypadku modelu IV obiekty z klasy pierwsze i drugie są klasyfikowane poprawnie. Błędna klasyfikaca obiektów poawia się natomiast w przypadku obserwaci odstaących. 6. Podsumowanie Metoda bagging dla metody k-nabliższych sąsiadów może znaleźć zastosowanie w klasyfikaci różnych zbiorów danych symbolicznych. Podeście wielomodelowe połączone z NN dla danych symbolicznych pozwala na precyzyne zidentyfikowanie klas słabo separowalnych oraz klas o wydłużonym kształcie. W przypadku podeścia wielomodelowego w klasyfikaci obiektów symbolicznych z zastosowaniem metody bagging dla metody k-nabliższych sąsiadów nalepsze wyniki otrzymano dla zbiorów danych niezawieraących zmiennych zakłócaących. Gdy mieliśmy do czynienia ze zmiennymi zakłócaącymi, błąd klasyfikaci wyniósł aż 62,5%, co może wynikać z faktu, że zmienne te wpływaą znacząco na pomiar odległości, a to z kolei przenosi się na prawdopodobieństwa a posteriori przydzielenia obiektów do klas. Etapem dalszych prac będzie próba zaadaptowania innych metod podeścia wielomodelowego dla danych symbolicznych. Literatura: Bock H.-H., Diday E. (red.), Analysis of Symbolic Data. Exploratory Methods for Extracting Statistical Information From Complex Data, Springer Berlin 2000. Breiman L., Bagging predictors, Machine Learning 996, vol. 24, s. 23-40. Fix E., Hodges J.L., Discriminatory Analysis. Nonparametric Discrimination: Consistency Properties. Report 4. Proect No. 2-49-004, USAF School of Aviation Medicine, Randolph Field, Texas 95. Gatnar E., Podeście wielomodelowe w zagadnieniach dyskryminaci i regresi, Wydawnictwo Naukowe PWN, Warszawa 2008. 7
uncheva L.I., Combining Pattern Classifiers. Methods and Algorithms, Wiley, New Jersey 2004. Malerba D., D Amato C., Esposito F., Monopoli M., Extending the -Nearest Neighbour classification algorithm to symbolic obects, Atti del Convegno Intermedio della Società Italiana di Statistica Analisi Statistica Multivariata per le scienze economico-sociali, le scienze naturali e la tecnologia, Napoli 2003. Malerba D., Esposito F., D Amato C., Appice A., -nearest neighbor classification for symbolic obects [w:] P. Brito, M. Noirhomme-Fraiture (Ed.), Symbolic and spatial data analysis: mining complex data structures, University of Pisa, Pisa 2004, s. 9-30. Malerba D., Esposito F., D Amato C., Appice A., Classification of symbolic obects: A lazy learning approach, Intelligent Data Analysis 2006, vol. 0, no. 4, s. 30-324. Polikar R., Ensemble based systems in decision making, IEEE Circuits and Systems Magazine 2006, vol. 6, no. 3, s. 2-45. Polikar R., Bootstrap inspired techniques in computational intelligence, IEEE Signal Processing Magazine 2007, vol. 24, no. 4, s. 56-72. Ensemble learning for symbolic data with application of bagging Summary The paper presents the most important basic terms of bagging and k-nearest neighbour (NN) for symbolic data. The article also presents an application of bagging ensemble for k-nearest neighbour for symbolic data. In the empirical part the application of ensemble learning for symbolic data is presented for some data sets generated by function cluster.gen from clustersim package of R software. 8