SZYMON ŁUKASIK 1,, PIOTR KULCZYCKI 1, MIARY ZACHOWANIA STRUKTURY TOPOLOGICZNEJ ZBIORU I ICH UŻYCIE W PROBLEMACH WIELOWYMIAROWEJ ANALIZY DANYCH TOPOLOGY PRESERVATION MEASURES AND THEIR APPLICATION IN PROBLEMS OF MULTIDIMENSIONAL DATA ANALYSIS S t r e s z c z e n e Przedmotem artykułu jest użyce mar zachowana struktury topologcznej zboru w problemach welowymarowej analzy danych. Zaproponowana metodologa jest nsprowana obserwacją, że ne wszystke elementy zboru perwotnego w toku redukcj są właścwe zachowane w ramach reprezentacj w przestrzen o zmnejszonej wymarowośc. W pracy omówono na wstępe stnejące mary zachowana topolog zboru, a następne przedstawono możlwośc ch włączena w klasyczne procedury eksploracyjnej analzy danych. Słowa kluczowe: welowymarowa analza danych, redukcja wymaru, zachowane topolog A b s t r a c t The artcle focuses on the use of topology preservaton measures n multdmensonal data analyss. Proposed methodology s based on an observaton that not all elements of an ntal dataset are equally preserved n ts low-dmensonal embeddng space representaton. The contrbuton frst overvews exstng topology preservaton measures, then ther ncluson n the classcal methods of exploratory data analyss s beng dscussed. Keywords: multdmensonal datasets, dmensonalty reducton, topology preservaton 1 Katedra Automatyk Technk Informacyjnych, Poltechnka Krakowska Instytut Badań Systemowych, Polska Akadema Nauk Adres do korespondencj: szymonl@pk.edu.pl
1. Wstęp Współczesna analza danych mus podejmować sę przetwarzana zborów o dużej wymarowośc znacznym rozmarze próby. Wynka to z szybkego wzrostu lośc nformacj przechowywanych w hurtownach danych oraz opracowana narzędz pozwalających na wykorzystane takch właśne rozproszonych źródeł nformacj [3]. Ekstrakcja wedzy wzualzacja danych w przypadku zborów welowymarowych stanową wyzwane, główne ze względu na trudnośc metodologczne mające mejsce w przypadku danych o znacznej wymarowośc. Wynkają przede wszystkm z szeregu zjawsk występujących w tego typu zborach, w lteraturze znanych pod pojęcem przekleństwa welowymarowośc [14]. Aby ogranczyć trudnośc z nch wynkające opracowano lczne procedury redukcj wymarowośc zboru. Celem redukcj wymaru jest transformacja zboru do nowej, N - wymarowej reprezentacj, gdze N jest znaczne mnejsze od n (czyl perwotnej wymarowośc rozważanych danych). Efekt ten można osągnąć mędzy nnym przez ekstrakcję konstrukcję zredukowanego, bazującego na perwotnym, zestawu cech (ang. feature extracton). Szczegółowe omówene metod redukcj wymaru należących do tej klasy, wraz z ch eksperymentalnym porównanem można znaleźć w pracy [10]. Charakterystyczną własnoścą wszystkch metod redukcj wymaru jest naturalna kompresja nformacj spowodowana zmnejszenem lczby dostępnych cech. Stopeń stratnośc tej kompresj może być zmerzony z użycem odpowednch mar zachowana struktury topologcznej zboru określających loścowo jej deformację. Nektóre z tych mar mogą być rozpatrywane w odnesenu do każdego elementu rozważanego zboru, co pozwala na określene w jakm stopnu dany element został zachowany w sense swego względnego położena w toku przeprowadzanej redukcj. Koncepcja ta jest przedmotem rozważań nnejszej pracy. Ponadto, proponuje sę tu także użyce wspomnanych mar określanych wagam elementów analzowanego zboru dla celów poprawy skutecznośc procedur analzy danych przeprowadzanych w przestrzen zredukowanej. Podejśce to zostało po raz perwszy zaproponowane w pracy [7] w kontekśce nowatorskej procedury redukcj wymaru opartej o metaheurystykę symulowanego wyżarzana.. Mary zachowana struktury topologcznej zboru Nech Y oznacza macerzową reprezentację rozważanego zboru w przestrzen zredukowanej, o wymarze N m : y m Y y y..., (1) 1 a X podobną reprezentację zboru perwotnego ( m oznacza lczność próby). Dla celów dalszych rozważań nech dodatkowo dj oraz j oznaczają, dla, j {1,,..., m}, odległośc eukldesowe mędzy elementam analzowanego zboru w przestrzen perwotnej zredukowanej. Jedną z ważnejszych mar zachowana struktury topologcznej, borących pod uwagę globalny kontekst redukcj tj. możlwe najlepszą zgodność odległośc mędzy wszystkm elementam rozważanego zboru w przestrzen perwotnej zredukowanej jest tzw.
surowy stres (ang. raw stress), powszechne używany w ramach welu warantów skalowana welowymarowego [1]. Jest on dany ścślej następującą zależnoścą: m m1 S R ( d j j ). () 1 j1 Często stosowany jest równeż zaproponowany przez Sammona [1] wskaźnk stresu, w ramach którego mnejszy nacsk kładze sę na duże odległośc, zdefnowany według wzoru: S S m m m1 1 ( dj j ) m1 d 1 j1 1 j1 j d j. (3) W globalnym ujęcu możlwe jest tu użyce mędzy nnym współczynnka korelacj rang Spearmana (naczej: rho Spearmana). Pozwala on na loścowe określene zachowana porządku odległośc w przestrzen zredukowanej, w odnesenu do porządku tych samych odległośc wyznaczonych w przestrzen perwotnej. Rho Spearmana stanow estymator współczynnka korelacj rang [13], w kontekśce redukcj wymaru wskazuje on zatem w jakm stopnu przeprowadzana transformacja zachowuje porządek odległośc wzajemnych mędzy poszczególnym elementam analzowanej próby. Współczynnk ten oblcza sę z użycem następującego wzoru: 6 M p1 ( r pd r ) p SP 1, (4) 3 M M gdze M m( m 1) / oznacza łączną lczbę odległośc podlegających porównanu, natomast r p d r p stanową rang uporządkowanych rosnąco odległośc (gdy 1,,..., M ) w przestrzen perwotnej oraz zredukowanej. Wartość współczynnka SP równa 1 odpowada perfekcyjnemu zachowanu porządku odległośc, w ogólnym zaś przypadku SP [1,1]. Ocenę realzacj redukcj wymaru o charakterze lokalnym przeprowadza sę zwykle poprzez weryfkację zgodnośc grafów lokalnego sąsedztwa. Istneje wele mar wykorzystujących tego typu podejśce przykładem może być tu mara Konga [5]. W ramach nnejszej pracy proponowane jest użyce prostej, wymagającej podana tylko jednego parametru, mary średnego względnego błędu rang MRRE (ang. Mean Relatve Rank Error) [6]. Nech zatem x ) oznacza zbór k - najblższych sąsadów elementu x, a R j d k ( R j stanową rang odległośc dj oraz j określone dla elementu x względem reszty analzowanego zboru. Współczynnk MRRE jest wtedy zdefnowany w sposób następujący:
MRRE C 1 x j k ( x ) R R m m 1 jd j R jd, (5) przy czym występująca w powyższej zależnośc stała normalzująca C, zapewnająca by MRRE [0,1], jest określana według wzoru: C m k p1 p m 1. (6) p Tak zdefnowana mara jest podobna do współczynnka cągłośc równa sę zeru, gdy w zborach najblższych sąsadów wyznaczonych dla każdego z elementów próby występuje taka sama kolejność w przestrzen perwotnej zredukowanej [6] Bardzej szczegółowe omówene porównane wymenonych wyżej mar zachowana struktury topologcznej zboru można znaleźć w pracy [4]. Następna część artykułu pośwęcona będze ch zastosowanu w analze danych realzowanej w zredukowanej przestrzen cech. 3. Ops proponowanej procedury Ubocznym efektem redukcj wymaru może być znaczna deformacja położena nektórych elementów analzowanego zboru, co zasygnalzowano wstępne w perwszej częśc nnejszego opracowana. Wpływ tej deformacj na skuteczność realzacj dalszych procedur analzy danych może nwelować nezaprzeczalny zysk wynkający z uzyskana zredukowanej reprezentacj rozważanych danych. Celowe wydaje sę zatem loścowe określene stopna tej deformacj dla każdego elementu analzowanego zboru. Wskaźnk tak, nazywany wagą oznaczany w, może być następne użyty dla celów poprawena skutecznośc procedur analzy danych realzowanych w przestrzen zredukowanej. Aby wyznaczyć wartośc wag dla poszczególnych elementów należy na wstępe oblczyć odpowadający m wkład w ostateczną wartość ndeksu deformacj struktury * topologcznej. Wkład ten oznaczony będze jako w, a metoda jego oblczena wynka bezpośredno ze wzorów (-5). W każdym z przedstawonych przypadków ne jest wymagane by suma wkładów dla poszczególnych elementów zboru stanowła ostateczną wartość rozpatrywanego ndeksu. Wag w otrzymywane są bowem z przeprowadzenem dodatkowej normalzacj wartośc * w, tak by w m m 1. Pozwalają one na uwzględnene deformacj struktury topologcznej zboru, która występuje w toku redukcj wymaru. Elementy o dużej wadze pownny być traktowane jako bardzej adekwatne w ramach dalszej analzy danych przeprowadzanej w przestrzen zredukowanej. Co węcej, z użycem zaproponowanego tu schematu można stotne zredukować wpływ znacząco zdeformowanych elementów zredukowanego zboru poprzez ustalene wartośc w 0 dla wszystkch elementów, dla których zachodz w W gdze W R jest wartoścą
progową, nazywaną równeż współczynnkem kompresj. Pozostałe wag należy wtedy dodatkowo znormalzować, lub ustalć w 1. Wag w zaproponowanej postac można użyć mędzy nnym w zadanach analzy skupeń (klasteryzacj) oraz klasyfkacj. W perwszym przypadku użyce wag w standardowym warance popularnego algorytmu procedury K-średnch jest możlwe na etape aktualzacj położena środków klastrów []. Są one wtedy wyznaczane jako ważone środk cężkośc. W zadanu klasyfkacj wag mogą być użyte m.n. w stworzenu alternatywnego warantu ważonego klasyfkatora k-najblższych sąsadów [11]. Zmodyfkowana procedura, uwzględnająca przedstawony powyżej schemat wag, dokonuje przypsana elementów do klas na podstawe ważonych odległośc, czyl podzelonych dodatkowo przez wartość w. Ten sposób postępowana można uogólnć na przypadek k 1. 4. Podsumowane W nnejszym artykule metodologę dedykowaną dla zagadneń welowymarowej analzy danych. Bazuje ona na obserwacj, że redukcja wymaru powoduje znaczną modyfkację struktury topologcznej zboru. Jej stotą jest wprowadzene mar zachowana struktury topologcznej w celu poprawy skutecznośc metod eksploracyjnej analzy danych realzowanych w zredukowanej przestrzen cech. Przeprowadzone eksperymenty oblczenowe dowodzą, że zastosowane zaproponowanego tu podejśca daje obecujące rezultaty. Dalsze nformacje na temat przedstawonej tu koncepcj można znaleźć w pracach [8,9]. * * * Badane zrealzowano dzęk dofnansowanu w ramach stypendum naukowego z projektu pn. Technologe nformacyjne: badana ch nterdyscyplnarne zastosowana współfnansowanego ze środków Un Europejskej w ramach Europejskego Funduszu Społecznego, Program Operacyjny Kaptał Ludzk (Umowa nr UDA-POKL.04.01.01-00- 051/10-00). L t e r a t u r a [1] Borg, I., Groenen, P.J.F., Modern Multdmensonal Scalng: Theory and Applcatons, Sprnger, Hedelberg, 010. [] Evertt, B. S., Landau, S., Leese, M., Stahl, D., Cluster Analyss, Wley, New York, 011. [3] Furht, B., Escalante, A. (red.), Handbook of Data Intensve Computng, Sprnger, Hedelberg, 011.
[4] Karbauskate, R., Dzemyda, G., Topology Preservaton Measures n the Vsualzaton of Manfold-Type Multdmensonal Data, Informatca, vol. 0, 35-54, 009. [5] Kong, A., Interactve vsualzaton and analyss of herarchcal neural projectons for data mnng, IEEE Transactons on Neural Networks, vol. 11/3, 615-64, 000. [6] Lee, J.A., Verleysen, M., Nonlnear Dmensonalty Reducton, Sprnger, New York, 007. [7] Łukask, S., Kulcz yck, P., An Algorthm for Sample and Data Dmensonalty Reducton Usng Fast Smulated Annealng, Lecture Notes n Artfcal Intellgence, vol. 710, 15-161, 011. [8] Łukask, S., Kulczyck, P., Zastosowane mar zachowana struktury topologcznej zboru w welowymarowej analze danych w przestrzen zredukowanej, Czasopsmo Technczne, sera: Automatyka, vol. 1-AC, ss. 5-16, 01. [9] Łukask, S., Kulczyck, P., Usng Topology Preservaton Measures for Multdmensonal Intellgent Data Analyss n the Reduced Feature Space, Lecture Notes n Artfcal Intellgence, vol. 710, 15-161, 011. [10] Maaten, L.J.P.v., Postma, E.O., Herk, H.J., Dmensonalty Reducton: A Comparatve Revew, Tlburg Unversty Techncal Report, TCC-TR 009-005, 009. [11] Parvn, H., Alzadeh, H., Mnat, B., A Modfcaton on K-Nearest Neghbor Classfer, Global Journal of Computer Scence and Technology, vol. 10, 37-41, 010. [1] Sammon, J. W., A Nonlnear Mappng for Data Structure Analyss, IEEE Transactons on Computers, vol. 18, 401-409, 1969. [13] Sammut, C., Webb, G.I. (red.), Encyclopeda of Machne Learnng, Sprnger, New York, 011. [14] Verleysen M., Franços D., The Curse of Dmensonalty n Data Mnng and Tme Seres Predcton, w: Cabestany, J., Preto, A., Sandoval, F. (red.) Computatonal Intellgence and Bonspred Systems. Lecture Notes n Computer Scence, vol. 351, 758-770, Sprnger, Hedelberg, 005.