Marcn Peła Unwersytet Eonoczny we Wrocławu PROBLEMATYKA DOBORU MIARY ODLEGŁOŚCI W KLASYFIKACJI SPEKTRALNEJ DANYCH SYMBOLICZNYCH Wprowadzene Zagadnene doboru odpowednej ary odległośc stanow, obo probleaty doboru lczby las, jeden z luczowych roów w lasyfacj spetralnej. Cele artyułu jest przetestowane przydatnośc sedu różnych ar odległośc dla danych sybolcznych w przypadu zastosowana lasyfacj spetralnej dla danych tego typu. W badanach syulacyjnych wyorzystano dane sybolczne nterwałowe o znanej struturze las obetów wygenerowane z wyorzystane funcj cluster.gen paetu clusters oraz zbory danych o netypowych struturach las wygenerowane z zastosowane funcj paetu lbench. Dla ażdego odelu wygenerowano 40 zborów danych, przeprowadzono lasyfację spetralną z zastosowane danej ary odległośc. Otrzyane rezultaty porównano ze znaną struturą las z wyorzystane sorygowanego ndesu Randa.. Klasyfacja spetralna W analze danych sybolcznych opracowano wele różnych etod lasyfacj (herarchcznych teracyjno-optyalzacyjnych). Możlwe jest taże zastosowane lasycznych etod analzy supeń, o le bazują one na acerzach odległośc. Nenej jedna stotne jest odyfowane stnejących rozwązań dla danych lasycznych na potrzeby danych sybolcznych rozwane nowych etod lasyfacj danych sybolcznych. Zob. np. R. Verde: Clusterng ethods n sybolc data analyss. W: Classfcaton, Clusterng and Data Mnng Applcatons. Eds. D. Bans et al. Sprnger-Verlag, Hedelberg 2004, s. 299-37; A. Dude: Metody analzy danych sybolcznych w badanach eonocznych. Wydawnctwo UE we Wrocławu, Wrocław 203, s. 66-79.
Probleatya doboru ary odległośc 4 Nazwa lasyfacj spetralnej nawązuje do jednego z podstawowych roów tej etody, w tóry wyznacza sę spetru acerzy Laplace a. W ateatyce zbór wartośc własnych acerzy nazywa sę wde (spetru) acerzy 2. Podstawowy algoryt lasyfacj spetralnej zaproponowano w pracy Ng, Jordan Wess 3. Modyfacje tego algorytu zaproponowano.n. w pracach: Shorteed 4, Walesaa Duda 5, Walesaa 6. W pracy von Luxburg przedstawono badana porównawcze, z tórych wyna, że lasyfacja spetralna często daje znaczne lepsze rezultaty nż tradycyjne etody lasyfacj. Wyna to z fatu, że ne przyjuje sę w nej żadnych założeń co do ształtu supeń. Dodatowo lasyfacja spetralna w węszośc prezentowanych ta przypadów daje lepsze rezultaty dla supeń o netypowych ształtach 7. Klasyfacja spetralna dla danych sybolcznych nterwałowych słada sę z następujących roów 8 : V = o wyarach. Konstrucja tablcy danych sybolcznych [ ] n ( =,, n nuer obetu, j =,, nuer zennej). 2. Zastosowane estyatora jądrowego do oblczena acerzy podobeństw A = [ A ] (affnty atrx) ędzy obeta. Najczęścej do wyznaczena acerzy A wyorzystywany jest estyator gaussows 9 : A = exp( σ d ),, =,, n, () odległość ędzy -ty -ty obete sybolczny, d σ paraetr sal (szeroość pasa ernel wdth), A = 0. v 2 3 4 5 6 7 8 9 Cyt. za: M. Walesa: Zagadnene doboru lczby las w lasyfacj spetralnej. Prace Nauowe Unwersytetu Eonocznego we Wrocławu 203, nr 278, s. 33-34. A. Ng, M. Jordan, Y. Wess: On spectral clusterng: Analyss and algorth. W: Advances n Neural Inforaton Processng Systes 4. Eds. T. Detterch, S. Becer, Z. Ghahraan. MIT Press, Cabrdge 2002, s. 849-856. S. Shorteed: Learnng n spectral clusterng. Rozprawa dotorsa. Unversty of Washngton 2006. M. Walesa, A. Dude: Odległość GDM dla danych porządowych a lasyfacja spetralna. Prace Nauowe Unwersytetu Eonocznego we Wrocławu 2009, nr 84, s. 9-9. M. Walesa: Klasyfacja spetralna a sale poaru zennych. Przegląd Statystyczny 202, z., s. 3-3. Zob. np. U. von Luxburg, O. Bousuet, M. Beln: Lts of spectral clusterng. W: Advances n Neural Inforaton Processng Systes (NIPS) 7. Eds. L. Saul, Y. Wess, L. Bottou. MIT Press, Cabrdge, MA, 2005, s. 857-864. Opracowano na podstawe prac: M. Walesa, A. Dude: Odległość GDM, op. ct., s. 2-4; A. Dude: Metody analzy, op. ct., s. 78; M. Walesa: Zagadnene doboru, op. ct., s. 34-35. A. Karatzoglou: Kernel ethods. Software, algorths and applcatons. Rozprawa dotorsa. Technsche Unverstät Wen 2006, s. 26.
42 Marcn Peła Inny przyłada estyatorów jądrowych, tóre ogą być zastosowane w ty rou, są.n.: jądro weloanowe, jądro lnowe, jądro w postac tangensa hperbolcznego, jądro Bessela, jądro ANOVA czy jądro łańcuchowe (dla danych testowych) 0. W artyule przetestowano sede różnych ar odległośc (z zastosowane estyatora jądrowego wyrażonego wzore ()), tóre ożna zastosować w przypadu zennych sybolcznych nterwałowych : a) Mara Ichno-Yaguchego (U_2): j= (, ), φ v v (2) φ ( v, v ) = v v v v + γ 2 v v v v, ( ) v, v oznacza realzację j-tej zennej sybolcznej w -ty oraz -ty obece, oraz są rozszerzene pojęca suy loczynu artezjańsego na zenne sybolczne, dla zennych nterwałowych oznacza długość przedzałów, dla zennych welowarantowych lczbę warantów (ategor), γ paraetr ustalany arbtralne przez badacza (zwyle γ = 0, 5 ). b) Znoralzowana ara Ichno-Yaguchego (U_3): ψ v, v = φ v, v / V, ( ) ( ) j j= (, ), ψ v v (3) V j zbór obrazów zennej sybolcznej, pozostałe oznaczena ja we wzorze (2). c) Mara de Carvalho, tóra jest odyfacją odległośc Ichno- -Yaguchego (SO_3): [ (, )], ψ v v (4) j= 0 M. Walesa: Zagadnene doboru, op. ct., s. 35. Inne ary odległośc dla danych sybolcznych ożna znaleźć np. w: A. Dude: Metody analzy, op. ct., s. 5-6.
Probleatya doboru ary odległośc 43 ψ v v = φ v, v / μ v (, ) ( ) ( v ), ( v, ) μ oznacza długość przedzału dla v zennych nterwałowych w pozostałych przypadach jest to, pozostałe oznaczena ja we wzorze (2). d) Mara de Carvalho oparta na pojęcu potencjału opsowego obetu sybolcznego (SO_3): π ( A A ) π ( A A ) + γ [ π ( A A ) π ( A ) π ( A )] 2, (5) π potencjał opsowy obetu sybolcznego: ( ) = μ( ) = π A v, (6) pozostałe oznaczena ja we wzorach (2) (4). e) Znoralzowana ara de Carvalho oparta na pojęcu potencjału opsowego obetu sybolcznego: E [ π ( A A ) π ( A A ) + γ [ 2π ( A A ) π ( A ) π ( A ) ]/ π ( A ), (7) E π ( A ) oznacza potencjał opsowy najbardzej ogólnego obetu sybolcznego (w rozuenu potencjału opsowego), pozostałe oznaczena ja we wzorze (5). f) Znoralzowana ara de Carvalho oparta na pojęcu potencjału opsowego obetu sybolcznego postać druga ary (SO_5): [ ( A A ) π ( A A ) + γ [ π ( A A ) π ( A ) π ( A ) ]/ π ( A A ), π (8) oznaczena ja we wzorze (6). g) Mara Hausdorffa (H): v v ( v, v ) j = 2 2 ( ax{ v, v v }), 2 v (9), oznaczają odpowedno górne (dolne) rańce przedzału zennej sybolcznej nterwałowej.
44 Marcn Peła Paraetr sal ( σ ), podobne ja w przypadu lasyfacj spetralnej dla danych lasycznych, a luczowe znaczene dla lasyfacj spetralnej. Poszuwana jest taa wartość paraetru sal, tóra dla zadanej lczby las będze nalzować zenność wewnątrzlasową. Jest to heurystyczna etoda poszuwana nu loalnego 2. 3. Oblczene dagonalnej acerzy D, na głównej przeątnej tej acerzy znajdują sę suy ażdego wersza z acerzy A, a poza ną są zera. 4. Konstrucja znoralzowanej acerzy Laplace a 3 : / 2 / 2 L = D AD (0) 5. Oblczene wartośc własnych odpowadających wetorów własnych (o długośc równej jeden) dla acerzy L. Uporządowane wetorów własnych według alejących wartośc własnych. Perwsze u, gdze u lczba las, wetorów własnych tworzy acerz E = [ e ] o wyarach n u. 6. Przeprowadzene noralzacj acerzy E zgodne ze wzore: y = e () =,, n nuer obetu, j =,, u nuer zennej, u lczba las. Dzę tej noralzacj długość ażdego wetora werszowego acerzy Y = [ y ] jest równa jeden. 7. Macerz Y stanow punt wyjśca zastosowana jednej z lasycznych etod analzy supeń (zwyle jest to etoda -średnch). u j= e 2, 2. Dane sybolczne Obety sybolczne ogą być opsywane przez następujące rodzaje zennych sybolcznych 4 : a) lorazowe, b) przedzałowe, 2 M. Walesa, Zagadnene doboru, op. ct., s. 4. 3 Własnośc tej acerzy zaprezentowano.n. w pracy: U. von Luxburg: A tutoral on spectral clusterng. Max Planc Insttute for Bologcal Cybernetcs, Techncal Report TR-49, 2006. 4 Analyss of sybolc data. Explanatory ethods for extractng statstcal nforaton fro coplex data. Eds. H.-H. Boc, E. Dday. Sprnger Verlag, Berln 2000, s. 2-3.
Probleatya doboru ary odległośc 45 c) porządowe, d) nonalne, e) nterwałowe, tórych realzacją są przedzały lczbowe rozłączne lub nerozłączne; f) welowarantowe, gdze realzacją zennej jest węcej nż jeden warant (lczba lub ategora); g) welowarantowe z waga, gdze realzacją zennej oprócz welu warantów są dodatowo wag (lub prawdopodobeństwa) dla ażdego z warantów zennej dla danego obetu, h) nterwałowe z waga (hstograowe). Przyłady zennych sybolcznych wraz z ch realzacja zawarto w tabel. Przyłady zennych sybolcznych wraz z realzacja Tabela Zenna Realzacje Typ zennej sybolcznej Preferowana cena saochodu (w zł) <27000, 42000>; <35000, 50000> <20000, 30000>; <25000, 37000> nterwałowa (przedzały nerozłączne) Rozważana pojeność slna (w c 3 ) <000, 200>; <300, 400> <500, 800>; <900, 2200> nterwałowa (przedzały rozłączne) Wybrany olor {nebes, czerwony, żółty} {zelony, czarny, szary, bały} welowarantowa Preferowana ara saochodu {Toyota (0,3); Volvo (0,7)} {Aud (0,6); Soda (0,4)} {VW (,0)} welowarantowa z waga Nezależne od typu zennej w analze danych sybolcznych ożey eć do czynena ze zenny struturalny 5. Do tego typu zennych zalcza sę zenne herarchczne w tórych a pror ustalone są reguły decydujące o ty, czy dana zenna opsuje dany obet, czy ne; zenne tasonoczne w tórych ustalone są a pror realzacje danej zennej; zenne logczne tj. tae, dla tórych ustalono a pror reguły logczne lub funcyjne decydujące o wartoścach zennej. W analze danych sybolcznych wyróżna sę dwa typy obetów sybolcznych: obety sybolczne perwszego rzędu obety rozuane w sense lasyczny (obety eleentarne), np. onsuent, przedsęborstwo, produt, pacjent czy gospodarstwo doowe, obety sybolczne drugego rzędu obety utworzone w wynu agregacj zboru obetów sybolcznych perwszego rzędu, np. grupa onsuentów preferująca oreślony produt, regon geografczny (jao wyn agregacj podregonów). 5 Ibd., s. 2-3, 33-37.
46 Marcn Peła 3. Badana syulacyjne Dla celów badana syulacyjnego z wyorzystane sedu zaprezentowanych ar odległośc przygotowano cztery zbory danych o znanej struturze las. Dla ażdego ze zborów ażdej ary odległośc przeprowadzono 40 syulacj. W celu wybrana ostatecznej lczby las zastosowano ndes sylwetowy pozwalający na ocenę prawdłowego zalasyfowana poszczególnych obetów do las w postac 6 : S () ( ) a( ) { a() ; b() }, b = (2) ax a() = d ( ) { } P nr oznacza średną odległość -tego obetu od r \ pozostałych obetów należących do lasy P r, b () n{ d }, = Ps Ps s r d średna odległość -tego obetu od obetów należących do lasy s ( d P d ns ) P =, s P s r, s =,, u nuer lasy, u lczba las. Ogólna jaość lasyfacj oraz prawdłowość wyodrębnena poszczególnych las są erzone jao 7 : S ( P ) = r S( ) n P r oraz S r ( P) = r S( Pr ) u. Do porównana rezultatów ze znaną struturą las wyorzystano sorygowany ndes Randa 8 w postac: n R = N, 2 ax R HA ax ( R) E( R), R asyalna wartość ary Randa ( ) R E = (3) R R ax =, 6 Szerzej o ty ndese oraz nnych ndesach służących wyborow lczby las psze np. M. Walesa: Metody lasyfacj. W: Metody statystycznej analzy welowyarowej w badanach aretngowych. Red. E. Gatnar, M. Walesa. Wydawnctwo AE we Wrocławu, Wrocław 2004, s. 338-343. 7 Ibd., s. 343. 8 Zob. np. M. Walesa: Probley decyzyjne w procese lasyfacj zboru obetów. Prace Nauowe Aade Eonocznej we Wrocławu 2004, nr 00, s. 60-6.
Probleatya doboru ary odległośc 47 E(R ) oczewana wartośćć ary Randa wyrażona wzore: 2 n. E( R) = + 2 r n r 2 s n n. s 2 2. r n r + s. n 2 s, (4) 2 2 ( t ) n. r lczba ob etów w lase P r, ( n s. lczba ob etów w lase P ) s. Za poocąą funcj cluster.gen z paetu clusters wygenerowa- no dwa odele: :. Zbór 00 obse erwacj podzelonych na dwe lasy o wyd dłużony ształ- ce opsywane przez dwe z enne sybolczne nterwałowe. Środ cężośc las to (0, 0) oraz (, 5) acerz owarancj Σ, w tórej ( δ jj j =, δ l = 0,99 ). 2. Zbór 250 obserwacj podzelonych na pęć ć nezbyt dobrze sepa arowal- nych las opsywanych przez dwe zenne sybolczne nterwałowe. Środ cężośc las too (5, 5), ( 3, 3) ), (3, 3),, (0, 0) ), ( 5, 5), acerzy owarancj Σ, gdz e δ jj =( j 3) ), δ 2 = δ 3 = 00,9, δ 23 = 0,9. Z wyorzystane paetu lbench (za poocąą fun cj lb bench. cassn, lb bench.sley oraz lbench..sprals) wygenerowano trzy zbory las (zob. rys. ) opsywanych zenny sybolczny nterwało wy:. Zbór danych Cassn (zaw werają ący 000 obetów podzelonych na trzy lasy). 2. Zbór danych Sley (zaw werając cy 300 obetów podzelonych na cztery lasy) ). 3. Zbór danych Sprals (zaw werający 3000 obetów podzelonych na dwe lasy) ). Zbory te zawerająą strutury las o netypowych ształtach. Zostały one uzysane w ten t sposób, że za poocą funcj paetu lbench wygenerowano lasyczne zbory dany ych (zawerające punty) o tych saych nazwach. Następ- ne, zachowując orygnalny ształt supeń, dodano newele odchylena dla tych puntóww cele otrzyana danych sybolcznych nterwałowych. Rys.. Zbory dany ych otrzyane z wyorzystane paetu lbench
48 Marcn Peła Wyn badań syulacyjnych w postac średnch wartośc sorygowanego ndesu Randa oblczonego na podstawe wszystch 40 syulacj z zastosowane danej ary odległośc zestawono w tabel 2. Zestawene wynów badań syulacyjnych Tabela 2 Nazwa Zenne Mara odległośc odelu załócające H U_2 U_3 SO_2 SO_3 SO_4 SO_5 Zbór bra Zbór Zbór 2 bra 0,95 0,99 0,94 0,87 0,90 0,90 0,89 Sley bra 0,66 0,87 0,88 0,88 0,90 0,89 0,89 Cassn bra 0,87 0,90 0,90 0,90 0,90 0,90 0,90 Sprals bra 0,88 0,9 0,92 0,93 0,93 0,94 0,94 Średna 0,89 0,95 0,94 0,93 0,94 0,94 0,94 Podsuowane Klasyfacja spetralna oże z powodzene znaleźć zastosowane w analze supeń dla danych sybolcznych dzę zastosowanu odpowednej ary odległośc dla danych tego typu. Podobne ja w przypadu danych lasycznych, ta w przypadu lasyfacj spetralnej danych sybolcznych stotne znaczene a paraetr σ (zob. wzór ), tóry pownen nalzować odległośc wewnątrzlasowe przy zadanej lczbe las. Najlepsze wyn dla analzowanych zborów danych zastosowanego ndesu doboru lczby las (zob. tabela 2) osągnęła ara Ichno-Yaguchego (SO_2). Zblżone rezultaty (w sense sorygowanego ndesu Randa) osągnęły wszyste ary znoralzowane. Zblżone wyn do ar znoralzowanych osągnęła neznoralzowana ara de Carvalho (SO_2), tóra jest odyfacją odległośc Ichno-Yaguchego. Najgorsze wyn otrzyano dla ary odległośc Hausdorffa (H). Cele dalszych prac będze porównane jaośc otrzyanych wynów (w sense sorygowanego ndesu Randa), jeżel zastosowane zostaną nne ary odległośc oraz nne ndesy służące doborow lczby las. Lteratura Analyss of sybolc data. Explanatory ethods for extractng statstcal nforaton fro coplex data. Eds. H.-H. Boc, E. Dday. Sprnger Verlag, Berln 2000. Dude A.: Metody analzy danych sybolcznych w badanach eonocznych. Wydawnctwo UE we Wrocławu, Wrocław 203.
Probleatya doboru ary odległośc 49 Karatzoglou A.: Kernel ethods. Software, algorths and applcatons. Rozprawa dotorsa. Technsche Unverstät Wen 2006. Lesch F., Dtradou E.: lbench pacage, 200, www.r-project.org. Luxburg U. von: A tutoral on spectral clusterng. Max Planc Insttute for Bologcal Cybernetcs, Techncal Report TR-49, 2006. Luxburg U. von, Bousuet O., Beln M.: Lts of spectral clusterng. W: Advances n Neural Inforaton Processng Systes (NIPS) 7. Eds. L. Saul, Y. Wess, L. Bottou. MIT Press, Cabrdge, MA, 2005. Ng A., Jordan M., Wess Y.: On spectral clusterng: Analyss and algorth. W: Advances n Neural Inforaton Processng Systes 4. Eds. T. Detterch, S. Becer, Z. Ghahraan. MIT Press, Cabrdge 2002. Shorteed S.: Learnng n spectral clusterng. Rozprawa dotorsa. Unversty of Washngton 2006. Verde R.: Clusterng ethods n sybolc data analyss. W: Classfcaton, Clusterng and Data Mnng Applcatons. Eds. D. Bans, L. House, E.R. McMorrs, P. Arabe, W. Gaul. Sprnger-Verlag, Hedelberg 2004. Walesa M., Dude A.: clusters pacage, 203, www.r-project.org. Walesa M., Dude A.: Odległość GDM dla danych porządowych a lasyfacja spetralna. Prace Nauowe Unwersytetu Eonocznego we Wrocławu 2009, nr 84. Walesa M.: Klasyfacja spetralna a sale poaru zennych. Przegląd Statystyczny 202, z.. Walesa M.: Metody lasyfacj. W: Metody statystycznej analzy welowyarowej w badanach aretngowych. Red. E. Gatnar, M. Walesa. Wydawnctwo AE we Wrocławu, Wrocław 2004. Walesa M.: Probley decyzyjne w procese lasyfacj zboru obetów. Prace Nauowe Aade Eonocznej we Wrocławu 2004, nr 00. Walesa M.: Zagadnene doboru lczby las w lasyfacj spetralnej. Prace Nauowe Unwersytetu Eonocznego we Wrocławu 203, nr 278. THE PROBLEM OF DISTANCE MEASURE SELECTION FOR SPECTRAL CLUSTERING OF SYMBOLIC DATA Suary Spectral clusterng that was proposed by Ng, Jordan and Wess, s not n fact a new clusterng ethod, but rather a new way to prepare data set for clusterng ethod. Ths ethod uses the dea of spectral decoposton. The an a of the paper s to present a possblty of applcaton spectral clusterng when dealng sybolc data, wth a specal focus on dfferent dstance easures that can be appled for ths nd of data. In experent studes artfcal data sets wth nown
50 Marcn Peła cluster structure were obtaned wth applcaton of clusters and lbench pacages of R software. Each data set was clustered 40 tes wth applcaton of each dstance easure appled. Receved results were copared wth nown cluster structure wth applcaton of adjusted Rand ndex.