Marci Pełka Uiwersytet Ekooiczy we Wrocławiu Rozyta klasyfacja k-średich dla daych iterwałowych. Wrowadzeie W aalizie daych syboliczych zarooowao wiele różorodych etod klasyfac, które geeralie oża odzielić a dwie główe gruy etod. Pierwszą z ich są etody sekwecyje (iteracyje), które otyalizują (wykorzystując w ty celu ewą fukcję-kryteriu) oczątkowy odział obiektów zgodie z ewy algoryte. Wśród tych etod wyróżia się: etody tworzące skuieia rozłącze (. klasyfacja dyaicza, etoda COBWEB Michalskiego i ie) oraz etody tworzące skuieia ierozłącze (rozyta klasyfacja k-średich dla daych syboliczych, adatacyja rozyta klasyfacja k-średich dla daych syboliczych). Wśród etod tworzących skuieia ierozłącze waże iejsce zajują etody klasyfac rozytej. Drugą gruą etod są etody hierarchicze wśród tych etod wyróżia się: etody agloeracyje (. etoda Brito, etoda klasyfac Gowdy-Didaya i ie), etody degloeracyje (etoda odziałowa oarta a kryteriach Chavet, etoda EPAM Sioa oraz Feigebaua i ie), etody tworzące skuieia ierozłącze (etoda iraid Brito). Przegląd różorodych etod klasyfac daych syboliczych rezetują. i. race: De Carvalho [007], Verde [004], Pełka [009]. Obiekty sybolicze ze względu a ziee które je oisują, oraz fakt, że obiekty sybolicze drugiego rzędu są agregatai (gruai, złożeiai) obiektów ierwszego rzędu [zob. Bock, Diday i i. 000], w wielu rzyadkach ie ależą tylko i wyłączie do jedej klasy, lecz wielu klas tworząc skuieia ierozłącze. Wya z tego otrzeba tworzeia etod klasyfac ierozłączej, w ty etod klasyfac rozytej. Cele artykułu jest zarezetowaie etody ieadatacyjej rozytej klasyfac k-średich dla daych iterwałowych, którą zarooował De Carvalho [007]. Cele dodatkowy jest róba ocey wływu wielkości araetru rozycia a hoogeiczość otrzyaych klas.
W części eiryczej rzedstawioo rzykład ilustracyjy zastosowaia ieadatacyjej rozytej klasyfac k-średich a rzykładowych daych syboliczych. Wykorzystao tu dae dostęe w akiecie SODAS oraz dae o zaej strukturze klas wygeerowae z wykorzystaie rocedury cluster.ge z akietu clustersi dla rograu R.. Tyy zieych w aalizie daych syboliczych W rzyadku obiektów syboliczych ożey ieć do czyieia z rodzajai zieych, takii jak [Bock, Diday i i. 000, s. -3]: ) ilorazowe, rzedziałowe, orządkowe, oiale; ) kategorie,. biały, zieloy; 3) iterwałowe, czyli rzedziały liczbowe, rozłącze lub ierozłącze,. ilość salaej bezyy a 00k w ewy saochodzie (6 litrów; 3 litrów); 4) wielowariatowe, rzykłade oże być ty adwozia saochodu ewej arki: seda, hatchback, iiva, coué, co ozacza, że dostęy jest o w czterech różych wariatach adwozia; 5) wielowariatowe z wagai (rawdoodobieństwai), gdzie orócz listy kategorii wystęują wagi (rawdoodobieństwa), z jakii obiekt osiada wybraą kategorię,. jeżeli wybrać zieą wybrae kolory adwozia dla ewej arki i odelu saochodu: biały (0,45), zieloy (0,30), czary (0,5), to ozacza to, że ożey kuić saochód w kolorze biały i zieloy, atoiast kolor czary jest o wiele iej sotykay. Sytuacja taka oże wyać. i. z olityki roduceta, czy oularości kolorów; 6) ziee strukturale [Bock, Diday i i. 000, s. -3; 33-37] w literaturze rzediotu wyróżia się orócz wyżej wyieioych tyów zieych także ziee strukturale: a) ziee o zależości fukcyjej, lub logiczej oiędzy oszczególyi zieyi, gdzie a riori ustaloo reguły fukcyje lub logicze decydujące o ty, jaką wartość rzye daa ziea; b) ziee hierarchicze, w których a riori ustaloo waruki, od których zależy, czy ziea dotyczy daego obiektu, czy też ie; c) ziee taksooicze, w których a riori ustaloo systeatykę, według której rzyjuje oa swoje realizacje. 3. Nieadatacyja rozyta klasyfacja k-średich Metodę rozytej klasyfac k-średich dla daych w rozuieiu klasyczy zarooował Du [973], astęie jej odyfację zarooował Bezdek [98].
De Carvalho [007] zarooował odyfację rozytej klasyfac k-średich dla daych klasyczych, która uożliwia klasyfację obiektów syboliczych oisywaych wyłączie zieyi iterwałowyi [zob. De Carvalho [007], s. 44]. Algoryt ieadatacyjej rozytej klasyfac k-średich dla daych iterwałowych rzedstawia się astęująco [De Carvalho 007, s. 45]:. Ustal liczbę klas c a które zostaie dokoay odział zbioru obiektów.. Wybierz wielkość araetru rozycia. 3. Ustal aksyalą liczbę iterac T oraz kryteriu stou 0. 4. Dla każdego obiektu ustal stoień rzyależości do i -tej klasy c u 0 u, gdzie i,, c liczba klas. i 5. Dla ustaloych u wyzacz wsółrzęde rototyów klas zgodie ze wzorai: u u a k, () k u u b k, () gdzie: doly ( góry) kraiec rzedziału j -tej zieej j,, w i -tej i,,c klasie. k,, uer obiektu. k 6. Dla obliczoych, oblicz stoień rzyależości obiektów do klas zgodie ze wzore: gdzie: u a doly ( obiekcie, h j j a b a b jh jh b góry) kraiec rzedziału j -tej zieej j,, ozostałe ozaczeia jak we wzorach i., w k -ty 7. Oblicz wartość fukc-kryteriu W wykorzystując wzór: c Wt u a b, (4) i k j 3 (3)
gdzie: ozaczeia jak we wzorach, i 3. Jeżeli t t W W lub osiągięto aksyalą ustaloą liczbę iterac T wówczas ależy zakończyć działaie algorytu w rzeciwy rzyadku rzejdź do kroku 5, zwiększając liczbę dokoaych iterac o jede. Do ocey jakości rozytej klasyfac k-średich dla daych syboliczych zarooowao iary heterogeiczości: R i R (overall heterogeeity idex). Jedakże ze względu a sosób ich iterretac oraz rzyjoway zakres wartości tych iar w artykule roouje się azwę iary hoogeiczości R i R. Miary te rzyjują wartości z zakresu [0; ]. I wyższe wartości tych iar, ty otrzyae klasy są bardziej hoogeicze, a rerezetaci klas w leszy i ełiejszy sosób odzwierciedlają (rerezetują) obiekty zajdujące się w tych klasach [De Carvalho 007, s. 48]. Miary hoogeiczości R i R są obliczae zgodie ze wzorai: gdzie: B R R B, (5) B W B, (6) B W c u i j j, i j (7) B c u i i j, (8) j j W, (9) c u a kj b kj i k j W, (0) c u a kj b kj i k j, u ahk hi bhk hi u a b h k, j, () k ozostałe ozaczeia jak we wzorach,, 3, 6 i 7. Paraetr hk hi hk to wektor wag związaych z odległościai obiektów od rototyów klas. Paraetr te a szczególe zaczeie dla adatacyjej rozytej klasyfac k-średich dla daych iterwałowych, gdzie odlega obliczaiu w każdy kroku itera- hi 4
cyjy, a jego zastosowaie a a celu otrzyaie bardziej jedorodych klas [zob. De Carvalho 007, s. 46-47]. 4. Przykład eiryczy Zbiór ierwszy (odel I) to dae ochodzące z rograu SODAS (l CAR.SDS) oisujący 33 arki saochodów zieyi różych tyów. Do badaia wybrao fraget zbioru daych (0 arek saochodów) oraz ziee sybolicze iterwałowe (.i. cea w euro, rzysieszeie, długość, wysokość, szerokość, rozstaw osi). Zbiór drugi (odel II) to rówież dae ochodzące z rograu SODAS (l ABALO- NE.SDS) oisujący 4 gatuki śliaków orskich z rodziy uchowców (Haliotidae). Zbiór oisyway jest siedioa zieyi syboliczyi iterwałowyi (.i. długość, średica uszli, waga ięczaka). Zbiór trzeci (odel III) to 50 obiektów odzieloych a ięć iezbyt dobrze searowaych klas oisywaych rzez dwie ziee sybolicze iterwałowe. Ziee w ty zbiorze są losowae iezależie z dwuwyiarowego rozkładu oralego o średich (5, 5), ( 3, 3), (3, 3), (0, 0), ( 5, 5) oraz acierzy kowariac, 0,9). ( jj jl Zbiór te wygeerowao z wykorzystaie fukc cluster.ge z akietu cluster- Si. Model te ie zawiera zieych zakłócających czy obserwac odstających. Klasyfac dokoao rzyjując liczbę klas od do 5 rzy dwóch araetrach rozycia i 4. Wyi klasyfac (w sesie iar hoogeiczości R i R ) zawarto w tab. i. Tabela. Wartości iar hoogeiczości w zależości od liczby klas ( ) R L. Nr odelu Liczba klas 3 4 5. I 0,34 0,45 0,65 0,79. II 0,3 0,6 0,89 0,67 3. III 0,37 0,53 0,78 0,98 R. I 0,37 0,50 0,7 0,83. II 0,6 0,66 0,88 0,7 3. III 0,43 0,57 0,8 0,99 Źródło: obliczeia włase z wykorzystaie rograu Excel. Wielkości araetru rozycia jest jedy z częściej wykorzystywaych w literaturze rzediotu (or. De Carvalho 007; El-Sobaty i Isail 998). Paraetr 4 rzyjęto cele srawdzeia wływu zia jego wielkości a hoogeiczość klas. 5
Tabela. Wartości iar hoogeiczości w zależości od liczby klas ( 4) R L. Nr odelu Liczba klas 3 4 5. I 0, 0,3 0,44 0,64. II 0,06 0,0 0,63 0,43 3. III 0, 0,6 0,40 0,75 R. I 0,30 0,38 0,5 0,69. II 0,09 0,6 0,70 0,48 3. III 0,0 0,33 0,5 0,85 Źródło: obliczeia włase z wykorzystaie rograu Excel. Niezależie od rzyjętego w badaiu araetru rozycia otrzyao takie sae wyi (w sesie jej hoogeiczości oszczególych klas). Dla zbioru saochodów osobowych ajleszą strukturą jest struktura ięciu klas. W rzyadku zbioru śliaków orskich ajleszy odziałe jest odział a cztery klasy. Dla sztuczie wygeerowaego zbioru daych rozyta klasyfacja k-średich dla daych syboliczych wskazuje a strukturę ięciu klas. W rzyadku tego odelu orówao wyi klasyfac rozytej ze zaą strukturą klas, rzyjując że obiekt jest rzydzieloy do klasy o ajwiększy stoiu rzyależości. Otrzyao w te sosób trafość klasyfac a ozioie 0,74. Miary ocey hoogeiczości klas R oraz R wskazują w rzyadku tych zbiorów daych oraz rzyjętych araetrów odobą hoogeiczość struktur klas. 5. Podsuowaie Istoty ograiczeie rozytej klasyfac k-średich dla daych iterwałowych jest fakt, że ozwala a aalizowaie obiektów syboliczych oisywaych wyłączie zieyi iterwałowyi. Pewe rozwiązaie tego ograiczeia jest rooowae w artykule Yag, Hwag, Che [004]. Drugi z ograiczeń rozytej klasyfac k-średich dla daych iterwałowych jest fakt, że wykorzystuje o w obliczeiach odległość euklidesową, leszy rozwiązaie w rzyadku daych syboliczych jest wykorzystaie iar odległości adekwatych dla tego tyu daych (. De Carvalho, Hausdorffa czy Ichio i Yaguchiego). Z rzerowadzoych badań wya, że zwiększaie liczby klas oraz wielkości araetru rozycia rowadzi do sadku hoogeiczości klas. Wyi w odoby brzieiu są forułowae dla rozytej klasyfac k-średich dla daych klasyczych [or. Lasek 00, s. 46]. 6
Kierukie dalszych rac owio stać się orówaie rozytej klasyfac k-średich dla daych syboliczych oraz adatacyjej rozytej klasyfac k-średich dla daych syboliczych z iyi etodai klasyfac rozytej dla daych syboliczych (. etodą iraid). Iy obszare dalszych badań owio stać się zbadaie skuteczości rozytej klasyfac k-średich dla daych syboliczych w rzyadku, gdy w zbiorze zieych zajdują się ziee zakłócające, a zbiorze daych obserwacje odstające. Literatura: Bezdek J.C. (98), Patter recogitio with fuzzy objective fuctio algoriths, Pleu Press, New York. Bock H.-H., Diday E., (red.) (000), Aalysis of sybolic data. Exlaatory ethods for extractig statistical iforatio fro colex data, Sriger-Verlag, Berli- Heidelberg. De Carvalho F.A.T. (007), Fuzzy c-eas clusterig ethods for sybolic iterval data, Patter Recogitio Letters, Volue: 8, Issue: 4, s. 43-437. Du J.C. (973), A fuzzy relative of the ISODATA rocess ad its use i detectig coact well-searated clusters, Joural of Cyberetics 3, s. 3-57. El-Sobaty Y., Isail M.A. (998), Fuzzy clusterig for sybolic data, IEEE Trasactios o Fuzzy Systes, Volue: 6, No., s. 95-04. Lasek M. (00), Data iig. Zastosowaie w aalizach i oceach klietów bakowych. Biblioteka Meedżera i Bakowca, Warszawa. Milliga G.W. (996), Clusterig validatio: results ad ilicatios for alied aalyses, I: P. Arabie, L.J. Hubert, G. de Soete (Eds.), Clusterig ad classificatio. World Scietific, Sigaore, s. 34-375. Pełka M. (009), Porówaie strategii klasyfac daych syboliczych, Prace Naukowe UE we Wrocławiu (w druku). Verde R. (004), Clusterig ethods i sybolic data aalysis, [w:] D. Baks, L. House, E. R. McMorris, P. Arabie, W. Gaul (red.), Classificatio, clusterig ad data iig alicatios, Sriger-Verlag, Heidelberg, s. 99-37. Yag M.S., Hwag P.Y., Che D.H. (004), Fuzzy clusterig algoriths for ixed feature variables, Fuzzy Sets ad Systes, Volue: 4, Issue:, s. 30-37. 7
Marci Pełka Uiwersytet Ekooiczy we Wrocławiu Rozyta klasyfacja k-średich dla daych syboliczych (Streszczeie) Artykuł rzedstawia adatacyją i ieadatacyją klasyfację k-średich dla daych syboliczych. Obydwie te etody zajdują zastosowaie wyłączie dla iterwałowych zieych syboliczych. W artykule rzedstawioo także tyy zieych syboliczych. W części eiryczej zastosowao ieadatacyją klasyfację k-średich dla rzykładowych daych syboliczych. Fuzzy c-eas clusterig for sybolic data (Suary) This aer itroduces adative ad o-adative fuzzy c-eas clusterig ethods for sybolic data. Both ethods are suitable oly for iterval-valued sybolic data. Article resets also tyes of sybolic variables. I the eirical art of the aer o-adative fuzzy c-eas clusterig ethod was alied to exelary sybolic data. 8