PROBLEMATYKA DOBORU MIARY ODLEGŁOŚCI W KLASYFIKACJI SPEKTRALNEJ DANYCH SYMBOLICZNYCH



Podobne dokumenty
Dr Krzysztof Piontek. Metody taksonomiczne Klasyfikacja i porządkowanie

FOLIA POMERANAE UNIVERSITATIS TECHNOLOGIAE STETINENSIS Folia Pomer. Univ. Technol. Stetin. 2010, Oeconomica 280 (59), 13 20

STATYSTYKA. Zmienna losowa skokowa i jej rozkład

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 2(88)/2012

Prawdopodobieństwo i statystyka r.

MODEL ROZMYTY WYBORU SAMOCHODU W NAJWYŻSZYM STOPNIU SPEŁNIAJĄCEGO PREFERENCJE KLIENTA

1. Wstęp Ideą podejścia wielomodelowego jest łączenie nazywane także agregacją wyników M modeli bazowych D 1, w jeden model zagregowany

ZAJĘCIA 3. Pozycyjne miary dyspersji, miary asymetrii, spłaszczenia i koncentracji

KURS STATYSTYKA. Lekcja 1 Statystyka opisowa ZADANIE DOMOWE. Strona 1

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

Definicje ogólne

Statystyka. Zmienne losowe

N ( µ, σ ). Wyznacz estymatory parametrów µ i. Y które są niezależnymi zmiennymi losowymi.

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

METODA UNITARYZACJI ZEROWANEJ Porównanie obiektów przy ocenie wielokryterialnej. Ranking obiektów.

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 5(96)/2013

Analiza niestacjonarności systemów WIM 1

dr inż. ADAM HEYDUK dr inż. JAROSŁAW JOOSTBERENS Politechnika Śląska, Gliwice

OKREŚLANIE PARZYSTOŚCI LICZB W RESZTOWYM SYSTEMIE LICZBOWYM Z WYKORZYSTANIEM KONWERSJI DO SYSTEMU Z MIESZANYMI PODSTAWAMI

Ćw. 5. Wyznaczanie współczynnika sprężystości przy pomocy wahadła sprężynowego

PROGNOZOWANIE SPRZEDAŻY Z ZASTOSOWANIEM ROZKŁADU GAMMA Z KOREKCJĄ ZE WZGLĘDU NA WAHANIA SEZONOWE

Kier. MTR Programowanie w MATLABie Laboratorium Ćw. 12

Zjawiska masowe takie, które mogą wystąpid nieograniczoną ilośd razy. Wyrazów Obcych)

Procedura normalizacji

Ćwiczenie 10. Metody eksploracji danych

Evaluation of estimation accuracy of correlation functions with use of virtual correlator model

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Metody badań kamienia naturalnego: Oznaczanie współczynnika nasiąkliwości kapilarnej

PROBLEMY BADANIA NIEZAWODNOŚCI SIŁOWNI TRANSPORTOWYCH OBIEKTÓW OCEANOTECHNICZNYCH

Weryfikacja hipotez dla wielu populacji

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

Systemy Ochrony Powietrza Ćwiczenia Laboratoryjne

METODY OCENY STOPNIA ZAAWANSOWANIA TELEINFORMATYCZNEGO POLSKICH PRZEDSI BIORSTW

WSKAŹNIK OCENY HIC SAMOCHODU OSOBOWEGO W ASPEKCIE BEZPIECZEŃSTWA RUCHU DROGOWEGO

Parametry zmiennej losowej

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

Pattern Classification

Odczyt kodów felg samochodowych w procesie produkcyjnym

ANALIZA PORÓWNAWCZA WYNIKÓW UZYSKANYCH ZA POMOCĄ MIAR SYNTETYCZNYCH: M ORAZ PRZY ZASTOSOWANIU METODY UNITARYZACJI ZEROWANEJ

LABORATORIUM TECHNIKI CIEPLNEJ INSTYTUTU TECHNIKI CIEPLNEJ WYDZIAŁ INŻYNIERII ŚRODOWISKA I ENERGETYKI POLITECHNIKI ŚLĄSKIEJ

Analiza kohortowa czasu istnienia mikroprzedsiębiorstw w Gdańsku

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

ANALIZA PREFERENCJI SŁUCHACZY UNIWERSYTETU TRZECIEGO WIEKU Z WYKORZYSTANIEM WYBRANYCH METOD NIESYMETRYCZNEGO SKALOWANIA WIELOWYMIAROWEGO

SYSTEMY UCZĄCE SIĘ WYKŁAD 5. LINIOWE METODY KLASYFIKACJI. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Natalia Nehrebecka. Zajęcia 4

WIELOWYMIAROWE REGUŁY ASOCJACJI W MODELOWANIU TENDENCJI ROZWOJOWYCH MSP

MODELOWANIE LICZBY SZKÓD W UBEZPIECZENIACH KOMUNIKACYJNYCH W PRZYPADKU WYSTĘPOWANIA DUŻEJ LICZBY ZER, Z WYKORZYSTANIEM PROCEDURY KROSWALIDACJI

ZASADY WYZNACZANIA DEPOZYTÓW ZABEZPIECZAJĄCYCH PO WPROWADZENIU DO OBROTU OPCJI W RELACJI KLIENT-BIURO MAKLERSKIE

Analiza Matematyczna Ćwiczenia. J. de Lucas

Analiza porównawcza rozwoju wybranych banków komercyjnych w latach

WYKŁAD 5 METODY OPTYMALIZACJI NIELINIOWEJ BEZ OGRANICZEŃ

Rozkład dwupunktowy. Rozkład dwupunktowy. Rozkład dwupunktowy x i p i 0 1-p 1 p suma 1

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

POLITECHNIKA ŚLĄSKA W GLIWICACH WYDZIAŁ INŻYNIERII ŚRODOWISKA i ENERGETYKI INSTYTUT MASZYN i URZĄDZEŃ ENERGETYCZNYCH.

SYMULACJA KOMPUTEROWA NAPRĘŻEŃ DYNAMICZNYCH WE WRĘGACH MASOWCA NA FALI NIEREGULARNEJ

Statystyka Opisowa 2014 część 1. Katarzyna Lubnauer

Neural networks. Krótka historia rozpoznawanie znaków alfanumerycznych.

KONSTRUKCJA OPTYMALNYCH PORTFELI Z ZASTOSOWANIEM METOD ANALIZY FUNDAMENTALNEJ UJĘCIE DYNAMICZNE

SYSTEMY UCZĄCE SIĘ WYKŁAD 7. KLASYFIKATORY BAYESA. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

System Przeciwdziałania Powstawaniu Bezrobocia na Terenach Słabo Zurbanizowanych SPRAWOZDANIE Z BADAŃ Autor: Joanna Wójcik

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer

Portfele zawierające walor pozbawiony ryzyka. Elementy teorii rynku kapitałowego

JEDNOWYMIAROWA ZMIENNA LOSOWA

Algorytm wyznaczania krotności diagnostycznej struktury opiniowania diagnostycznego typu PMC 1

Zastosowanie wielowymiarowej analizy porównawczej w doborze spó³ek do portfela inwestycyjnego Zastosowanie wielowymiarowej analizy porównawczej...

Wielokryterialny Trójwymiarowy Problem Pakowania

Komputerowe generatory liczb losowych

KINEMATYKA MANIPULATORÓW

Zastosowanie procedur modelowania ekonometrycznego w procesach programowania i oceny efektywności inwestycji w elektroenergetyce

Proste modele ze złożonym zachowaniem czyli o chaosie

WikiWS For Business Sharks

Wielokategorialne systemy uczące się i ich zastosowanie w bioinformatyce. Rafał Grodzicki

Efekty zaokrągleń cen w Polsce po wprowadzeniu euro do obiegu gotówkowego

BADANIA OPERACYJNE. Podejmowanie decyzji w warunkach niepewności. dr Adam Sojda

Teoria niepewności pomiaru (Rachunek niepewności pomiaru) Rodzaje błędów pomiaru

ZASTOSOWANIE ANALIZY HARMONICZNEJ DO OKREŚLENIA SIŁY I DŁUGOŚCI CYKLI GIEŁDOWYCH

Laboratorium ochrony danych

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

strona 1 / 12 Autor: Walesiak Marek Publikacje:

O PEWNYM MODELU POZWALAJĄCYM IDENTYFIKOWAĆ K NAJBARDZIEJ PODEJRZANYCH REKORDÓW W ZBIORZE DANYCH KSIĘGOWYCH W PROCESIE WYKRYWANIA OSZUSTW FINANSOWYCH

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

STATECZNOŚĆ SKARP. α - kąt nachylenia skarpy [ o ], φ - kąt tarcia wewnętrznego gruntu [ o ],

Statystyka Inżynierska

Zaawansowane metody numeryczne

Matematyka finansowa r.

Współczynnik przenikania ciepła U v. 4.00

KOINCYDENTNOŚĆ MODELU EKONOMETRYCZNEGO A JEGO JAKOŚĆ MIERZONA WARTOŚCIĄ WSPÓŁCZYNNIKA R 2 (K)

Zapis informacji, systemy pozycyjne 1. Literatura Jerzy Grębosz, Symfonia C++ standard. Harvey M. Deitl, Paul J. Deitl, Arkana C++. Programowanie.

Proces narodzin i śmierci

STATYSTYCZNA ANALIZA WYNIKÓW POMIARÓW

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

Zmodyfikowana technika programowania dynamicznego

WPŁYW PARAMETRÓW DYSKRETYZACJI NA NIEPEWNOŚĆ WYNIKÓW POMIARU OBIEKTÓW OBRAZU CYFROWEGO

Eugeniusz Rosołowski. Komputerowe metody analizy elektromagnetycznych stanów przejściowych

Ćw. 5. Badanie ruchu wahadła sprężynowego sprawdzenie wzoru na okres drgań

KLASYFIKACJA SPEKTRALNA A SKALE POMIARU ZMIENNYCH 1 1. WPROWADZENIE 2. TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA

Realizacja logiki szybkiego przeniesienia w prototypie prądowym układu FPGA Spartan II

TRANZYSTOR BIPOLARNY CHARAKTERYSTYKI STATYCZNE

Transkrypt:

Marcn Peła Unwersytet Eonoczny we Wrocławu PROBLEMATYKA DOBORU MIARY ODLEGŁOŚCI W KLASYFIKACJI SPEKTRALNEJ DANYCH SYMBOLICZNYCH Wprowadzene Zagadnene doboru odpowednej ary odległośc stanow, obo probleaty doboru lczby las, jeden z luczowych roów w lasyfacj spetralnej. Cele artyułu jest przetestowane przydatnośc sedu różnych ar odległośc dla danych sybolcznych w przypadu zastosowana lasyfacj spetralnej dla danych tego typu. W badanach syulacyjnych wyorzystano dane sybolczne nterwałowe o znanej struturze las obetów wygenerowane z wyorzystane funcj cluster.gen paetu clusters oraz zbory danych o netypowych struturach las wygenerowane z zastosowane funcj paetu lbench. Dla ażdego odelu wygenerowano 40 zborów danych, przeprowadzono lasyfację spetralną z zastosowane danej ary odległośc. Otrzyane rezultaty porównano ze znaną struturą las z wyorzystane sorygowanego ndesu Randa.. Klasyfacja spetralna W analze danych sybolcznych opracowano wele różnych etod lasyfacj (herarchcznych teracyjno-optyalzacyjnych). Możlwe jest taże zastosowane lasycznych etod analzy supeń, o le bazują one na acerzach odległośc. Nenej jedna stotne jest odyfowane stnejących rozwązań dla danych lasycznych na potrzeby danych sybolcznych rozwane nowych etod lasyfacj danych sybolcznych. Zob. np. R. Verde: Clusterng ethods n sybolc data analyss. W: Classfcaton, Clusterng and Data Mnng Applcatons. Eds. D. Bans et al. Sprnger-Verlag, Hedelberg 2004, s. 299-37; A. Dude: Metody analzy danych sybolcznych w badanach eonocznych. Wydawnctwo UE we Wrocławu, Wrocław 203, s. 66-79.

Probleatya doboru ary odległośc 4 Nazwa lasyfacj spetralnej nawązuje do jednego z podstawowych roów tej etody, w tóry wyznacza sę spetru acerzy Laplace a. W ateatyce zbór wartośc własnych acerzy nazywa sę wde (spetru) acerzy 2. Podstawowy algoryt lasyfacj spetralnej zaproponowano w pracy Ng, Jordan Wess 3. Modyfacje tego algorytu zaproponowano.n. w pracach: Shorteed 4, Walesaa Duda 5, Walesaa 6. W pracy von Luxburg przedstawono badana porównawcze, z tórych wyna, że lasyfacja spetralna często daje znaczne lepsze rezultaty nż tradycyjne etody lasyfacj. Wyna to z fatu, że ne przyjuje sę w nej żadnych założeń co do ształtu supeń. Dodatowo lasyfacja spetralna w węszośc prezentowanych ta przypadów daje lepsze rezultaty dla supeń o netypowych ształtach 7. Klasyfacja spetralna dla danych sybolcznych nterwałowych słada sę z następujących roów 8 : V = o wyarach. Konstrucja tablcy danych sybolcznych [ ] n ( =,, n nuer obetu, j =,, nuer zennej). 2. Zastosowane estyatora jądrowego do oblczena acerzy podobeństw A = [ A ] (affnty atrx) ędzy obeta. Najczęścej do wyznaczena acerzy A wyorzystywany jest estyator gaussows 9 : A = exp( σ d ),, =,, n, () odległość ędzy -ty -ty obete sybolczny, d σ paraetr sal (szeroość pasa ernel wdth), A = 0. v 2 3 4 5 6 7 8 9 Cyt. za: M. Walesa: Zagadnene doboru lczby las w lasyfacj spetralnej. Prace Nauowe Unwersytetu Eonocznego we Wrocławu 203, nr 278, s. 33-34. A. Ng, M. Jordan, Y. Wess: On spectral clusterng: Analyss and algorth. W: Advances n Neural Inforaton Processng Systes 4. Eds. T. Detterch, S. Becer, Z. Ghahraan. MIT Press, Cabrdge 2002, s. 849-856. S. Shorteed: Learnng n spectral clusterng. Rozprawa dotorsa. Unversty of Washngton 2006. M. Walesa, A. Dude: Odległość GDM dla danych porządowych a lasyfacja spetralna. Prace Nauowe Unwersytetu Eonocznego we Wrocławu 2009, nr 84, s. 9-9. M. Walesa: Klasyfacja spetralna a sale poaru zennych. Przegląd Statystyczny 202, z., s. 3-3. Zob. np. U. von Luxburg, O. Bousuet, M. Beln: Lts of spectral clusterng. W: Advances n Neural Inforaton Processng Systes (NIPS) 7. Eds. L. Saul, Y. Wess, L. Bottou. MIT Press, Cabrdge, MA, 2005, s. 857-864. Opracowano na podstawe prac: M. Walesa, A. Dude: Odległość GDM, op. ct., s. 2-4; A. Dude: Metody analzy, op. ct., s. 78; M. Walesa: Zagadnene doboru, op. ct., s. 34-35. A. Karatzoglou: Kernel ethods. Software, algorths and applcatons. Rozprawa dotorsa. Technsche Unverstät Wen 2006, s. 26.

42 Marcn Peła Inny przyłada estyatorów jądrowych, tóre ogą być zastosowane w ty rou, są.n.: jądro weloanowe, jądro lnowe, jądro w postac tangensa hperbolcznego, jądro Bessela, jądro ANOVA czy jądro łańcuchowe (dla danych testowych) 0. W artyule przetestowano sede różnych ar odległośc (z zastosowane estyatora jądrowego wyrażonego wzore ()), tóre ożna zastosować w przypadu zennych sybolcznych nterwałowych : a) Mara Ichno-Yaguchego (U_2): j= (, ), φ v v (2) φ ( v, v ) = v v v v + γ 2 v v v v, ( ) v, v oznacza realzację j-tej zennej sybolcznej w -ty oraz -ty obece, oraz są rozszerzene pojęca suy loczynu artezjańsego na zenne sybolczne, dla zennych nterwałowych oznacza długość przedzałów, dla zennych welowarantowych lczbę warantów (ategor), γ paraetr ustalany arbtralne przez badacza (zwyle γ = 0, 5 ). b) Znoralzowana ara Ichno-Yaguchego (U_3): ψ v, v = φ v, v / V, ( ) ( ) j j= (, ), ψ v v (3) V j zbór obrazów zennej sybolcznej, pozostałe oznaczena ja we wzorze (2). c) Mara de Carvalho, tóra jest odyfacją odległośc Ichno- -Yaguchego (SO_3): [ (, )], ψ v v (4) j= 0 M. Walesa: Zagadnene doboru, op. ct., s. 35. Inne ary odległośc dla danych sybolcznych ożna znaleźć np. w: A. Dude: Metody analzy, op. ct., s. 5-6.

Probleatya doboru ary odległośc 43 ψ v v = φ v, v / μ v (, ) ( ) ( v ), ( v, ) μ oznacza długość przedzału dla v zennych nterwałowych w pozostałych przypadach jest to, pozostałe oznaczena ja we wzorze (2). d) Mara de Carvalho oparta na pojęcu potencjału opsowego obetu sybolcznego (SO_3): π ( A A ) π ( A A ) + γ [ π ( A A ) π ( A ) π ( A )] 2, (5) π potencjał opsowy obetu sybolcznego: ( ) = μ( ) = π A v, (6) pozostałe oznaczena ja we wzorach (2) (4). e) Znoralzowana ara de Carvalho oparta na pojęcu potencjału opsowego obetu sybolcznego: E [ π ( A A ) π ( A A ) + γ [ 2π ( A A ) π ( A ) π ( A ) ]/ π ( A ), (7) E π ( A ) oznacza potencjał opsowy najbardzej ogólnego obetu sybolcznego (w rozuenu potencjału opsowego), pozostałe oznaczena ja we wzorze (5). f) Znoralzowana ara de Carvalho oparta na pojęcu potencjału opsowego obetu sybolcznego postać druga ary (SO_5): [ ( A A ) π ( A A ) + γ [ π ( A A ) π ( A ) π ( A ) ]/ π ( A A ), π (8) oznaczena ja we wzorze (6). g) Mara Hausdorffa (H): v v ( v, v ) j = 2 2 ( ax{ v, v v }), 2 v (9), oznaczają odpowedno górne (dolne) rańce przedzału zennej sybolcznej nterwałowej.

44 Marcn Peła Paraetr sal ( σ ), podobne ja w przypadu lasyfacj spetralnej dla danych lasycznych, a luczowe znaczene dla lasyfacj spetralnej. Poszuwana jest taa wartość paraetru sal, tóra dla zadanej lczby las będze nalzować zenność wewnątrzlasową. Jest to heurystyczna etoda poszuwana nu loalnego 2. 3. Oblczene dagonalnej acerzy D, na głównej przeątnej tej acerzy znajdują sę suy ażdego wersza z acerzy A, a poza ną są zera. 4. Konstrucja znoralzowanej acerzy Laplace a 3 : / 2 / 2 L = D AD (0) 5. Oblczene wartośc własnych odpowadających wetorów własnych (o długośc równej jeden) dla acerzy L. Uporządowane wetorów własnych według alejących wartośc własnych. Perwsze u, gdze u lczba las, wetorów własnych tworzy acerz E = [ e ] o wyarach n u. 6. Przeprowadzene noralzacj acerzy E zgodne ze wzore: y = e () =,, n nuer obetu, j =,, u nuer zennej, u lczba las. Dzę tej noralzacj długość ażdego wetora werszowego acerzy Y = [ y ] jest równa jeden. 7. Macerz Y stanow punt wyjśca zastosowana jednej z lasycznych etod analzy supeń (zwyle jest to etoda -średnch). u j= e 2, 2. Dane sybolczne Obety sybolczne ogą być opsywane przez następujące rodzaje zennych sybolcznych 4 : a) lorazowe, b) przedzałowe, 2 M. Walesa, Zagadnene doboru, op. ct., s. 4. 3 Własnośc tej acerzy zaprezentowano.n. w pracy: U. von Luxburg: A tutoral on spectral clusterng. Max Planc Insttute for Bologcal Cybernetcs, Techncal Report TR-49, 2006. 4 Analyss of sybolc data. Explanatory ethods for extractng statstcal nforaton fro coplex data. Eds. H.-H. Boc, E. Dday. Sprnger Verlag, Berln 2000, s. 2-3.

Probleatya doboru ary odległośc 45 c) porządowe, d) nonalne, e) nterwałowe, tórych realzacją są przedzały lczbowe rozłączne lub nerozłączne; f) welowarantowe, gdze realzacją zennej jest węcej nż jeden warant (lczba lub ategora); g) welowarantowe z waga, gdze realzacją zennej oprócz welu warantów są dodatowo wag (lub prawdopodobeństwa) dla ażdego z warantów zennej dla danego obetu, h) nterwałowe z waga (hstograowe). Przyłady zennych sybolcznych wraz z ch realzacja zawarto w tabel. Przyłady zennych sybolcznych wraz z realzacja Tabela Zenna Realzacje Typ zennej sybolcznej Preferowana cena saochodu (w zł) <27000, 42000>; <35000, 50000> <20000, 30000>; <25000, 37000> nterwałowa (przedzały nerozłączne) Rozważana pojeność slna (w c 3 ) <000, 200>; <300, 400> <500, 800>; <900, 2200> nterwałowa (przedzały rozłączne) Wybrany olor {nebes, czerwony, żółty} {zelony, czarny, szary, bały} welowarantowa Preferowana ara saochodu {Toyota (0,3); Volvo (0,7)} {Aud (0,6); Soda (0,4)} {VW (,0)} welowarantowa z waga Nezależne od typu zennej w analze danych sybolcznych ożey eć do czynena ze zenny struturalny 5. Do tego typu zennych zalcza sę zenne herarchczne w tórych a pror ustalone są reguły decydujące o ty, czy dana zenna opsuje dany obet, czy ne; zenne tasonoczne w tórych ustalone są a pror realzacje danej zennej; zenne logczne tj. tae, dla tórych ustalono a pror reguły logczne lub funcyjne decydujące o wartoścach zennej. W analze danych sybolcznych wyróżna sę dwa typy obetów sybolcznych: obety sybolczne perwszego rzędu obety rozuane w sense lasyczny (obety eleentarne), np. onsuent, przedsęborstwo, produt, pacjent czy gospodarstwo doowe, obety sybolczne drugego rzędu obety utworzone w wynu agregacj zboru obetów sybolcznych perwszego rzędu, np. grupa onsuentów preferująca oreślony produt, regon geografczny (jao wyn agregacj podregonów). 5 Ibd., s. 2-3, 33-37.

46 Marcn Peła 3. Badana syulacyjne Dla celów badana syulacyjnego z wyorzystane sedu zaprezentowanych ar odległośc przygotowano cztery zbory danych o znanej struturze las. Dla ażdego ze zborów ażdej ary odległośc przeprowadzono 40 syulacj. W celu wybrana ostatecznej lczby las zastosowano ndes sylwetowy pozwalający na ocenę prawdłowego zalasyfowana poszczególnych obetów do las w postac 6 : S () ( ) a( ) { a() ; b() }, b = (2) ax a() = d ( ) { } P nr oznacza średną odległość -tego obetu od r \ pozostałych obetów należących do lasy P r, b () n{ d }, = Ps Ps s r d średna odległość -tego obetu od obetów należących do lasy s ( d P d ns ) P =, s P s r, s =,, u nuer lasy, u lczba las. Ogólna jaość lasyfacj oraz prawdłowość wyodrębnena poszczególnych las są erzone jao 7 : S ( P ) = r S( ) n P r oraz S r ( P) = r S( Pr ) u. Do porównana rezultatów ze znaną struturą las wyorzystano sorygowany ndes Randa 8 w postac: n R = N, 2 ax R HA ax ( R) E( R), R asyalna wartość ary Randa ( ) R E = (3) R R ax =, 6 Szerzej o ty ndese oraz nnych ndesach służących wyborow lczby las psze np. M. Walesa: Metody lasyfacj. W: Metody statystycznej analzy welowyarowej w badanach aretngowych. Red. E. Gatnar, M. Walesa. Wydawnctwo AE we Wrocławu, Wrocław 2004, s. 338-343. 7 Ibd., s. 343. 8 Zob. np. M. Walesa: Probley decyzyjne w procese lasyfacj zboru obetów. Prace Nauowe Aade Eonocznej we Wrocławu 2004, nr 00, s. 60-6.

Probleatya doboru ary odległośc 47 E(R ) oczewana wartośćć ary Randa wyrażona wzore: 2 n. E( R) = + 2 r n r 2 s n n. s 2 2. r n r + s. n 2 s, (4) 2 2 ( t ) n. r lczba ob etów w lase P r, ( n s. lczba ob etów w lase P ) s. Za poocąą funcj cluster.gen z paetu clusters wygenerowa- no dwa odele: :. Zbór 00 obse erwacj podzelonych na dwe lasy o wyd dłużony ształ- ce opsywane przez dwe z enne sybolczne nterwałowe. Środ cężośc las to (0, 0) oraz (, 5) acerz owarancj Σ, w tórej ( δ jj j =, δ l = 0,99 ). 2. Zbór 250 obserwacj podzelonych na pęć ć nezbyt dobrze sepa arowal- nych las opsywanych przez dwe zenne sybolczne nterwałowe. Środ cężośc las too (5, 5), ( 3, 3) ), (3, 3),, (0, 0) ), ( 5, 5), acerzy owarancj Σ, gdz e δ jj =( j 3) ), δ 2 = δ 3 = 00,9, δ 23 = 0,9. Z wyorzystane paetu lbench (za poocąą fun cj lb bench. cassn, lb bench.sley oraz lbench..sprals) wygenerowano trzy zbory las (zob. rys. ) opsywanych zenny sybolczny nterwało wy:. Zbór danych Cassn (zaw werają ący 000 obetów podzelonych na trzy lasy). 2. Zbór danych Sley (zaw werając cy 300 obetów podzelonych na cztery lasy) ). 3. Zbór danych Sprals (zaw werający 3000 obetów podzelonych na dwe lasy) ). Zbory te zawerająą strutury las o netypowych ształtach. Zostały one uzysane w ten t sposób, że za poocą funcj paetu lbench wygenerowano lasyczne zbory dany ych (zawerające punty) o tych saych nazwach. Następ- ne, zachowując orygnalny ształt supeń, dodano newele odchylena dla tych puntóww cele otrzyana danych sybolcznych nterwałowych. Rys.. Zbory dany ych otrzyane z wyorzystane paetu lbench

48 Marcn Peła Wyn badań syulacyjnych w postac średnch wartośc sorygowanego ndesu Randa oblczonego na podstawe wszystch 40 syulacj z zastosowane danej ary odległośc zestawono w tabel 2. Zestawene wynów badań syulacyjnych Tabela 2 Nazwa Zenne Mara odległośc odelu załócające H U_2 U_3 SO_2 SO_3 SO_4 SO_5 Zbór bra Zbór Zbór 2 bra 0,95 0,99 0,94 0,87 0,90 0,90 0,89 Sley bra 0,66 0,87 0,88 0,88 0,90 0,89 0,89 Cassn bra 0,87 0,90 0,90 0,90 0,90 0,90 0,90 Sprals bra 0,88 0,9 0,92 0,93 0,93 0,94 0,94 Średna 0,89 0,95 0,94 0,93 0,94 0,94 0,94 Podsuowane Klasyfacja spetralna oże z powodzene znaleźć zastosowane w analze supeń dla danych sybolcznych dzę zastosowanu odpowednej ary odległośc dla danych tego typu. Podobne ja w przypadu danych lasycznych, ta w przypadu lasyfacj spetralnej danych sybolcznych stotne znaczene a paraetr σ (zob. wzór ), tóry pownen nalzować odległośc wewnątrzlasowe przy zadanej lczbe las. Najlepsze wyn dla analzowanych zborów danych zastosowanego ndesu doboru lczby las (zob. tabela 2) osągnęła ara Ichno-Yaguchego (SO_2). Zblżone rezultaty (w sense sorygowanego ndesu Randa) osągnęły wszyste ary znoralzowane. Zblżone wyn do ar znoralzowanych osągnęła neznoralzowana ara de Carvalho (SO_2), tóra jest odyfacją odległośc Ichno-Yaguchego. Najgorsze wyn otrzyano dla ary odległośc Hausdorffa (H). Cele dalszych prac będze porównane jaośc otrzyanych wynów (w sense sorygowanego ndesu Randa), jeżel zastosowane zostaną nne ary odległośc oraz nne ndesy służące doborow lczby las. Lteratura Analyss of sybolc data. Explanatory ethods for extractng statstcal nforaton fro coplex data. Eds. H.-H. Boc, E. Dday. Sprnger Verlag, Berln 2000. Dude A.: Metody analzy danych sybolcznych w badanach eonocznych. Wydawnctwo UE we Wrocławu, Wrocław 203.

Probleatya doboru ary odległośc 49 Karatzoglou A.: Kernel ethods. Software, algorths and applcatons. Rozprawa dotorsa. Technsche Unverstät Wen 2006. Lesch F., Dtradou E.: lbench pacage, 200, www.r-project.org. Luxburg U. von: A tutoral on spectral clusterng. Max Planc Insttute for Bologcal Cybernetcs, Techncal Report TR-49, 2006. Luxburg U. von, Bousuet O., Beln M.: Lts of spectral clusterng. W: Advances n Neural Inforaton Processng Systes (NIPS) 7. Eds. L. Saul, Y. Wess, L. Bottou. MIT Press, Cabrdge, MA, 2005. Ng A., Jordan M., Wess Y.: On spectral clusterng: Analyss and algorth. W: Advances n Neural Inforaton Processng Systes 4. Eds. T. Detterch, S. Becer, Z. Ghahraan. MIT Press, Cabrdge 2002. Shorteed S.: Learnng n spectral clusterng. Rozprawa dotorsa. Unversty of Washngton 2006. Verde R.: Clusterng ethods n sybolc data analyss. W: Classfcaton, Clusterng and Data Mnng Applcatons. Eds. D. Bans, L. House, E.R. McMorrs, P. Arabe, W. Gaul. Sprnger-Verlag, Hedelberg 2004. Walesa M., Dude A.: clusters pacage, 203, www.r-project.org. Walesa M., Dude A.: Odległość GDM dla danych porządowych a lasyfacja spetralna. Prace Nauowe Unwersytetu Eonocznego we Wrocławu 2009, nr 84. Walesa M.: Klasyfacja spetralna a sale poaru zennych. Przegląd Statystyczny 202, z.. Walesa M.: Metody lasyfacj. W: Metody statystycznej analzy welowyarowej w badanach aretngowych. Red. E. Gatnar, M. Walesa. Wydawnctwo AE we Wrocławu, Wrocław 2004. Walesa M.: Probley decyzyjne w procese lasyfacj zboru obetów. Prace Nauowe Aade Eonocznej we Wrocławu 2004, nr 00. Walesa M.: Zagadnene doboru lczby las w lasyfacj spetralnej. Prace Nauowe Unwersytetu Eonocznego we Wrocławu 203, nr 278. THE PROBLEM OF DISTANCE MEASURE SELECTION FOR SPECTRAL CLUSTERING OF SYMBOLIC DATA Suary Spectral clusterng that was proposed by Ng, Jordan and Wess, s not n fact a new clusterng ethod, but rather a new way to prepare data set for clusterng ethod. Ths ethod uses the dea of spectral decoposton. The an a of the paper s to present a possblty of applcaton spectral clusterng when dealng sybolc data, wth a specal focus on dfferent dstance easures that can be appled for ths nd of data. In experent studes artfcal data sets wth nown

50 Marcn Peła cluster structure were obtaned wth applcaton of clusters and lbench pacages of R software. Each data set was clustered 40 tes wth applcaton of each dstance easure appled. Receved results were copared wth nown cluster structure wth applcaton of adjusted Rand ndex.