ZASTOSOWANIE MIAR ZACHOWANIA STRUKTURY TOPOLOGICZNEJ ZBIORU W WIELOWYMIAROWEJ ANALIZIE DANYCH W PRZESTRZENI ZREDUKOWANEJ

Podobne dokumenty
MIARY ZACHOWANIA STRUKTURY TOPOLOGICZNEJ ZBIORU I ICH UŻYCIE W PROBLEMACH WIELOWYMIAROWEJ ANALIZY DANYCH

ZASTOSOWANIE MIAR ZACHOWANIA STRUKTURY TOPOLOGICZNEJ ZBIORU W WIELOWYMIAROWEJ ANALIZIE DANYCH W PRZESTRZENI ZREDUKOWANEJ

WPŁYW PARAMETRÓW DYSKRETYZACJI NA NIEPEWNOŚĆ WYNIKÓW POMIARU OBIEKTÓW OBRAZU CYFROWEGO

Konstrukcja gier sprawiedliwych i niesprawiedliwych poprzez. określanie prawdopodobieństwa.

Wyrównanie spostrzeżeń pośrednich. Spostrzeżenia jednakowo dokładne

Pattern Classification

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

PROBLEMATYKA DOBORU MIARY ODLEGŁOŚCI W KLASYFIKACJI SPEKTRALNEJ DANYCH SYMBOLICZNYCH

UCHWAŁA NR 279/XVIII/2011 Rady Miasta Płocka z dnia 29 grudnia 2011 roku

OKREŚLANIE PARZYSTOŚCI LICZB W RESZTOWYM SYSTEMIE LICZBOWYM Z WYKORZYSTANIEM KONWERSJI DO SYSTEMU Z MIESZANYMI PODSTAWAMI

Definicje ogólne

SZTUCZNA INTELIGENCJA

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer

Monitorowanie i Diagnostyka w Systemach Sterowania

= σ σ. 5. CML Capital Market Line, Rynkowa Linia Kapitału

OPTYMALIZACJA PARAMETRÓW DYSKRETYZACJI W SYSTEMACH DIAGNOSTYKI OBRAZOWEJ

Macierz prawdopodobieństw przejścia w pojedynczym kroku dla łańcucha Markowa jest postaci

Statystyczne metody przetwarzania danych

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 2(88)/2012

Uchwała Nr 279/XVIII/2011 Rady Miasta Płocka z dnia 29 grudnia 2011 roku

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

Weryfikacja hipotez dla wielu populacji

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

ZAJĘCIA 3. Pozycyjne miary dyspersji, miary asymetrii, spłaszczenia i koncentracji


Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

OCENA SEGMENTACJI RYNKU ZA POMOCĄ MIAR JAKOŚCI GRUPOWANIA DANYCH

Ćwiczenie 10. Metody eksploracji danych

EFEKTYWNA STOPA PROCENTOWA O RÓWNOWAŻNA STPOPA PROCENTOWA

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

Portfele zawierające walor pozbawiony ryzyka. Elementy teorii rynku kapitałowego

DRGANIA WŁASNE UKŁADÓW RAMOWYCH I ICH MODELOWANIE W PROGRAMIE AUTODESK ROBOT STRUCTURAL ANALYSIS

Twierdzenie Bezouta i liczby zespolone Javier de Lucas. Rozwi azanie 2. Z twierdzenia dzielenia wielomianów, mamy, że

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 5(96)/2013

Zastosowanie wielowymiarowej analizy porównawczej w doborze spó³ek do portfela inwestycyjnego Zastosowanie wielowymiarowej analizy porównawczej...

O PEWNYM MODELU POZWALAJĄCYM IDENTYFIKOWAĆ K NAJBARDZIEJ PODEJRZANYCH REKORDÓW W ZBIORZE DANYCH KSIĘGOWYCH W PROCESIE WYKRYWANIA OSZUSTW FINANSOWYCH

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

Proces narodzin i śmierci

Zapis informacji, systemy pozycyjne 1. Literatura Jerzy Grębosz, Symfonia C++ standard. Harvey M. Deitl, Paul J. Deitl, Arkana C++. Programowanie.

Zastosowanie entropii Shannona do określenia ważności atrybutów w AHP

KOINCYDENTNOŚĆ MODELU EKONOMETRYCZNEGO A JEGO JAKOŚĆ MIERZONA WARTOŚCIĄ WSPÓŁCZYNNIKA R 2 (K)

KURS STATYSTYKA. Lekcja 1 Statystyka opisowa ZADANIE DOMOWE. Strona 1

± Δ. Podstawowe pojęcia procesu pomiarowego. x rzeczywiste. Określenie jakości poznania rzeczywistości

Zmodyfikowana technika programowania dynamicznego

1. Wstęp Ideą podejścia wielomodelowego jest łączenie nazywane także agregacją wyników M modeli bazowych D 1, w jeden model zagregowany

Evaluation of estimation accuracy of correlation functions with use of virtual correlator model

WOJSKOWA AKADEMIA TECHNICZNA ĆWICZENIA LABORATORYJNE Z FIZYKI. SPRAWOZDANIE Z PRACY LABORATORYJNEJ nr 0. Badanie rozkładu rzutu śnieżkami do celu

ZAŁĄCZNIKI ROZPORZĄDZENIA DELEGOWANEGO KOMISJI

ANALIZA PORÓWNAWCZA WYNIKÓW UZYSKANYCH ZA POMOCĄ MIAR SYNTETYCZNYCH: M ORAZ PRZY ZASTOSOWANIU METODY UNITARYZACJI ZEROWANEJ

Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE

Wprowadzenie do kalibracji jedno- i wieloparametrowej

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Metody badań kamienia naturalnego: Oznaczanie współczynnika nasiąkliwości kapilarnej

METODA UNITARYZACJI ZEROWANEJ Porównanie obiektów przy ocenie wielokryterialnej. Ranking obiektów.

WOJSKOWA AKADEMIA TECHNICZNA ĆWICZENIA LABORATORYJNE Z FIZYKI. SPRAWOZDANIE Z PRACY LABORATORYJNEJ nr 0. Badanie rozkładu rzutu śnieżkami do celu

Ciepło topnienia lodu

ANALIZA PRZYCZYNOWA RÓŻNIC W WIELKOŚCI NAKŁADÓW NA BADANIA I ROZWÓJ W WYBRANYCH KRAJACH UNII EUROPEJSKIEJ I ŚWIATA

System Przeciwdziałania Powstawaniu Bezrobocia na Terenach Słabo Zurbanizowanych SPRAWOZDANIE Z BADAŃ Autor: Joanna Wójcik

WikiWS For Business Sharks

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Programowanie wielokryterialne

Analiza danych. Analiza danych wielowymiarowych. Regresja liniowa. Dyskryminacja liniowa. PARA ZMIENNYCH LOSOWYCH

Plan wykładu. Sztuczne sieci neuronowe. Uczenie nienadzorowane (bez nauczyciela) Uczenie nienadzorowane - przykłady

Eksploracja danych. Grupowanie danych

Szacowanie niepewności wskaźników PMV

WSHiG Karta przedmiotu/sylabus. Studia stacjonarne 15 w Studia niestacjonarne 8 w Studia stacjonarne 45 ćw Studia niestacjonarne 12 ćw

Rys. 1. Temperatura punktu rosy na wykresie p-t dla wody.

I. Elementy analizy matematycznej

Przykład 5.1. Kratownica dwukrotnie statycznie niewyznaczalna

Wykład 2: Uczenie nadzorowane sieci neuronowych - I

A C T A U N I V E R S I T A T I S N I C O L A I C O P E R N I C I EKONOMIA XXXIX NAUKI HUMANISTYCZNO-SPOŁECZNE ZESZTYT 389 TORUŃ 2009.

MECHANIKA BUDOWLI 13

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Zadanie 1. Rzucamy symetryczną monetą tak długo, aż w dwóch kolejnych rzutach pojawią się,,reszki. Oblicz wartość oczekiwaną liczby wykonanych rzutów.

WSHiG Karta przedmiotu/sylabus. Studia stacjonarne 15 w Studia niestacjonarne 8 w Studia stacjonarne 45 ćw Studia niestacjonarne 12 ćw

POMIAR MOCY BIERNEJ W OBWODACH TRÓJFAZOWYCH

ANALIZA PRZESTRZENNA PROCESU STARZENIA SIĘ POLSKIEGO SPOŁECZEŃSTWA

Metody jakościowe i ilościowe na usługach wyceny nieruchomości

KRZYWA BÉZIERA TWORZENIE I WIZUALIZACJA KRZYWYCH PARAMETRYCZNYCH NA PRZYKŁADZIE KRZYWEJ BÉZIERA

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

Propozycja modyfikacji klasycznego podejścia do analizy gospodarności

Projekt 3 Analiza masowa

Ze względu na sposób zapisu wielkości błędu rozróżnia się błędy bezwzględne i względne.


Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Fizyka 1- Mechanika. Wykład 7 16.XI Zygmunt Szefliński Środowiskowe Laboratorium Ciężkich Jonów

WYBRANE ASPEKTY ODWZOROWANIA RELACJI ZACHODZĄCYCH MIĘDZY PRZEDSIĘBIORSTWEM A KLIENTEM NA RYNKU USŁUG TRANSPORTOWYCH

POLITECHNIKA OPOLSKA

SYSTEMY UCZĄCE SIĘ WYKŁAD 15. ANALIZA DANYCH WYKRYWANIE OBSERWACJI. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

STATECZNOŚĆ SKARP. α - kąt nachylenia skarpy [ o ], φ - kąt tarcia wewnętrznego gruntu [ o ],

WERYFIKACJA EKONOMETRYCZNA MODELU CAPM II RODZAJU DLA RÓŻNYCH HORYZONTÓW STÓP ZWROTU I PORTFELI RYNKOWYCH

PROGNOZOWANIE SPRZEDAŻY Z ZASTOSOWANIEM ROZKŁADU GAMMA Z KOREKCJĄ ZE WZGLĘDU NA WAHANIA SEZONOWE

SYSTEMY UCZĄCE SIĘ WYKŁAD 5. UCZENIE SIĘ APROKSYMACJI FUNKCJI MODELE LINIOWE

Modele rozmyte 1. Model Mamdaniego

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

WSKAŹNIK OCENY HIC SAMOCHODU OSOBOWEGO W ASPEKCIE BEZPIECZEŃSTWA RUCHU DROGOWEGO

Analiza empiryczna struktury handlu międzynarodowego. Zajęcia z TWM dr Leszek Wincenciak

Transkrypt:

1 SZYMON ŁUKASIK, PIOTR KULCZYCKI ZASTOSOWANIE MIAR ZACHOWANIA STRUKTURY TOPOLOGICZNEJ ZBIORU W WIELOWYMIAROWEJ ANALIZIE DANYCH W PRZESTRZENI ZREDUKOWANEJ USING TOPOLOGY PRESERVATION MEASURES FOR HIGH-DIMENSIONAL DATA ANALYSIS IN THE REDUCED FEATURE SPACE S t r e s z c z e n e Przedote nnejszej pracy jest eloyaroa analza danych, która realzoana jest poprzez uzupełnene standardoych procedur ekstrakcj cech odpoedn ara zachoana struktury topologcznej zboru. Podejśce to otyuje obseracja, że ne szystke eleenty zboru perotnego toku redukcj są łaśce zachoane raach reprezentacj przestrzen o znejszonej yaroośc. W pracy przedstaono najper stnejące ary zachoana topolog zboru, a następne oóono ożlośc ch łączena klasyczne procedury eksploracyjnej analzy danych. W końcu załączono róneż lustracyjne przykłady użyca oaanego podejśca zadanach analzy skupeń klasyfkacj. Słoa kluczoe: zbory eloyaroe, redukcja yaru, zachoane topolog, analza skupeń, klasyfkacja A b s t r a c t Ths paper deals th hgh-densonal data analyss accoplshed through suppleentng standard feature extracton procedures th topology preservaton easures. Ths approach s based on an observaton that not all eleents of an ntal dataset are equally preserved n ts lo-densonal ebeddng space representaton. The contrbuton frst overves exstng topology preservaton easures, then ther ncluson n the classcal ethods of exploratory data analyss s beng dscussed. Fnally, soe llustratve exaples of presented approach n the tasks of cluster analyss and classfcaton are beng gven. Keyords: ultdensonal datasets, densonalty reducton, topology preservaton, cluster analyss, classfcaton dr nż. Szyon Łukask, prof. dr hab. nż. Potr Kulczyck, Katedra Autoatyk Technk Inforacyjnych, Wydzał Inżyner Elektrycznej Koputeroej, Poltechnka Krakoska

1. Wstęp Przedote spółczesnej analzy danych są obecne przeażne zbory o dużej yaroośc znaczny rozarze próby. Jest to ynke dynacznego zrostu lośc nforacj przechoyanych hurtonach danych oraz opracoana narzędz pozalających na ykorzystane takch łaśne rozproszonych źródeł nforacj [4]. Ekstrakcja edzy zualzacja danych przypadku zboró eloyaroych stanoą yzane, głóne ze zględu na trudnośc etodologczne ające ejsce przypadku danych o znacznej yaroośc. Wynkają przede szystk z szeregu zjask ystępujących tego typu zborach, lteraturze znanych pod pojęce przekleństa eloyaroośc [16]. Aby ogranczyć trudnośc z nch ynkające opracoano lczne procedury redukcj yaroośc zboru. Nech zate X oznacza acerz danych o yarze n : x X x x..., (1) 1 której koluny reprezentują n -yaroe eleenty próby zennej losoej o artoścach rzeczystych. Każdy yar tej zennej będze określany nnejszej pracy ane cechy zgodne z ternologą uczena aszynoego. Cele redukcj yaru jest transforacja zboru do noej, N -yaroej reprezentacj, gdze N jest znaczne nejsze od n. Efekt ten ożna osągnąć bądź to przez ybór N najstotnejszych cech (ang. feature selecton), bądź przez ekstrakcję konstrukcję zredukoanego, bazującego na perotny, zestau cech (ang. feature extracton). Drugą klasę etod ożna uznać za bardzej ogólną będze ona przedote rozażań nnejszej pracy. Spośród etod ekstrakcj cech yróżna sę etody lnoe, dla których acerzoa postać zboru ynkoego Y otrzyyana jest z użyce lnoej transforacj: gdze A stano acerz transforacj ( Y AX, () N n ) oraz etody nelnoe, dla których trans- n N foracja ta oże być opsana nelnoą funkcją g : R R - do tej grupy przypsuje sę róneż etody, dla których taka zależność funkcyjna ne stneje. Szczegółoe oóene etod należących do obu klas, raz z ch eksperyentalny porónane ożna znaleźć pracy [10]. Charakterystyczną łasnoścą szystkch etod redukcj yaru jest naturalna kopresja nforacj spoodoana znejszene lczby dostępnych cech. Stopeń stratnośc tej kopresj oże być zerzony z użyce odpoednch ar zachoana struktury topologcznej zboru określających loścoo jej deforację. Nektóre z tych ar ogą być rozpatryane odnesenu do każdego eleentu rozażanego zboru, co pozala na określene jak stopnu dany eleent został zachoany - sense sego zględnego położena - toku przeproadzanej redukcj. Koncepcja ta jest przedote rozażań nnejszego artykułu. Ponadto, proponuje sę tu także użyce sponanych ar - określanych dalszej częśc pracy aga eleentó analzoanego zboru dla celó popray skutecznośc procedur analzy danych przeproadzanych przestrzen zredukoanej.

3 Podejśce to zostało po raz perszy zaproponoane pracy [9] kontekśce noatorskej procedury redukcj yaru opartej o etaheurystykę syuloanego yżarzana. Dalsza część artykułu podzelona została na cztery częśc. Przedote perszej z nch jest oóene obecnych stnejącej lteraturze ar zachoana struktury topologcznej zboru Użyce częśc z yenonych ndeksó, odnesenu do poszczególnych eleentó zboru, dla celó analzy danych przestrzen zredukoanej będze rozażane Sekcj 3. Następne - Sekcj 4 przedstaone zostaną ynk przeproadzonych badań eksperyentalnych. W końcu, ostatna część artykułu zaera uag podsuoujące oraz propozycje dalszych prac raach rozażanej teatyk badaczej.. Mary zachoana struktury topologcznej zboru Nech Y zdefnoane sposób analogczny do (1), czyl: y Y y y..., (3) 1 oznacza acerzoą reprezentację rozażanego zboru przestrzen zredukoanej, o yarze N. Dla celó dalszych rozażań nech dodatkoo d j oraz j oznaczają, dla, j {1,,..., }, odległośc eukldesoe ędzy eleenta analzoanego zboru przestrzen perotnej zredukoanej, określone następujący zora: d j x x, (4) j n R y y. (5) j j N R Metody redukcj yaru często przyporządkouje sę ne zasze sposób jednoznaczny do jednej z dóch ogólnych klas, zązanych z ogólny cele realzoanej procedury: technk lokalnych oraz technk globalnych [14]. Persze z nch charakteryzuje dążene toku algorytu redukcj yaru do zachoana relacj lokalnego sąsedzta eleentó zboru perotnego X. W przypadku drugch, nadrzędny cele redukcj jest uzyskane ożle najlepszej zgodnośc odległośc ędzy szystk eleenta rozażanego zboru przestrzen perotnej zredukoanej. Z yróżnonych poyżej ogólnych kryteró oceny etod redukcj yaru ynka koneczność zdefnoana odpoednch ar zachoana struktury topologcznej zboru. Jedną z ażnejszych ar borących pod uagę globalny kontekst redukcj jest tz. suroy stres (ang. ra stress), poszechne użyany raach elu arantó skaloana eloyaroego [1] który dany jest ścślej następującą zależnoścą: 1 S R ( d j j). (6) 1 j1 Często stosoany jest róneż zaproponoany przez Saona [1] skaźnk stresu, raach którego nejszy nacsk kładze sę na duże odległośc, zdefnoany edług zoru:

4 S S 1 1 ( dj j) 1 d 1 j1 1 j1 j d j. (7) Przedote badań eksperyentalnych zaartych nnejszej pracy będze użyce przedstaonych poyżej skaźnkó stresu, jednak zaproponoane tu podejśce ożna zastosoać róneż przypadku nnych ar zachoana struktury topologcznej zboru. W globalny ujęcu ożle jest tu użyce ędzy nny spółczynnka korelacj rang Spearana (naczej: rho Spearana). Pozala on na loścoe określene zachoana porządku odległośc przestrzen zredukoanej, odnesenu do porządku tych saych odległośc yznaczonych przestrzen perotnej. Rho Spearana stano estyator spółczynnka korelacj rang [13], kontekśce redukcj yaru skazuje on zate jak stopnu przeproadzana transforacja zachouje porządek odległośc zajenych ędzy poszczególny eleenta analzoanej próby. Współczynnk ten oblcza sę z użyce następującego zoru: 6 M p1 ( r pd r ) p SP 1, (8) 3 M M gdze M ( 1) / oznacza łączną lczbę odległośc podlegających porónanu, natoast r p d p r stanoą rang uporządkoanych rosnąco odległośc (gdy 1,,..., M ) przestrzen perotnej oraz zredukoanej. Wartość spółczynnka SP róna 1 odpoada perfekcyjneu zachoanu porządku odległośc, ogólny zaś przypadku SP [1,1]. Ocenę realzacj redukcj yaru o charakterze lokalny przeproadza sę zykle poprzez eryfkację zgodnośc grafó lokalnego sąsedzta. Istneje ele ar ykorzystujących tego typu podejśce przykłade oże być tu ara Konga [7]. W raach nnejszej pracy proponoane jest użyce prostej, yagającej podana tylko jednego paraetru, ary średnego zględnego błędu rang MRRE (ang. Mean Relatve Rank Error) [8]. Nech zate k ( x ) oznacza zbór k - najblższych sąsadó eleentu x, a R R j stanoą rang odległośc d j oraz j określone dla eleentu x zględe reszty analzoanego zboru. Współczynnk MRRE jest tedy zdefnoany sposób następujący: jd MRRE C 1 x j k ( x ) R R 1 jd j R jd, (9) przy czy ystępująca poyższej zależnośc stała noralzująca C, zapenająca by MRRE [0,1], jest określana edług zoru: C k p1 p 1. (10) p

5 Tak zdefnoana ara jest podobna do spółczynnka cągłośc róna sę zeru, gdy zborach najblższych sąsadó yznaczonych dla każdego z eleentó próby ystępuje taka saa kolejność przestrzen perotnej zredukoanej [8] Bardzej szczegółoe oóene porónane yenonych yżej ar zachoana struktury topologcznej zboru ożna znaleźć pracy [5]. Następna część artykułu pośęcona będze ch zastosoanu analze danych realzoanej zredukoanej przestrzen cech. 3. Ops proponoanej procedury Uboczny efekte redukcj yaru oże być znaczna deforacja położena nektórych eleentó analzoanego zboru, co zasygnalzoano stępne perszej częśc nnejszego opracoana. Wpły tej deforacj na skuteczność realzacj dalszych procedur analzy danych oże neloać nezaprzeczalny zysk ynkający z uzyskana zredukoanej reprezentacj rozażanych danych. Celoe ydaje sę zate loścoe określene stopna tej deforacj dla każdego eleentu analzoanego zboru. Wskaźnk tak, nazyany agą oznaczany, oże być następne użyty dla celó popraena skutecznośc procedur analzy danych realzoanych przestrzen zredukoanej. Aby yznaczyć artośc ag dla poszczególnych eleentó należy na stępe oblczyć odpoadający kład ostateczną artość ndeksu deforacj struktury topologcznej. Wkład ten oznaczony będze jako, a etoda jego oblczena ynka bezpośredno ze zoró (6-9). I tak odpoedno, gdy ag ają być yznaczone na podstae suroego stresu, kład ó yznacza sę następujący sposób: S R j1 ( d ). (11) j j Natoast przypadku rozażana stresu Saona należy skorzystać ze zoru: 1 ( dj j) S S 1 j d 1 j d j 1 j1, (1) a dla spółczynnka Rho Spearana: 6 1 p1 ( r pd r ) p 1 SP. (13) 3 M M W końcu, gdy ag ają być otrzyyane na podstae średnego zględnego błędu rang, to:

6 R 1 jd j MRRE C x j k ( x R ) jd R. (14) W rzadko spotykanej praktycznych zagadnenach analzy danych sytuacj, gdy dla doolnego eleentu 0, należy dokonać dodatkoej odyfkacj artośc do nej stałą n n n, z zachoane dodatkoego założena 0. dodając W każdy z przedstaonych yżej przypadkó ne jest yagane by sua kładó dla poszczególnych eleentó zboru stanoła ostateczną artość rozpatryanego ndeksu. Wag otrzyyane są boe na podstae zoró (11-14) poprzez przeproadzene dodatkoej noralzacj: która, dla 1,,..., zapena, że: 1 1 1 1. (15). (16) Wag zdefnoane edług zoru (15) pozalają na uzględnene deforacj struktury topologcznej zboru, która ystępuje toku redukcj yaru. Eleenty o dużej adze ponny być traktoane jako bardzej adekatne raach dalszej analzy danych przeproadzanej przestrzen zredukoanej. Co ęcej, z użyce zaproponoanego tu scheatu ożna stotne zredukoać pły znacząco zdeforoanych eleentó zredukoanego zboru poprzez ustalene artośc 0 dla szystkch eleentó, dla któ- rych zachodz W gdze W R jest artoścą progoą, nazyaną róneż spółczynnke kopresj. Pozostałe ag należy tedy dodatkoo znoralzoać, lub ustalć 1. W raach przedstaonych tu badań przyjęto drug z arantó proponoanego tu algorytu. Kolejne de częśc nnejszej sekcj pośęcone będą odyfkacjo dóch standardoych procedur eksploracyjnej analzy danych klasteryzacj z użyce algorytu K- średnch klasyfkacj z zastosoane technk k-najblższych sąsadó które uzględnają użyce oaanego scheatu ag. 3.1. Zastosoane analze skupeń z użyce algorytu k-średnch Zadane analzy skupeń (klasteryzacj) polega na podzale rozażanego zboru danych na podgrupy zaerające eleenty do sebe podobne, ale stotne różnące sę ędzy poszczególny podgrupa. K-średnch jest teracyjny algoryte klasteryzacj, który realzuje nalzację błędu kadratoego, kontekśce technk tej rónoażnego sue odległośc eleentó zboru od najblższego środka klastra C [ c 1, c,..., cn ] dla 1,,..., K. Każda teracja procedury K-średnch, jej standardoy arance, składa sę z dóch krokó: przypsana eleentó zboru do odpoednch skupeń ak-

7 tualzacj położena środkó klastró [3]. Włączene przedstaonego poyżej scheatu ag deforacj struktury topologcznej ożna osągnąć drug z tych etapó. Każdy środek klastra jest tedy yznaczony jako ażony środek cężkośc, edług następującego zoru: gdze: c j 1 ylc y l C l ylc y l lj, (14) 1,,..., K, j 1,,..., N 0 ( przecny ypadku ne następuje l aktualzacja położena danego środka). Procedurę tego typu określa sę ogólne ane ażonego algorytu K-średnch [6]. 3.. Zastosoane klasyfkacj z użyce algorytu k-najblższych sąsadó Zadane klasyfkacj polega na przypsanu badanego eleentu ~ x do jednej z klas z dany próba zorcoy (zbór uczący) postac podobnej do (3). Metoda k- najblższych sąsadó (ang. k-nearest Neghbor, skróce: k-nn) jest neskoplkoaną technką opracoaną dla tego zadana. Algoryt, sy najprostszy rozpatryany tu arance czyl dla k 1, przypsuje eleent ~ x do klasy do której należy najblższy u eleent ze zboru uczącego. Zodyfkoana procedura, uzględnająca przedstaony poyżej scheat ag, podobnego przypsana dokonuje na podstae ażonych odległośc, czyl podzelonych dodatkoo przez artość. Ten sposób postępoana ożna uogólnć na przypadek k 1 co proadz do syntezy znanego z lteratury przedotu ażonego klasyfkatora k-najblższych sąsadó [11]. 4. Wynk badań eksperyentalnych Skuteczność zaproponoanej tu technk została stępne zeryfkoana toku procedur eksploracyjnej analzy danych przeproadzonych dla pęcu eloyaroych zboró pozyskanych z UCI Machne Learnng Repostory [15] oraz pracy []. Ich charakterystykę przedstaono Tabel 1. W raach przeproadzonych eksperyentó redukcja yaru była realzoana z użyce etody składoych głónych PCA (ang. Prncpal Coponents Analyss). Wartość paraetru yaru ukrytego N została ustalona toku cześnejszych eksperyentó. Skuteczność klasteryzacj, z użyce technk K-średnch, była określana z użyce ndeksu Randa I C oblczanego zględe dostępnych etyket klas. Dla klasyfkacj edług reguły najblższego sąsada oblczono natoast średną dokładność klasyfkacj I K trakce krzyżoego uarygodnana z podzałe na 5 zboró (ang. 5-fold crossvaldaton). Wszystke eksperyenty potórzono 30 razy, odnotoując artośc średne odchylena standardoe uzyskanych ynkó (które przedstaono nnejszej pracy notacj średna±odchylene standardoe). W toku przeproadzonych eksperyentó użyto scheatu ag opartego o suroy stres dany zore (6).

8 T a b e l a 1 Charakterystyka użytych zboró Zbór n N Klasy Ops klas Naza klasy Lczność glass 14 9 4 6 buldng_ndos_float_processed 70 buldng_ndos_non_float_processed 76 vehcle_ndos_float_processed 17 contaners 13 tableare 9 headlaps 9 ne 178 13 5 3 producer_1 59 producer_ 7 producer_3 47 WBC 683 9 4 bengn 444 algn 39 vehcle 846 18 10 4 Opel 1 Saab 17 bus 18 van 199 seeds 10 7 3 Kaa 70 Rosa 70 Canadan 70 W perszej faze badań cele przeproadzonych testó było określene rozkładu artośc ag oblczonych na podstae zoró (11) (15). Aby to osągnąć, zenając artość spółczynnka kopresj W zakrese {0,1;0,;...;1,5} odnotoyano odpoadającą u procentoą lczbę eleentó podlegających redukcj el (ze zględu na spełnene arunku W ). Wynk tych eksperyentó przedstaono na Rysunku 1. Można zauażyć, że rozkład artośc ag ne a charakteru jednostajnego. Dla szystkch rozażanych zboró około 50% eleentó próby odpoada jednak artość 1 (czyl nejsza od średnej)

el / 100% 9 100 90 80 70 60 50 40 30 0 10 0 glass ne WBC vehcle seeds 0 0,1 0, 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 1,1 1, 1,3 1,4 1,5 W Rysunek 1. Rozkład artośc ag Fgure 1. Weghts values dstrbuton Następna sera eksperyentó ała na celu określene zan skutecznośc klasteryzacj przypadku użyca ażonego algorytu K-średnch dla różnych artośc progoych W. Najper dla celó porónaczych zbadano efektyność standardoego algorytu K-średnch, odnotoując procentoą artość ndeksu Randa I C uzyskaną na ty etape badań. Następne przeproadzono kolejne testy ty raze stosując znejszene znaczena zdeforoanych eleentó zredukoanego zboru, ze zenną artoścą W. Rysunek obrazuje uzyskane różnce I I C I C ędzy skutecznoścą standardoego W algorytu, a aranta z redukcją o różnej ntensynośc. Uzyskane ynk ożna uznać za obecujące. Dla szystkch zboró sao proadzene scheatu ag (z W 0 ) skutkuje popraą skutecznośc klasteryzacj. W ększośc przypadkó skazane jest także ponęce toku analzy skupeń częśc zdeforoanych eleentó. Zększene artośc W poyżej 1 proadz jednak do neprzedyalnych efektó (np. dla zboru WBC zaobseroano spektakularne zększene skutecznośc klasteryzacj, co ne ało ejsca dla pozostałych z badanych zboró). Podsuoane ynkó uzyskanych dla analzy skupeń oraz klasyfkacj zaarto Tabel. Po raz kolejny arto zauażyć, że zaproponoana technka przynos pozytyne efekty odnesenu do procedur analzy danych przeproadzanych przestrzen zredukoanej. Szczególne skazane jest użyce elnacj zdeforoanych eleentó zboru dla klasyfkatora najblższego sąsada. Jest to ynke słabej odpornośc tego klasyfkatora na obecność zdeforoanych eleentó zborze uczący, które dzęk zastosoanu proadzonej tu procedury, ogą zostać ponęte algoryte klasyfkacyjny.

I [%] 10 10 8 6 4 glass ne WBC vehcle seeds 0 - -4-6 -8-10 0 0,1 0, 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 1,1 1, 1,3 1,4 1,5 W Rysunek. Porónane skutecznośc ażonego algorytu K-średnch standardoego algorytu K- średnch przestrzen zredukoanej Fgure. Perforance coparson of eghted K-eans algorth and standard K-eans n the reduced feature space Skuteczność klasteryzacj klasyfkacj przestrzen zredukoanej porónane standardoych algorytó zaproponoanej artykule etodyk T a b e l a glass ne WBC vehcle seeds PCA+K-średnch 67,71 9,65 66,16 64,16 88,96 PCA+ażone K-średnch 69,11 95,43 66,61 64,1 89,88 (W=0) PCA+ażone K-średnch 69,3 95,43 76,74 64,5 91,64 (najlepsze W) (W=0,3) (W=0,4) (W=1,4) (W=0,6) (W=0,5) PCA+klasyfkator k-nn 61,4 69,43 55,59 54,71 84,84 ±8,98 ±7,73 ±4,50 ±3,57 ±5,98 PCA+ażony klasyfkator k-nn 53,73 69,5 44,34 54,55 83,49 (W=0) ±11,98 ±7,84 ±5,19 ±3,75 ±6,0 PCA+ażony klasyfkator k-nn 61,8 69,5 65,71 54,79 86,58 (najlepsze W) ±8,76 ±7,84 ±4,6 ±3,41 ±5,94 (W=0,3) (W=0) (W=0,5) (W=0,4) (W=0,8)

11 5. Podsuoane W nnejszy artykule zaproponoano noatorsk algoryt dedykoany dla zagadneń eloyaroej analzy danych. Bazuje on na obseracj, że redukcja yaru pooduje znaczną odyfkację struktury topologcznej zboru. Jego stotą jest proadzene ar zachoana struktury topologcznej celu popray skutecznośc etod eksploracyjnej analzy danych realzoanych zredukoanej przestrzen cech. Wstępne eksperyenty oblczenoe przeproadzone dla suroego stresu ybranych zboró testoych doodzą, że zastosoane zaproponoanego tu podejśca daje obecujące rezultaty. Dalsze prace zakrese teatyczny artykułu będą dotyczyć ykorzystana pozostałych z zasugeroanych ar zachoana struktury topologcznej zboru. Ponadto przedote rozażań będze ykorzystane opsyanej tu procedury odnesenu do różnorakch technk redukcj yaru, a także przeanalzoane zagadnena doboru łaścej artośc spółczynnka kopresj W. Lt e r a t u r a [1] Borg, I., Groenen, P.J.F., Modern Multdensonal Scalng: Theory and Applcatons, Sprnger, Hedelberg, 010. [] Charytano cz, M., Neczas, J., Kulczyck, P., Koalsk, P.A., Łukask, S., Żak, S., Coplete Gradent Clusterng Algorth for Features Analyss of X-Ray Iages, Advances n Intellgent and Soft Coputng, vol. 69, 15-4, 010. [3] Evertt, B. S., Landau, S., Leese, M., Stahl, D., Cluster Analyss, Wley, Ne York, 011. [4] Furht, B., Escalante, A. (red.), Handbook of Data Intensve Coputng, Sprnger, Hedelberg, 011. [5] Karbauskate, R., Dzeyda, G., Topology Preservaton Measures n the Vsualzaton of Manfold-Type Multdensonal Data, Inforatca, vol. 0, 35-54, 009. [6] Kerdprasop, K., Kerdprasop, N., Sattaya tha, P., Weghted K-Means for Densty-Based Clusterng, Lecture Notes n Coputer Scence, vol. 3589, 488-497, 005. [7] Kong, A., Interactve vsualzaton and analyss of herarchcal neural projectons for data nng, IEEE Transactons on Neural Netorks, vol. 11/3, 615-64, 000. [8] Lee, J.A., Verleysen, M., Nonlnear Densonalty Reducton, Sprnger, Ne York, 007. [9] Łukask, S., Kulczyck, P., An Algorth for Saple and Data Densonalty Reducton Usng Fast Sulated Annealng, Lecture Notes n Artfcal Intellgence, vol. 710, 15-161, 011. [10] Maaten, L.J.P.v., Posta, E.O., Herk, H.J., Densonalty Reducton: A Coparatve Reve, Tlburg Unversty Techncal Report, TCC-TR 009-005, 009.

1 [11] Parvn, H., Alzadeh, H., M nat, B., A Modfcaton on K-Nearest Neghbor Classfer, Global Journal of Coputer Scence and Technology, vol. 10, 37-41, 010. [1] Saon, J. W., A Nonlnear Mappng for Data Structure Analyss, IEEE Transactons on Coputers, vol. 18, 401-409, 1969. [13] Saut, C., Webb, G.I. ( red.), Encyclopeda of Machne Learnng, Sprnger, Ne York, 011. [14] Slva, V.D., Tenenbau, J.B., Global versus local ethods n nonlnear densonalty reducton, : Becker, S., Thrun, S., Oberayer, K. (red.) Advances n Neural Inforaton Processng Systes, vol. 15., 705-71, MIT Press, Cabrdge, 003. [15] UCI Machne Learnng Repostory, http://archve.cs.uc.edu/l/ [16] Verleysen M., Franços D., The Curse of Densonalty n Data Mnng and Te Seres Predcton, : Cabestany, J., Preto, A., Sandoval, F. (red.) Coputatonal Intellgence and Bonspred Systes. Lecture Notes n Coputer Scence, vol. 351, 758-770, Sprnger, Hedelberg, 005.