XXI Autumn Meeting of Polish Information Processing Soety ISBN 83-922646-0-6 Conference Proceedings, pp.39-47 2005 PIPS Zastosowanie algorytmu redukcji danych w uczeniu maszynowym i eksploracji danych Ireneusz Czarnowski i Piotr Jędrzejowicz Katedra Systemów Informacyjnych Akademia Morska w Gdyni Morska 83, 81-225 Gdynia {irek, pj}@am.gdynia.pl Streszczenie W pracy przedstawiono heurystyczny algorytm redukcji danych treningowych dla problemów uczenia maszynowego pod nadzorem oraz odkrywania wiedzy w oparu o scentralizowane i rozproszone źródł a danych. Proponowany algorytm wykorzystuje oryginalny mechanizm przeszukiwania wektorów uczących i wybiera wektory referencyjne tworzą c zredukowany zbiór treningowy. Liczba wektorów referencyjnych zależy od wybranego przez użytkownika współ czynnika poziomu reprezentacji oraz zaproponowanego w pracy współczynnika podobieństwa pomię dzy wektorami w zbiorze treningowym. Algorytm redukcji danych wykorzystuje w procesie selekcji wektorów referencyjnych algorytm uczenia populacji należący do grupy metod opartych na ewolucji populacji. W pracy przedstawiono równie ż wyniki wybranych eksperymentów obliczeniowych. 1 Wstęp Jednym z obszarów zastosowa ń algorytmów redukcji danych jest uczenie maszynowe. Wszystkie algorytmy uczenia maszynowego wymagaj ą zbioru danych treningowych. Zbiór taki zawiera przypadki zwane również wektorami uczącymi, w skład których wchodz ą wektory wejśowe składające si ę z atrybutów oraz wartoś wyjśowe. Zwiększenie efektywnoś uczenia w tym przypadku może łączy ć si ę z pozostawieniem w zbiorze danych treningowych tzw. wektorów referencyjnych i wyeliminowanie wektorów zawierających błę dy lub szumy. Podawanie dużej iloś wektorów referencyjnych w procesie uczenia nie warunkuje wysokiej jakoś klasyfikacji, a często jedynie spowalnia proces uczenia [11]. Redukcja rozmiaru zbioru treningowego prowadzi do skrócenia czasu potrzebnego na przeprowadzenie klasyfikacji oraz zmniejszenia wymaga ń, co do zasobów obliczeniowych. W efeke, redukcja danych treningowych może przyspieszy ć proces uczenia przy jedno czesnym zachowaniu pożą danego poziomu jakoś klasyfikacji, a nawet polepszeniu jej jakoś. W zwią zku z tym uznaje si ę, że proces redukcji danych uczących jest istotnym elementem procesu wstę pnego przetwarzania danych. Znane algorytmy redukcji danych wybieraj ą wektory referencyjne obliczając odległo ść pomię dzy wektorami w zbiorze danych treningowych. Przypadkami referencyjnymi staj ą si ę wówczas wektory leżą ce w okolicach centrów tworzonych przez wektory podobne. Algorytmy te wykorzystuj ą techniki grupowania (ang.: clustering). Wariantem metod grupowania stosowanych w redukcji danych wejś owych jest zmniejszanie tzw. rozdzielczoś danych. Inna grupa metod należąca do tzw. metod opartych na podobień stwie usuwa ze zbioru treningowego k najbliższych sąsiadów z danej klasy wektorów zakładając, ż e wszystkie wektory z są siedztwa będ ą i tak jednoznacznie klasyfikowane [9]. Istnieje jeszcze trzea grupa metod redukcji danych. Algorytmy tej grupy eliminuj ą wektory treningowe testują c klasyfikator i redukują c sukcesywnie zbiór danych wejś owych [3]. O ile stosowanie redukcji danych treningowych może przyspieszy ć proces uczenia przy jednoczesnym zachowaniu pożądanego poziomu jakoś klasyfikacji, o tyle ż adna ze znanych metod nie gwarantuje doboru wektorów referencyjnych zmniejszającego błąd uczenia. Co wię cej problem wyboru wektorów referencyjnych pozostaje ągle aktywnym polem bada ń. Drugim ważnym obszarem zastosowa ń dla algorytmów redukcji danych jest eksploracja danych w rozproszonych zasobach informacyjnych, a w szczególnoś w rozproszonych bazach danych. klasyczne podejś e do eksploracji danych zakłada operowanie na danych wejśowych znajdujących si ę, w sensie fizycznym, w tym samym miejscu. Poważne ograniczenie dla algorytmów eksploracji danych może wynika ć z naturalnego rozproszenia danych. Fizyczne rozproszenie danych jest obecnie naturaln ą cech ą dla korporacji biznesowych, 39
40 Ireneusz Czarnowski i Piotr Jędrzejowicz instytucji bankowych, ubezpieczeniowych, sektora rzą dowego czy akademickiego. Stosowanie typowych dla scentralizowanych zbiorów danych narzę dzi i algorytmów eksploracji danych nie gwarantuje identyfikacji użytecznych wzorców w ś rodowisku rozproszonych baz danych. W przypadku heterogenicznych zbiorów danych użye tradycyjnych metod eksploracji danych może by ć nawet niemoż liwe [12]. Zatem odkrywanie wiedzy w oparu o rozproszone źródła danych jest waż nym obszarem badawczym i jest postrzegane jako bardziej złożony i trudny problem ni ż odkrywanie wiedzy z wykorzystaniem scentralizowanych źróde ł danych [10], [12]. Szeroko stosowane podejśe do odkrywania wiedzy w rozproszonych zbiorach danych zakł ada dwupoziomowe przetwarzanie: lokalne i globalne. Poziom lokalny, nazywany równie ż poziomem lokalnej decyzji, dotyczy przetwarzania i eksploracji danych w miejscu fizycznej lokalizacji danych [12]. Poziom globalny dotyczy przetwarzania decyzji podejmowanych wcześniej na poziomie lokalnym. Jedn ą z wyspecjalizowanych technik eksploracji rozproszonych zbiorów danych jest, tak zwane, meta- uczenie nazywane równie ż rozproszonym uczeniem maszynowym [7]. Meta-uczenia obejmuje równoległ e budowanie na poziomie lokalnym niezależnych klasyfikatorów, przy wykorzystaniu niezależ nych zbiorów danych. Meta-uczenie prowadzi, na poziomie globalnym, do budowy meta-klasyfikatora integrują cego modele niezależ nie zbudowanych klasyfikatorów. Meta-uczenie dopuszcza stosowanie zarówno identycznych jak i różnych pod względem działania klasyfikatorów na poziomie lokalnym [4], [12]. Inne podejś e do odkrywania wiedzy w rozproszonych bazach danych dopuszcza zintegrowanie wszystkich danych zawartych w niezależnych rozproszonych zbiorach danych i utworzenie duż ego zbioru danych [12]. Rozszerzeniem tej koncepcji jest integrowanie, na poziomie globalnym, referencyjnych wektorów pochodzących z rozproszonych zbiorów danych. Podejśe to zakłada, na poziomie lokalnym, selekcj ę wektorów i utworzenie zbioru reprezentatywnego, który dziedziczył by cechy lokalnych zbiorów danych. Dla tego podejśa problem doboru odpowiedniej metody identyfikacji i selekcji wektorów referencyjnych jest prob lemem kluczowym [12]. W pracy zaproponowano heurystyczny algorytm redukcji danych IRA (Instance Reduction Algorithm) wykorzystujący metod ę opart ą na ewolucji populacji. Przeznaczeniem tego algorytmu jest selekcja wektorów referencyjnych i utworzenie zbioru treningowego dla algorytmu uczenia maszynowego. W pracy algorytm redukcji danych przedstawiono w dwóch obszarach zastosowa ń : tradycyjnego uczenia maszynowego oraz eksploracji danych w rozproszonym systemie baz danych. Ide ę algorytmu IRA, oraz proponowane procedury selekcji wektorów referencyjnych oparte na wykorzystaniu algorytmu uczenia populacji oraz selekcji wektorów w rozproszonym systemie baz danych przedstawiono w częś 2 pracy. Efektywno ść i skuteczno ść redukcji danych treningowych za pomoc ą algorytmu IRA potwierdzona eksperymentalnie. Założ enia i plan przeprowadzonego eksperymentu obliczeniowego oraz uzyskane wyniki przedstawiono w częś 3. Ostatnia cz ęść pracy zawiera wnioski i wskazuje dalsze kierunki bada ń. 2 Algorytm redukcji danych 2.1 Idea algorytmu Pierwotnie idea algorytmu redukcji danych został a przedstawiona w pracy [1]. W pracy tej algorytm redukcji danych przedstawiono jako narzędzie służą ce do eliminacji wektorów nadmiarowych w zbiorze treningowym przy jednoczesnym zachowaniu właśwego opisu problemu, utrzymaniu zadowalającego, poziomu jakoś klasyfikacji, a w niektórych przypadkach zwiększenia jakoś klasyfikacji, oraz zmniejszeniu czasu uczenia się algorytmów opartych na sztucznej sie neuronowej. Zadaniem algorytmu redukcji jest pozostawienie pewnej liczby przypadków z oryginalnego zbioru danych treningowych T i utworzenie zredukowanego zbioru treningowego S. Algorytm opiera si ę na wykorzystaniu algorytmu uczenia populacji do wyznaczenia wektorów referencyjnych i utworzenia zredukowanego zbioru danych. Proponowany w pracy algorytm redukcji danych przeznaczony jest do redukcji zbiorów treningowych składających si ę z wektorów o atrybutach typu porzą dkowego, liczbowego i mieszanego tj. opisanych zarówno w skali porządkowej, liczbowej jak i nominalnej. Algorytm IRA należą cy do klasy algorytmów tak zwanego wsadowego przeszukiwania wektorów referencyjnych (por. [11]) i wymaga wykonania trzech następują cych kroków: - obliczenie dla wszystkich wektorów z oryginalnego zbioru danych treningowego wartoś współczynnika podobieństwa I i, - podzia ł zbioru wektorów treningowych na podzbiory wektorów z identycznymi wartoś ami współczynnika podobieństwa,
Zastosowanie algorytmu redukcji danych w uczeniu maszynowym i eksploracji danych 41 - selekcja wektorów referencyjnych z każdego podzbioru i usunięe pozostałych wektorów. Niech N jest liczb ą przypadków w zbiorze T, n jest liczb ą atrybutów wektora wejśowego oraz X={x ij} (gdzie i=1,...,n, j=1,...,n+1) jest maerz ą o n+1-kolumnach i N wierszach zawierając ą wszystkie wektory wejśowe wraz z wartoś ą wyjśow ą z T (n+1 element tablicy jest wartoś ą wyjśow ą dla danego wektora wejśowego). Proponowany algorytm redukcji danych treningowych wykonuje pi ęć podstawowych etapów: Etap 1: Normalizacja wartoś atrybutów poszczególnych przykładów w X do przedziału [0, 1] oraz zaokrąglenie ich do najbliższych wartoś całkowitych. Etap 2: Obliczenie dla każdego przypadku współczynnika podobieństwa I i: gdzie n+ 1 I i = x ij s j,i=1,...,n, (1) j= 1 N s j = x ij,j=1,...,n+ 1. (2) i=1 Etap 3: Grupowanie wektorów z X w t grup Y v (v=1,...,t) zawierają cych wektory z identycznymi współczynnikami I i, gdzie t jest liczb ą różnych wartoś I i. Etap 4: Ustawienie wartoś współczynnika reprezentacji K, który określa maksymaln ą liczb ę wektorów uczących jak ą należy zachowa ć w każdej z t grup zdefiniowanych na etapie 3. Etap 5: Wybór wektorów referencyjnych i utworzenie zbioru S. Jeżeli przez y v oznaczymy liczb ę wektorów w grupie v, v=1,...,t, to wybór wektorów referencyjnych przebiega następująco: - Jeżeli y v K i K>1 to S=S Y v - Jeżeli y v>k i K=1 to S = S {x v }, gdzie x v jest wektorem w Y v, dla którego odległość n d x v,μ v = i=1 x v i μ v i 2 jest minimalna, a μ v = 1 y v x v jest wektorem średnim w Y v y v j=1 - Jeżeli v y v>k i K>1 to S=S { x jv }, gdzie x j (j=1,...,k) s ą wektorami referencyjnymi wybranymi z przez algorytm PLA. Yv 2.2 Algorytm uczenia populacji Algorytm PLA użyty do wyznaczenia wektorów referencyjnych należ y do klasy algorytmów opartych na ewolucji populacji [5]. Podstawowe założenia algorytmu PLA to: populacja startowa jest duż ym zbiorem dopuszczalnych rozwiąza ń (tzw. osobników) wygenerowanych przy wykorzystaniu wybranego mechanizmu losowego, proces uczenia populacji osobników przebiega etapowo, w kolejnych etapach używa si ę coraz bardziej złożonych metod uczenia (poprawy), do kolejnych etapów uczenia przechodz ą osobniki spełniają ce kryteria selekcji. W ten sposób liczebno ść populacji stopniowo zmniejsza si ę, a najlepsze rozwią zanie na etapie finalnym traktowane jest jako rozwiązanie problemu. W przypadku redukcji danych algorytm PLA dzieli wektory x v z Y v na K podgrup D vj, j=1,...,k, dla których suma kwadratów odległoś euklidesowych między każdym wektorem xvz (z D vj) i wektorem ś rednim µ vj z D vj jest minimalna. Problem podziału wektorów na K podgrup związany jest z minimalizacj ą funkcji celu: K J = j=1 z D nu j x z j 2 (3)
42 Ireneusz Czarnowski i Piotr Jędrzejowicz v Za wektory referencyjne x j (j=1,...,k) s ą obierane wektory dla których odległo ść do wektora ś redniego w danej podgrupie jest najmniejsza. Do pozostałych założe ń zaprojektowanego algorytmu PLA nale żą: permutacyjna reprezentacja rozwią zania, populacja startowa generowana losowo, cztery metody uczenia (losowe przeszukiwanie lokalne, krzyż owanie z częś owym odwzorowaniem PMX [6], przeszukiwanie lokalne oraz przeszukiwanie z ruchami zabronionymi - ang.: tabu search), wspólne kryterium selekcji (do kolejnego etapu przechodz ą rozwiązania, których wartość funkcji celu jest mniejsza lub równa od średniej jej wartoś w populacji). Populacja składa si ę z rozwiąza ń o reprezentacji permutacyjnej. Każde rozwią zanie reprezentowane jest przez K+y v elementów. K pierwszych pozycji określa ile z y v kolejnych elementów należy do K-tej podgrupy. K pierwszych pozycji nie może równie ż przyjmowa ć wartoś zero a y v kolejnych liczb reprezentuje numer wektora z Y v. Na pierwszym etapie każde rozwią zanie populacji poddawane jest poprawie z uż yem operatora losowego przeszukiwania lokalnego. Zaprojektowana metoda z losowo wybranej podgrupy wybiera losowo numer wektora i przydziela go do innej losowo wybranej podgrupy w danym rozwiązaniu. Jeśli warto ść funkcji J nowego otrzymanego rozwiązania jest mniejsza od jej wartoś obliczonej dla poprawianego rozwią zania to nowe rozwiązanie jest akceptowane i zastępuje rozwią zanie poprawiane, w przewnym razie jest odrzucane. Zaakceptowanie nowego rozwiązania wiąże si ę równie ż z uaktualnieniem liczebnoś wektorów w poszczególnych podgrupach. Druga metoda poprawy wykorzystuje mechanizm krzyżowania z częś owym odwzorowaniem (PMX) [6]. Poprawiane rozwiązanie populacji jest krzyżowane z innym rozwiązaniem populacji wybranym z wykorzysta niem mechanizmu losowego. Jeśli warto ść funkcji J którego ś z dwóch potomków otrzymanych w drodze krzy żowania jest mniejsza od jej wartoś obliczonej dla poprawianego rozwiązania to potomek ten zastępuje roz wiązanie poprawiane. W przewnym wypadku potomek wykazują cy lepsze przystosowanie poddawany jest poprawie przez działanie operatora przeszukiwania lokalnego. Operator przeszukiwania lokalnego dla losowo wybranego elementu (tj. numeru wektora) z rozwią zania poprawianego oblicza jego odległo ść euklidesow ą do wszystkich wektorów średnich pozostał ych podgrup, a następnie przydziela go do podgrupy, gdzie ta odległo ść jest najmniejsza. Jeśli warto ść funkcji J tak zmodyfikowanego rozwiązania ulega zmniejszeniu to rozwiązanie to jest akceptowane wraz z uaktualnieniem liczeb noś wektorów w poszczególnych podgrupach, w przewnym przypadku jest odrzucane. Czwarty z operatorów poprawy wykorzystuje mechanizm przeszukiwania z ruchami zabronionymi operują c pamię ą ruchów zabronionych SM. W metodzie tej losowo wybrany numer wektora p i j (j=1...y v) rozwią zania i populacji P= { p i } (i=1,...,m), gdzie M jest wielkoś ą populacji, jeśli nie należy do SM, jest przydzielany kolejno do wszystkich pozostałych podgrup. Jeś li przydzielenie wektora do innej podgrupy daje zmniejszenie wartoś funkcji J rozwiązania i, to zmodyfikowane rozwiązanie jest akceptowane, jeśli nie, to procedur ę przy j 1 porządkowania do poszczególnych podgrup przeprowadza si ę dla wektora p i a następnie dla j zmiana przynależnoś do podgrup dla wektorów odpowiednio: p i j+1 pi. Jeś li, p i j 1 i pi j+1 nie przyniesie poprawy j jakoś rozwiązania to numer wektora p i zostaje umieszczony w pamię SM i pozostaje w niej przez s iteracji. Wszystkie opisane procedury na poszczególnych etapach algorytmu PLA poprawiaj ą każde rozwią zanie populacji c krotnie, gdzie c jest liczb ą iteracji dla procedur poprawy. 2.3 Selekcja wektorów referencyjnych w rozproszonym systemie baz danych Zastosowanie algorytmu IRA do selekcji wektorów referencyjnych w rozproszonym systemie baz danych opiera si ę na dwupoziomowym przetwarzaniu danych. Jest to typowe podejś e do odkrywania wiedzy w rozproszonych zbiorach danych [12]. Algorytmu IRA w rozproszonym systemie baz danych wymaga wykonania dwóch kroków. Pierwszy krok wykonywany jest na poziomie lokalnym i dotyczy selekcji wektorów referencyjnych oraz utworzenia reprezentatywnych zbiorów danych. Drugi krok dotyczy zintegrowania wektorów referencyjnych, które zostały wyselekcjonowane na poziomie lokalnym. Krok ten odbywa si ę na etapie globalnym przetwarzania. Fizyczna implementacja dwupoziomowego systemu przetwarzania danych opiera si ę na systemie wieloagentowym [13]. W takim systemie selekcja wektorów referencyjnych realizowany jest przez agentów programowych o kodzie źródłowym takim jak algorytm IRA. System równie ż opiera si ę na protokole komunikacyjnym związanym z przesył aniem zbiorów reprezentatywnych z poziomu lokalnego przetwarzania na poziom globalny. Na poziomie globalnym następuje integracja wektorów oraz rozpoczyna si ę globalna
Zastosowanie algorytmu redukcji danych w uczeniu maszynowym i eksploracji danych 43 analiza danych realizowana w oparu o narzędzia uczenia maszynowego. Architektur ę systemu dla problemu odkrywania wiedzy w rozproszonym systemie baz danych przedstawiono na Rysunku 1. Rysunek 1. Architektura dwupoziomowego przetwarzania danych w rozproszonym systemie baz danych 3 Eksperyment obliczeniowy Celem przeprowadzonego eksperymentu obliczeniowego było porównanie jakoś klasyfikacji uzyskanej przez uczenie klasyfikatora zredukowanym zbiorem treningowych oraz z użyem oryginalnego, peł nego zbioru treningowego. Eksperymenty obliczeniowe został y przeprowadzone dla dwóch przypadków redukcji zbioru treningowego, tj. dla przypadku ze scentralizowan ą oraz rozproszon ą baz ę danych. W oparu na otrzymanych wynikach przeprowadzono analiz ę wpływu redukcji przykładów uczących na jako ść uczenia klasyfikatora. Jako klasyfikator wykorzystano algorytm C 4.5 [8]. Eksperymenty przeprowadzono dla danych dotyczących oceny zdolnoś kredytowej. Problem oceny zdolnoś kredytowej klienta (ang.: The Customer Intelligence in The Banking) by ł przedmiotem konkursu ogłoszonego w 2002 roku w ramach projektu EUNITE - EUropean Network on Intelligent TEchnologies for Smart Adaptive Systems [2]. Poszczególne przykłady opisuj ą zdolno ść kredytow ą klienta, która jest oznaczona jako active lub non-active. Dane dwuklasowego problemu składaj ą si ę ze zbioru 24000 przykładów. Każ dy przykład opisany jest 36 cechami o wartośach rzeczywistych, całkowitych i binarnych. Eksperymenty obliczeniowe przeprowadzono w oparu o test 10 - krotnej walidacji skroś nej. W przypadku badania wpływu redukcji danych zapisanych w scentralizowanym zbiorze danych na jako ść klasyfikacji zbiór danych podzielony zosta ł na 10 równych częś a algorytm IRA stosowano do redukcji zbioru treningowego składającego si ę z 9 częś, z których następnie wygenerowano zredukowany zbiór treningowy stanowią cy wejśe dla wybranego algorytmu uczenia maszynowego. Pozostał a 10-ta cz ęść posłużył a do testowania algorytmu uczenia. Następnie przeprowadzono 10-krotn ą ocen ę działania klasyfikatora z wykorzystaniem 10 par zredukowanych zbiorów treningowych i testowych. Ostatecznie wyznaczono średni ą trafnoś klasyfikowania. Przyjęty sposób weryfikacji wpływu redukcji przykładów na jako ść klasyfikacji przedstawiono w pracy [11]. W przypadku eksploracji danych w oparu o rozproszone źródła danych zbiór 24000 przykł adów podzielono losowo na zbiór treningowy i testowy zawierające odpowiednio 22000 i 2000 przykładów. Nas tępnie, tak jak ma to miejsce w przypadku rozproszonych źróde ł danych, zbiór treningowy podzielono, z wyko rzystaniem mechanizmu losowego, na trzy niezależne zbiory danych. W kolejnym kroku każdy z podzbiorów by ł poddany redukcji z użyem algorytmu IRA. Ostatecznie wektory referencyjne z każ dego z podzbiorów zostały połą czone i utworzono zbiór treningowy dla algorytmu uczenia maszynowego. Test powtórzono dziesięokrotnie dla różnych podział ów na zbiór treningowy i testowy, oraz trzykrotnie dla różnych podział ów na zbiory systemu rozproszonego wynoszą cych odpowiednio (5415, 11150, 5435), (6430, 9210, 6360) i (7010, 9630, 5360) elementów. Wszystkie eksperymenty przeprowadzono dla dziesięu różnych wartoś współ czynnika reprezentacji K={1, 5, 10, 15, 20, 25, 30, 100, 150, 200}. Wyniki eksperymentów obliczeniowych przedstawiono w Tabelach 1 oraz 2. Podane wielkoś stanowi ą warto ść uśredni ą po wszystkich przeprowadzonych przebiegach eks
44 Ireneusz Czarnowski i Piotr Jędrzejowicz perymentu obliczeniowego. Wartoś te został y obliczone dla trzech wariantów algorytmu C 4.5: bez przynania drzewa, z przynaniem drzewa oraz z przynaniem redukującym błąd. Tabela 1 przestawia jako ść klasyfikacji algorytmu C 4.5 uczonego zredukowanym zbiorem danych oraz przy wykorzystaniu pełnego zbioru danych. Wyniki podane w Tabeli 1 dotycz ą przypadku ze scentralizowan ą bazą danych. Jako ść klasyfikacji dla różnych wartoś współczynnika reprezentacji przedstawiono równie ż w Tabe li 2, wyniki te jednak dotycz ą przypadku z rozproszonymi źródłami danych. Dodatkowo porównanie jakoś klasyfikacji dla C 4.5 z przynaniem drzewa przedstawiono na Rysunku 2. Tabela 1. Średnia jako ść klasyfikacji (w %) algorytmu C 4.5 dla przypadku ze scentralizowanym źródłem danycc Wartość współczynnika poziomu reprezentacji K=1 K =5 K=10 K=15 K=20 K=25 K=30 K=100 K=150 K=200 Pełen zbiór danych brak przynania 54.85 63.7 63.95 63.55 65.4 65.75 64.7 67.4 66.8 66.8 73.25 przynanie 54.85 62.45 64.15 61.35 65.6 65.28 64.85 67.25 69.05 69.6 75.5 przynanie redukujące błąd 61.85 64.15 64.55 65.4 63.1 64.15 61.5 69.65 66.55 70.6 75.15 Tabela 2. Średnia jako ść klasyfikacji (w %) algorytmu C 4.5 dla przypadku z rozproszonymi źródłami danych Wartość współczynnika poziomu reprezentacji K=1 K=5 K=10 K=15 K=20 K=25 K=30 K=100 K=150 K=200 Pełen zbiór danych brak przynania 67.35 62 65.05 68.35 65 70 68.75 67.3 69.55 70.95 73.25 przynanie 68.2 65 66.2 70.54 66.75 71.6 71.5 71.7 73.5 74.55 75.5 przynanie redukujące błąd 58.95 67 65.35 68.65 64.55 71.05 66.8 70.65 73.45 72.55 75.15 Uzyskane wyniki pokazuj ą, że selekcja wektorów referencyjnych, niezależ nie od fizycznej lokalizacji danych, gwarantuje uzyskanie zadowalających rezultatów uczenia klasyfikatora. Dla przykł adu, dla współczynnika reprezentacji równego 10 algorytm C 4.5 z przynaniem jest w stanie zapewni ć jakość klasyfikacji na poziomie 64.15% i 66.2% odpowiednio dla przetwarzania danych scentralizowanej bazy danych i rozproszonej bazy danych. Dla współczynnika reprezentacji równego 200 jako ść klasyfikacji, dla przetwarzania rozproszonych źróde ł danych, wynosi 74.55%. W przypadku scentralizowanego źródł a danych jest jako ść klasyfikacji jest równa 69.6%. Dla porównania jako ść klasyfikacji oparta na peł nym zbiorze treningowym wynosi 75.5%. Dodatkowym elementem niezbę dnym do porównania otrzymanych wyników jest liczba zachowanych przez algorytm IRA wektorów w zbiorze uczącym. Liczb ę zachowanych przykł adów oraz, odpowiednio, procent zachowanych przykł adów w zbiorze treningowym przedstawiono na Rysunku 3 i 4. Dla przykł adu, dla współczynnika reprezentacji równego 10 liczba zachowanych przykł adów w zbiorze treningowym wynosi 205 i 533 dla przetwarzania danych scentralizowanej bazy danych i rozproszonej bazy danych, co stanowi odpowiednio 0.93% i 2.42%. W przypadku współczynnika reprezentacji równego 200, liczby te wynosz ą 1322 i 3462 dla obu przypadków, co stanowi odpowiednio 6.01% i 15.74%.
Zastosowanie algorytmu redukcji danych w uczeniu maszynowym i eksploracji danych 45 Rysunek 2. Porównanie jakoś klasyfikacji algorytmu C 4.5 dla różnych współczynników reprezentacji Rysunek 3. Liczba zachowanych wektorów w zbiorze uczącym dla różnych współczynników reprezentacji Rysunek 4. Procent zachowanych wektorów w zbiorze uczącym dla różnych współczynników reprezentacji
46 Ireneusz Czarnowski i Piotr Jędrzejowicz Rysunek 5. Liczba liś drzewa decyzyjnego Dodatkowo na Rysunku 5 przedstawiono liczb ę liś drzewa decyzyjnego w zależnoś od wartoś współ czynnika reprezentacji. Porównanie to dotyczy zarówno przetwarzania scentralizowanych jak i rozproszonych danych oraz dotyczy algorytmu z przynaniem drzewa. Dla przykładu, dla współczynnika reprezentacji równego 200 liczba liś drzewa decyzyjnego wyniosła odpowiednio 96 i 234, co świadczy o znacznie mniejszej złożonoś struktury drzewa w porównaniu do sytuacji budowania drzewa decyzyjnego w oparu o pełen zbiór danych, gdzie liczba liś wyniosła 964. 4. Zakończenie W pracy przedstawiono heurystyczny algorytm redukcji danych dla potrzeb uczenia maszynowego oraz eksploracji danych w oparu o scentralizowany i rozproszony system baz danych. Eksperymenty obliczeniowe pokazały, że użye algorytmu IRA może przyczyni ć si ę do otrzymania jakoś klasyfikacji nieznacznie różniącej si ę od tej, jak ą można uzyska ć wykorzystując, do budowy klasyfikatora, pełnego zbioru danych. Eksperymenty obliczeniowe pokazały równie ż, że reprezentacja wiedzy o klasyfikacji jest mniej złoż ona w przypadku, gdy jest ona budowana w oparu o zredukowany zbiór danych ni ż, gdy opiera si ę ona na peł nym zbiorze danych treningowych. Mniej złożona reprezentacja wiedzy gwarantuje jej czytelno ść oraz jest korzystna z obliczeniowego punktu widzenia. W ogólnoś wniosek ten jest prawdziwy zarówno dla drzew decyzyjnych jak i dla większoś metod reprezentacji wiedzy. Wektory referencyjne mog ą by ć równie ż gromadzone we wspólny reprezentatywny zbiór treningowy dla narzędzi eksploracji danych, który, jak potwierdziły eksperymenty obliczeniowe, dziedziczy podstawowe cechy rozproszonych źróde ł danych. Algorytm IRA jest w stanie wskaza ć istotne informacje w niezależ nych zbiorach danych gwarantując tym samym wysok ą jako ść klasyfikacji na poziomie globalnym. Eksperymenty obliczeniowe pokazały równie ż, że w niektórych przypadkach podzia ł zbioru danych na niezależne podzbiory, następnie redukcja rozmiarów tych podzbiorów i integracja wektorów referencyjnych może poprawi ć jako ść eksploracji w porównaniu do tradycyjnych podej ść. Wniosek ten może sugerowa ć nowe podejśe w eksploracji danych oparte na zasadzie dekompozycji i scalania. Do kierunków dalszych bada ń należe ć będzie wskazanie reguły definiowania współczynnika reprezentacji w algorytmie IRA. Dalsze badania obejm ą równie ż weryfikacj ę innych narzędzi uczenia maszynowego pod kontem eksploracji danych w rozproszonym systemie baz danych. Bibliografia 1. Czarnowski I., Ję drzejowicz, P.: An Approach to Instance Reduction in Supervised Learning. In: Coenen F., Preece A. and Mantosh A. (ed.): Research and Development in Intelligent Systems XX. Springer, London (2004) 267-282 2. The European Network of Excellence on Intelligent Technologies for Smart Adaptive Systems (EUNITE) EUNITE World competition in domain of Intelligent Technologies http://neuron.tuke.sk/competition2/ 3. Grudziń ski K., Duch W.: SBL-PM: Simple Algorithm for Selection of Reference Instances in Similarity Based Methods. In: Proceedings of the Intelligent Information Systems. Bystra, Poland (2000) 99-107
Zastosowanie algorytmu redukcji danych w uczeniu maszynowym i eksploracji danych 47 4. Hillol Kargupta, Byung-Hoon Park, Daryl Hershberger, Erik Johnson: Collective Data Mining: A New Perspective Toward Distributed Data Analysis. In: H. Kargupta and P. Chan (ed.): Accepted in the Advances in Distributed Data Mining, AAAI/MIT Press (1999). 5. Ję drzejowicz P.: Soal Learning Algorithm as a Tool for Solving Some Difficult Scheduling Problems. Foundation of Computing and Desion Sences, 24 (1999) 51-66. 6. Michalewicz Z.: Algorytmy genetyczne + struktury danych = programowanie ewolucyjne. Wydawnictwo Naukowo- Techniczne, Warszawa (1999). 7. Prodromidis A., Chan P. K., Stolfo S. J.: Meta-learning in Distributed Data Mining Systems: Issues and Approaches. In: H. Kargupta and P. Chan (ed.): Book on Advances in Distributed and Parallel Knowledge Discovery. AAAI/MIT Press (2000). 8. Quinlan, J. R.: Improved Use of Continuous Attributes in C 4.5. Journal of Artifial Intelligence Research 4 (1996) 77-90. 9. Salzberg S.: A Nearest Hyperrectangle Learning Method. Machine Learning, 6 (1991) 277-309. 10.Shichao Ahang, Xindong Wu, Chengqi Zhang Multi-Database Mining. IEEE Computational Intelligence Bulletin, Vol.2, No. 1 (2003). 11.Wilson D. R., Martinez T. R.: Reduction Techniques for Instance-based Learning Algorithm. In: Machine Learning. Kluwer Academic Publishers, Boston, 33-3 (2000) 257-286. 12.Xiao-Feng Zhang, Chank-Man Lam, William K. Cheung: Mining Local Data Sources For Learning Global Cluster Model Via Local Model Exchange. IEEE Intelligence Informatics Bulletin, 4, no. 2 (2004). 13.Yutao Guo, Jőrg P. Műller: Multiagent Collaborative Learning for Distributed Business Systems.In: Proceedings of the Third International Joint Conference on Autonomous Agents and Multiagent Systems (AAMAS'04). IEEE Press, New York (2004).