Symulacyjna analiza efektywnoêci sieci neuronowych w klasyfikacji bezwzorcowej

Podobne dokumenty
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

10. Redukcja wymiaru - metoda PCA

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Lekcja 5: Sieć Kohonena i sieć ART

Elementy statystyki wielowymiarowej

Sieci Kohonena Grupowanie

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Instytut Fizyki Politechniki Łódzkiej Laboratorium Metod Analizy Danych Doświadczalnych Ćwiczenie 3 Generator liczb losowych o rozkładzie Rayleigha.

Metody systemowe i decyzyjne w informatyce

Obliczenia inteligentne Zadanie 4

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Wstęp do sieci neuronowych, wykład 8 Uczenie nienadzorowane.

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Analiza możliwości szacowania parametrów mieszanin rozkładów prawdopodobieństwa za pomocą sztucznych sieci neuronowych 4

Prawdopodobieństwo i statystyka

Inteligentna analiza danych

Uczenie sieci radialnych (RBF)

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Statystyka i eksploracja danych

Sieci Mobilne i Bezprzewodowe laboratorium 2 Modelowanie zdarzeń dyskretnych

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Hierarchiczna analiza skupień

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Analiza składowych głównych

Fuzja sygnałów i filtry bayesowskie

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Analiza składowych głównych. Wprowadzenie

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Modelowanie komputerowe

Metody Sztucznej Inteligencji II

PRZEWODNIK PO PRZEDMIOCIE

Grupowanie VQ. Kwantyzacja wektorowa (VQ Vector Quantization) SOM Self-Organizing Maps. Wstępny podział na grupy. Walidacja grupowania

Biostatystyka, # 3 /Weterynaria I/

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Metody numeryczne Wykład 4

KLASYFIKACJA. Słownik języka polskiego

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Co to jest grupowanie

Układy stochastyczne

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

Macierze. Rozdział Działania na macierzach

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Prawdopodobieństwo i statystyka

Systemy uczące się Lab 4

Wykład 10 Skalowanie wielowymiarowe

SIEĆ GRNN W KOMPRESJI OBRAZÓW RADAROWYCH

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

METODY STATYSTYCZNE W BIOLOGII

Metoda Monte Carlo. Jerzy Mycielski. grudzien Jerzy Mycielski () Metoda Monte Carlo grudzien / 10

Komputerowa Analiza Danych Doświadczalnych

Procesy stochastyczne

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Badanie rozwoju społeczno-gospodarczego województw - wpływ metodyki badań na uzyskane wyniki

Obliczenia iteracyjne

Metody Rozmyte i Algorytmy Ewolucyjne

KADD Minimalizacja funkcji

STATYSTYKA MATEMATYCZNA

METODY STATYSTYCZNE W BIOLOGII

WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO. Stanisław Kowalik (Poland, Gliwice)

8. Neuron z ciągłą funkcją aktywacji.

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Analiza korespondencji

Kilka uwag o testowaniu istotności współczynnika korelacji

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

SIECI RBF (RADIAL BASIS FUNCTIONS)

WYKŁAD 5 TEORIA ESTYMACJI II

Procesy stochastyczne

PODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.

Uczenie sieci typu MLP

Prawdopodobieństwo i rozkład normalny cd.

Podstawy sztucznej inteligencji


Spacery losowe generowanie realizacji procesu losowego

FOLIA POMERANAE UNIVERSITATIS TECHNOLOGIAE STETINENSIS Folia Pomer. Univ. Technol. Stetin., Oeconomica 2018, 347(93)4, 57 68

5 Błąd średniokwadratowy i obciążenie

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Klasyfikacja województw według ich konkurencyjności przy pomocy metod taksonomicznych oraz sieci neuronowych.

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Zadania ze statystyki, cz.6

5. Analiza dyskryminacyjna: FLD, LDA, QDA

strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:

Rozpoznawanie obrazów

TRANSFORMATA FALKOWA WYBRANYCH SYGNAŁÓW SYMULACYJNYCH

Transkrypt:

Zeszyty Naukowe nr 724 Akademii Ekonomicznej w Krakowie 2006 Katedra Informatyki Symulacyjna analiza efektywnoêci sieci neuronowych w klasyfikacji bezwzorcowej Streszczenie: W artykule dokonano weryfikacji sieci neuronowych pod kątem zastosowań w klasyfikacji bezwzrocowej. Przeprowadzone badania symulacyjne z wykorzystaniem samoorganizujących się map cech Kohonena odpowiadają na pytanie, czy sieci neuronowe mogą być wykorzystywane jako skuteczne metody wizualizacji i grupowania wielowymiarowych danych. Słowa kluczowe: sieci neuronowe, neuron, warstwa, dane symulacyjne, wielowymiarowy rozkład normalny, wizualizacja danych, grupowanie. 1. Wst p Istotnym problemem pojawiającym się podczas wyboru i stosowania metod grupowania jest wcześniejsza ich weryfikacja i ocena. T. Grabiński [1990] wymienia kilka możliwości badania poprawności metod taksonometrycznych. Są to: analiza formalnych własności algorytmów grupowania, poszukiwanie kontrprzykładów, wykorzystanie eksperymentów symulacyjnych i empirycznych, opartych na danych arbitralnych, generowanych oraz empirycznych. W przypadku badania poprawności metod taksonomicznych, najbardziej zadowalające wydaje się wykorzystanie danych symulacyjnych, które można uzyskać poprzez zastosowanie generatorów liczb pseudolosowych. Ciągi liczbowe uzyskane przez komputerowe realizacje generatorów liczb pseudolosowych (lub inaczej: quasi-losowych) są używane do rozwiązywania szeregu zadań, wśród których można tu wymienić zadania związane z badaniami reprezentacyjnymi, zadania numeryczne, czy też badania zjawisk i procesów technicznych, ekonomicznych

34 bądź biologicznych, co jest realizowane poprzez ich komputerową symulację (modelowanie). Wyczerpujący opis problematyki związanej z generowaniem liczb pseudolosowych oraz testowaniem procedur generujących ciągi liczbowe o zadanych parametrach można znaleźć w pracy R. Wieczorkowskiego i R. Zielińskiego [1997] oraz S. Brandta [1998]. W przeprowadzonych badaniach symulacyjnych wykorzystano algorytmy generujące liczby losowe o wielowymiarowym rozkładzie normalnym. Uzyskane wartości (wektory) można interpretować jako współrzędne punktów w przestrzeni R n, a poprzez modyfikacje parametrów procedur generujących można dowolnie kształtować rozkład obiektów w przestrzeni. Na potrzeby przeprowadzanych badań symulacyjnych zostały opracowane i napisane przez autora pracy programy komputerowe w języku programowania Clipper, umożliwiające generowanie wielowymiarowych liczb pseudolosowych o rozkładzie normalnym N(0,1) i zadanych a priori parametrach. Ze względu na obszerność, nie dołączono kodu źródłowego programów. Jako narzędzie zastosowano samoorganizujące się mapy cech Kohonena (SOM), które, ze względu na swe właściwości [Kohonen 1995], są najczęściej wykorzystywane w procesie klasyfikacji i grupowania. Dla tej kategorii sieci istotne jest prawidłowe określenie parametrów uczenia SOM, co również przedstawiono w niniejszej pracy. Zaprezentowano też mniej formalną metodę badania poprawności grupowania, jaką stanowi wizualizacja rozkładu obiektów w przestrzeni wielowymiarowej. W procesie wizualizacji wykorzystano metodę UMATRIX [Ultsch 1993]. 2. Generowanie zestawów danych symulacyjnych Dla potrzeb badań symulacyjnych przygotowano łącznie 24 zestawy danych, które zostały zróżnicowane pod względem: liczebności obiektów, liczby zmiennych, rozmieszczenia obiektów w przestrzeni R n, współczynnika zmienności dla zmiennych wchodzących w skład zestawów. Wartości parametrów poszczególnych zestawów danych symulacyjnych zawiera tabela 1. Symbol n oznacza liczbę obiektów wchodzących w skład każdego zestawu, natomiast m określa liczbę zmiennych obiektu. Środki ciężkości poszczególnych podzbiorowości wchodzących w skład zestawu danych określone zostały poprzez m-elementowe wektory średnich arytmetycznych μ, natomiast V różnicuje poszczególne zestawy ze względu na współczynnik zmienności.

Symulacyjna analiza efektywności 35 Tabela 1. Parametry układów danych symulacyjnych Układ danych Nr zestawu Liczba n U2 U4 Liczba m Średnia μ Współczynnik V Z1 500/500 6 100 200/100 10 Z2 500/500 6 100 200/100 20 Z3 500/500 6 100 200/100 30 Z4 500/500 20 100 200/100 10 Z5 500/500 20 100 200/100 20 Z6 500/500 20 100 200/100 30 Z7 700/300 6 100 200/100 10 Z8 700/300 6 100 200/100 20 Z9 700/300 6 100 200/100 30 Z10 700/300 20 100 200/100 10 Z11 700/300 20 100 200/100 20 Z12 700/300 20 100 200/100 30 Z13 250/250/250/250 6 100 200/100 200 100/200 10 Z14 250/250/250/250 6 100 200/100 200 100/200 20 Z15 250/250/250/250 6 100 200/100 200 100/200 30 Z16 250/250/250/250 20 100 200/100 200 100/200 10 Z17 250/250/250/250 20 100 200/100 200 100/200 20 Z18 250/250/250/250 20 100 200/100 200 100/200 30 Z19 250/150/400/200 6 100 200/100 200 100/200 10 Z20 250/150/400/200 6 100 200/100 200 100/200 20 Z21 250/150/400/200 6 100 200/100 200 100/200 30 Z22 250/150/400/200 20 100 200/100 200 100/200 10 Z23 250/150/400/200 20 100 200/100 200 100/200 20 Z24 250/150/400/200 20 100 200/100 200 100/200 30 Źródło: opracowanie własne na podstawie [Grabiński 1984; 1992]. Wszystkie zestawy danych składają się ze zbiorowości niejednorodnych, przy czym zestawy Z1,, Z12 z układu U2 zawierają dwie podzbiorowości, a zestawy Z13,, Z24 z układu U4 cztery podzbiorowości (numer układu oznacza tu liczbę podzbiorowości w zestawach danych należących do określonego układu). W skład każdego z układów wchodzi dwanaście zestawów danych, przy czym połowa zestawów zawiera podzbiorowości o jednakowej liczebności (zestawy Z1,, Z6 i Z13,, Z18), a w skład drugiej połowy wchodzą podzbiorowości liczebnie różne (Z7,,Z12 i Z19,, Z24). Liczba obiektów w każdym z układów, dla

36 każdego zestawu danych symulacyjnych, została określona na poziomie 1000. Dla połowy zestawów danych symulacyjnych w każdym z układów przyjęto liczebność zmiennych równą 6, w pozostałych zestawach liczebność zmiennych wynosi 20. W każdym układzie danych istnieją 4 grupy zestawów (po 3 w każdej grupie) o identycznej liczbie zmiennych. Zestawy danych należące do takiej grupy zostały dodatkowo zróżnicowane ze względu na współczynnik zmienności, gdzie przyjęto V = 10% dla pierwszego zestawu danych, V = 20% dla drugiego i V = 30% dla trzeciego zestawu danych wchodzących w skład grupy. Struktura geometryczna obiektów w przestrzeni została uzyskana poprzez określenie wartości średnich arytmetycznych dla poszczególnych zmiennych wchodzących w skład zestawu (zob. tabela 1, kolumna Średnia μ ). Dla przykładu: na zestaw Z8 składa się 700 obiektów, gdzie średnia arytmetyczna każdej z sześciu zmiennych wynosi 100, oraz 300 obiektów, dla których pierwsze trzy zmienne mają średnią arytmetyczną równą 200, a pozostałe trzy zmienne średnią równą 100. 3. Generowanie liczb losowych 3.1. Generowanie liczb losowych o rozkładzie normalnym W celu uzyskania liczb losowych o wielowymiarowym rozkładzie normalnym wygenerowano w pierwszej kolejności wektory, których wszystkie składowe posiadają rozkład normalny N(0,1). Następnie wektory te poddano przekształceniu na liczby losowe o wielowymiarowym rozkładzie normalnym. Aby uzyskać liczby losowe 1 o rozkładzie normalnym N(0,1) zastosowano metodę ROU (Ratio of Uniforms Method) [Wieczorkowski, Zieliński 1997]. Wygenerowane wektory, których składowe spełniają warunek rozkładu normalnego N(0,1), stanowiły bazę dla procesu tworzenia wielowymiarowych liczb losowych o zadanych parametrach. 3.2. Generowanie liczb losowych o wielowymiarowym rozkładzie normalnym Dla wektora X zawierającego m składowych X = (x 1, x 2,, x m ) funkcja gęstości rozkładu normalnego określona jest wzorem: 1 Uzyskanie zmiennych losowych o rozkładzie normalnym możliwe jest również przy wykorzystaniu: metody odwracania dystrybuanty, metody eliminacji, metody superpozycji rozkładów, metody Marsaglii i Baya [Zieliński 1997; Brandt 1998].

Symulacyjna analiza efektywności 37 1 1 2 A T φ ( x) = exp ( x µ ) A( µ ) m 1 X ( 2π) 2, (1) gdzie: X wielowymiarowy wektor losowy o rozkładzie normalnym, μ wektor wartości oczekiwanych. W powyższym równaniu symbol A oznacza macierz wariancji i kowariancji: 2 2 2 δ11 δ12 Λ δ 1m 2 2 2 δ21 δ22 Λ δ2m A =. (2) Λ Λ Λ Λ 2 2 2 δ δ Λ δ m1 m2 mm Elementy diagonalne δ 2 macierzy A odpowiadają wariancji i-tej składowej ii wektora losowego X, natomiast δ 2 (i j) (i, j = 1,, m) stanowią kowariancję i-tej ij oraz j-tej zmiennej losowej 2. Aby wygenerować wielowymiarową zmienną losową o rozkładzie N(μ, A) wykorzystano twierdzenie, które głosi, że jeżeli wszystkie składowe wektora Z = (z 1,, z m ) są niezależne i mają jednakowy rozkład normalny N(0,1), to zmienna losowa CZ, gdzie C jest pewną macierzą nieosobliwą, ma m-wymiarowy rozkład normalny z macierzą kowariancji CC T. W celu wygenerowania m-wymiarowej zmiennej losowej X o zadanym rozkładzie normalnym i danej macierzy wariancji i kowariancji należy zatem: korzystając z rozkładu Choleskyʼego utworzyć macierz C, która spełnia warunek: CC T = A, wygenerować m niezależnych zmiennych losowych z 1,, z m, obliczyć X = CZ. Wykorzystanie opisanej metody pozwala na uzyskanie liczb losowych o wielowymiarowym rozkładzie normalnym, które stanowią źródło danych dla przeprowadzanego procesu wizualizacji i grupowania przy zastosowaniu sieci neuronowych. 4. Projektowanie modelu sieci neuronowej Uzyskane zmienne o wielowymiarowym rozkładzie normalnym stanowiły przestrzeń wejść dla projektowanego modelu sieci neuronowej. W przeprowadzonych badaniach symulacyjnych zastosowano mapę cech Kohonena, wykorzysty- 2 W przeprowadzonej symulacji dla elementów δ 2 (i j) (i, j = 1,, m) macierzy wariancji ij i kowariancji przyjęto wartości zerowe.

38 waną najczęściej w procesie klasyfikacji i grupowania danych. Jako narzędzie do modelowania SOM wykorzystano pakiet programowy SOM_PAK 3. Proces uczenia sieci został podzielony na 2 etapy: etap I, w którym dokonano porządkowania wektorów wagowych SOM; zasięg funkcji sąsiedztwa początkowo obejmował całą mapę (30 30 neuronów) malejąc do 1 wraz z postępem uczenia; każdy zbiór danych wejściowych poddano uczeniu dla 25 różnych wartości początkowych współczynnika uczenia η (tabela 2), który zmierzał do 0 wraz z postępem uczenia sieci; etap II, w którym następował proces precyzyjnego dostrojenia składowych wektorów wagowych do ich poprawnych wartości; zasięg funkcji sąsiedztwa wyznaczono na poziomie 10% wielkości boku mapy (30 30 neuronów); każdy zbiór danych wejściowych poddano uczeniu dla 25 różnych wartości początkowych współczynnika uczenia η (tabela 2), który zmierzał do 0 wraz z postępem uczenia sieci. Tabela 2. Wartości współczynników uczenia dla pierwszego i drugiego etapu uczenia Numer Etap 1 Etap 2 1 0,2 0,02 2 0,5 0,02 3 0,6 0,02 4 0,8 0,02 5 0,9 0,02 6 0,2 0,03 7 0,5 0,03 8 0,6 0,03 9 0,8 0,03 10 0,9 0,03 11 0,2 0,05 12 0,5 0,05 13 0,6 0,05 14 0,8 0,05 15 0,9 0,05 16 0,2 0,08 17 0,5 0,08 18 0,6 0,08 3 Program został stworzony przez SOM Programming Team of the Helsinki University of Technology Laboratory of Computer and Information Science, Finland (zob. [Kohonen 1995]).

Symulacyjna analiza efektywności 39 cd. tabeli 2 Numer Etap 1 Etap 2 Źródło: opracowanie własne. 19 0,8 0,08 20 0,9 0,08 21 0,2 0,09 22 0,5 0,09 23 0,6 0,09 24 0,8 0,09 25 0,9 0,09 Parametry uczenia SOM zostały określone w sposób następujący (zob. też [Grabowski 1997]): badania przeprowadzono na mapie dwuwymiarowej o bokach równych, jako wymiar boku mapy przyjęto n, gdzie n stanowi liczbę obiektów; zgodnie z tym dla wszystkich zestawów danych symulacyjnych przyjęto SOM o wymiarach 30 30 neuronów; ze względu na lepszą zbieżność do tych samych oszacowań wartości wektorów kodowych zastosowano SOM o topologii kwadratowej ; w przeprowadzonych badaniach użyto gaussowskiej funkcji sąsiedztwa; początkowa wartość współczynnika uczenia η została określona osobno dla etapu pierwszego i drugiego; zastosowano liniową funkcję korekty współczynnika uczenia η malejącą do zera wraz z postępem uczenia sieci: t η( t) = η( 0) 1, E (3) gdzie: η(0) początkowa wartość współczynnika uczenia, t indeks kroku uczenia, E liczba epok; w pierwszym etapie określono zasięg funkcji sąsiedztwa na poziomie 100% wielkości boku mapy (30), w drugim etapie na poziomie 10% (3); liczba cykli (epok) ciągu uczącego została określona jako 1000 dla pierwszego etapu i 10 000 4 dla etapu drugiego; porządek obiektów w ciągu uczącym został określony przy wykorzystaniu generatora pseudolosowego; 4 Wystarczającą dokładność statystyczną uzyskuje się określając liczbę cykli (epok) na poziomie 10 000.

40 w celu wyeliminowania zniekształceń w odwzorowaniu przestrzeni danych na płaszczyźnie, wektory danych wejściowych zostały unormowane do długości 1 poprzez zwiększenie wymiaru przestrzeni danych R n R n + 1 (co uzyskano poprzez przeskalowanie składowych do przedziału 0, 1, a następnie dodanie dodatkowej składowej normalizującej) [Osowski 1996]. 5. Przetwarzanie zestawów danych symulacyjnych Ogół zestawów danych symulacyjnych uzyskanych w wyniku procesu generowania zmiennych losowych o wielowymiarowym rozkładzie normalnym poddano przetwarzaniu przy wykorzystaniu modelu sieci neuronowej o założonych parametrach. Rezultatem tego procesu jest zestaw 900 wektorów wagowych neuronów (przy liczbie 1000 wzorców układu dla U2 i U4). Wszystkie dostępne zestawy danych (Z1,, Z24) poddano uczeniu przy zastosowaniu różnych wartości początkowych współczynnika uczenia η, osobno dla etapu pierwszego i drugiego, co w wyniku dało łącznie 600 5 map cech (25 map dla każdego zestawu danych wchodzących w skład układów U2 i U4). Aby umożliwić porównania błędów kwantyzacji, dokonywano prezentacji wektorów wejściowych w jednakowej kolejności 6 dla wszystkich badanych przypadków η 1 i η 2. Dla tak uzyskanych map dokonano obliczenia średniego błędu kwantyzacji. Dla większej czytelności przyjęto następującą symbolikę oznaczenia poszczególnych zestawów danych symulacyjnych: ZPPQQRR, gdzie: PP numer zestawu danych symulacyjnych, QQ liczba zmiennych w zestawie danych, RR wartość współczynnika zmienności dla zmiennych zestawu. Analiza średnich błędów kwantyzacji wskazuje na kilkuprocentową poprawę jakości rzutowania przestrzeni danych wejściowych na płaszczyznę (zmniejszenie średniego błędu kwantyzacji) dla współczynników η 1 i η 2 należących do zestawów od 1 do 15. Dalsze zwiększanie wartości współczynników uczenia (zestawy od 16 do 25) nie powoduje już istotnego zmniejszenia błędu kwantyzacji, co mogłoby poprawić dopasowanie mapy do danych wzorcowych. Ponadto modyfikując 5 Czas realizacji obliczeń dla wszystkich wymienionych przypadków przy wykorzystaniu komputera z procesorem Pentium III 667 MHz wyniósł ok. 10 godzin. 6 Dla każdej epoki dokonywano prezentacji wektorów danych wejściowych na podstawie generatora pseudolosowego, przy czym dla uzyskania zgodności sekwencji ciągu danych wejściowych dla każdego z zestawów Z1,, Z24 określano identyczną wartość startową generatora.

Symulacyjna analiza efektywności 41 wartość współczynnika η 1 (pierwszy etap uczenia) przy założonej stałej wartości η 2 (etap drugi) można zauważyć zmniejszanie się średniego błędu kwantyzacji do wartości 0,5 0,6, a następnie stabilizację lub wzrost wartości błędu dla η 1 > 0,6. Zgodnie z powyższym dalszej analizie poddano mapy SOM uczone przy zastosowaniu współczynników uczenia η 1 = 0,6 i η 2 = 0,08 (łącznie 24 mapy dla wszystkich zestawów Z1,, Z24). Uzyskane wektory wagowe neuronów poddano analizie celem znalezienia w SOM spójnych obszarów. By wyłonić jednorodne grupy danych, zastosowano metodę wizualizacji UMATRIX [Ultsch 1993]. Dla każdej jednostki mapy wyznaczono średnią odległość od jednostek sąsiednich (każdy z neuronów leżących w narożnikach mapy posiada 3 sąsiadów, neurony leżące na krawędziach mapy posiadają 5 sąsiadów, a pozostałe 8 sąsiadów) przy zastosowaniu identycznej miary odległości, jaką stosowano podczas korekty współczynników wagowych neuronów (dla prezentowanych przypadków zastosowano metrykę euklidesową). Uzyskane wartości stanowią średnią miarę niepodobieństwa dla poszczególnych jednostek mapy i ich prezentacja w przestrzeni R 3 pozwala określić wizualnie istnienie jednorodnych grup w prezentowanym zbiorze danych wejściowych (ze względu na obszerność materiału ograniczono się jedynie do prezentacji dla dwóch wybranych zbiorów danych rys. 1 i 2). 26 21 16 11 6 1 1 5 9 13 0,1 0,08 0,06 0,04 0,02 0 29 25 21 17 SOM Niepodobieństwo Rys. 1. Wizualizacja danych w SOM metodą UMATRIX dla zbioru Z010610 Źródło: opracowanie własne.

42 26 21 16 SOM 11 6 1 28 25 22 19 16 13 10 SOM 7 4 1 0,12 0,1 0,08 0,06 0,04 0,02 0 Niepodobieństwo Rys. 2. Wizualizacja danych w SOM metodą UMATRIX dla zbioru Z130610 Źródło: opracowanie własne. Grupy jednostek leżących w dolinach wykresu prezentują dane wejściowe stanowiące grupy jednorodne, podczas gdy zbocza i szczyty stanowią separatory dla wyłonionych grup w przestrzeni wejść. Dokonując wizualnej analizy wykresów dla wszystkich zestawów danych można stwierdzić, że liczba uzyskanych jednorodnych grup odpowiada ich liczbie dla poszczególnych układów danych (dwie grupy dla zestawów Z1,, Z12 i cztery grupy dla zestawów Z13,, Z24). 6. Grupowanie Przyjęcie wielkości mapy SOM (a co za tym idzie określenie liczebności neuronów) zbliżonej do liczby obserwacji realizuje procedurę wizualizacji wielowymiarowej przestrzeni danych. W przypadku grupowania liczba neuronów w SOM powinna być znacznie mniejsza od całkowitej liczby obiektów w badanym zbiorze. Zatem dla SOM o bokach równych wielkość boku mapy powinna być znacznie mniejsza od pierwiastka z całkowitej liczby obiektów badanego ciągu. Dla wszystkich zbiorów danych symulacyjnych (Z010610,, Z242030) przyjęto wielkość boku mapy równą 3 i dla tej wielkości poddano uczeniu SOM stosując wartości zawarte w zbiorach symulacyjnych. Parametry uczenia SOM określono jak w trakcie procesu wizualizacji z tą różnicą, że ze względu na zmniej-

Symulacyjna analiza efektywności 43 szoną wielkość mapy konieczne stało się ograniczenie zakresu funkcji sąsiedztwa, której wartość dobrano na poziomie h = 3 dla pierwszego etapu uczenia oraz h = 1 dla etapu drugiego. Tabele 3 i 4 prezentują numery poszczególnych neuronów (wraz z ich współrzędnymi na mapie), średnie błędy kwantyzacji dla poszczególnych neuronów oraz liczbę obiektów ciągu wejściowego, które są reprezentowane przez wskazany neuron dla wybranych zbiorów danych symulacyjnych (Z010610 i Z130610). Tabela 3. Rozkład obiektów w SOM o wymiarach 3 3 dla zestawu danych symulacyjnych Z010610 Zestaw Neuron Współrzędne SOM Liczba X Y obiektów SBK 1 0 0 315 0,09614 2 0 1 78 0,07543 3 0 2 5 0,09179 4 1 0 98 0,08033 Z010610 5 1 1 0 0,00000 6 1 2 6 0,05191 7 2 0 4 0,09186 8 2 1 1 0,05602 9 2 2 493 0,05800 Źródło: opracowanie własne. Tabela 4. Rozkład obiektów w SOM o wymiarach 3 3 dla zestawu danych symulacyjnych Z130610 Zestaw Neuron Współrzędne SOM Liczba X Y obiektów SBK 1 0 0 205 0,09557 2 0 1 9 0,09519 3 0 2 239 0,12885 4 1 0 45 0,09428 Z130610 5 1 1 0 0,00000 6 1 2 4 0,12310 7 2 0 250 0,10269 8 2 1 0 0,00000 9 2 2 248 0,09716 Źródło: opracowanie własne.

44 Dokonując analizy danych przedstawionych w tabelach 3 i 4 można zauważyć, że w przypadku zbioru Z010610 dwa z neuronów SOM reprezentują większość z badanych obiektów ciągu, natomiast dla zbioru Z130610 znaczną liczebnością przyporządkowanych obiektów wyróżniają się cztery neurony. Odpowiada to przyjętym założeniom odnośnie do rozkładu obiektów w przestrzeni wielowymiarowej (zob. tabela 1). 7. Ocena poprawnoêci procedury grupowania SOM Uzyskany w wyniku zastosowania SOM podział obiektów przestrzeni cech należy poddać weryfikacji celem pomiaru poprawności grupowania. Stosowane mierniki homogeniczności (określające stopień podobieństwa obiektów należących to tej samej grupy) oraz heterogeniczności (określające wzajemne oddalenie pomiędzy obiektami w różnych grupach) sprowadzają się najczęściej do wyznaczania odległości wewnątrzgrupowych (maksymalnych lub średnich) oraz odległości międzygrupowych (minimalnych lub średnich) 7. Jako miarę homogeniczności uzyskanych grup przyjęto średnią odległość wewnątrzgrupową (zob. też [Grądziel, Grześkowiak 2000]): d k = d( Op, Oq ) O G p k O G n q k k ( n 1) gdzie: d k średnia odległość wewnątrzgrupa dla k-tej grupy, O p, O q obiekty należące do k-tej grupy, n k liczba obiektów w k-tej grupie, d(o p, O q ) odległość między obiektami O p i O q, należącymi do k-tej grupy. Duże wartości miernika homogeniczności oznaczają mały stopień podobieństwa wewnątrzgrupowego (duże rozproszenie, a co za tym idzie małą jednorodność obiektów), natomiast małe wartości świadczą o wysokim podobieństwie obiektów przynależących do badanej grupy. W celu określenia zróżnicowania międzygrupowego jako miernik zastosowano średnią odległość międzygrupową: k, (4) 7 Wykaz stosowanych mierników poprawności grupowania można znaleźć w pracy [Grabiński 1992, s. 156 157].

Symulacyjna analiza efektywności 45 d kl = d( Op, Oq ) O G p k O G q n n k l l, (5) gdzie: d kl średnia odległość między obiektami k-tej i l-tej grupy, O p obiekty należące do k-tej grupy, O q obiekty należące do l-tej grupy, n k liczba obiektów w k-tej grupie, n l liczba obiektów w l-tej grupie, d(o p, O q ) odległość między obiektami k-tej i l-tej grupy. Duże wartości miernika heterogeniczności oznaczają wysoki stopień zróżnicowania obiektów należących do badanych grup (duże oddalenie pomiędzy obiektami należącymi do różnych grup), natomiast małe wartości oznaczają duże podobieństwo pomiędzy grupami (niską separowalność). Tabele 5 i 6 przedstawiają ujęte w macierzy średnie wartości wewnątrzi międzygrupowe dla SOM o wymiarach 3 3, dla wybranych zestawów danych symulacyjnych Z010610 oraz Z130610. Na głównych przekątnych poszczególnych macierzy znajdują się średnie odległości wewnątrzgrupowe, pozostałe wartości oznaczają średnie odległości międzygrupowe. Tabela 5. Macierz średnich odległości między- i wewnątrzgrupowych dla SOM o wymiarach 3 3, dla zestawu danych symulacyjnych Z010610 Z010610 Grupa 1 2 3 4 5 6 7 8 9 1 0,12919 0,16525 0,24816 0,16812 0,00000 0,48816 0,27266 0,49511 0,55441 2 0,16525 0,09150 0,13164 0,11836 0,00000 0,36812 0,17095 0,37581 0,43557 3 0,24816 0,13164 0,09337 0,15045 0,00000 0,26851 0,11468 0,27502 0,33589 4 0,16812 0,11836 0,15045 0,09976 0,00000 0,37118 0,15905 0,37288 0,43603 5 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 6 0,48816 0,36812 0,26851 0,37118 0,00000 0,05435 0,25660 0,07403 0,09646 7 0,27266 0,17095 0,11468 0,15905 0,00000 0,25660 0,09840 0,25298 0,31934 8 0,49511 0,37581 0,27502 0,37288 0,00000 0,07403 0,25298 0,00000 0,09167 9 0,55441 0,43557 0,33589 0,43603 0,00000 0,09646 0,31934 0,09167 0,07596 Źródło: opracowanie własne. Poprawny podział obiektów powinien charakteryzować się zarówno dużym stopniem homogeniczności (małe wartości średnich odległości wewnątrzgrupowych), jak i dużym stopniem heterogeniczności (duże wartości średnich odległości międzygrupowych). Dokonując analizy przedstawionych średnich wartości

46 Tabela 6. Macierz średnich odległości między- i wewnątrzgrupowych dla SOM o wymiarach 3 3, dla zestawu danych symulacyjnych Z130610 Z130610 Grupa 1 2 3 4 5 6 7 8 9 1 0,09335 0,27358 0,41736 0,12232 0,00000 0,39542 0,38648 0,00000 0,46109 2 0,27358 0,11958 0,20414 0,30569 0,00000 0,24435 0,49646 0,00000 0,35918 3 0,41736 0,20414 0,14697 0,45815 0,00000 0,29572 0,63390 0,00000 0,41995 4 0,12232 0,30569 0,45815 0,08314 0,00000 0,38573 0,30340 0,00000 0,42315 5 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 6 0,39542 0,24435 0,29572 0,38573 0,00000 0,17404 0,44382 0,00000 0,18817 7 0,38648 0,49646 0,63390 0,30340 0,00000 0,44382 0,06006 0,00000 0,37074 8 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 9 0,46109 0,35918 0,41995 0,42315 0,00000 0,18817 0,37074 0,00000 0,10242 Źródło: opracowanie własne. odległości wewnątrz- i międzygrupowych można stwierdzić, że średnie odległości pomiędzy obiektami należącymi do tej samej grupy (wartości na głównych przekątnych) są mniejsze od średnich odległości pomiędzy obiektami należącymi do różnych grup (wartości znajdujące się poza główną przekątną w poszczególnych macierzach) dla każdego badanego zestawu danych symulacyjnych (Z010610,, Z242030), natomiast wartości zerowe zawarte w tabelach oznaczają brak przyporządkowania obiektów do wskazywanych przez nie neuronów. Świadczy to o poprawności przeprowadzonego procesu grupowania. Literatura Brandt S. [1998], Analiza danych, metody statystyczne i obliczeniowe, PWN, Warszawa. Grabiński T. [1990], Problemy analizy poprawności procedur taksonomicznych [w:] Taksonomia teoria i jej zastosowania, red. J. Pociecha, Materiały z konferencji naukowej zorganizowanej przez AE w Krakowie oraz PTS, Mogilany, wrzesień 1989. Grabiński T. [1992], Metody taksonometrii, AE w Krakowie, Kraków. Grabowski M. [1997], Sieci neuronowe w analizie danych społeczno-ekonomicznych, Rozprawa doktorska, AE w Krakowie, Kraków. Grądziel A., Grześkowiak A. [2000], Taksonomiczna analiza gospodarowania zasobami leśnymi na terenie Dolnego Śląska [w:] Taksonomia 7. Klasyfikacja i analiza danych. Teoria i zastosowania, red. K. Jajuga, M. Walesiak, Wydawnictwo AE we Wrocławiu, Wrocław. Kohonen T. [1995], Self-Organizing Maps, Springer-Verlag, Heidelberg. Ossowski S. [1996], Sieci neuronowe w ujęciu algorytmicznym, WNT, Warszawa. Ultsch A. [1993], Self-organizing Neural Networks for Visualization and Classification [w:] Information and Classification, 307-313, red. O. Opitz, B. Lausen, R. Klar, Springer-Verlag, Berlin.

Symulacyjna analiza efektywności 47 Wieczorkowski R., Zieliński R. [1997], Komputerowe generatory liczb losowych, WNT, Warszawa. Zieliński J. [2000], Inteligentne systemy w zarządzaniu teoria i praktyka, PWN, Warszawa. Simulational Analysis of Neural Networks Effectiveness in Cluster Analysis The paper demonstrates the verification of neural networks usefulness in cluster analysis. The performed simulational research with use of Kohonen self-organising feature maps give an answer to the question, if neural networks can be utilised as an effective method of multidimensional data grouping and visualisation. Key words: neural networks, neuron, layer, simulation data, multidimensional normal distribution, data visualisation, cluster analysis.