Zeszyty Naukowe nr 724 Akademii Ekonomicznej w Krakowie 2006 Katedra Informatyki Symulacyjna analiza efektywnoêci sieci neuronowych w klasyfikacji bezwzorcowej Streszczenie: W artykule dokonano weryfikacji sieci neuronowych pod kątem zastosowań w klasyfikacji bezwzrocowej. Przeprowadzone badania symulacyjne z wykorzystaniem samoorganizujących się map cech Kohonena odpowiadają na pytanie, czy sieci neuronowe mogą być wykorzystywane jako skuteczne metody wizualizacji i grupowania wielowymiarowych danych. Słowa kluczowe: sieci neuronowe, neuron, warstwa, dane symulacyjne, wielowymiarowy rozkład normalny, wizualizacja danych, grupowanie. 1. Wst p Istotnym problemem pojawiającym się podczas wyboru i stosowania metod grupowania jest wcześniejsza ich weryfikacja i ocena. T. Grabiński [1990] wymienia kilka możliwości badania poprawności metod taksonometrycznych. Są to: analiza formalnych własności algorytmów grupowania, poszukiwanie kontrprzykładów, wykorzystanie eksperymentów symulacyjnych i empirycznych, opartych na danych arbitralnych, generowanych oraz empirycznych. W przypadku badania poprawności metod taksonomicznych, najbardziej zadowalające wydaje się wykorzystanie danych symulacyjnych, które można uzyskać poprzez zastosowanie generatorów liczb pseudolosowych. Ciągi liczbowe uzyskane przez komputerowe realizacje generatorów liczb pseudolosowych (lub inaczej: quasi-losowych) są używane do rozwiązywania szeregu zadań, wśród których można tu wymienić zadania związane z badaniami reprezentacyjnymi, zadania numeryczne, czy też badania zjawisk i procesów technicznych, ekonomicznych
34 bądź biologicznych, co jest realizowane poprzez ich komputerową symulację (modelowanie). Wyczerpujący opis problematyki związanej z generowaniem liczb pseudolosowych oraz testowaniem procedur generujących ciągi liczbowe o zadanych parametrach można znaleźć w pracy R. Wieczorkowskiego i R. Zielińskiego [1997] oraz S. Brandta [1998]. W przeprowadzonych badaniach symulacyjnych wykorzystano algorytmy generujące liczby losowe o wielowymiarowym rozkładzie normalnym. Uzyskane wartości (wektory) można interpretować jako współrzędne punktów w przestrzeni R n, a poprzez modyfikacje parametrów procedur generujących można dowolnie kształtować rozkład obiektów w przestrzeni. Na potrzeby przeprowadzanych badań symulacyjnych zostały opracowane i napisane przez autora pracy programy komputerowe w języku programowania Clipper, umożliwiające generowanie wielowymiarowych liczb pseudolosowych o rozkładzie normalnym N(0,1) i zadanych a priori parametrach. Ze względu na obszerność, nie dołączono kodu źródłowego programów. Jako narzędzie zastosowano samoorganizujące się mapy cech Kohonena (SOM), które, ze względu na swe właściwości [Kohonen 1995], są najczęściej wykorzystywane w procesie klasyfikacji i grupowania. Dla tej kategorii sieci istotne jest prawidłowe określenie parametrów uczenia SOM, co również przedstawiono w niniejszej pracy. Zaprezentowano też mniej formalną metodę badania poprawności grupowania, jaką stanowi wizualizacja rozkładu obiektów w przestrzeni wielowymiarowej. W procesie wizualizacji wykorzystano metodę UMATRIX [Ultsch 1993]. 2. Generowanie zestawów danych symulacyjnych Dla potrzeb badań symulacyjnych przygotowano łącznie 24 zestawy danych, które zostały zróżnicowane pod względem: liczebności obiektów, liczby zmiennych, rozmieszczenia obiektów w przestrzeni R n, współczynnika zmienności dla zmiennych wchodzących w skład zestawów. Wartości parametrów poszczególnych zestawów danych symulacyjnych zawiera tabela 1. Symbol n oznacza liczbę obiektów wchodzących w skład każdego zestawu, natomiast m określa liczbę zmiennych obiektu. Środki ciężkości poszczególnych podzbiorowości wchodzących w skład zestawu danych określone zostały poprzez m-elementowe wektory średnich arytmetycznych μ, natomiast V różnicuje poszczególne zestawy ze względu na współczynnik zmienności.
Symulacyjna analiza efektywności 35 Tabela 1. Parametry układów danych symulacyjnych Układ danych Nr zestawu Liczba n U2 U4 Liczba m Średnia μ Współczynnik V Z1 500/500 6 100 200/100 10 Z2 500/500 6 100 200/100 20 Z3 500/500 6 100 200/100 30 Z4 500/500 20 100 200/100 10 Z5 500/500 20 100 200/100 20 Z6 500/500 20 100 200/100 30 Z7 700/300 6 100 200/100 10 Z8 700/300 6 100 200/100 20 Z9 700/300 6 100 200/100 30 Z10 700/300 20 100 200/100 10 Z11 700/300 20 100 200/100 20 Z12 700/300 20 100 200/100 30 Z13 250/250/250/250 6 100 200/100 200 100/200 10 Z14 250/250/250/250 6 100 200/100 200 100/200 20 Z15 250/250/250/250 6 100 200/100 200 100/200 30 Z16 250/250/250/250 20 100 200/100 200 100/200 10 Z17 250/250/250/250 20 100 200/100 200 100/200 20 Z18 250/250/250/250 20 100 200/100 200 100/200 30 Z19 250/150/400/200 6 100 200/100 200 100/200 10 Z20 250/150/400/200 6 100 200/100 200 100/200 20 Z21 250/150/400/200 6 100 200/100 200 100/200 30 Z22 250/150/400/200 20 100 200/100 200 100/200 10 Z23 250/150/400/200 20 100 200/100 200 100/200 20 Z24 250/150/400/200 20 100 200/100 200 100/200 30 Źródło: opracowanie własne na podstawie [Grabiński 1984; 1992]. Wszystkie zestawy danych składają się ze zbiorowości niejednorodnych, przy czym zestawy Z1,, Z12 z układu U2 zawierają dwie podzbiorowości, a zestawy Z13,, Z24 z układu U4 cztery podzbiorowości (numer układu oznacza tu liczbę podzbiorowości w zestawach danych należących do określonego układu). W skład każdego z układów wchodzi dwanaście zestawów danych, przy czym połowa zestawów zawiera podzbiorowości o jednakowej liczebności (zestawy Z1,, Z6 i Z13,, Z18), a w skład drugiej połowy wchodzą podzbiorowości liczebnie różne (Z7,,Z12 i Z19,, Z24). Liczba obiektów w każdym z układów, dla
36 każdego zestawu danych symulacyjnych, została określona na poziomie 1000. Dla połowy zestawów danych symulacyjnych w każdym z układów przyjęto liczebność zmiennych równą 6, w pozostałych zestawach liczebność zmiennych wynosi 20. W każdym układzie danych istnieją 4 grupy zestawów (po 3 w każdej grupie) o identycznej liczbie zmiennych. Zestawy danych należące do takiej grupy zostały dodatkowo zróżnicowane ze względu na współczynnik zmienności, gdzie przyjęto V = 10% dla pierwszego zestawu danych, V = 20% dla drugiego i V = 30% dla trzeciego zestawu danych wchodzących w skład grupy. Struktura geometryczna obiektów w przestrzeni została uzyskana poprzez określenie wartości średnich arytmetycznych dla poszczególnych zmiennych wchodzących w skład zestawu (zob. tabela 1, kolumna Średnia μ ). Dla przykładu: na zestaw Z8 składa się 700 obiektów, gdzie średnia arytmetyczna każdej z sześciu zmiennych wynosi 100, oraz 300 obiektów, dla których pierwsze trzy zmienne mają średnią arytmetyczną równą 200, a pozostałe trzy zmienne średnią równą 100. 3. Generowanie liczb losowych 3.1. Generowanie liczb losowych o rozkładzie normalnym W celu uzyskania liczb losowych o wielowymiarowym rozkładzie normalnym wygenerowano w pierwszej kolejności wektory, których wszystkie składowe posiadają rozkład normalny N(0,1). Następnie wektory te poddano przekształceniu na liczby losowe o wielowymiarowym rozkładzie normalnym. Aby uzyskać liczby losowe 1 o rozkładzie normalnym N(0,1) zastosowano metodę ROU (Ratio of Uniforms Method) [Wieczorkowski, Zieliński 1997]. Wygenerowane wektory, których składowe spełniają warunek rozkładu normalnego N(0,1), stanowiły bazę dla procesu tworzenia wielowymiarowych liczb losowych o zadanych parametrach. 3.2. Generowanie liczb losowych o wielowymiarowym rozkładzie normalnym Dla wektora X zawierającego m składowych X = (x 1, x 2,, x m ) funkcja gęstości rozkładu normalnego określona jest wzorem: 1 Uzyskanie zmiennych losowych o rozkładzie normalnym możliwe jest również przy wykorzystaniu: metody odwracania dystrybuanty, metody eliminacji, metody superpozycji rozkładów, metody Marsaglii i Baya [Zieliński 1997; Brandt 1998].
Symulacyjna analiza efektywności 37 1 1 2 A T φ ( x) = exp ( x µ ) A( µ ) m 1 X ( 2π) 2, (1) gdzie: X wielowymiarowy wektor losowy o rozkładzie normalnym, μ wektor wartości oczekiwanych. W powyższym równaniu symbol A oznacza macierz wariancji i kowariancji: 2 2 2 δ11 δ12 Λ δ 1m 2 2 2 δ21 δ22 Λ δ2m A =. (2) Λ Λ Λ Λ 2 2 2 δ δ Λ δ m1 m2 mm Elementy diagonalne δ 2 macierzy A odpowiadają wariancji i-tej składowej ii wektora losowego X, natomiast δ 2 (i j) (i, j = 1,, m) stanowią kowariancję i-tej ij oraz j-tej zmiennej losowej 2. Aby wygenerować wielowymiarową zmienną losową o rozkładzie N(μ, A) wykorzystano twierdzenie, które głosi, że jeżeli wszystkie składowe wektora Z = (z 1,, z m ) są niezależne i mają jednakowy rozkład normalny N(0,1), to zmienna losowa CZ, gdzie C jest pewną macierzą nieosobliwą, ma m-wymiarowy rozkład normalny z macierzą kowariancji CC T. W celu wygenerowania m-wymiarowej zmiennej losowej X o zadanym rozkładzie normalnym i danej macierzy wariancji i kowariancji należy zatem: korzystając z rozkładu Choleskyʼego utworzyć macierz C, która spełnia warunek: CC T = A, wygenerować m niezależnych zmiennych losowych z 1,, z m, obliczyć X = CZ. Wykorzystanie opisanej metody pozwala na uzyskanie liczb losowych o wielowymiarowym rozkładzie normalnym, które stanowią źródło danych dla przeprowadzanego procesu wizualizacji i grupowania przy zastosowaniu sieci neuronowych. 4. Projektowanie modelu sieci neuronowej Uzyskane zmienne o wielowymiarowym rozkładzie normalnym stanowiły przestrzeń wejść dla projektowanego modelu sieci neuronowej. W przeprowadzonych badaniach symulacyjnych zastosowano mapę cech Kohonena, wykorzysty- 2 W przeprowadzonej symulacji dla elementów δ 2 (i j) (i, j = 1,, m) macierzy wariancji ij i kowariancji przyjęto wartości zerowe.
38 waną najczęściej w procesie klasyfikacji i grupowania danych. Jako narzędzie do modelowania SOM wykorzystano pakiet programowy SOM_PAK 3. Proces uczenia sieci został podzielony na 2 etapy: etap I, w którym dokonano porządkowania wektorów wagowych SOM; zasięg funkcji sąsiedztwa początkowo obejmował całą mapę (30 30 neuronów) malejąc do 1 wraz z postępem uczenia; każdy zbiór danych wejściowych poddano uczeniu dla 25 różnych wartości początkowych współczynnika uczenia η (tabela 2), który zmierzał do 0 wraz z postępem uczenia sieci; etap II, w którym następował proces precyzyjnego dostrojenia składowych wektorów wagowych do ich poprawnych wartości; zasięg funkcji sąsiedztwa wyznaczono na poziomie 10% wielkości boku mapy (30 30 neuronów); każdy zbiór danych wejściowych poddano uczeniu dla 25 różnych wartości początkowych współczynnika uczenia η (tabela 2), który zmierzał do 0 wraz z postępem uczenia sieci. Tabela 2. Wartości współczynników uczenia dla pierwszego i drugiego etapu uczenia Numer Etap 1 Etap 2 1 0,2 0,02 2 0,5 0,02 3 0,6 0,02 4 0,8 0,02 5 0,9 0,02 6 0,2 0,03 7 0,5 0,03 8 0,6 0,03 9 0,8 0,03 10 0,9 0,03 11 0,2 0,05 12 0,5 0,05 13 0,6 0,05 14 0,8 0,05 15 0,9 0,05 16 0,2 0,08 17 0,5 0,08 18 0,6 0,08 3 Program został stworzony przez SOM Programming Team of the Helsinki University of Technology Laboratory of Computer and Information Science, Finland (zob. [Kohonen 1995]).
Symulacyjna analiza efektywności 39 cd. tabeli 2 Numer Etap 1 Etap 2 Źródło: opracowanie własne. 19 0,8 0,08 20 0,9 0,08 21 0,2 0,09 22 0,5 0,09 23 0,6 0,09 24 0,8 0,09 25 0,9 0,09 Parametry uczenia SOM zostały określone w sposób następujący (zob. też [Grabowski 1997]): badania przeprowadzono na mapie dwuwymiarowej o bokach równych, jako wymiar boku mapy przyjęto n, gdzie n stanowi liczbę obiektów; zgodnie z tym dla wszystkich zestawów danych symulacyjnych przyjęto SOM o wymiarach 30 30 neuronów; ze względu na lepszą zbieżność do tych samych oszacowań wartości wektorów kodowych zastosowano SOM o topologii kwadratowej ; w przeprowadzonych badaniach użyto gaussowskiej funkcji sąsiedztwa; początkowa wartość współczynnika uczenia η została określona osobno dla etapu pierwszego i drugiego; zastosowano liniową funkcję korekty współczynnika uczenia η malejącą do zera wraz z postępem uczenia sieci: t η( t) = η( 0) 1, E (3) gdzie: η(0) początkowa wartość współczynnika uczenia, t indeks kroku uczenia, E liczba epok; w pierwszym etapie określono zasięg funkcji sąsiedztwa na poziomie 100% wielkości boku mapy (30), w drugim etapie na poziomie 10% (3); liczba cykli (epok) ciągu uczącego została określona jako 1000 dla pierwszego etapu i 10 000 4 dla etapu drugiego; porządek obiektów w ciągu uczącym został określony przy wykorzystaniu generatora pseudolosowego; 4 Wystarczającą dokładność statystyczną uzyskuje się określając liczbę cykli (epok) na poziomie 10 000.
40 w celu wyeliminowania zniekształceń w odwzorowaniu przestrzeni danych na płaszczyźnie, wektory danych wejściowych zostały unormowane do długości 1 poprzez zwiększenie wymiaru przestrzeni danych R n R n + 1 (co uzyskano poprzez przeskalowanie składowych do przedziału 0, 1, a następnie dodanie dodatkowej składowej normalizującej) [Osowski 1996]. 5. Przetwarzanie zestawów danych symulacyjnych Ogół zestawów danych symulacyjnych uzyskanych w wyniku procesu generowania zmiennych losowych o wielowymiarowym rozkładzie normalnym poddano przetwarzaniu przy wykorzystaniu modelu sieci neuronowej o założonych parametrach. Rezultatem tego procesu jest zestaw 900 wektorów wagowych neuronów (przy liczbie 1000 wzorców układu dla U2 i U4). Wszystkie dostępne zestawy danych (Z1,, Z24) poddano uczeniu przy zastosowaniu różnych wartości początkowych współczynnika uczenia η, osobno dla etapu pierwszego i drugiego, co w wyniku dało łącznie 600 5 map cech (25 map dla każdego zestawu danych wchodzących w skład układów U2 i U4). Aby umożliwić porównania błędów kwantyzacji, dokonywano prezentacji wektorów wejściowych w jednakowej kolejności 6 dla wszystkich badanych przypadków η 1 i η 2. Dla tak uzyskanych map dokonano obliczenia średniego błędu kwantyzacji. Dla większej czytelności przyjęto następującą symbolikę oznaczenia poszczególnych zestawów danych symulacyjnych: ZPPQQRR, gdzie: PP numer zestawu danych symulacyjnych, QQ liczba zmiennych w zestawie danych, RR wartość współczynnika zmienności dla zmiennych zestawu. Analiza średnich błędów kwantyzacji wskazuje na kilkuprocentową poprawę jakości rzutowania przestrzeni danych wejściowych na płaszczyznę (zmniejszenie średniego błędu kwantyzacji) dla współczynników η 1 i η 2 należących do zestawów od 1 do 15. Dalsze zwiększanie wartości współczynników uczenia (zestawy od 16 do 25) nie powoduje już istotnego zmniejszenia błędu kwantyzacji, co mogłoby poprawić dopasowanie mapy do danych wzorcowych. Ponadto modyfikując 5 Czas realizacji obliczeń dla wszystkich wymienionych przypadków przy wykorzystaniu komputera z procesorem Pentium III 667 MHz wyniósł ok. 10 godzin. 6 Dla każdej epoki dokonywano prezentacji wektorów danych wejściowych na podstawie generatora pseudolosowego, przy czym dla uzyskania zgodności sekwencji ciągu danych wejściowych dla każdego z zestawów Z1,, Z24 określano identyczną wartość startową generatora.
Symulacyjna analiza efektywności 41 wartość współczynnika η 1 (pierwszy etap uczenia) przy założonej stałej wartości η 2 (etap drugi) można zauważyć zmniejszanie się średniego błędu kwantyzacji do wartości 0,5 0,6, a następnie stabilizację lub wzrost wartości błędu dla η 1 > 0,6. Zgodnie z powyższym dalszej analizie poddano mapy SOM uczone przy zastosowaniu współczynników uczenia η 1 = 0,6 i η 2 = 0,08 (łącznie 24 mapy dla wszystkich zestawów Z1,, Z24). Uzyskane wektory wagowe neuronów poddano analizie celem znalezienia w SOM spójnych obszarów. By wyłonić jednorodne grupy danych, zastosowano metodę wizualizacji UMATRIX [Ultsch 1993]. Dla każdej jednostki mapy wyznaczono średnią odległość od jednostek sąsiednich (każdy z neuronów leżących w narożnikach mapy posiada 3 sąsiadów, neurony leżące na krawędziach mapy posiadają 5 sąsiadów, a pozostałe 8 sąsiadów) przy zastosowaniu identycznej miary odległości, jaką stosowano podczas korekty współczynników wagowych neuronów (dla prezentowanych przypadków zastosowano metrykę euklidesową). Uzyskane wartości stanowią średnią miarę niepodobieństwa dla poszczególnych jednostek mapy i ich prezentacja w przestrzeni R 3 pozwala określić wizualnie istnienie jednorodnych grup w prezentowanym zbiorze danych wejściowych (ze względu na obszerność materiału ograniczono się jedynie do prezentacji dla dwóch wybranych zbiorów danych rys. 1 i 2). 26 21 16 11 6 1 1 5 9 13 0,1 0,08 0,06 0,04 0,02 0 29 25 21 17 SOM Niepodobieństwo Rys. 1. Wizualizacja danych w SOM metodą UMATRIX dla zbioru Z010610 Źródło: opracowanie własne.
42 26 21 16 SOM 11 6 1 28 25 22 19 16 13 10 SOM 7 4 1 0,12 0,1 0,08 0,06 0,04 0,02 0 Niepodobieństwo Rys. 2. Wizualizacja danych w SOM metodą UMATRIX dla zbioru Z130610 Źródło: opracowanie własne. Grupy jednostek leżących w dolinach wykresu prezentują dane wejściowe stanowiące grupy jednorodne, podczas gdy zbocza i szczyty stanowią separatory dla wyłonionych grup w przestrzeni wejść. Dokonując wizualnej analizy wykresów dla wszystkich zestawów danych można stwierdzić, że liczba uzyskanych jednorodnych grup odpowiada ich liczbie dla poszczególnych układów danych (dwie grupy dla zestawów Z1,, Z12 i cztery grupy dla zestawów Z13,, Z24). 6. Grupowanie Przyjęcie wielkości mapy SOM (a co za tym idzie określenie liczebności neuronów) zbliżonej do liczby obserwacji realizuje procedurę wizualizacji wielowymiarowej przestrzeni danych. W przypadku grupowania liczba neuronów w SOM powinna być znacznie mniejsza od całkowitej liczby obiektów w badanym zbiorze. Zatem dla SOM o bokach równych wielkość boku mapy powinna być znacznie mniejsza od pierwiastka z całkowitej liczby obiektów badanego ciągu. Dla wszystkich zbiorów danych symulacyjnych (Z010610,, Z242030) przyjęto wielkość boku mapy równą 3 i dla tej wielkości poddano uczeniu SOM stosując wartości zawarte w zbiorach symulacyjnych. Parametry uczenia SOM określono jak w trakcie procesu wizualizacji z tą różnicą, że ze względu na zmniej-
Symulacyjna analiza efektywności 43 szoną wielkość mapy konieczne stało się ograniczenie zakresu funkcji sąsiedztwa, której wartość dobrano na poziomie h = 3 dla pierwszego etapu uczenia oraz h = 1 dla etapu drugiego. Tabele 3 i 4 prezentują numery poszczególnych neuronów (wraz z ich współrzędnymi na mapie), średnie błędy kwantyzacji dla poszczególnych neuronów oraz liczbę obiektów ciągu wejściowego, które są reprezentowane przez wskazany neuron dla wybranych zbiorów danych symulacyjnych (Z010610 i Z130610). Tabela 3. Rozkład obiektów w SOM o wymiarach 3 3 dla zestawu danych symulacyjnych Z010610 Zestaw Neuron Współrzędne SOM Liczba X Y obiektów SBK 1 0 0 315 0,09614 2 0 1 78 0,07543 3 0 2 5 0,09179 4 1 0 98 0,08033 Z010610 5 1 1 0 0,00000 6 1 2 6 0,05191 7 2 0 4 0,09186 8 2 1 1 0,05602 9 2 2 493 0,05800 Źródło: opracowanie własne. Tabela 4. Rozkład obiektów w SOM o wymiarach 3 3 dla zestawu danych symulacyjnych Z130610 Zestaw Neuron Współrzędne SOM Liczba X Y obiektów SBK 1 0 0 205 0,09557 2 0 1 9 0,09519 3 0 2 239 0,12885 4 1 0 45 0,09428 Z130610 5 1 1 0 0,00000 6 1 2 4 0,12310 7 2 0 250 0,10269 8 2 1 0 0,00000 9 2 2 248 0,09716 Źródło: opracowanie własne.
44 Dokonując analizy danych przedstawionych w tabelach 3 i 4 można zauważyć, że w przypadku zbioru Z010610 dwa z neuronów SOM reprezentują większość z badanych obiektów ciągu, natomiast dla zbioru Z130610 znaczną liczebnością przyporządkowanych obiektów wyróżniają się cztery neurony. Odpowiada to przyjętym założeniom odnośnie do rozkładu obiektów w przestrzeni wielowymiarowej (zob. tabela 1). 7. Ocena poprawnoêci procedury grupowania SOM Uzyskany w wyniku zastosowania SOM podział obiektów przestrzeni cech należy poddać weryfikacji celem pomiaru poprawności grupowania. Stosowane mierniki homogeniczności (określające stopień podobieństwa obiektów należących to tej samej grupy) oraz heterogeniczności (określające wzajemne oddalenie pomiędzy obiektami w różnych grupach) sprowadzają się najczęściej do wyznaczania odległości wewnątrzgrupowych (maksymalnych lub średnich) oraz odległości międzygrupowych (minimalnych lub średnich) 7. Jako miarę homogeniczności uzyskanych grup przyjęto średnią odległość wewnątrzgrupową (zob. też [Grądziel, Grześkowiak 2000]): d k = d( Op, Oq ) O G p k O G n q k k ( n 1) gdzie: d k średnia odległość wewnątrzgrupa dla k-tej grupy, O p, O q obiekty należące do k-tej grupy, n k liczba obiektów w k-tej grupie, d(o p, O q ) odległość między obiektami O p i O q, należącymi do k-tej grupy. Duże wartości miernika homogeniczności oznaczają mały stopień podobieństwa wewnątrzgrupowego (duże rozproszenie, a co za tym idzie małą jednorodność obiektów), natomiast małe wartości świadczą o wysokim podobieństwie obiektów przynależących do badanej grupy. W celu określenia zróżnicowania międzygrupowego jako miernik zastosowano średnią odległość międzygrupową: k, (4) 7 Wykaz stosowanych mierników poprawności grupowania można znaleźć w pracy [Grabiński 1992, s. 156 157].
Symulacyjna analiza efektywności 45 d kl = d( Op, Oq ) O G p k O G q n n k l l, (5) gdzie: d kl średnia odległość między obiektami k-tej i l-tej grupy, O p obiekty należące do k-tej grupy, O q obiekty należące do l-tej grupy, n k liczba obiektów w k-tej grupie, n l liczba obiektów w l-tej grupie, d(o p, O q ) odległość między obiektami k-tej i l-tej grupy. Duże wartości miernika heterogeniczności oznaczają wysoki stopień zróżnicowania obiektów należących do badanych grup (duże oddalenie pomiędzy obiektami należącymi do różnych grup), natomiast małe wartości oznaczają duże podobieństwo pomiędzy grupami (niską separowalność). Tabele 5 i 6 przedstawiają ujęte w macierzy średnie wartości wewnątrzi międzygrupowe dla SOM o wymiarach 3 3, dla wybranych zestawów danych symulacyjnych Z010610 oraz Z130610. Na głównych przekątnych poszczególnych macierzy znajdują się średnie odległości wewnątrzgrupowe, pozostałe wartości oznaczają średnie odległości międzygrupowe. Tabela 5. Macierz średnich odległości między- i wewnątrzgrupowych dla SOM o wymiarach 3 3, dla zestawu danych symulacyjnych Z010610 Z010610 Grupa 1 2 3 4 5 6 7 8 9 1 0,12919 0,16525 0,24816 0,16812 0,00000 0,48816 0,27266 0,49511 0,55441 2 0,16525 0,09150 0,13164 0,11836 0,00000 0,36812 0,17095 0,37581 0,43557 3 0,24816 0,13164 0,09337 0,15045 0,00000 0,26851 0,11468 0,27502 0,33589 4 0,16812 0,11836 0,15045 0,09976 0,00000 0,37118 0,15905 0,37288 0,43603 5 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 6 0,48816 0,36812 0,26851 0,37118 0,00000 0,05435 0,25660 0,07403 0,09646 7 0,27266 0,17095 0,11468 0,15905 0,00000 0,25660 0,09840 0,25298 0,31934 8 0,49511 0,37581 0,27502 0,37288 0,00000 0,07403 0,25298 0,00000 0,09167 9 0,55441 0,43557 0,33589 0,43603 0,00000 0,09646 0,31934 0,09167 0,07596 Źródło: opracowanie własne. Poprawny podział obiektów powinien charakteryzować się zarówno dużym stopniem homogeniczności (małe wartości średnich odległości wewnątrzgrupowych), jak i dużym stopniem heterogeniczności (duże wartości średnich odległości międzygrupowych). Dokonując analizy przedstawionych średnich wartości
46 Tabela 6. Macierz średnich odległości między- i wewnątrzgrupowych dla SOM o wymiarach 3 3, dla zestawu danych symulacyjnych Z130610 Z130610 Grupa 1 2 3 4 5 6 7 8 9 1 0,09335 0,27358 0,41736 0,12232 0,00000 0,39542 0,38648 0,00000 0,46109 2 0,27358 0,11958 0,20414 0,30569 0,00000 0,24435 0,49646 0,00000 0,35918 3 0,41736 0,20414 0,14697 0,45815 0,00000 0,29572 0,63390 0,00000 0,41995 4 0,12232 0,30569 0,45815 0,08314 0,00000 0,38573 0,30340 0,00000 0,42315 5 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 6 0,39542 0,24435 0,29572 0,38573 0,00000 0,17404 0,44382 0,00000 0,18817 7 0,38648 0,49646 0,63390 0,30340 0,00000 0,44382 0,06006 0,00000 0,37074 8 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 9 0,46109 0,35918 0,41995 0,42315 0,00000 0,18817 0,37074 0,00000 0,10242 Źródło: opracowanie własne. odległości wewnątrz- i międzygrupowych można stwierdzić, że średnie odległości pomiędzy obiektami należącymi do tej samej grupy (wartości na głównych przekątnych) są mniejsze od średnich odległości pomiędzy obiektami należącymi do różnych grup (wartości znajdujące się poza główną przekątną w poszczególnych macierzach) dla każdego badanego zestawu danych symulacyjnych (Z010610,, Z242030), natomiast wartości zerowe zawarte w tabelach oznaczają brak przyporządkowania obiektów do wskazywanych przez nie neuronów. Świadczy to o poprawności przeprowadzonego procesu grupowania. Literatura Brandt S. [1998], Analiza danych, metody statystyczne i obliczeniowe, PWN, Warszawa. Grabiński T. [1990], Problemy analizy poprawności procedur taksonomicznych [w:] Taksonomia teoria i jej zastosowania, red. J. Pociecha, Materiały z konferencji naukowej zorganizowanej przez AE w Krakowie oraz PTS, Mogilany, wrzesień 1989. Grabiński T. [1992], Metody taksonometrii, AE w Krakowie, Kraków. Grabowski M. [1997], Sieci neuronowe w analizie danych społeczno-ekonomicznych, Rozprawa doktorska, AE w Krakowie, Kraków. Grądziel A., Grześkowiak A. [2000], Taksonomiczna analiza gospodarowania zasobami leśnymi na terenie Dolnego Śląska [w:] Taksonomia 7. Klasyfikacja i analiza danych. Teoria i zastosowania, red. K. Jajuga, M. Walesiak, Wydawnictwo AE we Wrocławiu, Wrocław. Kohonen T. [1995], Self-Organizing Maps, Springer-Verlag, Heidelberg. Ossowski S. [1996], Sieci neuronowe w ujęciu algorytmicznym, WNT, Warszawa. Ultsch A. [1993], Self-organizing Neural Networks for Visualization and Classification [w:] Information and Classification, 307-313, red. O. Opitz, B. Lausen, R. Klar, Springer-Verlag, Berlin.
Symulacyjna analiza efektywności 47 Wieczorkowski R., Zieliński R. [1997], Komputerowe generatory liczb losowych, WNT, Warszawa. Zieliński J. [2000], Inteligentne systemy w zarządzaniu teoria i praktyka, PWN, Warszawa. Simulational Analysis of Neural Networks Effectiveness in Cluster Analysis The paper demonstrates the verification of neural networks usefulness in cluster analysis. The performed simulational research with use of Kohonen self-organising feature maps give an answer to the question, if neural networks can be utilised as an effective method of multidimensional data grouping and visualisation. Key words: neural networks, neuron, layer, simulation data, multidimensional normal distribution, data visualisation, cluster analysis.