Marcin RELICH Pawe KU DOWICZ Uniwersytet Zielonogórski ZASTOSOWANIE SZTUCZNYCH SIECI NEURONOWYCH I ANALIZY DYSKRYMINACYJNEJ DO USTALANIA POLITYKI CENOWEJ W REDNIM PRZEDSI BIORSTWIE 1. Wst p Obecnie obserwowany jest coraz intensywniejszy przep yw informacji w przedsi biorstwach. Skutkiem tego jest systematyczne powi kszanie si zbiorów danych. Dane te dotycz zarówno zdarze gospodarczych wyst puj cych w przedsi biorstwie, jak równie otoczenia (np. danych o konkurencji). W przypadku wykorzystania zintegrowanych systemów informatycznych (ZSI) zbiory danych powi kszaj si szczególnie szybko. W celu gromadzenia i przetwarzania ogromnych ilo ci danych obecnie coraz rzadziej korzysta si z arkuszy kalkulacyjnych czy prostych aplikacji bazodanowych. W zale no ci od bran y i pozycji przedsi biorstwa na rynku, coraz cz - ciej s wykorzystywane aplikacje dedykowane lub ZSI. Systemy te pozwalaj nie tylko na ewidencj i przetwarzanie du ej ilo ci danych, lecz równie na sporz dzanie statystyk pomocnych w procesie decyzyjnym. Korzystanie z tego typu narz dzi sta o si konieczno ci, gdy przy du ej ilo ci danych, najwi kszym problemem nie jest ich gromadzenie, a wykrycie wyst puj cych w nich zale no- ci. Zale no ci te mo na przedstawi poprzez np. modelowanie, prognozowanie czy klasyfikacj obiektu bada. Samo wyszukiwanie warto ciowych informacji z obszernego zakresu danych jest procesem trudnym i czasoch onnym, który bazuje na do wiadczeniu i wiedzy badacza. Dlatego te, do eksploracji danych wykorzystuje si ró ne techniki. W [2] wyró nia si trzy techniki data mining: analiz skupie, drzewa decyzyjne, sztuczne sieci neuronowe. SSN dzi ki budowie opartej na wzorcach biologicznych uk adów nerwowych posiadaj niezwyk e w a ciwo ci, do których mo na zaliczy [7]: zdolno uczenia si i uogólniania zdobytej wiedzy; zdolno adaptacji do zmiennych warunków; ma a wra liwo na b dy w zbiorze danych; zdolno do efektyw-
70 Marcin Relich, Pawe Ku dowicz nej pracy nawet po cz ciowym uszkodzeniu sieci; zdolno do równoleg ego i rozproszonego przetwarzania danych. Zalet sieci neuronowych jest fakt, e pozwalaj one poszukiwa modeli w przypadku procesów zale nych od wielu czynników (cz sto losowych), których wp yw na proces jest trudny do opisania w postaci cis ych zale no ci ilo- ciowych, a cz sto tak e zale y od cech indywidualnych obiektu. Wy ej wymienione w a ciwo ci, niespotykane w konwencjonalnych systemach komputerowych umo liwiaj zastosowanie SSN w wielu dziedzinach nauki. W literaturze mo na spotka nast puj ce obszary zastosowa sieci neuronowych [7, 10]: rozpoznawanie i klasyfikacja wzorców, predykcja, identyfikacja i sterowanie, asocjacja, kompresja, filtracja sygna ów, aproksymacja i interpolacja. Atrakcyjno aplikacyjna sieci neuronowych w przypadku klasyfikacji danych wynika z kilku powodów nie s potrzebne za o enia dotycz ce natury rozk adu danych, których weryfikacja w przypadku analizy wielowymiarowej jest bardzo trudna, ponadto sieci neuronowe s modelami nieliniowymi, s zatem adekwatne do analizy z o onych problemów klasyfikacyjnych. Dzi ki w asno ci uogólniania zdobytej wiedzy sieci neuronowe lepiej ni klasyczne metody statystyczne daj sobie rad z danymi niekompletnymi oraz danymi o z ej jako ci. SSN posiadaj równie s abe strony. Do najistotniejszych trudno ci w wykorzystaniu sieci neuronowych mo na zaliczy [5]: potrzeb odpowiedniego przygotowania danych; problemy zwi zane z doborem w a ciwej struktury modelu neuronowego (rodzaj sieci, przyj te modele neuronu, liczba neuronów i sposób ich po czenia); konieczno wyboru w a ciwego algorytmu uczenia sieci; wysokie nak ady czasowe zwi zane z oszacowaniem modelu neuronowego; brak (w wi kszo ci przypadków) mo liwo ci bezpo redniej interpretacji poszczególnych wspó czynników modelu neuronowego. 2. Data mining a klasyfikacja danych Tak jak zaznaczono we wst pie, obecnie przechowywanie czy przesy anie danych nie stanowi problemu. Przy du ej ilo ci danych problemem jest wydobycie z danych u ytecznych dla nas informacji, które pomog szybciej i trafniej podj decyzj. Odpowiedzi na nowe wymagania s narz dzia data mining. W literaturze przedmiotu spotykamy liczne definicje dotycz ce data mining. Wi kszo z nich mo na sprowadzi do nast puj cej definicji [3]: Data mining to okre lenie grupy metod szeroko rozumianej analizy danych maj cych na celu identyfikacj nieznanych wcze niej prawid owo ci wyst puj cych w du ych zbiorach danych, a nast pnie ocen wyników poprzez zastosowanie wykrytych schematów dla nowych podzbiorów danych. Klasyfikacja danych jest jednym z najcz ciej wymienianych zagadnie w metodach data mining. Jej celem jest przypisanie poszczególnych przypadków do odpowiednich grup, przy czym zawsze liczba grup jest ograniczona. Zbudo-
Zastosowanie sztucznych sieci neuronowych i analizy 71 wany model mo na nast pnie zastosowa do przypisywania nowych obiektów, których przynale no do grupy nie jest znana, do wcze niej okre lonych klas. W literaturze w ród najcz ciej stosowanych metod rozwi zuj cych problem klasyfikacji wymienia si [1, 4, 9]: sieci neuronowe, liniow i logistyczn analiz dyskryminacyjn, drzewa klasyfikacyjne. Metody klasyfikacji dzieli si zazwyczaj na dwie grupy. Pierwsz grup stanowi metody klasyfikacji wzorcowej, nazywane równie metodami dyskryminacyjnymi lub metodami rozpoznawania z nauczycielem. Zagadnienie klasyfikacji wzorcowej polega na przypisaniu ka dego przypadku do jednej z klas na podstawie znanych a priori wzorców tych klas. Druga grupa to metody klasyfikacji bezwzorcowej, inaczej nazywane metodami rozpoznawania bez nauczyciela. Metody klasyfikacji bezwzorcowej s u do podzia u badanego zbioru obiektów na jednorodne podzbiory. W metodach klasyfikacji bezwzorcowej w przeciwie stwie do metod klasyfikacji wzorcowej, przed rozpocz ciem bada nie s znane wzorce klas. Klasyfikacja bezwzorcowa s u y przede wszystkim do badania struktury analizowanej zbiorowo ci. Podczas rozpoznawania z nauczycielem zazwyczaj nast puje podzia zbioru badanych obiektów na dwie próby: ucz c i testow. Na podstawie informacji zawartych w próbie ucz cej (wektor zmiennych diagnostycznych dla poszczególnych przypadków wraz ze zmienn grupuj c ), przeprowadza si proces estymacji parametrów modelu. Jest to tzw. etap uczenia. Nast pnie w oparciu o prób testow przeprowadzana jest ocena poprawno ci klasyfikacji. W przypadku testowania wprowadza si tylko dane dotycz ce zmiennych diagnostycznych dla poszczególnych przypadków i wyznacza si warto ci zmiennej grupuj cej, które s porównywane z rzeczywistymi warto ciami tej zmiennej. Na tej podstawie okre la si jako klasyfikacji danych. Klasyfikacja obiektów za pomoc wielowymiarowej analizy statystycznej wymaga okre lenia cech diagnostycznych. Powinny one mo liwie pe nie opisywa najistotniejsze w a ciwo ci analizowanych obiektów. Wybór odpowiedniego zestawu cech diagnostycznych jest zagadnieniem niezwykle istotnym, poniewa w znacznym stopniu od niego zale ostateczne wyniki klasyfikacji. Do podstawowych metod statystycznych wykorzystywanych do doboru zmiennych diagnostycznych mo na zaliczy metody analizy macierzy wspó czynników korelacji, metod analizy czynnikowej oraz metod analizy g ównych sk adowych. 3. Przyk ad ustalania polityki cenowej przedsi biorstwa W przyk adzie wykorzystano bazy danych udost pnione przez redniej wielko- ci przedsi biorstwo produkcyjno-handlowe. Przedsi biorstwo to posiada wdro- ony i z powodzeniem wykorzystywany zintegrowany system informatyczny
72 Marcin Relich, Pawe Ku dowicz ProALPHA, który dzi ki gromadzeniu i analizie danych wydatnie przyczynia si do usprawnienia procesu zarz dzania przedsi biorstwem. Przedmiotem dzia- alno ci przedsi biorstwa jest wytwarzanie i import artyku ów gospodarstwa domowego, a nast pnie ich sprzeda do supermarketów. Przedsi biorstwo wykorzystuje ok. 60 rodzajów warunków p atno ci jako narz dzia marketingu. St d zasadne wydaje si wyodr bnienie takiego warunku p atno ci lub grup warunków p atno ci dla nowego kontrahenta, które pozwol na optymalizacj polityki cenowej firmy. Dzi ki przeprowadzonym symulacjom powinni my otrzyma odpowied na pytanie: które elementy polityki cenowej i w jakim stopniu nale y zmieni, aby klient w terminie wywi zywa si z zobowi za. Na podstawie bada literaturowych [m.in. 8] oraz analizy danych pod wzgl dem niezale no ci cech, okre lono nast puj cy zestaw cech diagnostycznych: warto transakcji, limit kredytu udzielanego klientowi, warunki p atno ci, warto konta. Jako zmienn grupuj c przyj to zw ok w p atno ci, któr arbitralnie podzielono na trzy klasy: p atno w terminie, opó nienie w p atno ci do 30 dni i opó nienie w p atno ci powy ej 30 dni. Wybranie okresu zw oki w p atno- ci na zmienn grupuj c zosta o podyktowane zakresem bazy danych przedsi biorstwa. Zmienna ta wydaje si dobrze okre la reakcj klienta na polityk cenow rozpatrywanego przedsi biorstwa, cho mog na ni mie wp yw równie inne czynniki (np. kondycja finansowa kontrahenta). Do symulacji komputerowych wykorzystano 4988 rekordów, które dotycz przeprowadzanych transakcji z g ównymi grupami klientów w latach 2004-2005. Dane wykorzystywane do symulacji komputerowych zosta y poddane normalizacji, zwi kszaj c tym samym efektywno procesu uczenia. Dla sieci wielowarstwowych jednokierunkowych przyj to liczb neuronów wyj ciowych równ liczbie klas zmiennej grupuj cej. W przypadku tym, gdy jeden neuron wyj ciowy reprezentuje tylko jedn klas, stosuje si zazwyczaj kodowanie binarne. Tak wi c, warto 1 oznacza przynale no badanego obiektu do danej klasy, za warto 0 brak przynale no ci. Nale y zauwa y, i warto ci wyj generowane przez sieci neuronowe zazwyczaj nale do pewnego przedzia u i na ogó nie s dok adnie równe wzorcowi. W zwi zku z tym nale y ustali próg, na podstawie którego warto ci wyj sieci neuronowej zostan przyporz dkowane danej klasie. W literaturze przedmiotu spotyka si kilka podej dotycz cych szacowania warto ci progu (progów). Przyk adowo w [6], dla znormalizowanych wyj nale cych do przedzia u (0;1) i funkcji logistycznej zaleca si próg 0,1 dla jednej decyzji i 0,9 dla drugiej lub klasyfikacj dla progu 0,5. W niniejszym artykule na podstawie eksperymentów, wybrano warto graniczn równ 0,5, gdy w tym przypadku zaobserwowano najwy szy udzia poprawnie zaklasyfikowanych obiektów w próbie ucz cej i testowej. W przeprowadzonych badaniach wykorzystano: jednokierunkowe sieci neuronowe trenowane za pomoc algorytmu wstecznej propagacji b dów (modyfikacja wag wed ug optymalizacji Levenberg-
Zastosowanie sztucznych sieci neuronowych i analizy 73 Marquardt. Symulacje komputerowe zosta y równie przeprowadzone dla algorytmu wstecznej propagacji b dów, przy modyfikacji wag wed ug optymalizacyjnej metody najwi kszego spadku z momentum i krokiem adaptacyjnym, lecz osi gni te wyniki klasyfikacji okaza y si mniej trafne, ni wed ug optymalizacji Levenberg-Marquardt), sieci rekurencyjne Elmana, liniow analiz dyskryminacyjn. Zazwyczaj do problemu klasyfikacji wzorcowej oprócz wy ej wymienionych sieci neuronowych, wykorzystywane s równie sieci radialne. W niniejszym opracowaniu zosta y one jednak pomini te ze wzgl du na liczebno próby. Do jednej z wad sieci radialnej nale y jej niemal ekspotencjalna zale no liczby funkcji bazowych od wymiarowo ci wektora wej ciowego, co skutkuje anga owaniem nadmiernej ilo ci pami ci operacyjnej i czasu pracy procesora. Do symulacji komputerowych zebrane dane podzielono na dwie próby: ucz c i testow, w proporcjach: 80% do 20% (odpowiednio 3991 przypadków w zbiorze ucz cym i 997 w zbiorze testowym). Na podstawie przeprowadzonych do wiadcze ustalono dla ka dego rodzaju sieci optymaln liczb warstw ukrytych i liczb neuronów w ka dej warstwie, tj. wytypowano tak struktur sieci, dla której b dy klasyfikacji w zbiorze testowym by y najni sze. Sie posiada a 4 neurony wej ciowe, 10 ukrytych i 3 wyj ciowe. Tabela 1 przedstawia klasyfikacj przypadków w zbiorze ucz cym oraz testowym dla liniowej analizy dyskryminacyjnej oraz sztucznych sieci neuronowych. Tabela 1. Wyniki poprawnej klasyfikacji przypadków dla liniowej analizy dyskryminacyjnej oraz SSN Liniowa analiza dyskryminacyjna Jednokierunkowa sie neuronowa (4-10-3) Sie rekurencyjna Elmana Etap uczenia Etap testowania Poprawne Poprawne klasyfikacje K1 K2 K3 klasyfikacje K1 K2 K3 % % K1 99,73 2634 6 1 99,70 667 2 0 K2 3,13 805 26 0 2,96 197 6 0 K3 0 519 0 0 0 125 0 0 Razem 66,65 3958 32 1 67,50 989 8 0 K1 96,06 2537 25 79 92,23 617 4 48 K2 18,17 655 151 25 16,75 156 34 13 K3 30,06 359 4 156 36,00 78 2 45 Razem 71,26 3551 180 260 69,81 851 40 106 K1 98,26 2595 37 9 92,53 619 50 0 K2 1,32 814 11 6 11,82 179 24 0 K3 1,16 496 17 6 0 117 8 0 Razem 65,45 3905 65 21 64,49 915 82 0
74 Marcin Relich, Pawe Ku dowicz Na podstawie powy szych wyników mo na stwierdzi, e najwi ksz poprawno ci klasyfikacji, zarówno w zbiorze ucz cym, jak i testowym, odznacza a si jednokierunkowa sie neuronowa. Mo na zauwa y, i jedynie ona zdo a a wyra nie wyró ni trzy klasy analizowanego problemu. Liniowa analiza dyskryminacyjna oraz sie rekurencyjna Elmana nie by y w stanie poradzi sobie z przyporz dkowaniem elementów obu prób do odpowiednich klas. Kolejnym wnioskiem, jaki nasuwa si analizuj c wyniki powy szej tabeli jest to, i nie wszystkie rodzaje sieci neuronowych w równym stopniu nadaj si do wykorzystania przy klasyfikacji danych. Do konkretnego problemu nale y do wiadczalnie dokona wyboru odpowiedniej struktury i typu sieci neuronowej, co niew tpliwie nie wp ywa na korzy stosowania tego narz dzia, jednak e zdaniem wielu autorów korzy ci ze stosowania SSN przewy szaj niedogodno ci, które nak ada proces budowy sieci. 4. Podsumowanie W artykule przedstawiono zastosowanie technik SSN w dr eniu danych, jako alternatywy do tradycyjnie stosowanej w tym celu analizy dyskryminacyjnej. Jako przyk ad wybrano wp yw polityki cenowej na reakcj klienta. Porównuj c wyniki symulacji komputerowych mo na zaobserwowa, i jednokierunkowe wielowarstwowe sztuczne sieci neuronowe radzi y sobie lepiej z problemem klasyfikacji ni wielowymiarowa analiza dyskryminacyjna. Szczególnie jest to widoczne, przy przyporz dkowywaniu obiektów do odpowiednich klas. Zastosowanie sztucznych sieci neuronowych wydaje si wi c jak najbardziej zasadne przy tego typu problemach. Rozwi zania tego rodzaju wychodz naprzeciw potrzebom przedsi biorców, którzy oczekuj bardziej precyzyjnych informacji wykorzystywanych nast pnie do podejmowania decyzji w przedsi biorstwie. Dobrze nauczona i przetestowana sie mo e zosta wykorzystana do modyfikacji polityki cenowej dla dotychczasowych kontrahentów lub ustalenia polityki cenowej dla nowych klientów, którzy nie byli rozpatrywani w procesie uczenia i testowania sieci. Oczywi cie jako klasyfikacji jest ci le zwi zana z rodzajem i kompletno ci wykorzystywanych do tego celu danych. Dotyczy to zw aszcza rozpoznawania ze wzorcem, które zosta o przedstawione w tym artykule, gdy zmienna grupuj ca powinna zawiera informacje dotycz ce rzeczywistej, a nie hipotetycznej przynale no ci obiektu do jednej z wyró nionych klas. Bibliografia: 1. Aczel A. D.: Statystyka w zarz dzaniu, PWN, Warszawa 2000. 2. Berry M.J.A., Linoff G.S.: Mastering data mining, New York 2000. 3. Gatnar E.: Data mining: metody i zastosowania, Wyd. AE, Wroc aw 1997. 4. Gatnar E.: Symboliczne metody klasyfikacji danych, PWN, Warszawa 1998.
Zastosowanie sztucznych sieci neuronowych i analizy 75 5. Lula P., Wykorzystanie sztucznej inteligencji w prognozowaniu. http://www.statsoft.pl/czytelnia/neuron/sztucznaintel.html 6. Masters T.: Sieci neuronowe w praktyce, WNT, Warszawa 1996. 7. Osowski S.: Sieci neuronowe do przetwarzania informacji, Wyd. PW, Warszawa 2000. 8. Simon H.: Zarz dzanie cenami, PWN, Warszawa 1996. 9. Witkowska D.: Sztuczne sieci neuronowe i metody statystyczne, Wyd. C.H. Beck, Warszawa 2002. 10. urada J., Barski M., J druch W.: Sztuczne sieci neuronowe, PWN, Warszawa 1996.