ZASTOSOWANIE GRUPOWANIA DO EKSPLORACJI BAZ DANYCH SYSTEMÓW INFORMATYCZNYCH PRZEDSIĘBIORSTW Streszczenie Dariusz Mazur Wydział Organizacji i Zarządzania Politechnika Śl. w Gliwicach dmazur@polsl.gliwice.pl Eksploracja danych obejmuje szereg zagadnień związanych z poszukiwaniem istotnych reguł i zasad wśród zgromadzonych bazach danych. Grupowanie, jako jedna z metod eksploracji, daje interesujące wyniki w zakresie przetwarzania danych o klientach przedsiębiorstw. W niniejszym artykule przedstawiono wybrane aspekty wiąŝące się z zastosowaniem grupowania w procesie eksploracji danych. W szczególności przeanalizowano wpływ rodzaju danych na dobór stosowanych algorytmów. Analizowano równieŝ zagadnienie grupowania danych lingwistycznych oraz niektóre aspekty walidacji wyników. Słowa kluczowe:eksploracja danych, grupowanie,dane biznesowe Wstęp Eksploracja danych (ang. Data Mining) wiąŝe się ściśle z pojęciem Pozyskiwanie Wiedzy z baz danych (ang. KDD - Knowledge Discowery in Databases). Jak sama nazwa wskazuje, zainteresowanie badaczy koncentruje się na odkrywaniu technik i metod pozwalających na odkrycie interesujących wzorców, zjawisk, faktów w gąszczu danych, gromadzonych w olbrzymich nieraz, bazach danych. Jedną z dziedzin, która szczególnie zainteresowana jest efektami tych badań jest biznes. Zainteresowanie eksploracją danych przez środowisko biznesu wzrosło od momentu przedstawienia pewnych zagadnień mikroekonomii i zarządzania w sposób moŝliwy do rozwiązania metodami z zakresu eksploracji danych. Wywodzi się to od zagadnienia podejmowania decyzji biznesowych w firmie handlowej w celu maksymalizacji zysku, a przedmiotem analizy jest dotychczasowa baza transakcyjna firmy [KPR98,AIS93,GP02]. W ramach eksploracji danych moŝna wyróŝnić kilka kierunków badań nad technikami tam stosowanymi. Po pierwsze są to techniki poszukiwania asocjacji [AMS+96, HKK97,HF95]. SłuŜą one odkrywaniu istotnych związków leŝących w transakcyjnej bazie danych mogących posłuŝyć lepszej organizacji pracy in-
316 Zarządzanie wiedzą i rozwiązania Business Intelligence stytucji, realizacji promocji itd. W tym zakresie naleŝy wspomnieć badania nad określeniem miar bliskości danych symbolicznych, tak często spotykanych w transakcyjnych bazach danych [AIS93, AMS+96, BMUT97, DMR98]. Szczególnie wiedza o klientach dla wielu organizacji biznesowych staje się krytyczna dla ich dalszego istnienia. W bazach danych gromadzi się olbrzymie ilości faktów, zdarzeń i innych informacji ale właściwa wiedza pozostaje ukryta i nie uchwycona. Z drugiej strony zaostrzająca się konkurencja wymaga, aby organizacja stale dopasowywała swoją ofertę do indywidualnych preferencji klienta. To wzmaga rozwój narzędzi pozyskiwania wiedzy, szczególnie w kontekście wspomagania podejmowania decyzji. Eksploracja danych w biznesie Eksploracja danych jako dziedzina zajmuje się poszukiwaniem interesujących wzorców w zgromadzonych danych. W tej definicji szczególnie trudne staje się precyzyjne określenie znaczenia terminu interesujące. W tym celu tworzone są kryteria takie jak nośnik czy wiarygodność [Agr93], mówi się o zawartości informacyjnej [SG91], nie trywialności, nieoczekiwanych i niespodziewanych rezultatach [LH96]. W zakresie wykorzystania eksploracji danych w biznesie, w szeroko pojętym zarządzaniu termin,,interesujący nabiera jeszcze jednego znaczenia. Wzorzec pozyskany z danych jest interesujący jeŝeli moŝna go wykorzystać w trakcie podejmowania decyzji biznesowych: Samo znalezienie wzorca nie wystarcza, naleŝy być zdolnym do wykrywania sytuacji pasujących do tego wzorca, wykorzystania go, podjęcia na tej podstawie decyzji zwiększającej wartość przedsiębiorstwa [BL97]. ZałoŜenia do zastosowania eksploracji danych w biznesie zostały przedstawione w [KPR98]. Według tych załoŝeń sprzedawca podejmuje decyzje biznesowe w celu maksymalizacji zysku. MoŜna powiedzieć, Ŝe zysk jest funkcją, którą naleŝy maksymalizować: Z D, f max x D f x (1) gdzie: D jest zbiorem wszystkich moŝliwych do podjęcia decyzji (strategii marketingowych, celów strategicznych, planów rozwoju), a f(x) jest uŝytecznością decyzji x odzwierciedlającą trwałość (istnienie) przedsiębiorstwa oraz wielkość moŝliwego do osiągnięcia zysku. Tak sformułowany problem optymalizacji leŝy u podstaw zarządzania kaŝdym przedsiębiorstwem. Przy czym w rzeczywistym świecie zagadnienia te są tak skomplikowane i złoŝone, Ŝe nikt nie jest w stanie stworzyć dokładnego modelu umoŝliwiającego weryfikacje hipotez. Po-
Zastosowanie grupowania do eksploracji baz danych Systemów 317 dejmujący decyzje opierają się o przybliŝone zasady rządzące zachowaniem się obiektów biorących udział w analizie, znają jedynie naturę zjawisk czy pewne heurystyczne zaleŝności. Natomiast wiele z informacji nie jest znanych, część danych moŝe być niewiarygodna, od przyjętych zasad mogą występować wyjątki i odstępstwa. Podejmowanie decyzji w takim środowisku wymaga stosowania odpowiednich narzędzi i technik zdolnych do przetwarzania i analizy tak skomplikowanych zagadnień oraz odpornych na niebezpieczeństwa i zakłócenia moŝliwe do wystąpienia w jego trakcie. PoniewaŜ kaŝdy klient ma swój niezaleŝny wkład w zysk, globalny zysk przedsiębiorstwa jest sumą wkładów uzyskanych od kaŝdego klienta w wyniku podejmowanych decyzji biznesowych. Podejmując jednakową decyzję dla wszystkich klientów (kaŝdego obsługując według takich samych reguł) nie otrzyma się optymalnych rezultatów, zysk nie będzie maksymalny. Dobre rezultaty otrzymuje się indywidualnie podejmując decyzje dla kaŝdego klienta osobno. Wadą takiego podejścia jest koszt samego procesu podejmowania decyzji, który obciąŝa kaŝdego klienta indywidualnie oraz koszt zastosowania decyzji, który maleje wraz ze wzrostem liczby klientów do niego stosowanych (maleje koszt jednostkowy stosowania). Lepszym rozwiązaniem jest zastosowanie segmentacji portfela klientów. Polega to na podziale klientów na k grup, w której dla kaŝdego klienta podejmuje się tą samą decyzję, dla róŝnych grup są róŝne decyzje. Inaczej mówiąc podejmuje się k decyzji biznesowych i kaŝdego klienta obsługuje się zgodnie z tą decyzją, która daje najlepszy wynik. Przedstawiając powyŝszy problem w postaci formalnej przedstawiamy: zbiór klientów jako zbiór agentów Y oraz zbiór strategii marketingowych jako zbiór decyzji D. Wartość funkcji zaleŝy teraz równieŝ od podjętej decyzji więc otrzymujemy: f x max x. D y Y f y ' x y MoŜliwe jest Ŝe do części z klientów będzie przypisana ta sama strategia marketingowa. PoniewaŜ ilość klientów jest zazwyczaj znacznie większa od ilości moŝliwych strategii Y >> D to podstawowym problemem jest podzielenie bazy klientów na zbiory przypisane do róŝnych strategii, w literaturze zwany jako zagadnienie segmentacji bazy klientów. Samo zagadnienie segmentacji ma wiele aspektów, jednak jako problem optymalizacyjny jest ściśle związane z zagadnieniem grupowania, będącym zagadnieniem algorytmicznym z zakresu eksploracji danych [JD88]. (2)
318 Zarządzanie wiedzą i rozwiązania Business Intelligence Segmentacja bazy klientów Przedsiębiorstwa w ramach swoich Systemów Informacyjnych gromadzą wiele informacji o swoich klientach. PoniewaŜ sama segmentacja bazy klientów, ze względu na swoją objętość powinna być procesem do pewnego stopnia automatycznym, aby to zapewnić musi spełnionych być kilka warunków: baza danych musi być łatwo dostępna, tzn. musi istnieć moŝliwość wprowadzenia danych do narzędzi analitycznych, zbiór danych musi być jednolity i kompletny dla kaŝdego klienta zgromadzone są te same informacje, dopuszczalny stopień braków zaleŝy od stosowanych narzędzi analitycznych, zbiór danych musi być wiarygodny w zaleŝności od rodzaju na gromadzone dane ma większy lub mniejszy wpływ metoda pozyskiwania. Wykazano przewagę analiz opartych a dane behawioralne nad metodami opartymi wyłącznie o analizę danych demograficzno-społeczych. Aby przewidzieć przyszłe zachowanie klienta najprościej i najbardziej skutecznie jest przeanalizować jego poprzednie zachowanie [Hug01]. Wykorzystanie danych o zakupach do lepszego podejmowania decyzji w biznesie opiera się o obserwację zachowań klienta. Jednocześnie moŝna zauwaŝyć znacznie szersze potencjalne pole stosowania tak rozumianego grupowania: selekcja przypadków odbiegających od typowych zachowań, podział na grupy wymagające odrębnych warunków prowadzenia transakcji, wybór grupy reprezentantów do prowadzenia badań marketingowych. Celem prowadzonej analizy jest pogrupowanie kontrahentów według stopnia ich podobieństwa. W tym miejscu naleŝy określić zasady określania podobieństwa pomiędzy kontrahentami, które powinny uwzględniać istotne cechy kontrahenta z punktu widzenia dostawcy. W tym znaczeniu moŝna powiedzieć, Ŝe kontrahenci do siebie podobni to tacy, którzy kupują podobne towary w podobnych ilościach i podobnych odstępach czasu. Przy czym waŝność poszczególnych składników nie jest jednakowa, wydaje się, Ŝe najistotniejsze jest porównywanie asortymentu, natomiast ilości i czasy stoją w drugiej kolejności. Zagadnienie grupowania klientów Grupowania klientów (czy teŝ segmentacji bazy klientów zgodnie z terminologią marketingową) dokonuje się w oparciu o zgromadzone dane, które moŝna powiązać z poszczególnymi klientami. Proces grupowania silnie zaleŝy od pochodzenia i rodzaju danych oraz reprezentowanych informacji. W niniejszym opracowaniu rozpatrywane są dane związane
Zastosowanie grupowania do eksploracji baz danych Systemów 319 z przeprowadzonymi transakcjami sprzedaŝy. Grupowania moŝna dokonać z uwagi na następujące rodzaje informacji: zrealizowany przychód, zróŝnicowanie asortymentowe. Poszczególne podejścia róŝnią się od siebie szczegółowością traktowania danych wejściowych. Najczęściej dokonuje się wstępnej agregacji (selekcji cech) w celu zmniejszenia ilości wymiarów w analizowanych danych. Przykładowe techniki moŝliwe do zastosowania są następujące: wykorzystanie wektora przychodów zrealizowanych w poszczególnych grupach asortymentowych, wykorzystanie macierzy podobieństw pomiędzy towarami i na tej podstawie dokonania grupowania klientów, wykorzystanie danych lingwistycznych, zapisanych w nazwach towarów do opisania kontrahenta i na tej podstawie dokonanie grupowania. Z powyŝszego wyliczenia wynika następujące spostrzeŝenie: zbiór danych opisujący kontrahentów zawiera zarówno dane numeryczne (ilościowe) jak i opisowe (symboliczne). Dane ilościowe to przede wszystkim wartości przychodów zrealizowanych natomiast dane symboliczne to dane o nabywanych towarach. Do porównywania obiektów opisanych danymi ilościowymi stosuje się miary odległości takie jak odległość Euklidesowa czy odległość Manhattan [JD88]. Natomiast w zakresie porównywania obiektów opisanych danymi symbolicznymi sprawa jest bardziej złoŝona. W przypadku opisania obiektu atrybutami typu wyliczeniowego stosuje się wskaźniki typu Jaccard lub Dice[JD88]. W zakresie porównywania tekstów języka naturalnego stosuje się funkcję kosinusową [SB88]. NaleŜy jednak zdawać sobie sprawę, Ŝe zastosowany wskaźnik podobieństwa winien właściwie odzwierciedlać kontekst i charakter analizowanych danych. Przykładowo podczas analizy nabycia poszczególnych towarów winno się uwzględniać stopień podobieństwa poszczególnych produktów [Maz02a]. Pewnym rozwiązaniem problemu dopasowania miary podobieństwa do charakteru przetwarzanych danych jest zastosowanie algorytmu grupowania opartego o funkcję kryterium jakości podziału. Najczęściej rolę tę pełni miara przyrostu informacji wywodząca się z entropii. Przykłady takich algorytmów to [Maz02b]: algorytm grupowania hierarchicznego deglomeracyjny, algorytm grupowanie oparty o reguły decyzyjne, algorytm grupowania genetyczny. Wymienione powyŝej algorytmy umoŝliwiają realizację grupowania bez definiowania funkcji podobieństwa (odległości), ich celem jest znalezienie optymalnego podziału wyłącznie przy pomocy funkcji kryterium.
320 Zarządzanie wiedzą i rozwiązania Business Intelligence Ocena jakości wyników grupowania Pozyskiwanie wiedzy i eksploracja danych są zagadnieniami trudno definiowalnymi. Trudność objawia się poprzez brak jednoznacznej definicji funkcji oceny uzyskiwanych wyników. Jak juŝ wspomniano, celem jest pozyskanie nowej wiedzy. Przy obecnym stanie nauki nie istnieją formalne definicje pozwalające na pomiar (ocenę bądź identyfikację) stopnia pozyskania wiedzy. Natomiast moŝna dokonać pośredniej oceny jakości technik eksploracyjnych. Dokonuje się tego doświadczalnie, wychodząc z dostępnych informacji na temat sposobów tworzenia nowej wiedzy przez człowieka, takich jak zdolność uczenia się, moŝliwości percepcji, wnioskowanie itd. NajwaŜniejsze cechy grupowania, świadczące o dostarczeniu wartościowych wyników to: Redukcja ilości danych do poziomu percepcji człowieka, ale w takim zakresie, aby nie zostawały pominięte istotne własności (trendy, atrybuty); naleŝy dodać, Ŝe termin istotne nie odnosi się do liczebności czy udziału, gdyŝ nawet pojedyncze wystąpienia elementów, uwzględnione w procesie eksploracji, mogą przysłuŝyć się pozyskaniu wiedzy. RóŜnorodność form prezentacji - jest powszechnie znana prawda, Ŝe stopień absorbcji informacji przez człowieka ściśle zaleŝy od formy jej prezentacji, w tym zakresie spotyka się prezentacje wyników w formach: tablicy przykładów, wzorców, podziału na podzbiory, zbioru hipotez, listy reguł, przedstawienia funkcji analitycznych i zaleŝności funkcjonalnych; wiele z wymienionych postaci jest przekształcalne w inne, natomiast część jest uzyskiwana jedynie w wyniku zastosowania odpowiedniej metody eksploracji. Zgodność z funkcją kryterium - wiele z metod posługuje się funkcją kryterium, w celu znalezienia rozwiązania. Przyjmuje się, Ŝe funkcja ta stanowi przybliŝenie funkcji oceny jakości podziału. Uwzględnianie wiedzy w procesie eksploracji - kaŝda metoda, która potrafi wykorzystać informacje spoza badanej bazy danych czy teŝ kontekst danych, potencjalnie otrzymuje lepsze wyniki (bardziej odpowiadające rzeczywistości), dlatego teŝ o jakości metody stanowi zdolność do przyjmowania danych z innych źródeł. Badania formalne w zakresie przetwarzania wiedzy są dopiero na początkowym etapie. Dlatego teŝ większość zagadnień oparta jest o działania empiryczne, np. poprzez konsultacje uzyskiwanych wyników z ekspertami z dziedziny, której dotyczą dane.
Zastosowanie grupowania do eksploracji baz danych Systemów 321 Wnioski Grupowanie jest cenną techniką mogącą znakomicie wspomagać proces segmentacji bazy klientów a przez to wspomagać zarządzanie przedsiębiorstwem. Aby jednak uzyskiwane rezultaty miały realną wartość, tzn. decyzje podejmowane na ich podstawie przynosiły zysk, to musi zostać spełnionych szereg warunków. W większości sprowadzają się one właściwego przygotowania zbioru danych oraz ustalenia odpowiedniej koncepcji grupowania jak najlepiej odzwierciedlającej charakterystykę klientów. Przy czym nie jest to proste wyselekcjonowanie atrybutów lecz ustalenie wpływu istniejących zaleŝności pomiędzy danymi. Następnie naleŝy uwzględnić charakter danych podlegających analizie: sposób pozyskania i ujęcia danych, rodzaj danych w podziale na ilościowe oraz symboliczne, oczekiwana forma prezentacji wyników. Dostępność danych, koszt przekształcenia, wiarygodność - to podstawowe przesłanki temu słuŝące. Na podstawie powyŝszej analizy dokonuje się doboru odpowiedniej techniki grupowania, tak aby właściwie odwzorowywała charakter przetwarzanych informacji i w minimalnym stopniu powodowała utratę istotnych informacji zawartych w bazie danych. Literatura [AIS93] Agrawal R., Imielinski T., Swami A. N.: Mining association rules between sets of items in large databases. P. Buneman, S. Jajodia, redaktorzy, Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, Washington, 1993. [AMS+96] Agrawal R., Mannila H., Srikant R., Toivonen H., Verkamo A.I.: Fast discovery of association rules. Advances in Knowledge Discovery and Data Mining, 1996. [BL97] Berry M. J., Lino G.: Data Mining Techniques. John-Wiley, New York, 1997. [BMUT97] Brin S., R. Motwani, J. D. Ullman, S. Tsur. Dynamic itemset counting and implication rules for market basket data. ACM SIGMOD International Conference on Management of Data, 1997. [Cic00] Cichosz P.: Systemy uczace sie. WNT, Warszawa, 2000. [DMR98] Das G., Mannila H., Ronkainen P.: Similarity of attributes by externalprobes. Knowledge Discovery and Data Mining,1998. [GP02] Guidici P., Passerone G.: Data mining of association structuresto model consumer behaviour. Computational statistic and dataanalysis, 2002.
322 Zarządzanie wiedzą i rozwiązania Business Intelligence [HF95] [HKK97] [HP99] Han J., Fu Y.: Discovery of multiple-level association rules from large databases. Proc. of Int l Conf. on Very Large Data Bases (VLDB 95), Zurich, Switzerland, 1995. Han E., Karypis G., Kumar V.: Scalable parallel data mining for association rules. Proceedings of ACM SIGMOD, 1997. Hirota K., Pedrycz W.: Fuzzy computing for data mining. Proc. Of the IEEE, 87, 1999. [Hug01] Huges A. M.: Making your database pay off using recency frequency and monetary analysis. Database Marketing Institute, 13(8), 2001. [JD88] [KPR98] [LH96] [Maz02a] [Maz02b] [SG91] [SM86] Jain A. K., R.C. Dubes.: Algorithms for Clustering Data. Prentice Hall, New Jersey, 1988. Kleinberg J., Papadimitriou C., Raghavan P.: Segmentation problems. Proceedings of the ACM Symposium on Theory of Computing, 1998. Liu B., Hsu W.: Post-analysis of learned rules. AAAI/IAAI, Vol.1, 1996. Mazur D.: Computing similarity measure based on names of goods for fuzzy clustering. Methods of Artificial Intelligence, Gliwice, 2002. Mazur D.: Wykorzystywanie danych określonych lingwistycznie w systemach pozyskiwania wiedzy. SWO, Ustron, 2002. Smyth P., Goodman R.M.: Rule induction using information theory. 1991. Stepp R. E., Michalski R.S.: Conceptual clustering: Inventing goal oriented classifications of structured objects. J. G. Carbonell, R. S.Michalski, T. M. Mitchell, redaktorzy, Machine Learning: An Artificial Intelligence Approach, Volume II, Morgan Kaufmann, Los Altos, CA, 1986. CLUSTERING APPROACH TO DATA MINING BUSINESS DATABASE. Data mining can extract desired knowledge or interesting patterns from existing databases. Clustering, as one of data mining technique, has been applied with profit in many applications of data mining. Business database consists many date with non numerical values. The clustering algorithms should be adapted to analyze it, especially for customer database. The paper describes strengths and weaknesses for various clustering algorithms and the influence of the kind of data on discovering useful categories. Also presents the problem of clustering linguistic terms and discuss the issue of clustering validation. Key words: data mining, clustering, business database