PRZEDSIĘBIORSTW. Dariusz Mazur Wydział Organizacji i Zarządzania Politechnika Śl. w Gliwicach



Podobne dokumenty
1 Wstęp. 2 Eksploracja danych w biznesie

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Algorytm grupowania oparty o łańcuch reguł dyskryminacyjnych

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Ćwiczenie 5. Metody eksploracji danych

Ewelina Dziura Krzysztof Maryański

WYKORZYSTANIE DANYCH OKREŚLONYCH LINGWISTYCZNIE W SYSTEMACH POZYSKIWANIA WIEDZY.

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Eksploracja danych: problemy i rozwiązania

POWSZECHNE KRAJOWE ZASADY WYCENY (PKZW)

Analiza danych i data mining.

data mining machine learning data science

Technologia informacyjna

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Jacek Skorupski pok. 251 tel konsultacje: poniedziałek , sobota zjazdowa

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

Analiza danych. TEMATYKA PRZEDMIOTU

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Typowe błędy w analizie rynku nieruchomości przy uŝyciu metod statystycznych

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

RACHUNKOWOŚĆ ZARZĄDCZA

KURS ACCESS 2003 Wiadomości wstępne

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska

Baza danych. Modele danych

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

STRATEGICZNE ZARZĄDZANIE KOSZTAMI

ANALIZA HIERARCHICZNA PROBLEMU W SZACOWANIU RYZYKA PROJEKTU INFORMATYCZNEGO METODĄ PUNKTOWĄ. Joanna Bryndza

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Marek Masztalerz Katedra Rachunkowości Uniwersytet Ekonomiczny w Poznaniu METODY ROZLICZANIA KOSZTÓW DZIAŁALNOŚCI POMOCNICZNEJ. 1.

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

Art. 2 pkt 2 16/03/2010 r.

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

KOMPUTEROWE WSPOMAGANIE ZARZĄDZANIA PROJEKTAMI W PRZEDSIĘBIORSTWIE

w ekonomii, finansach i towaroznawstwie

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Od początku. Dlaczego mówimy o danych? - Nowa gospodarka. Tradycja vs. nowość. Znaczenie informacji w organizacjach innowacyjnych CRM

Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych

Dopasowanie IT/biznes

Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

WSPÓŁCZYNNIK GOTOWOŚCI SYSTEMU LOKOMOTYW SPALINOWYCH SERII SM48

Proces badawczy schemat i zasady realizacji

Diagramu Związków Encji - CELE. Diagram Związków Encji - CHARAKTERYSTYKA. Diagram Związków Encji - Podstawowe bloki składowe i reguły konstrukcji

Wprowadzenie do technologii informacyjnej.

Najprostszy schemat blokowy

Proces badawczy schemat i zasady realizacji

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Rola i zadania systemów CRM w e-biznesie. Marcin KrzyŜanowski

Aproksymacja funkcji a regresja symboliczna

Bazy danych 1. Wykład 5 Metodologia projektowania baz danych. (projektowanie logiczne)

Od początku. Dlaczego mówimy o danych? - Nowa gospodarka. Znaczenie informacji w organizacjach innowacyjnych CRM

Definicje. Najprostszy schemat blokowy. Schemat dokładniejszy

Dopasowanie IT/biznes

Business Intelligence

Business Intelligence narzędziem wsparcia sprzedaży

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

Proces badawczy schemat i zasady realizacji

STANDARD ŚWIADCZENIA USŁUGI SYSTEMOWEJ KSU W ZAKRESIE SZYBKIEJ OPTYMALIZACJI ZARZĄDZANIA FINANSAMI PRZEDSIEBIORSTWA

Zarządzanie systemami produkcyjnymi

PRZEWODNIK PO PRZEDMIOCIE

Faza Określania Wymagań

Wymogi kryterium TAK NIE

Badania eksploracyjne Badania opisowe Badania wyjaśniające (przyczynowe)

Modelowanie przy uŝyciu arkusza kalkulacyjnego

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

bo od managera wymaga się perfekcji

Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Metody drążenia danych D1.3

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

NEGATYWNE REGUŁY ASOCJACYJNE WYZNACZANIE, MIARY I OBSZARY ZASTOSOWANIA

10. Redukcja wymiaru - metoda PCA

Net Promoter Score. Piotr Jardanowski. A-Symetria

METODY ODKRYWANIA WIEDZY W SYSTEMACH BUSINESS INTELLIGENCE

BADANIA WSTĘPNE DOTYCZĄCE OCENY ROZWIĄZĄŃ INFORMATYCZNYCH PRZEZ KADRĘ KIEROWNICZĄ

ZASTOSOWANIE EKSPLORACJI DANYCH DO ANALIZY I OCENY SERWISÓW INTERNETOWYCH

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

technologii informacyjnych kształtowanie , procesów informacyjnych kreowanie metod dostosowania odpowiednich do tego celu środków technicznych.

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Rachunkowość. Decyzje zarządcze 1/58

Rybnik maj 2009r.

DOBÓR ŚRODKÓW TRANSPORTOWYCH DLA GOSPODARSTWA PRZY POMOCY PROGRAMU AGREGAT - 2

Narzędzia Informatyki w biznesie

Małopolska Agencja Rozwoju Regionalnego S.A.

MATRYCA EFEKTÓW KSZTAŁCENIA

PRZEDSIĘBIORCZOŚĆ KONKURS DLA LICEALISTÓW

A C T A UNIVERSITATIS LODZIENSIS FOLIA OECONOMICA 183,2004. Sebastian Szamański, Ryszard Budziński

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

CRM funkcjonalność

Projekt Badawczy Analiza wskaźnikowa przedsiębiorstwa współfinansowany ze środków Unii Europejskiej

Data Mining Kopalnie Wiedzy

Analiza i wizualizacja danych Data analysis and visualization

Transkrypt:

ZASTOSOWANIE GRUPOWANIA DO EKSPLORACJI BAZ DANYCH SYSTEMÓW INFORMATYCZNYCH PRZEDSIĘBIORSTW Streszczenie Dariusz Mazur Wydział Organizacji i Zarządzania Politechnika Śl. w Gliwicach dmazur@polsl.gliwice.pl Eksploracja danych obejmuje szereg zagadnień związanych z poszukiwaniem istotnych reguł i zasad wśród zgromadzonych bazach danych. Grupowanie, jako jedna z metod eksploracji, daje interesujące wyniki w zakresie przetwarzania danych o klientach przedsiębiorstw. W niniejszym artykule przedstawiono wybrane aspekty wiąŝące się z zastosowaniem grupowania w procesie eksploracji danych. W szczególności przeanalizowano wpływ rodzaju danych na dobór stosowanych algorytmów. Analizowano równieŝ zagadnienie grupowania danych lingwistycznych oraz niektóre aspekty walidacji wyników. Słowa kluczowe:eksploracja danych, grupowanie,dane biznesowe Wstęp Eksploracja danych (ang. Data Mining) wiąŝe się ściśle z pojęciem Pozyskiwanie Wiedzy z baz danych (ang. KDD - Knowledge Discowery in Databases). Jak sama nazwa wskazuje, zainteresowanie badaczy koncentruje się na odkrywaniu technik i metod pozwalających na odkrycie interesujących wzorców, zjawisk, faktów w gąszczu danych, gromadzonych w olbrzymich nieraz, bazach danych. Jedną z dziedzin, która szczególnie zainteresowana jest efektami tych badań jest biznes. Zainteresowanie eksploracją danych przez środowisko biznesu wzrosło od momentu przedstawienia pewnych zagadnień mikroekonomii i zarządzania w sposób moŝliwy do rozwiązania metodami z zakresu eksploracji danych. Wywodzi się to od zagadnienia podejmowania decyzji biznesowych w firmie handlowej w celu maksymalizacji zysku, a przedmiotem analizy jest dotychczasowa baza transakcyjna firmy [KPR98,AIS93,GP02]. W ramach eksploracji danych moŝna wyróŝnić kilka kierunków badań nad technikami tam stosowanymi. Po pierwsze są to techniki poszukiwania asocjacji [AMS+96, HKK97,HF95]. SłuŜą one odkrywaniu istotnych związków leŝących w transakcyjnej bazie danych mogących posłuŝyć lepszej organizacji pracy in-

316 Zarządzanie wiedzą i rozwiązania Business Intelligence stytucji, realizacji promocji itd. W tym zakresie naleŝy wspomnieć badania nad określeniem miar bliskości danych symbolicznych, tak często spotykanych w transakcyjnych bazach danych [AIS93, AMS+96, BMUT97, DMR98]. Szczególnie wiedza o klientach dla wielu organizacji biznesowych staje się krytyczna dla ich dalszego istnienia. W bazach danych gromadzi się olbrzymie ilości faktów, zdarzeń i innych informacji ale właściwa wiedza pozostaje ukryta i nie uchwycona. Z drugiej strony zaostrzająca się konkurencja wymaga, aby organizacja stale dopasowywała swoją ofertę do indywidualnych preferencji klienta. To wzmaga rozwój narzędzi pozyskiwania wiedzy, szczególnie w kontekście wspomagania podejmowania decyzji. Eksploracja danych w biznesie Eksploracja danych jako dziedzina zajmuje się poszukiwaniem interesujących wzorców w zgromadzonych danych. W tej definicji szczególnie trudne staje się precyzyjne określenie znaczenia terminu interesujące. W tym celu tworzone są kryteria takie jak nośnik czy wiarygodność [Agr93], mówi się o zawartości informacyjnej [SG91], nie trywialności, nieoczekiwanych i niespodziewanych rezultatach [LH96]. W zakresie wykorzystania eksploracji danych w biznesie, w szeroko pojętym zarządzaniu termin,,interesujący nabiera jeszcze jednego znaczenia. Wzorzec pozyskany z danych jest interesujący jeŝeli moŝna go wykorzystać w trakcie podejmowania decyzji biznesowych: Samo znalezienie wzorca nie wystarcza, naleŝy być zdolnym do wykrywania sytuacji pasujących do tego wzorca, wykorzystania go, podjęcia na tej podstawie decyzji zwiększającej wartość przedsiębiorstwa [BL97]. ZałoŜenia do zastosowania eksploracji danych w biznesie zostały przedstawione w [KPR98]. Według tych załoŝeń sprzedawca podejmuje decyzje biznesowe w celu maksymalizacji zysku. MoŜna powiedzieć, Ŝe zysk jest funkcją, którą naleŝy maksymalizować: Z D, f max x D f x (1) gdzie: D jest zbiorem wszystkich moŝliwych do podjęcia decyzji (strategii marketingowych, celów strategicznych, planów rozwoju), a f(x) jest uŝytecznością decyzji x odzwierciedlającą trwałość (istnienie) przedsiębiorstwa oraz wielkość moŝliwego do osiągnięcia zysku. Tak sformułowany problem optymalizacji leŝy u podstaw zarządzania kaŝdym przedsiębiorstwem. Przy czym w rzeczywistym świecie zagadnienia te są tak skomplikowane i złoŝone, Ŝe nikt nie jest w stanie stworzyć dokładnego modelu umoŝliwiającego weryfikacje hipotez. Po-

Zastosowanie grupowania do eksploracji baz danych Systemów 317 dejmujący decyzje opierają się o przybliŝone zasady rządzące zachowaniem się obiektów biorących udział w analizie, znają jedynie naturę zjawisk czy pewne heurystyczne zaleŝności. Natomiast wiele z informacji nie jest znanych, część danych moŝe być niewiarygodna, od przyjętych zasad mogą występować wyjątki i odstępstwa. Podejmowanie decyzji w takim środowisku wymaga stosowania odpowiednich narzędzi i technik zdolnych do przetwarzania i analizy tak skomplikowanych zagadnień oraz odpornych na niebezpieczeństwa i zakłócenia moŝliwe do wystąpienia w jego trakcie. PoniewaŜ kaŝdy klient ma swój niezaleŝny wkład w zysk, globalny zysk przedsiębiorstwa jest sumą wkładów uzyskanych od kaŝdego klienta w wyniku podejmowanych decyzji biznesowych. Podejmując jednakową decyzję dla wszystkich klientów (kaŝdego obsługując według takich samych reguł) nie otrzyma się optymalnych rezultatów, zysk nie będzie maksymalny. Dobre rezultaty otrzymuje się indywidualnie podejmując decyzje dla kaŝdego klienta osobno. Wadą takiego podejścia jest koszt samego procesu podejmowania decyzji, który obciąŝa kaŝdego klienta indywidualnie oraz koszt zastosowania decyzji, który maleje wraz ze wzrostem liczby klientów do niego stosowanych (maleje koszt jednostkowy stosowania). Lepszym rozwiązaniem jest zastosowanie segmentacji portfela klientów. Polega to na podziale klientów na k grup, w której dla kaŝdego klienta podejmuje się tą samą decyzję, dla róŝnych grup są róŝne decyzje. Inaczej mówiąc podejmuje się k decyzji biznesowych i kaŝdego klienta obsługuje się zgodnie z tą decyzją, która daje najlepszy wynik. Przedstawiając powyŝszy problem w postaci formalnej przedstawiamy: zbiór klientów jako zbiór agentów Y oraz zbiór strategii marketingowych jako zbiór decyzji D. Wartość funkcji zaleŝy teraz równieŝ od podjętej decyzji więc otrzymujemy: f x max x. D y Y f y ' x y MoŜliwe jest Ŝe do części z klientów będzie przypisana ta sama strategia marketingowa. PoniewaŜ ilość klientów jest zazwyczaj znacznie większa od ilości moŝliwych strategii Y >> D to podstawowym problemem jest podzielenie bazy klientów na zbiory przypisane do róŝnych strategii, w literaturze zwany jako zagadnienie segmentacji bazy klientów. Samo zagadnienie segmentacji ma wiele aspektów, jednak jako problem optymalizacyjny jest ściśle związane z zagadnieniem grupowania, będącym zagadnieniem algorytmicznym z zakresu eksploracji danych [JD88]. (2)

318 Zarządzanie wiedzą i rozwiązania Business Intelligence Segmentacja bazy klientów Przedsiębiorstwa w ramach swoich Systemów Informacyjnych gromadzą wiele informacji o swoich klientach. PoniewaŜ sama segmentacja bazy klientów, ze względu na swoją objętość powinna być procesem do pewnego stopnia automatycznym, aby to zapewnić musi spełnionych być kilka warunków: baza danych musi być łatwo dostępna, tzn. musi istnieć moŝliwość wprowadzenia danych do narzędzi analitycznych, zbiór danych musi być jednolity i kompletny dla kaŝdego klienta zgromadzone są te same informacje, dopuszczalny stopień braków zaleŝy od stosowanych narzędzi analitycznych, zbiór danych musi być wiarygodny w zaleŝności od rodzaju na gromadzone dane ma większy lub mniejszy wpływ metoda pozyskiwania. Wykazano przewagę analiz opartych a dane behawioralne nad metodami opartymi wyłącznie o analizę danych demograficzno-społeczych. Aby przewidzieć przyszłe zachowanie klienta najprościej i najbardziej skutecznie jest przeanalizować jego poprzednie zachowanie [Hug01]. Wykorzystanie danych o zakupach do lepszego podejmowania decyzji w biznesie opiera się o obserwację zachowań klienta. Jednocześnie moŝna zauwaŝyć znacznie szersze potencjalne pole stosowania tak rozumianego grupowania: selekcja przypadków odbiegających od typowych zachowań, podział na grupy wymagające odrębnych warunków prowadzenia transakcji, wybór grupy reprezentantów do prowadzenia badań marketingowych. Celem prowadzonej analizy jest pogrupowanie kontrahentów według stopnia ich podobieństwa. W tym miejscu naleŝy określić zasady określania podobieństwa pomiędzy kontrahentami, które powinny uwzględniać istotne cechy kontrahenta z punktu widzenia dostawcy. W tym znaczeniu moŝna powiedzieć, Ŝe kontrahenci do siebie podobni to tacy, którzy kupują podobne towary w podobnych ilościach i podobnych odstępach czasu. Przy czym waŝność poszczególnych składników nie jest jednakowa, wydaje się, Ŝe najistotniejsze jest porównywanie asortymentu, natomiast ilości i czasy stoją w drugiej kolejności. Zagadnienie grupowania klientów Grupowania klientów (czy teŝ segmentacji bazy klientów zgodnie z terminologią marketingową) dokonuje się w oparciu o zgromadzone dane, które moŝna powiązać z poszczególnymi klientami. Proces grupowania silnie zaleŝy od pochodzenia i rodzaju danych oraz reprezentowanych informacji. W niniejszym opracowaniu rozpatrywane są dane związane

Zastosowanie grupowania do eksploracji baz danych Systemów 319 z przeprowadzonymi transakcjami sprzedaŝy. Grupowania moŝna dokonać z uwagi na następujące rodzaje informacji: zrealizowany przychód, zróŝnicowanie asortymentowe. Poszczególne podejścia róŝnią się od siebie szczegółowością traktowania danych wejściowych. Najczęściej dokonuje się wstępnej agregacji (selekcji cech) w celu zmniejszenia ilości wymiarów w analizowanych danych. Przykładowe techniki moŝliwe do zastosowania są następujące: wykorzystanie wektora przychodów zrealizowanych w poszczególnych grupach asortymentowych, wykorzystanie macierzy podobieństw pomiędzy towarami i na tej podstawie dokonania grupowania klientów, wykorzystanie danych lingwistycznych, zapisanych w nazwach towarów do opisania kontrahenta i na tej podstawie dokonanie grupowania. Z powyŝszego wyliczenia wynika następujące spostrzeŝenie: zbiór danych opisujący kontrahentów zawiera zarówno dane numeryczne (ilościowe) jak i opisowe (symboliczne). Dane ilościowe to przede wszystkim wartości przychodów zrealizowanych natomiast dane symboliczne to dane o nabywanych towarach. Do porównywania obiektów opisanych danymi ilościowymi stosuje się miary odległości takie jak odległość Euklidesowa czy odległość Manhattan [JD88]. Natomiast w zakresie porównywania obiektów opisanych danymi symbolicznymi sprawa jest bardziej złoŝona. W przypadku opisania obiektu atrybutami typu wyliczeniowego stosuje się wskaźniki typu Jaccard lub Dice[JD88]. W zakresie porównywania tekstów języka naturalnego stosuje się funkcję kosinusową [SB88]. NaleŜy jednak zdawać sobie sprawę, Ŝe zastosowany wskaźnik podobieństwa winien właściwie odzwierciedlać kontekst i charakter analizowanych danych. Przykładowo podczas analizy nabycia poszczególnych towarów winno się uwzględniać stopień podobieństwa poszczególnych produktów [Maz02a]. Pewnym rozwiązaniem problemu dopasowania miary podobieństwa do charakteru przetwarzanych danych jest zastosowanie algorytmu grupowania opartego o funkcję kryterium jakości podziału. Najczęściej rolę tę pełni miara przyrostu informacji wywodząca się z entropii. Przykłady takich algorytmów to [Maz02b]: algorytm grupowania hierarchicznego deglomeracyjny, algorytm grupowanie oparty o reguły decyzyjne, algorytm grupowania genetyczny. Wymienione powyŝej algorytmy umoŝliwiają realizację grupowania bez definiowania funkcji podobieństwa (odległości), ich celem jest znalezienie optymalnego podziału wyłącznie przy pomocy funkcji kryterium.

320 Zarządzanie wiedzą i rozwiązania Business Intelligence Ocena jakości wyników grupowania Pozyskiwanie wiedzy i eksploracja danych są zagadnieniami trudno definiowalnymi. Trudność objawia się poprzez brak jednoznacznej definicji funkcji oceny uzyskiwanych wyników. Jak juŝ wspomniano, celem jest pozyskanie nowej wiedzy. Przy obecnym stanie nauki nie istnieją formalne definicje pozwalające na pomiar (ocenę bądź identyfikację) stopnia pozyskania wiedzy. Natomiast moŝna dokonać pośredniej oceny jakości technik eksploracyjnych. Dokonuje się tego doświadczalnie, wychodząc z dostępnych informacji na temat sposobów tworzenia nowej wiedzy przez człowieka, takich jak zdolność uczenia się, moŝliwości percepcji, wnioskowanie itd. NajwaŜniejsze cechy grupowania, świadczące o dostarczeniu wartościowych wyników to: Redukcja ilości danych do poziomu percepcji człowieka, ale w takim zakresie, aby nie zostawały pominięte istotne własności (trendy, atrybuty); naleŝy dodać, Ŝe termin istotne nie odnosi się do liczebności czy udziału, gdyŝ nawet pojedyncze wystąpienia elementów, uwzględnione w procesie eksploracji, mogą przysłuŝyć się pozyskaniu wiedzy. RóŜnorodność form prezentacji - jest powszechnie znana prawda, Ŝe stopień absorbcji informacji przez człowieka ściśle zaleŝy od formy jej prezentacji, w tym zakresie spotyka się prezentacje wyników w formach: tablicy przykładów, wzorców, podziału na podzbiory, zbioru hipotez, listy reguł, przedstawienia funkcji analitycznych i zaleŝności funkcjonalnych; wiele z wymienionych postaci jest przekształcalne w inne, natomiast część jest uzyskiwana jedynie w wyniku zastosowania odpowiedniej metody eksploracji. Zgodność z funkcją kryterium - wiele z metod posługuje się funkcją kryterium, w celu znalezienia rozwiązania. Przyjmuje się, Ŝe funkcja ta stanowi przybliŝenie funkcji oceny jakości podziału. Uwzględnianie wiedzy w procesie eksploracji - kaŝda metoda, która potrafi wykorzystać informacje spoza badanej bazy danych czy teŝ kontekst danych, potencjalnie otrzymuje lepsze wyniki (bardziej odpowiadające rzeczywistości), dlatego teŝ o jakości metody stanowi zdolność do przyjmowania danych z innych źródeł. Badania formalne w zakresie przetwarzania wiedzy są dopiero na początkowym etapie. Dlatego teŝ większość zagadnień oparta jest o działania empiryczne, np. poprzez konsultacje uzyskiwanych wyników z ekspertami z dziedziny, której dotyczą dane.

Zastosowanie grupowania do eksploracji baz danych Systemów 321 Wnioski Grupowanie jest cenną techniką mogącą znakomicie wspomagać proces segmentacji bazy klientów a przez to wspomagać zarządzanie przedsiębiorstwem. Aby jednak uzyskiwane rezultaty miały realną wartość, tzn. decyzje podejmowane na ich podstawie przynosiły zysk, to musi zostać spełnionych szereg warunków. W większości sprowadzają się one właściwego przygotowania zbioru danych oraz ustalenia odpowiedniej koncepcji grupowania jak najlepiej odzwierciedlającej charakterystykę klientów. Przy czym nie jest to proste wyselekcjonowanie atrybutów lecz ustalenie wpływu istniejących zaleŝności pomiędzy danymi. Następnie naleŝy uwzględnić charakter danych podlegających analizie: sposób pozyskania i ujęcia danych, rodzaj danych w podziale na ilościowe oraz symboliczne, oczekiwana forma prezentacji wyników. Dostępność danych, koszt przekształcenia, wiarygodność - to podstawowe przesłanki temu słuŝące. Na podstawie powyŝszej analizy dokonuje się doboru odpowiedniej techniki grupowania, tak aby właściwie odwzorowywała charakter przetwarzanych informacji i w minimalnym stopniu powodowała utratę istotnych informacji zawartych w bazie danych. Literatura [AIS93] Agrawal R., Imielinski T., Swami A. N.: Mining association rules between sets of items in large databases. P. Buneman, S. Jajodia, redaktorzy, Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, Washington, 1993. [AMS+96] Agrawal R., Mannila H., Srikant R., Toivonen H., Verkamo A.I.: Fast discovery of association rules. Advances in Knowledge Discovery and Data Mining, 1996. [BL97] Berry M. J., Lino G.: Data Mining Techniques. John-Wiley, New York, 1997. [BMUT97] Brin S., R. Motwani, J. D. Ullman, S. Tsur. Dynamic itemset counting and implication rules for market basket data. ACM SIGMOD International Conference on Management of Data, 1997. [Cic00] Cichosz P.: Systemy uczace sie. WNT, Warszawa, 2000. [DMR98] Das G., Mannila H., Ronkainen P.: Similarity of attributes by externalprobes. Knowledge Discovery and Data Mining,1998. [GP02] Guidici P., Passerone G.: Data mining of association structuresto model consumer behaviour. Computational statistic and dataanalysis, 2002.

322 Zarządzanie wiedzą i rozwiązania Business Intelligence [HF95] [HKK97] [HP99] Han J., Fu Y.: Discovery of multiple-level association rules from large databases. Proc. of Int l Conf. on Very Large Data Bases (VLDB 95), Zurich, Switzerland, 1995. Han E., Karypis G., Kumar V.: Scalable parallel data mining for association rules. Proceedings of ACM SIGMOD, 1997. Hirota K., Pedrycz W.: Fuzzy computing for data mining. Proc. Of the IEEE, 87, 1999. [Hug01] Huges A. M.: Making your database pay off using recency frequency and monetary analysis. Database Marketing Institute, 13(8), 2001. [JD88] [KPR98] [LH96] [Maz02a] [Maz02b] [SG91] [SM86] Jain A. K., R.C. Dubes.: Algorithms for Clustering Data. Prentice Hall, New Jersey, 1988. Kleinberg J., Papadimitriou C., Raghavan P.: Segmentation problems. Proceedings of the ACM Symposium on Theory of Computing, 1998. Liu B., Hsu W.: Post-analysis of learned rules. AAAI/IAAI, Vol.1, 1996. Mazur D.: Computing similarity measure based on names of goods for fuzzy clustering. Methods of Artificial Intelligence, Gliwice, 2002. Mazur D.: Wykorzystywanie danych określonych lingwistycznie w systemach pozyskiwania wiedzy. SWO, Ustron, 2002. Smyth P., Goodman R.M.: Rule induction using information theory. 1991. Stepp R. E., Michalski R.S.: Conceptual clustering: Inventing goal oriented classifications of structured objects. J. G. Carbonell, R. S.Michalski, T. M. Mitchell, redaktorzy, Machine Learning: An Artificial Intelligence Approach, Volume II, Morgan Kaufmann, Los Altos, CA, 1986. CLUSTERING APPROACH TO DATA MINING BUSINESS DATABASE. Data mining can extract desired knowledge or interesting patterns from existing databases. Clustering, as one of data mining technique, has been applied with profit in many applications of data mining. Business database consists many date with non numerical values. The clustering algorithms should be adapted to analyze it, especially for customer database. The paper describes strengths and weaknesses for various clustering algorithms and the influence of the kind of data on discovering useful categories. Also presents the problem of clustering linguistic terms and discuss the issue of clustering validation. Key words: data mining, clustering, business database