ZASTOSOWANIE TEORII ZBIORÓW PRZYBLI ONYCH DO OCENY PREFERENCJI KLIENTÓW MARKETINGOWEJ HURTOWNI DANYCH TOMASZ DUDEK Politechnika Szczeci ska Wydział Informatyki Instytut Systemów Informatycznych Streszczenie W artykule zaprezentowano przykładowe zastosowania teorii zbiorów przybli onych w analizie preferencji nabywców produktów firmy i ocenie potencjalnego klienta. Zastosowania te obejmuj mo liwo ci przeprowadzenia klasyfikacji klientów gdy dane o nich s niespójne lub cz ciowo sprzeczne. W oparciu o peror zbiorów przybli onych mo liwe jest generowanie reguł opisu zbioru przypadków. 1. Wprowadzenie Jeszcze do niedawna działalno przedsi biorstw koncentrowała si na produkcie, nie dostrzegaj c konieczno ci identyfikacji nabywcy, jego preferencji, oceny warto ci i korzy ci płyn cych z oferowanego przez firm produktu lub usługi. Rozwój konkurencji i gospodarki rynkowej sprawił jednak, e firmy, aby redukowa koszty i zwi ksza udział w rynku zostały zmuszone do walki o klienta bowiem produkt czy usługa zaspakaja potrzeby klienta, gdy ma dla niego okre lon warto, przynosi klientowi odpowiednie dla niego szeroko rozumiane korzy ci. Aby móc zabiega o klientów, firmy musiały najpierw ustali kim oni s i pozna ich potrzeby, preferencje, oceny. W tym celu by zdoby niezb dne dane cz sto korzysta si z komputerowego wsparcia takimi narz dziami jak hurtownie i bazy danych, analityczne przetwarzanie danych OLAP (ang. On line analitical processing), metody odkrywania informacji (wiedzy) (ang. data mining) czy narz dzia KDD (ang. knowledge discovery decision), które umo liwiaj odkrywanie nieznanych wcze niej, a potencjalnie przydatnych prawidłowo ci i relacji ukrytych w danych.. Do grupy wa nych metod u ywanych w procesie odkrywania wiedzy nale y klasyfikacja i rozpoznawanie zjawisk i parametrów badanych preferencji lub zachowa klientów badanie np. czy potencjalny klient b dzie chciał naby produkt okre lonej marki, jakimi cechami mo na scharakteryzowa potencjalnego klienta firmy, kto nie b dzie potencjalnym klientem firmy, itp. Metody klasyfikacji stosowane s zwykle w pierwszej fazie obróbki danych i odkrywania wiedzy z danych. Poniewa jednak dane, na których wykonuje si analizy zachowa klientów firm lub ich preferencji zawieraj dane niepełne lub oparte cz ciowo na sprzecznych przesłankach to wydaje si, e w tym przypadku nale y posłu y si takimi metodami, które eliminuj sztywne zasady przynale no ci do zbiorów (klas) i wprowadzaj mo liwo definiowania przynale no ci do zbioru w oparciu o tzw przybli enie dolne i górne. W takim bowiem przypadku logika oparta na teorii zbiorów przybli onych zyskuje nowe wła ciwo ci do rozwi zania wielu problemów wymagaj cych inteligentnej analizy danych, poszukiwania zale no ci mi dzy danymi co w rezultacie umo liwia i wspomaga podejmowanie decyzji.
80 POLSKIE TOWARZYSTWO ZARZ DZANIA WIEDZ Seria: Studia i Materiały, nr2, 2004 W artykule zaprezentowano przykładowe zastosowania teorii zbiorów przybli onych w analizie preferencji potencjalnych nabywców produktów firmy i ocenie potencjalnego klienta. 2. Charakterystyka danych o klientach firmy Okre lenie relacji mi dzy postaw konsumenta (odpowied na pytanie w sprawie zakupu produktu firmy lub jego preferencji), a odpowiedzi na inne pytania pozwala na odkrycie, zbadanie, które z tych pyta ma wpływ, znaczenie na zakup i preferencje klienta. Zwykle głównym celem analizy i w efekcie celem podj cia decyzji marketingowej bywa uzyskanie odpowiedzi na proste pytanie Jak wygl da i czym si charakteryzuje typowy nabywca oferowanego przez firm produktu?. Na to pytanie mo na uzyska odpowied, analizuj c dane pozyskane z ankiety, które dalej s ródłem do odkrywania wiedzy z tych danych. Wobec istnienia wielu metod odkrywania wiedzy z danych, podstawowym problemem staje si wybór odpowiedniej do potrzeb metody lub metod odkrywania wiedzy. Jedn z cz ciej stosowanych metod odkrywania wiedzy jest klasyfikacja. W klasycznych metodach klasyfikacji, opartych na ogólnej teorii zbiorów podstaw klasyfikacji s silne współzale ne o wiadczenia (odpowiedzi potencjalnych klientów), które pomagaj w okre leniu profilu potencjalnego nabywcy oraz zasada, e element (odpowied ) nale y albo nie nale y do danej klasy. Taka klasyfikacja wymaga jednak okre lenia tzw. bł du klasyfikacji (odst pstwa od sztywnych zasad). Zwykle do weryfikacji procesu klasyfikacji stosuje si na podstawie dost pnych danych tzw. macierz pomyłek, z której mi dzy innymi wynika bł d procentowy klasyfikacji. Te bł dy s wówczas podstaw do okre lenia wiarogodno ci klasyfikacji i wyci gni tych z tej klasyfikacji poprawnych wniosków. Ale dane ankietowe mog zawiera sprzeczno ci i niespójno ci. Pod poj ciem danych niespójnych rozumie si takie dane (wyniki zamieszczone np. w ankietach), które posiadaj identyczne lub podobne opisy, lecz zaliczane s do ró nych poj. Gdy do analizy takich danych zastosowano by klasyczne metody klasyfikacji to oznaczałoby, e w ród tych danych znajd si takie, które nie zostan poprawnie zaklasyfikowane i w dalszej analizie zwykle si takie dane pomija. Takie rozwi zania mog jednak prowadzi do utraty wielu cennych aspektów analizowanych własno ci i cech potencjalnych klientów. Jak zauwa a Stefanowski [1] niespójno danych nie powinna by traktowana wył cznie jako wynik bł du czy szumu informacyjnego poniewa taka niespójno mo e by wynikiem waha klienta, niestabilno ci jego preferencji, niezrozumieniem zapyta ankietowych czy niepoprawnym przygotowaniem i przeprowadzeniem ankiety (np. niewła ciwy dobór reprezentatywnej grupy osób ankietowanych. Dlatego do analizy danych ankietowych cz sto powinna by zastosowana klasyfikacja uwzgl dniaj ca te niespójno ci w danych oparta na tzw. zbiorach przybli onych. 3. Zastosowanie teorii zbiorów przybli onych do klasyfikacji klientów Dane o klientach uzyskane np. w wyniku przeprowadzenia ankietyzacji w reprezentatywnej grupie respondentów mo na scharakteryzowa wieloma atrybutami, które mog przyjmowa okre lone warto ci (najlepiej gdy s one wyra one liczbowo np. w okre lonej skali ocen). Ka da ankieta (zawieraj ca warto ci przypisane badanym atrybutom) jest rozumiana jako obiekt, który mo e przynale e do atomów klas. Z ka d ankiet zwi zana jest decyzja ankietowanego (np. ocena ch ci zakupu czy preferencji klienta). Dla zgromadzonych w wyniku ankietyzacji danych mo na opracowa tzw. tablic systemu informacyjnego dla procesu klasyfikacji, okre lania reguł
Tomasz Dudek Zastosowanie teorii zbiorów przybli onych do oceny preferencji klientów marketingowej hurtowni danych 81 decyzyjnych i odkrywania wiedzy z danych o potencjalnych klientach firmy. Przykładow tablic systemu informacyjnego zaprezentowano w tabeli 1. Ze wzgl du na pogl dowy charakter tej tablicy umieszczono w niej tylko niektóre dane z rzeczywistego przykładu. Tabela 1 Nr atomu (klasy) 1 Nr obiektu (ankiety) Warto ci liczbowe atrybutów A1 A2 A3 Decyzja ankietowanego 1 2 2 2 D2 2 2 2 2 D2 3 2 2 2 D2 4 2 2 2 D2 5 2 2 2 D2 6 2 2 2 D1 7 2 2 2 D2 8 2 2 2 D2 9 2 2 2 D3 10 2 2 2 D2 2 11 2 2 3 D1 3 12 2 1 3 D1 13 2 1 3 D2 4 14 3 1 3 D2 5 15 1 2 1 D3 16 1 2 1 D3 17 1 2 1 D3 18 1 2 1 D3 19 1 2 1 D3 Przykładowa tablica systemu informacyjnego o klientach firmy ( ródło : opracowanie własne) W wyniku analizy danych ankietowych mo na okre li decyzj jak mo na by przypisa potencjalnemu klientowi firmy. Definiowanie przynale no ci elementów, obiektów, atomów czy atrybutów do zbioru przybli onego oparte jest na podej ciu, w których odrzuca si wymóg istnienia ci le okre lonych granic zbioru. Wykorzystuje si wówczas mo liwo zdefiniowania zbioru przybli onego w oparciu o jego tzw. przybli enie dolne i górne. Pod poj ciem przybli enia
82 POLSKIE TOWARZYSTWO ZARZ DZANIA WIEDZ Seria: Studia i Materiały, nr2, 2004 dolnego zbioru obiektów Y rozumie si zbiór tych elementów tego zbioru, których wszystkie obiekty nale na pewno do zbioru Y natomiast pod poj ciem dolnego przybli enia zbioru Y rozumie si taki zbiór elementów, których cho jeden obiekt nale y do zbioru Y, czyli zbiór takich elementów, które by mo e nale do tego zbioru [3]. Brzegiem zbioru obiektów nazywa si ró nic mnogo ciow mi dzy górnym i dolnym przybli eniem tego zbioru obiektów. Ka de przybli enie wi e si z konieczno ci okre lenia dokładno ci tego przybli enia. Najcz ciej tak dokładno okre la si jako stosunek liczno ci dolnego przybli enia zbioru do jego górnego przybli enia. W oparciu o zbiory przybli one opracowano algorytmy przy pomocy, których mo liwa jest nie tylko klasyfikacja obiektów, ale równie mo liwe jest automatyczne generowanie reguł decyzyjnych, b d cych podstaw odkrywania wiedzy z danych o klientach firmy. W teorii zbiorów przybli onych przyjmuje si zwykle, e stopie precyzji atomu jest równy 1. Jest to przyczyn du ych utrudnie w odkrywaniu wiedzy dla takich zbiorów poniewa atomy wyra nie wi kszo ciowe s odrzucane z dolnego przybli enia. Ciekawe zastosowanie teorii zbiorów przybli onych zaproponował W.Ziarko [2], w którym rozmiar brzegu zbioru przybli onego został pomniejszony poprzez pozostawienie w nim tylko tych obiektów, co do których nie jest mo liwa klasyfikacja z bł dem mniejszym od pewnego wst pnie zdefiniowanego poziomu. Jest to podej cie szczególnie korzystne dla tych zbiorów danych, których brzeg zawiera atomy, których obiekty w du ej mierze nale do wybranej klasy decyzyjnej. Istniej równie takie algorytmy, które pozwalaj zmieni stopie precyzji atomu. Do nich nale y algorytm LEM2 VPM zwany algorytmem zmiennej precyzji. 4. Prezentacja zastosowania algorytmów LEM2 i algorytmu zmiennej precyzji LEM2 VPM do klasyfikacji i generowania reguł decyzyjnych. LEM2 to jedna z opcji zaproponowanego przez J. W. Grzymał -Busse a systemu LERS. Jest to heurystyczny algorytm ukierunkowany na znalezienie minimalnego opisu dyskryminuj cego w zbiorze przykładów. Model tzw. zmiennej precyzji (ang. Variable Precision Model VPM) charakteryzuje si zmienionymi zasadami Zastosowanie algorytmu LEM2 do przykładowych danych zawartych w tablicy systemu informacyjnego o klientach firmy z tabeli 1 pozwala okre li tablic cz sto ci przykładów w obr bie atomów (klas), dla poszczególnych klas decyzji zgodn z tabel 2. Tabela 2 Nr atomu (klasy) Liczno przykładów nale cych do klasy (atomu) D1 D2 D3 1 1 8 1 2 1 0 0 3 1 1 0
Tomasz Dudek Zastosowanie teorii zbiorów przybli onych do oceny preferencji klientów marketingowej hurtowni danych 83 4 0 1 0 5 1 0 4 Cz sto ci przykładów w obr bie atomów dla poszczególnych klas wyodr bnionych w przykładowej tablicy systemu informacyjnego ( ródło : opracowanie własne) Podej cie LEM2 VPM pozwala zmodyfikowa tabel 2 cz sto ci przykładów w obr bie powy ej przytoczonych atomów do postaci zgodnej z tabel 3. Nr atomu (klasy) Liczno przykładów nale cych do klasy (atomu) D1 D2 D3 1 0 10 0 2 1 0 0 3 1 1 0 4 0 1 0 5 1 0 5 Tabela 3 Zmodyfikowane cz sto ci przykładów w obr bie atomów dla poszczególnych klas wyodr bnionych w przykładowej tablicy systemu informacyjnego ( ródło : opracowanie własne) Stosuj c teori zbiorów przybli onych mo na uzyska brzeg składaj cy si z 17 obiektów. Przyjmuj c, e stopie precyzji atomu wynosi 0,8 mo na okre li atomy nale ce do dolnego przybli enia VPM. S nimi {1,2,4,5}. Atomy te posiadaj stopie precyzji wi kszy b d równy zało onemu. Atom {3} nie wchodzi do dolnego przybli enia, poniewa posiada zbyt wysoki stopie zaszumienia. Oznacza to, e algorytm LEM2 VPM zmniejsz ilo obiektów zawartych w brzegu do dwóch dzi ki zmniejszeniu stopnia precyzji atomu z warto ci 1 na warto 0.8. Je li po tej modyfikacji wszystkie przykłady wchodz ce w skład atomu nie nale do jednej klasy decyzyjnej to atom taki nie nale y do przybli enia dolnego VPM. Nale y wówczas wprowadzi tzw. klas zerow d0, która oznacza brak przynale no ci do dolnego przybli enia VPM a dla klas z dolnego przybli enia zostaj rozró nione sztucznie wprowadzonymi klasami decyzyjnymi zgodnymi z tabel 4. Tabela 4 Nr obiektu Nr sztucznej decyzji 1 D2 2 D2 3 D2 4 D2
84 POLSKIE TOWARZYSTWO ZARZ DZANIA WIEDZ Seria: Studia i Materiały, nr2, 2004 5 D2 6 D2 7 D2 8 D2 9 D2 10 D2 11 D1 12 D0 13 D0 14 D2 15 D3 16 D3 17 D3 18 D3 19 D3 Sztuczna klasa decyzyjna dla przykładowej tablicy systemu informacyjnego ( ródło : opracowanie własne) Nast pnie w oparciu o tablic systemu informacyjnego oraz wprowadzone klasy (zerow i sztuczne) mo na zbudowa tabel wsparcia dla warunków elementarnych zgodn tabel 5, zbudowan dla rozwa anego przykładu. Tabela 5 Warunek elementarny w rachunku reguł Wsparcie dla klasy decyzyjnej d0 d1 d2 d3 A1=2 {12,13} {11} {1,2,3,,10} A1=3 {14} A1=1 {15,16,,19} A2=2 {11} {1,2,3,,10} {15,16,,19} A2=1 {12,13} {14}
Tomasz Dudek Zastosowanie teorii zbiorów przybli onych do oceny preferencji klientów marketingowej hurtowni danych 85 A3=2 {1,2,3,,10} A3=3 {12,13} {11} {14} A3=1 {15,16,,19} Wsparcie dla warunków elementarnych z podziałem na klasy decyzyjne obr bie atomów dla poszczególnych klas wyodr bnionych w przykładowej tablicy systemu informacyjnego ( ródło : opracowanie własne) Kolejnym etapem zastosowania algorytmów LEM2 i LEM2 VPM jest budowa dolnego przybli enia VPM oraz proces tworzenia reguł. W wyniku zastosowania algorytmu LEM2 VPM uzyskuje si reguły zgodne z tabel 6. Reguły decyzyjne wyznaczone algorytmem LEM2 VPM (A3=3)and(A2=2) D2 (A3=2) D2 (A1=3) D2 (A1=1) D3 Tabela 6 Reguły decyzyjne wyznaczone w klasycznej teorii zbiorów przybli onych (LEM2) (A3=3) and (a2=2) D1 (a1=3) D2 Reguły uzyskane algorytmem LEM2 VPM i w oparciu o klasyczn teori zbiorów przybli onych ( ródło : opracowanie własne) W oparciu o zbiory przybli one wygenerowano dwie reguły powoduj c utrat dwóch silnych reguł, które uzyskano wykorzystuj c algorytm ze zmienn decyzj. Dla pełnej analizy stosowalno ci algorytmów opartych na zbiorach przybli onych,lem2 i zmiennej precyzji LEM2 VPM mo liwe jest okre lenie dokładno ci klasyfikacji. W tabeli 7 zaprezentowano niektóre z nich. Dolne przybli enie klasy decyzyjnej D1 Dolne przybli enie klasy decyzyjnej D2 Dolne przybli enie klasy decyzyjnej D3 Górne przybli enie klasy decyzyjnej D1 Wg algorytmu LEM2 {11} {11} Tabela 7 Wg algorytmu LEM@ VPM {14} {1,2,3,4,5,6,7,8,9,10,14} zbiór pusty {15,16,17,18,19} {1,2,3,4,5,6,7,8,9,10,11,12,13,15,16,17,18,19 } {11,12,13} Górne przybli enie klasy {1,2,3,4,5,6,7,8,9,10,12,13,15,16,17,18,19} {1,2,3,4,5,6,7,8,9,10,12,1
86 POLSKIE TOWARZYSTWO ZARZ DZANIA WIEDZ Seria: Studia i Materiały, nr2, 2004 decyzyjnej D2 3,14} Górne przybli enie klasy decyzyjnej D3 {1,2,3,4,5,6,7,8,9,10,15,16,17,18,19} {15,16,17,18,19} Brzeg klasy D1 {1,2,3,4,5,6,7,8,9,10,12,13,15,16,17,18,19} {12,13} Brzeg klasy D2 {1,2,3,4,5,6,7,8,9,10,12,13} {12,13} Brzeg klasy D3 {1,2,3,4,5,6,7,8,9,10,15,16,17,18,19} zbiór pusty Dokładno przybli enia klasy decyzyjnej D1 Dokładno przybli enia klasy decyzyjnej D2 Dokładno przybli enia klasy decyzyjnej D3 Dokładno przybli enia całego systemu informacyjnego 0,06 0,33 0,08 0,85 0 1 0,04 0,81 Jako przybli enia klasyfikacji 0,11 0,89 Porównanie dokładno ci klasyfikacji algorytmem LEM2 i LEM2 VPM dla przykładowej tablicy informacyjnej ( ródło : opracowanie własne) 5. Podsumowanie Teoria zbiorów przybli onych jest jedn z najszybciej rozwijaj cych si dziedzin sztucznej inteligencji. S one uogólnieniem klasycznej teorii zbiorów, b d cej podstaw nauk matematycznych. W teorii zbiorów przybli onych nie zakłada si, e zbiór jest ci le okre lony przez swoje elementy. Przyjmuje si mo liwo istnienia nieostrych granic zbiorów. Z tego powodu zbiory przybli one stanowi solidn podstaw do budowania metod zdolnych do pracy z danymi zawieraj cymi szum i niekonsekwencje - nieodł czny atrybut "rzeczywistych" danych. Bibliografia 1. Stefanowski J.: Dialogowe wspomaganie decyzji na podstawie wiedzy pozyskanej metod zbiorów przybli onych. Rozprawa doktorska, Pozna 1994 2. Ziarko W.: Analysis of Uncertain Information in The Framework of Variable Precision Rough Sets. Foundations of Computing and Decision Sciences. Vol 18, 1993 3. WWW: kpkm.mt.polsl.gliwice.pl TOMASZ DUDEK e-mail:tdudek@wi.ps.pl Politechnika Szczeci ska Wydział Informatyki Instytut Systemów Informatycznych, 70-210 Szczecin, ul. ołnierska 49