ZAGADNIENIE WYBORU NARZĘDZIA DO DATA MINING. ANALIZA PORÓWNAWCZA WYBRANYCH PRODUKTÓW I TECHNIK Streszczenie Paweł Pandzierski Akademia Ekonomiczna im. Oskara Langego we Wrocławiu paweell@op.pl Artykuł ten przedstawia zwięzły szkic przykładowych rozwaŝań, które mogą wpłynąć na decyzję zastosowania i wyboru pakietu Data Mining. Pierwsza część rozwaŝań jest powierzchowną prezentacją niektórych zastosowań eksploracji. Zawarte jest tam równieŝ proste porównanie najwaŝniejszych pakietów Data Mining. Kolejny rozdział zawiera przykład odkrywania uŝytecznych zaleŝności w danych kredytowych banku. W zakończeniu przedstawiono zestawienie wybranych narzędzi i technik budowy modelu, oraz podsumowanie przeprowadzonych rozwaŝań. Słowa kluczowe: Data Mining, eksploracja danych, klasyfikacja. 1. Wstęp Znaczenie posiadania właściwej wiedzy w określonym czasie przez decydenta jest wartością nie do przecenienia. Wiedza moŝe pochodzić z róŝnych źródeł, moŝe teŝ być pozyskiwana z danych gromadzonych latami w przedsiębiorstwie. Lista moŝliwych zastosowań eksploracji danych, a tym samym zastosowań odpowiedniego oprogramowania jest bardzo długa i systematycznie poszerzana. Koszt analiz marketingowych, moŝe ulec obniŝeniu o bardzo istotny składnik - nakłady na samo zebranie danych, gdy zaczniemy eksplorować juŝ posiadane, archiwalne dane. Trudno teŝ stwierdzić, co jest bardziej zaawansowanym raportem z zapytania, a co moŝemy juŝ określić jako Data Mining, ale zawsze mówimy wtedy o pozyskiwaniu wiedzy z bazy danych, wiedzy która nie jest oczywista [WYRO02]. Przy wyborze narzędzia kierujemy się róŝnymi kryteriami, jak np. do czego narzędzie będzie zastosowane (obszar tematyczny aplikacji), dostępność narzędzi, ich jakość oraz koszt. Wybór spośród ofert róŝnych producentów jest spory. Raz zakupione narzędzie powinno być uŝyteczne przez dłuŝszy okres, a nie tylko jednorazowo. Zatem problem wyboru narzędzia jest waŝny dla przedsiębiorstwa. Właściwy zakup to dla firmy korzyść, zakup niewłaściwy to czysta strata.
348 Zarządzanie wiedzą i rozwiązania Business Intelligence 2.Metody eksploracji danych Istnieje wiele metod eksploracji danych, od klasycznej statystyki aŝ po sieci neuronowe i algorytmy genetyczne. KaŜda z reguł reprezentuje zaleŝności odkryte w posiadanych bazach danych i kaŝda moŝe być wykorzystana do predykcji przyszłych wartości i zachowań. Przykłady zastosowań eksploracji danych: Przy: analizie dostępów do stron w Web, analizie koszyka, badaniu zachowań klientów w czasie, bezpośrednim marketingu, planowaniu inwestycji giełdowych, przewidywaniu sprzedaŝy (ubezpieczenia, telekomunikacja) uŝyteczne jest odkrywanie wzorców sekwencji - czasowych wzorców zachowań, Do zastosowań takich jak: rozpoznawanie obrazów (biologia, medycyna), określanie segmentów rynku na podstawie cech klientów (telekomunikacja, ubezpieczenia), poprawa jakości produktu, wczesne ostrzeganie przed awariami stosujemy klastrowanie, celem jest tu znajdowanie skończonego zbioru klas obiektów - klastrów (o stałej ilości), czyli podzbiorów podobnych rekordów. Klastrowanie przebiega najczęściej, w dwóch cyklach: cykl zewnętrzny przebiega po liczbie moŝliwych klastrów, cykl wewnętrzny próbuje znaleźć optymalny podział obiektów pomiędzy klastry, Do zastosowań takich jak: analiza koszyka zakupów, bezpośredni marketing, planowanie kampanii promocyjnych, planowanie rozmieszczenia stoisk sprzedaŝy w supermarketach, opracowania nowych taryf firm ubezpieczeniowych, zmniejszenie skali zjawiska migracji abonentów operatorów telekomunikacyjnych stosowane jest odkrywanie asocjacji. Jest to szeroka klasa metod, które obejmują głównie odkrywanie pomiędzy obiektami zaleŝności, które posiadają pewne miary statystyczne określające ich wsparcie i ufność, W przypadku, np. : weryfikacji kredytobiorców, przydziału kart kredytowych, marketingu bezpośredniego, planowania lokalizacji sklepów, diagnostyki medycznej, klasyfikacji pacjentów, rozpoznawania trendów na rynkach finansowych, segmentacji wielkiej grupy klientów ze względu na potencjalną zyskowność dla przedsiębiorstwa - odkrywanie klasyfikacji jest doskonałą metodą., a celem jest tu znajdowanie zaleŝności pomiędzy klasyfikacją obiektów (naturalną lub wprowadzoną przez eksperta) a ich charakterystyką, Gdy szukamy klientów o podobnej konsumpcji energii elektrycznej, identyfikujemy na giełdzie firmy o podobnej dynamice wzrostu cen akcji, szukamy surowców o podobnej charakterystyce sprzedaŝy stosujemy odkrywanie podobieństw w przebiegach czasowych, opisujących pewne procesy, Do: analizy danych pochodzących z ubezpieczalni, duŝych supermarketów, danych opisujących zachowania posiadaczy kart kredytowych, klientów banków, wykrywania naduŝyć, gdzie staramy się zrozumieć trendy i zmiany zachodzące w procesach generujących te dane - wykrywanie zmian i od-
Zagadnienie wyboru narzędzia do data mining. Analiza 349 chyleń -znajdujemy róŝnice pomiędzy aktualnymi a oczekiwanymi wartościami danych. Gotowe rozwiązania tego typu są szczególnie uŝyteczne przy ogromnych wolumenach elektronicznych danych 3.Wybór narzędzi Dokonanie wyboru pakietu narzędzi Data Mining nie jest rzeczą prostą. Zasadniczą barierą jest cena i dość wysoki stopień skomplikowania obsługi oprogramowania. Popularne pakiety istniejące na rynku to np.: Clementine firmy SPSS, Data Miner STATISTICA, Affinium Model, Insightful Miner, KXEN. Kompletne pakiety narzędzi do Data Mining oferowane przez poszczególnych producentów są uŝyteczne takŝe dla osób nie będących statystykami, osób, które ograniczają swoje analizy do najprostszych modeli. To wszystko dzięki temu, Ŝe oferowane programy są w stanie np. automatycznie przetestować szeroki wachlarz architektur sieci neuronowych, dokonać wyboru spośród wielu postaci drzew, automatycznie dobrać najlepszy podzbiór zmiennych predykcyjnych uŝywając zaawansowanych ogólnych i uogólnionych modeli. UŜytkownik tym sposobem otrzymuje lepsze, dokładniejsze i bardziej powtarzalne wyniki. Ma równieŝ moŝliwość przełączania się na graficzną prezentację wszelkich danych, na kaŝdym etapie procesu Data Mining (w trakcie budowania modelu, jego wykonywania, a nawet w procesie wdraŝania gotowego modelu). Pozwala to równieŝ interakcyjnie, wizualnie eksplorować dane i poruszyć wyobraźnię. Tabela 1 Pakiety DM, opracowanie własne na podstawie: [NISB04]. PAKIET: CLEM STAT IM AM KXEN Ilość punktów [pkt.] 641 1147 474 565 562 Cena [k$] 50 15 15 50 20 Cena / Ilość punktów [$/pkt.] 78 13 32 88 36 Dostępność algorytmów [pkt.] 27 57 26 28 26 Cena / Dostępność algorytmów [$/pkt.] 1852 263 577 1786 769 4.Przykład analizy Data Minning Wykorzystując wybrany np. na podstawie powyŝszego opracowania pakiet narzędzi do Data Mining, przeprowadzono przykładową analizę. Do instytucji, gdzie właśnie eksploracja danych moŝe zostać wykorzystana dla znalezienia bliskiego optymalnemu rozwiązania, z pewnością naleŝą banki. Gromadzą wiele szczegółowych informacji dotyczących swoich kredytobiorców: dochody, histo-
350 Zarządzanie wiedzą i rozwiązania Business Intelligence ria kredytowa klienta, stanowisko pracy, wiek, stan cywilny, wydatki itp. Przykładowe dane moŝna znaleźć na witrynie internetowej Uniwersytetu w Monachium(http://www.stat.uni-muenchen.de/service/datenarchiv/ kredit/kredit.html). Kiedy klient banku ubiega się o przyznanie kredytu, wtedy informacje te są uŝyteczne dla podjęcia właściwej decyzji: czy przyznać kredyt, osiągać z tego tytułu zyski, czy ryzykować moŝliwość bankructwa klienta, czy teŝ nie przyznawać kredytu, ale pomniejszyć swoje potencjalne zyski z odsetek [MLAS02]. 4.1.Liniowy model klasyfikacyjny Analizując bazy danych kredytów przyznawanych w przeszłości, generowane są reguły asocjacyjne uzaleŝniające np. regularną spłatę kredytów od pewnych cech osobowych klienta. Budując przykładowy liniowy model klasyfikacyjny dla danych dotyczących decyzji kredytowych przewidujemy, jaką decyzję podjął bank w zaleŝności od zestawu cech osoby starającej się o kredyt. W oryginalne, zbiór danych zawiera 1000 obserwacji: 300 klientów nie miało zdolności kredytowej, a 700 miało. W zborze danych mamy 20 predyktorów skategoryzowanych. W naszym przypadku wykonamy analizę na zmodyfikowanym podzbiorze, w którym proporcje decyzji pozytywnych do negatywnych są wyrównane. Stosując procedurę sprawdzająca jakość naszego modelu, tworzymy tabelę krzy- Ŝową pokazująca trafność przewidywań dla danych testowych. Z liczności trafnych i błędnych przewidywań widzimy, jak sprawnie model przewiduje decyzje dla danych z próby testowej. Przykładowa macierz pomyłek, opracowanie własne. Decyzja Przewidywanie Nie Nie[%] Tak Tak[%] Ogół Trafne 86 57,72% 115 70,12% 201 Błędne 63 42,28% 49 29,88% 112 Razem 149 100,00% 164 100,00% 313 Tabela 2 Zastosowano tu ogólne modele analizy dyskryminacyjnej (GDA) - uogólnienie zwykłej analizy dyskryminacyjnej, pozwalające na korzystanie z predyktorów skategoryzowanych. Jeśli uznamy, ze uzyskane wyniki są zadawalające, moŝemy wdroŝyć nasz model, a znalezione reguły mogą zostać zaaplikowane do nowych kredytobiorców, pozwalając na predykcję przyszłego postępowania kredytobiorcy wobec banku. 4.2.Porównanie wybranych technik modelowania W celu porównania kilku róŝnych metod i narzędzi diagnostyki modelu, pracując na dostępnej bazie danych kredytów, wygenerowano odpowiadające im
Zagadnienie wyboru narzędzia do data mining. Analiza 351 ilość błędnych klasyfikacji. Przeprowadzając analizę na oryginalnych danych, z proporcją decyzji pozytywnych do negatywnych 7/3, z prostego powodu większej częstości występowania w danych obserwacji z pozytywną decyzją kredytową - uzyskujemy gorsze wyniki dla obserwowanej klasy Nie. UŜyty model CHAID (Chisquare Automatic Interaction Detection), jest metodą drzew klasyfikacyjnych i regresyjnych, w której kolejne węzły mogą być dzielone na wiele grup (z kaŝdego węzła mogą wychodzić więcej niŝ dwie gałęzie). Obserwujemy, Ŝe metoda CHAID ma dość duŝo błędnych klasyfikacji. Najlepszy wydaje się model uzyskany metodą BT (Boosted Tress). Są to drzewa klasyfikacyjne i regresyjne ze wzmacnianiem. Dla pewnych trudnych zadań estymacji i predykcji, przewidywania generowane przez sekwencje stosunkowo prostych drzew są bliŝsze rzeczywistym wartościom, niŝ prognozy sieci neuronowych lub jednego, złoŝonego drzewa. Wzmacnianiem (ang. boosting) nazywamy tu technikę polegająca na stosowaniu sekwencji prostych modeli, przy czym kaŝdy kolejny model przykłada większą wagę do tych obserwacji, które zostały błędnie zaklasyfikowane przez poprzednie modele [STAT03]. W prowadzonej analizie zastosowano równieŝ ogólne modele drzew klasyfikacyjnych i regresyjnych (GC&RT - General Classification and Regression Trees). Wykorzystano równieŝ sieci neuronowe RBF (Radial Basis Function - sieci o radialnych funkcjach bazowych) oraz prognozy zagregowane uzyskane poprzez głosowanie modeli (Voting). Jest to metoda, w której zamiast dopasowywać model, wyszukujemy podobne obiekty. Podstawą tej metody jest intuicyjne przeświadczenie, Ŝe podobne obiekty trafią do tej samej klasy. Występowanie błędnych klasyfikacji, opracowanie własne. Tabela 3 Błędne klasyfikacje [%] BT Voting GDA RBF GC&RT CHAID PROPORCJA Tak/Nie Faktyczna decyzja: Tak 30 22 14 29 15 18 70/30 Faktyczna decyzja: Nie 24 47 58 37 57 64 Cały zbiór 28 29 29 31 29 34 PROPORCJA Tak/Nie Faktyczna decyzja: Tak 30 35 29 34 44 48 50/50 Faktyczna decyzja: Nie 31 24 33 36 31 20 Z LOSOWANIEM Cały zbiór 31 32 31 34 40 41 Przeprowadzając modyfikację i losując automatycznie zadane liczności obydwu kategorii w próbie uczącej, wg predyktora decyzja, procent błędnych przewidywań wygląda korzystniej. W próbie testowej zachowano oryginalne proporcje odpowiedzi pozytywnych i negatywnych. Tym razem błędy dla obu decyzji występują duŝo rzadziej.
352 Zarządzanie wiedzą i rozwiązania Business Intelligence 5. Podsumowanie Jednoznacznie moŝna stwierdzić, Ŝe narzędzia Data Mining mogą znacznie usprawnić proces wnioskowania oraz przyśpieszyć cykl tworzenia modelu. Trzeba teŝ pamiętać, Ŝe nie zawsze mogą one zastępować ekspertyzy statystyczne. UŜytkownicy systemów powinni testować zawarte narzędzia i powinni być wyczuleni na upgrade produktów. Literatura [MLAS02] Mirosława Lasek: Data Mining. Zastosowania w analizach i ocenach klientów bankowych, Biblioteka MenedŜera i Bankowca, Warszawa, 2002. [EGAT01] Gatnar E.: Nieparametryczna metoda dyskryminacji i regresji, PWN Warszawa, 2001. [STAT99] Marketing i statystyka, StatSoft Polska, Kraków, 1999. [BELI97] Berry M. J. A., Linoff G.: Data Mining Techniques, for Marketing, Sales and Customer Support, John Wiley &Sons, Inc., 1997. [ZABO98] Zaborski A.: Skalowanie wielowymiarowe jako metoda badań marketingowych, Akademia Ekonomiczna we Wrocławiu, Wydział Gospodarki Regionalnej i Turystyki w Jeleniej Górze, 1998. [HAKA01] Han J., Kamber M.: Data Mining, Concepts and Techniques, Morgan Kaufmann Publishers, 2001. [STAT03] STATISTICA Data Miner Manual, StatSoft Inc., 2003. [HATI02] Hastie T., Tibshirani R., Friedman J.: The Elements of Statistical Learning, Springer, 2002. [WALE93] Walesiak M.: Statystyczna analiza wielowymiarowa w badaniach marketingowych, Prace Naukowe AE, Wrocław, Monografie i Opracowania Nr 101, 1993. [WYRO02] Wyrozumski T.: Eksploracja danych dlaczego nie w przemyśle?, VIII Konferencja PLOUG Kościelisko, 2002. [ZAKR98] Zakrzewicz M.: On-Line Data Mining, Konferencja PLOUG Zakopane, 1998. [MORZ04] Morzy T.: Eksploracja danych: problemy i rozwiązania, Konferencja PLOUG Zakopane, 1999 [NISB04] internet: Nisbet R.A.: nisbetreview.pdf z dn. 05-04-04r. http://www.statsoftinc.com/company/success_stories/pdf/nisbetr eview.pdf
Zagadnienie wyboru narzędzia do data mining. Analiza 353 QUESTION OF CHOICE A DATA MINING SUITE. COMPARATIVE ANALYSIS OF SELECTED PRODUCTS AND TECHNIQUES This article provides a brief outline of some considerations that could affect your decision of apply and choice a Data Mining suite. First point of the consider is superficial presentation of some exploration applications. There is simply comparison of leading Data Minning suites, too. Next part include a case of discovery useful summaries of bank credit information data. The end of the article contain comparison of some selected data analysis tools, techniques to build models and think over conclusions. Key words: Data Mining, data exploration, classyfication.