ORACLE 9i DATA MINING NARZĘDZIEM DO EKSTRAKCJI WIEDZY Z BAZ DANYCH

ORACLE 9i DATA MINING NARZĘDZIEM DO EKSTRAKCJI WIEDZY Z BAZ DANYCH Streszczenie Małgorzata Nycz, Barbara Smok Akademia Ekonomiczna we Wrocławiu {malgorzata.nycz,barbara.smok}@ae.wroc.pl Artykuł prezentuje wykorzystanie narzędzie Oracle 9i Data Mining do odkrywania wiedzy z baz danych. Układ artykułu jest następujący. Po krótkim wprowadzeniu scharakteryzowano problematykę odkrywania wiedzy, następnie przedstawiono Oracle Data Mining. W dalszej części zaprezentowano przykład zastosowania tego narzędzia do odkrywania wiedzy z bankowej bazy danych. Artykuł kończy podsumowanie przeprowadzonych rozwaŝań. Słowa kluczowe: odkrywanie wiedzy, data mining, eksploracja Wprowadzenie Dzisiaj przedsiębiorstwa stają wobec problemu posiadania, przetwarzania i zbierania coraz większych ilości danych. Rozwiązania tego problemu oferują metody Data Mining (eksploracja danych), które identyfikują wzorce i zaleŝności w rozległych obszarach danych. Wiele firm oferuje profesjonalne narzędzia analityczne wspomagające podejmowanie decyzji oraz analizy danych (oparte na systemie OLAP). Narzędzia te na podstawie danych zgromadzonych przez przedsiębiorstwo pozwalają zoptymalizować procesy zarządzania, dostarczając niezbędną informację we właściwym czasie. W odpowiedni sposób przetworzone informacje pomagają przedsiębiorstwom rozwijać się i utrzymać się na ciągle zmieniającym się w szybkim tempie rynku. Dostarczają równieŝ wiedzy pozwalającej osiągnąć przewagę nad konkurencją. Odkrywanie wiedzy Eksploracja danych (odkrywanie wiedzy z baz danych) jest procesem efektywnego znajdowania nowych, nieznanych, uŝytecznych wzorców, zaleŝności, czy związków między danymi np. w hurtowni danych. Odkrywanie wiedzy często w literaturze występuje jako synonim data mining i dotyczy zazwyczaj całego procesu pozyskiwania uŝytecznej wiedzy [MORZ99], a proces eksploracji odnosi się do jednego z jego etapów do generowania reguł. Metody eksploracji moŝna podzielić ogólnie na następujące klasy [MoWo99]: odkrywanie asocjacji,

324 Zarządzanie wiedzą i rozwiązania Business Intelligence klastrowanie, odkrywanie wzorców sekwencji, odkrywanie klasyfikacji, odkrywanie podobieństw w przebiegach czasowych, wykrywanie zmian i odchyleń. Aby dane mogły być wykorzystane do eksploracji muszą być poddane czyszczeniu, którego celem jest zapewnienie jakości i poprawności danych, szczególnie w przypadku, gdy pochodzą z heterogenicznych źródeł, gdyŝ wówczas mogą zawierać błędy i anomalie jak np.: niespójne długości pól, róŝne formaty, wartości puste, czy naruszone ograniczenia integralności. Następnym etapem jest ładowanie danych, który wymaga dodatkowego przetwarzania jak np. sprawdzenia integralności, sortowania, podsumowania. Do metod eksploracji moŝemy zaliczyć m.in.: analizę skupień świetnie nadaje się do wstępnych analiz, w przypadku gdy niewiele wiemy o naszej bazie danych i trudno nam sprecyzować pytanie; w takich sytuacjach zawsze moŝemy poszukiwać skupień, które mogą być dla nas interesujące i znaczące, sieci neuronowe są algorytmami przetwarzania danych bazującymi na konstruowaniu i rozpoznawaniu wzorców, nie ekstrahują wiedzy, nadają się do klasyfikowania danych i są niemal idealnym narzędziem do prognozowania sekwencji czasowych, drzewa decyzyjne dostarczają zrozumiałej wiedzy o danych, ich algorytmy prowadzą do rozdrobnienia danych, wyłonienia klas i przypadkowych reguł; aby tego uniknąć przycina się drzewa wykorzystując odpowiednie techniki, w przypadku analizy skupień metodę k-uśrednień oraz inne parametry jak ilość skupień, czy współczynnik metryki. Oracle Data Mining Oprogramowanie Oracle pozwala przeszukiwać ogromne bazy danych w celu znajdowania róŝnych wzorców i tendencji, które mogą wspomóc strategię biznesową oraz prezentować róŝne zaleŝności między wieloma zmiennymi. Oracle Data Mining słada się z dwóch głównych komponentów: Oracle 9i Data Mining API (ODM API) jest interfejsem programistycznym, umoŝliwiającym dostęp programom w języku Java do Data Mining Server; bazuje na nowo tworzonym standardzie Java Data Mining, Data Mining Server (DMS) jest elementem składowym wykonującym obliczenia w bazie Oracle 9i; udostępnia repozytorium, w którym są zapisywane m.in. modele oraz wyniki obliczeń. Budowa modelu eksploracji w Oracle 9i Data Mining moŝliwa jest na dwóch poziomach: funkcji i algorytmu. Na poziomie funkcji pozwala pominąć specyfikację wszystkich szczegółów algorytmu i skupić się na eksploracji, gdzie dobierany jest odpowiedni algorytm i wyznaczane są wartości wszystkich parametrów. W przypadku, gdy standardowe procedury odkrywania wzorców są niewystarczające moŝna budować model na poziomie algorytmu dostosowując proces eksploracji do własnych potrzeb. Tak zbudowane modele są przechowywane w repozytorium serwera eksploracji i mogą być wielokrotnie wykorzystywane. Na budowę modelu składa się następujące etapy: tworzenie danych wej-

Oracle 9i Data Mining narzędziem do ekstrakcji wiedzy z baz danych 325 ściowych poprzez kojarzenie obiektu reprezentującego dane z rzeczywistym źródłem danych np. relacją w bazie danych, tworzenie obiektu reprezentującego ustawienia wybranej funkcji eksploracji, wiązanie obiektu funkcji eksploracji z obiektami reprezentującymi logiczną strukturę danych i fizyczne wykorzystanie danych, tworzenie modelu wybraną metodą: klasyfikacja lub odkrywanie asocjacji. Model klasyfikacyjny moŝna przetestować w celu oszacowania dokładności klasyfikacji. Model klasyfikatora jest stosowany do zbioru danych testowych, których nie uŝyto do budowania modelu, dla których jest znana wartość klasyfikowanego atrybutu. Testowanie dostarcza macierz pomyłek, która daje nam obraz w ilu przypadkach model poprawnie sklasyfikował dane testowe, a w ilu pomylił się oraz jakiego typu były to pomyłki. Analiza macierzy pozwala na dokładniejsze dostrojenie modelu aŝ do uzyskania zadawalającej jakości klasyfikacji. Model klasyfikatora zastosowany do nowych danych powoduje obliczenie przewidywanej wartości lub klasy wraz z prawdopodobieństwem. Stosując model asocjacji moŝemy wykorzystać stworzony model do danych źródłowych, a w wyniku otrzymamy zbiór reguł asocjacyjnych odkrytych w danych źródłowych, które są składowane w repozytorium serwera eksploracyjnego. Algorytmy Oracle Data Mining moŝna zaklasyfikować do dwóch grup ze względu na sposób nauki: z nauczycielem (supervised) do przewidywania wartości na podstawie wcześniej przetworzonej próbki lub bez nauczyciela (unsupervised) do wyszukiwania struktur, relacji, czy podobieństw zawartych w danych. Na podstawie [ORAC02] moŝemy podzielić algorytmy na: klasyfikacja z nauczycielem; pozwala zaklasyfikować obiekty do kilku klas; posiadając sklasyfikowane obiekty uczymy model, który automatycznie będzie klasyfikował nowe obiekty; kaŝdy obiekt posiada atrybuty oraz jeden dodatkowy, który określa jego przynaleŝność do klasy, analiza skupień - bez nauczyciela umoŝliwia wyszukiwanie nieznanych grup w danych; grupy (skupienia) zawierają obiekty podobne do siebie, reguły kojarzące - bez nauczyciela pozwalają wyszukiwać związki miedzy danymi, przykładem moŝe być analiza koszykowa, stopień waŝności atrybutów - z nauczycielem automatycznie wyszukują atrybuty, które najmocniej wpływają na wynik. Metody klasyfikacyjne pozwalają zaklasyfikować obiekty do kilku lub więcej klas. Odbywa się to dwuetapowo: (1) posiadając sklasyfikowane obiekty uczymy model klasyfikacji, a w (2) nauczony model automatycznie klasyfikuje nowe obiekty. KaŜdy z obiektów posiada pewną liczbę atrybutów opisujących go oraz jeden przewidywalny, którego wartość określi jego przynaleŝność do odpowiedniej klasy. Do tej grupy naleŝą trzy algorytmy: Adaptive Bayes Network, Naive Bayes i Model Seeker.

326 Zarządzanie wiedzą i rozwiązania Business Intelligence Przykłady zastosowań klasyfikacji to m.in. rozpoznawanie trendów na rynkach finansowych, automatyczne rozpoznawanie obiektów w duŝych bazach obrazów, wspomaganie decyzji przyznawania kredytów bankowych. Zastosowanie Oracle Data Mining do odkrywania wiedzy Do procesu drąŝenia danych wykorzystano rzeczywisty zbiór danych opisujących klientów banku, oddziały banku oraz wzajemne relacje pomiędzy klientem a bankiem. Baza 1 dotyczy ogólnokrajowego banku prowadzącego swą działalność w Czechach. Państwo to zostało podzielone na 8 regionów oraz 77 okręgów. KaŜdy z okręgów opisany jest przy pomocy 15 atrybutów dotyczących między innymi liczby mieszkańców, miejscowości, płac, bezrobocia a nawet przestępczości w okręgu. Opisano przeszło 4 tysiące klientów przy pomocy 9 tysięcy rekordów w jednej tablicy, składającej się z 67 atrybutów. Większość klientów zamieszkuje ten sam okręg, w którym mieści się oddział banku, a jedynie około 10% ma swój bank w innym okręgu. Celem eksperymentu była analiza kredytów udzielanych przez bank klientom. Atrybut loan_status opisujący stan kredytu klienta i przyjmujący następujące wartości: A umowa zakończona, kredyt spłacony, B umowa zakończona, kredyt nie spłacony, C umowa w trakcie, dotychczas jest OK, D umowa w trakcie, klient w długach, moŝe słuŝyć do klasyfikacji klientów na tych, którym warto było udzielić kredytu i tych, którym udzielenie kredytu zakończyło się niepowodzeniem. Do tablicy dodano atrybut o nazwie UDANY przyjmujący wartość 0 dla wartości B, atrybut D loan_status - dla przypadków zakończonych niepowodzeniem oraz wartość 1 dla przypadków zakończonych powodzeniem. Bazę ograniczono do klientów, którzy zaciągali kredyt. Spośród 751 klientów 76 sklasyfikowano do grupy, w której udzielenie kredytu zakończyło się niepowodzeniem. Chcieliśmy zbadać wpływ poszczególnych atrybutów na powodzenie lub niepowodzenie spłaty kredytu przez klienta. Została wykorzystana tutaj metoda klasyfikacji oparta na Adaptacyjnej Sieci Bayesa, w której przyjęto jako wynikowy atrybut - UDANY. Oprócz zakwalifikowania obiektu do danej klasy, definiuje równieŝ reguły określające - jakie wartości atrybutów obiektów musi dany obiekt posiadać, aby został zakwalifikowany do konkretnej klasy. Przykładową regułą moŝe być: Jeśli dochód miesięczny klienta jest > 2000 zł i wiek 40 to moŝe być zainteresowany kredytem. Algorytm ten przewiduje odpowiedź w postaci binarnej (klient dostanie lub nie dostanie kredytu) lub w postaci wielowartościowej (klient jest w grupie rozwijającej się, stabilnej lub upadającej). KaŜdy z obiektów oprócz określenia 1 Baza danych przygotowana przez P. Berkę i M. Sochorovą dostępna w internecie: http://lisp.vse.cz/pkdd99/chall.htm

Oracle 9i Data Mining narzędziem do ekstrakcji wiedzy z baz danych 327 klasy posiada takŝe zdefiniowane prawdopodobieństwo dopasowujące go do tej klasy. Metoda ta składa się z trzech etapów: (1) budowy modelu na zbiorze danych historycznych, (2) testu modelu na innym zbiorze danych historycznych, (3) zastosowania modelu do danych bieŝących w celu ich klasyfikacji. Budowę modelu kończy wygenerowanie reguł. Otrzymany model (przy wykorzystaniu Oracle 9i Data Mining) został przedstawiony przy pomocy reguł przedstawionych w Tabeli 1. Model drąŝenia danych prezentujący najwaŝniejsze reguły Tabela 1 If LOAN_STATUS in (A, C) then UDANY equal (0) If LOAN_STATUS in (B, D) then UDANY equal (1) If CARD_TYPE in (C, G, J) then UDANY equal (0) If CARD_CARD_ID in (1010, 1087, 1176, 1223, 16, OTHER_CATEGORY) then UDANY equal (0) If CARD_DATE in (950502 00:00:00, 960101 00:00:00, 960911 00:00:00, 961006 00:00:00, 961027 00:00:00, OTHER_CATEGORY) then UDANY equal (0) If CARD_DISP_ID in (10887, 116, 12502, 13231, 2141, OTHER_CATEGORY) then UDANY equal (0) If TRANS_OPERATION in (B, C, D, E) then UDANY equal (0) If TRANS_BALANCE in (-1350-115809) then UDANY equal (0) If TRANS_ACCOUNT_ID in (110-11359) then UDANY equal (0) If TRANS_TRANS_ID in (53272-779076, 779076-1504880, 1504880-2230684, 2230684-2956488, 2956488-3682292) then UDANY equal (0) If TRANS_TYPE in (A, B) then UDANY equal (0) Analiza powyŝszych reguł pozwala stwierdzić, Ŝe baza, która została poddana procesowi drąŝenia danych nie zawiera wiele wiedzy. Reguły w większości przypadków są bezuŝyteczne, gdyŝ najczęściej wskazują pełną dziedzinę atrybutów. Na uwagę zasługuje jedynie fakt, iŝ nie było kłopotów z klientami, którzy na co dzień posługują się kartami kredytowymi, gdyŝ analiza wykazała, Ŝe nie było ani jednego klienta, który posługuje się kartą kredytową i nie spłacił kredytu. Specyfikacja macierzy kosztów budowy modelu nie przyniosła Ŝadnych zmian wyniku. Kolejną metodą było wykorzystanie reguł kojarzących. Metoda ta umoŝliwia wyszukiwanie związków miedzy danymi. Typowym zastosowaniem tego algorytmu jest analiza koszykowa polegająca na wyszukiwaniu powiązań między np. towarami kupowanymi razem. W metodzie tej występuje tu tylko 1 etap, którego wynikiem jest zestaw reguł w postaci: jeśli atrybut A osiąga wartość A to atrybut B przyjmuje wartość B. Reguły kojarzące moŝna definiować w oparciu o pojęcie zbioru częstego. Niech L = {l 1, l 2,..., l n } będzie zbiorem elementów (literałów), a D kolekcją transakcji o dowolnej długości i kaŝda T D i T L. Mówimy, Ŝe transakcja T wspiera element x, gdy x T oraz wspiera zbiór X, gdy T wspiera kaŝdy element x X. Wsparciem zbioru X nazywamy stosunek liczby transakcji wspierających X do liczby wszystkich transakcji.

328 Zarządzanie wiedzą i rozwiązania Business Intelligence { T D: T wspiera X} Wsparcie(X,D)= ---------------------------------- D Problem odkrywania zbiorów częstych polega na znalezieniu w danej bazie danych D wszystkich zbiorów, których wsparcie jest wyŝsze od zdefiniowanej przez uŝytkownika wartości zw. minimalnym wsparciem (minsup). Zbiór, którego wsparcie jest wyŝsze niŝ minsup nazywa się zbiorem częstym (frequent itemset). Reguła kojarząca jest implikacją postaci X Y, gdzie X L, Y L, a X Y =. KaŜda z reguł związana jest z dwoma miarami: Wsparciem (support) mówi o tym jak często wartości atrybutów występują razem, { T D: T wspiera X Y } Wsparcie(X Y,D)= ------------------------------------- D Zaufanie (confidence) reguły X Y w bazie danych jest stosunkiem liczby transakcji wspierających regułę do liczby transakcji wspierających poprzednik reguły. { T D: T wspiera X Y } Zaufanie(X Y,D)= ------------------------------------- { T D: T wspiera X} Problem odkrywania reguł asocjacyjnych polega na znalezieniu w bazie danych D wszystkich reguł, których wsparcie i zaufanie (ufność) są wyŝsze od zdefiniowanych przez uŝytkownika wartości minimalnego wsparcia i zaufania (minisup, miniconf). W metodzie tej nie ustawia się atrybutu wynikowego w związku z czym otrzymane reguły dotyczą wszystkich atrybutów. Otrzymane wyniki przedstawia Tabela 2. Analiza otrzymanych wyników nasuwa wniosek, Ŝe jeśli klient mieszka w okręgu, w którym liczba popełnionych przestępstw w 1996 roku była mniejsza niŝ 25532, to w 93 % udzielenie mu kredytu było dobrą decyzją. Wartość tego wniosku podwaŝa jednak fakt, iŝ 89% klientów spośród wszystkich zostało zaklasyfikowanych jako dobrych, więc 93% nie stanowi wielkiego przełomu. Podany przykład świadczy o tym, Ŝe nie z kaŝdej bazy moŝna wyciągnąć wartościową wiedzę. Hipotezy otrzymane w wyniku drąŝenia danych naleŝy zweryfikować. Często moŝe się zdarzyć, ze otrzymana wiedza jest trywialna i nie ma Ŝadnej wartości. Nie zmienia to jednak faktu, Ŝe moŝe się zdarzyć, iŝ koszty związane z weryfikacją bezwartościowych hipotez są niewspółmiernie niskie w stosunku zysków osiągniętych z odkrycia wartościowej wiedzy.

Oracle 9i Data Mining narzędziem do ekstrakcji wiedzy z baz danych 329 Reguły będące wynikiem działania metody Association Rules Tabela 2 Rule 28009: If ACCOUNT_DIST_A16=888-20531.8 then CLIENT_DIST_A16=888-20531.8 [support: 0.8600311, confidence: 0.98691255] Rule 28010: If CLIENT_DIST_A16=888-20531.8 then ACCOUNT_DIST_A16=888-20531.8 [support: 0.8600311, confidence: 0.9770318] Rule 27980: If CLIENT_DIST_A15=818-17789.8 then CLIENT_DIST_A16=888-20531.8 [support: 0.82115084, confidence: 1.0] Rule 27979: If CLIENT_DIST_A16=888-20531.8 then CLIENT_DIST_A15=818-17789.8 [support: 0.82115084, confidence: 0.93286216] Rule 1205: If CLIENT_DIST_A16=888-20531.8 then UDANY=.8-1 [support: 0.81596684, confidence: 0.9269729] Rule 1409: If ACCOUNT_FREQUENCY=A then UDANY=.8-1 [support: 0.777605, confidence: 0.9339975] Rule 27980: If CLIENT_DIST_A15=818-17789.8 then CLIENT_DIST_A16=888-20531.8 [support: 0.82115084, confidence: 1.0] Rule 30318: If ACCOUNT_DIST_A15=818-17789.8 then ACCOUNT_DIST_A16=888-20531.8 [support: 0.8118196, confidence: 1.0] Rule 15252: If CLIENT_DIST_A4=42821-275247.4 then CLIENT_DIST_A15=818-17789.8 [support: 0.78900987, confidence: 1.0] Rule 15254: If CLIENT_DIST_A4=42821-275247.4 then CLIENT_DIST_A16=888-20531.8 [support: 0.78900987, confidence: 1.0] Rule 15252: If CLIENT_DIST_A4=42821-275247.4 then CLIENT_DIST_A15=818-17789.8 [support: 0.78900987, confidence: 1.0] Rule 15254: If CLIENT_DIST_A4=42821-275247.4 then CLIENT_DIST_A16=888-20531.8 [support: 0.78900987, confidence: 1.0] Podsumowanie Metody eksploracji danych znalazły stosunkowo niewielkie zastosowanie w przedsiębiorstwach. Eksploracja danych ma sens w odniesieniu do duŝych i bardzo duŝych zbiorów baz danych poprzez przeprowadzenie dogłębnej analizy róŝnych baz danych (relacyjnych, obiektowych, wielowymiarowych, przestrzennych, graficznych i innych). W efekcie drąŝenia danych odkrywamy wiedzę uprzednio nieznaną lub nie uświadamianą w postaci schematów, związków, zaleŝności, anomalii, czy struktur. Eksploracja wymaga wiele pracy, gdyŝ zanim dane zostaną poddane analizie muszą być odpowiednio przygotowane. Jednak brak odpowiedniej wiedzy i aktualnej informacji w zmieniającym się otoczeniu ekonomicznym z powodu niewykorzystania tego potencjału danych moŝe często oznaczać poraŝkę firmy.

330 Zarządzanie wiedzą i rozwiązania Business Intelligence Literatura [BELI97] [BYRS02] [CHEN96] [HANJ99] [InWG97] [MORZ99] [NySm00] [NySP03] [ORAC02] [MoWo99] Berry M.J.A., Linoff G.: Data Mining Techniques for Marketing, Sales and Customer Support, Wiley Computer Publishing, 1997 Byrski M.: Data Mining w bazie Oracle 9i. Materiały z VIII Konferencji PLOUG. Kościelisko, październik 2002, s.113-122 Chen M.S. Han J., Yu P.S.: Data Mining: An Overview from a Database Perspective, IEEE Transactions on Knowledge and Data Engineering, 8(6): p.866-883, 1996 Han J. Data mining, Kluwer Academic Publishers,1999 Inmon W.H., J.D. Welch, Glassey K.L.: Managing the Data Warehouse, Wiley Comp. Publishing 1997 Morzy T.: Eksploracja danych: problemy i rozwiązania. Materiały z V Konferencji PLOUG. Zakopane, październik 1999 Nycz M., Smok B.: Problemy związane z pozyskiwaniem wiedzy z baz danych. Prace Naukowe nr 850 AE we Wrocławiu, Wrocław 2000 Nycz M., Smok B., Pondel M.: Wykorzystanie Oracle 9i Data Mining do pozyskiwania wiedzy z baz danych, w: Drelichowski L., Januszewski A., DzieŜa G. (red.): Zastosowanie technik informatycznych w gospodarce i zarządzanie wiedzą, Katedra Informatyki w Zarządzaniu, Akademia Techniczno-Rolnicza w Bydgoszczy, Bydgoszcz-Ciechocinek 2003 Oracle: Oracle 9i Data Mining Concepts Release 2(9.2), Oracle 2002 Morzy M., Wojciechowski M.: Integracja technik eksploracji danych z systemem zarządzania bazą danych na przykładzie Oracle 9i Data Mining. Materiały z Konferencji PLOUG, Zakopane październik 1999 ORACLE 9I DATA MINING AS A TOOL FOR KNOWLEDGE EXTRACTION FROM LARGE DATABASES The article presents the exemplary usage of the Oracle 9i Data Mining within knowledge extraction process from databases. It consists of four parts. After short introduction describing knowledge extraction issues, Oracle Data Mining has been presented. The next part presents example of practical exploration realized by this tool. As an example the real bank database has been taken into consideration. The paper ends with the carried out researches summary. Key words: data mining, knowledge discovery, exploration