METODY ODKRYWANIA WIEDZY W SYSTEMACH BUSINESS INTELLIGENCE Streszczenie Wiesław Wolny Akademia Ekonomiczna Katowice wolny@ae.katowice.pl Business Intelligence nie jest pojedyńczym systemem ani produktem. Jest to architektura i zbiór aplikacji transakcyjnych i wspomagania decyzji mających na celu łatwy dostęp przez decydentów do informacji biznesowej. Oprócz standardowych metod przetwarzania danych, oferowanych przez bazy danych, BI moŝe wykorzystywać nowoczesne, oparte na sztucznej inteligencji, techniki, takie jak odkrywanie wiedzy. Odkrywanie wiedzy polega na analizie danych mającej na celu wykrycie dotychczas nieznanych, ukrytych informacji, zgromadzonych w duŝych zbiorach danych systemów transakcyjnych. Słowa kluczowe w języku referatu: inteligencja biznesowa, odkrywanie wiedzy, systemy wspomagania decyzji, systemy uczące się. Wprowadzenie Wiele organizacji zgromadziło w swoich transakcyjnych systemach informatycznych znaczne ilości danych. Dane te są potencjalnym źródłem odkrywania wartościowych informacji biznesowych. Dzięki wykorzystaniu modeli analitycznych moŝna wykryć nieznane dotychczas zaleŝności w danych. Taka informacja pozwala często osiągnąć przewagę konkurencyjną na rynku. Jest ona potrzebna managerom, kierownictwu, m. in. do zwiększenia zysków, redukcji kosztów, stworzenia innowacyjnych strategii, czy teŝ poszerzenia swojego udziału w rynku. Business Intelligence Koncepcją Business Intelligence (BI) określa się wykorzystanie posiadanych zasobów danych do usprawnienia podejmowania decyzji. BI obejmuje zintegrowane środowisko, słuŝące inteligentnemu łączeniu róŝnych informacji, wielowymiarowej analizie i ich prezentacji w wielu układach i perspektywach [OLSZ03]. Wiele z koncepcji BI nie jest nowych. Powstały one i rozwinęły się w procesie doskonalenia istniejących systemów informatycznych zarządzania, i bardziej współcześnie, hurtowni danych. BI nie jest, więc produktem ani poje-
380 Zarządzanie wiedzą i rozwiązania Business Intelligence dynczym systemem. Jest to architektura zintegrowana z systemów transakcyjnych, systemów wspomagania decyzji, baz danych mających na celu łatwy dostęp przez decydentów do informacji biznesowej. Aplikacje BI dotyczą wielu róŝnych zagadnień, w szczególności mogą obejmować m. in.: Wielowymiarową analizę danych, np. OLAP; Prognozowanie; Wizualizację danych; Zapytania, raporty, wykresy; Zarządzanie wiedzą; Odkrywanie wiedzy. Zbiory danych wykorzystywane w BI mogą być róŝnego typu. Najczęściej są to: Bazy danych z systemów transakcyjnych; Hurtownie danych obejmujące całą organizację; Składnice danych (Data Marts) obejmujące poszczególne funkcje lub działy; Internetowe bazy i hurtownie danych. Przeznaczenie tych danych moŝe być oczywiście wielorakie. W niniejszym artykule poruszono problem maszynowego uczenia się, czyli zdobywania nowej wiedzy w oparciu o dane zgromadzone w zbiorach danych. Popularną dziedziną systemów uczących się jest technika odkrywania wiedzy (Data Mining). Odkrywanie wiedzy Systemy odkrywania wiedzy nie są produktami, które moŝna kupić z półki. Tworzenie ich jest to proces wymagający budowy odpowiedniego środowiska, w szczególności wykorzystującego narzędzia odkrywania wiedzy oraz odpowiednio przetworzonych zbiorów danych. Odkrywanie wiedzy wykorzystuje zaawansowane techniki zarówno matematyczno-statystyczne jak i te oparte na sztucznej inteligencji. Odkrywanie wiedzy polega na analizie danych mającej na celu wykrycie dotychczas nieznanych, ukrytych informacji, zgromadzonych w duŝych zbiorach danych transakcyjnych. Odkrywanie wiedzy róŝni się od konwencjonalnej analizy statystycznej. Wykazuje szereg zalet w stosunku do metod statystycznych. Do najwaŝniejszych zaliczyć moŝna [MOAT03]: W przeciwieństwie do metod statystycznych odkrywanie wiedzy nie wymaga postawienia starcie Ŝadnych hipotez; Nie wymaga tworzenia funkcji, modeli itp.;
Koncepcje zastosowań metadanych w systemach informatycznych 381 UmoŜliwia przetwarzanie róŝnych typów danych, nie tylko numerycznych. Odkrywanie wiedzy pozwala znaleźć odpowiedzi na pytania, których decydenci nawet nie potrafili zadać. Dzięki swym potęŝnym moŝliwościom, odkrywanie wiedzy jest istotnym komponentem inteligencji biznesowej. MoŜna nawet stwierdzić, Ŝe odkrywanie wiedzy jest przełomem w inteligencji biznesowej. Źródła danych dla odkrywania wiedzy Bazy danych systemów BI wydają się być oczywistym źródłem danych dla potrzeb odkrywania wiedzy. Zawierają one bogactwo informacji zgromadzonej, skonsolidowanej, sprawdzonej pod względem poprawności i oczyszczonej w procesach ekstrakcji i transformacji. Bazy systemów BI mogą zawierać równieŝ wartościową informację z otoczenia, taką jak uregulowania prawne, dane demograficzne, czy informację geograficzną. Połączenie danych zewnętrznych z danymi wewnętrznymi organizacji daje doskonałe podstawy dla odkrywania wiedzy. Wadą danych zgromadzonych w systemach BI moŝe być ich zagregowanie. MoŜe ono utrudnić odkrycie ukrytych zaleŝności, związków i relacji pomiędzy danymi. Z tego powodu naleŝy wykorzystywać równieŝ nieprzetworzone dane z systemów transakcyjnych. Zawierają one szczegółowe informacje z wszystkimi ukrytymi w nich zaleŝnościami, prawidłowościami i związkami. Ich wadą, z kolei, moŝe być znaczna liczba duplikatów, nieścisłości, czy błędów. Niezbędny jest wówczas dodatkowy proces oczyszczania danych. Narzędzia odkrywania wiedzy mogą teoretycznie pobierać dane bezpośrednio z systemów transakcyjnych i baz danych systemów BI, bez potrzeby budowania własnych baz danych do odkrywania wiedzy. Jest to jednak, z kilku powodów, niezalecane. Przede wszystkim: Narzędzia odkrywania wiedzy powinny mieć moŝliwość zmiany pewnych danych. Zmiana zawartości danych operacyjnych czy BI nie jest jednak dopuszczalna. Operacje odkrywania wiedzy mogłyby mieć wpływ na wydajność systemów transakcyjnych i BI. Jest to niedopuszczalne w przypadku systemów transakcyjnych i niepoŝądane w systemach BI. Systemy odkrywania wiedzy mogą wymagać szczegółowych danych historycznych. Transakcyjne bazy danych często nie przechowują historycznych danych, a systemy BI zwykle nie zawierają ich w wystarczającym stopniu szczegółowości. Z powyŝszych powodów celowe jest wyodrębnienie potrzebnych danych z systemów transakcyjnych i BI oraz zgromadzenie ich na potrzeby odkrywania wiedzy w specjalnie do tego przeznaczonej bazie danych (rysunek 1).
382 Zarządzanie wiedzą i rozwiązania Business Intelligence Rysunek 1: Źródła danych dla aplikacji odkrywania wiedzy Źródło: Opracowanie własne. Podstawowe techniki odkrywania wiedzy Aplikacje odkrywania wiedzy posługują się specyficznymi algorytmami i technikami. Odkrywanie powiązań między danymi Ta technika uŝywana jest do wykrywania specyficznych przypadków lub procesów. Odkrywanie powiązań oparte jest na ogólnej zasadzie, jeŝeli w danym przypadku wystąpił element A, to z ustalonym prawdopodobieństwem wy-
Koncepcje zastosowań metadanych w systemach informatycznych 383 stąpi element B tego przypadku. Przykładowo moŝna odkryć zaleŝności typu: jeŝeli ktoś kupuje lepszej jakości kawę, to trzykrotnie częściej niŝ pozostali klienci kupuje teŝ droŝsze alkohole. Technika ta wykorzystywane jest przede wszystkim przez sieci sklepów detalicznych systemów celu wykrycia związków pomiędzy kupowanymi towarami. Stąd często nazywana jest jako analiza koszyka zakupów. Odkrywanie sekwencji Odkrywanie sekwencji jest podobne do odkrywania powiązań, z wyjątkiem tego, Ŝe odkrywanie sekwencji łączy dwa zdarzenia odległe w czasie i określa ich wzajemną relację względem czasu. Na przykład: jeŝeli ktoś kupił pralkę to w najbliŝszych sześciu miesiącach z prawdopodobieństwem 0,7 będzie kupował proszek do prania. Aby zwiększyć tę szansę, ponad prognozowane 70% sklep moŝe zaoferować nabywcom pralek zniŝkę na proszek do prania w okresie kilku miesięcy. Klasyfikacja Klasyfikacja jest najczęściej stosowaną techniką odkrywania wiedzy. Stosuje się ją do przypisania, do z góry ustalonych grup, poszczególnych elementów, na podstawie zachowań lub wybranych atrybutów. W odpowiednich grupach moŝna klasyfikować np. lojalnych klientów, klientów wydających duŝo pieniędzy, klientów odpowiadających na kampanie reklamowe itp. Tego typu działania prowadzi się np. w celu odkrycia charakterystyk klientów, którzy kupują (bądź nie kupują) produkty pewnego typu. Wiedza na ten temat moŝe pozwolić znacznie obniŝyć koszty promocji. Grupowanie Technika grupowania polega na zidentyfikowaniu róŝnych grup w zbiorze danych. Grupowanie jest podobne do klasyfikowania. Jedyną róŝnicą jest fakt, Ŝe nie są z góry ustalane poszczególne grupy. Istotą grupowania jest podzielenie poszczególnych elementów na grupy oparte na podobieństwie odkrytym przez program. Grupowanie stosowane jest do takich problemów jak wykrywanie wad wyrobów. Prognozowanie Techniki prognozowania w systemach odkrywania wiedzy dotyczą zagadnień analizy regresji systemów odkrywania sekwencji w czasie. W analizie regresji uŝywa się znanych wartości danych do predykcji przyszłych, nieznanych, wartości w oparciu o analizę trendu i statystykę. Odkrywanie sekwencji w czasie róŝni
384 Zarządzanie wiedzą i rozwiązania Business Intelligence się tym od analizy regresji, Ŝe prognozuje jedynie dane zaleŝne od czasu. Takimi właściwościami czasu mogą być: sezonowość, święta, weekendy itp. Zastosowania systemów odkrywania wiedzy do wspomagania decyzji Techniki odkrywania wiedzy, mimo swej przytłaczającej technologii, mogą być z powodzeniem, w ekonomicznie uzasadniony sposób, wykorzystane w aplikacjach wspomagania decyzji. Stosunkowo częstym obszarem ich zastosowań są badania rynku i klientów. Mogą one być wykonywane przy wprowadzaniu na rynek nowych produktów lub w poszerzaniu swego udziału na konkurencyjnym rynku. W oby tych przypadkach aplikacje odkrywania wiedzy pomagają podjąć decyzję jak osiągnąć załoŝone cele. Istnieje wiele typów aplikacji data minima w tej dziedzinie. Do najbardziej typowych naleŝą [MOAT03]: Badanie rynku SprzedaŜ wiązana: identyfikacja sprzedaŝy nowych, powiązanych obecnych dotychczasowymi, produktów wśród obecnych klientów, którzy zachęcani są do dokonania zakupów poprzez promocje i kampanie przy uŝyciu np. poczty elektronicznej, co znacznie obniŝa koszty. Odchodzący klienci: określenie, przy uŝyciu modelu zachowań klientów, którzy klienci zamierzają odejść, dając szanse zastosowania specjalnej strategii w celu ich zatrzymania. Kampanie promocyjne: określenie segmentacji klientów, sezonowości zakupów itp. Jest sposobem na doprecyzowanie kampanii promocyjnych. Potencjalni klienci: określenie grupy potencjalnych klientów w celu przeprowadzenia ukierunkowanej kampanii marketingowej. Analiza koszyka zakupów: określenie, przy uŝyciu danych z punktu sprzedaŝy, jakie produkty klienci kupują razem z innymi, podczas zakupów w sklepie czy supermarkecie. Następnie wykorzystanie tej informacji do odpowiedniego zgrupowania tych towarów na półkach, dostosowania poziomu zapasów, dostosowania cen, czy do odpowiedniej promocji. Wykrywanie oszustw Oszustwa przy uŝyciu kart kredytowych: zmniejszenie liczby oszustw poprzez identyfikację wzorców transakcji jak i odchyleń od tych wzorców. Oszustwa ubezpieczeniowe: analiza danych towarzystw ubezpieczeniowych w celu identyfikacji moŝliwych oszustw w ubezpieczeniach zdrowotnych, samochodowych, majątkowych i wypadkowych. Zarządzanie ryzykiem Ryzyko kredytowe: szacowanie ryzyka kredytowego w oparciu o modele predykcyjne, wyszukujące w bazach danych przyczyny i wzorce mające związek z ryzykiem.
Koncepcje zastosowań metadanych w systemach informatycznych 385 Kontrola jakości: Wyszukiwanie wzorców złej jakości na liniach montaŝowych, w celu redukcji liczby produktów o niŝszej jakości. Usługi finansowe Zatrzymywanie klientów: identyfikacja klientów banku, którzy są dochodowi, w celu zaproponowania im bardziej personalizowanej oferty. Zatrzymanie dotychczasowych klientów jest o wiele tańsze niŝ pozyskanie nowych. Analiza kursów akcji: Budowa modeli zmiany kursów akcji i zarządzania portfelami inwestycyjnymi. Dystrybucja Kontrola zapasów: poprawa zarządzania zapasami poprzez tworzenie modeli zapotrzebowania na poszczególne surowce i produkty w kolejnych przedziałach czasu. Dobrym wskaźnikiem wartości aplikacji odkrywania wiedzy jest tajemnica wokół ich zastosowania. Wiele firm, które zastosowały tą technologię, nie informuje o swych osiągnięciach. Inne firmy nawet nie potwierdzają faktu jej stosowania. Literatura [MOAT03] [OLSZ03] Moss L, Atre S.: Business Intelligence Roadmap: The Complete Project Lifecycle for Decision-Support Applications, Addison Wesley, 2003 Olszak C.: Systemy Business Intelligence w tworzeniu wiedzy organizacyjnej, AE Katowice, 2003. Business Intelligence is neither a product nor a system. It is an architecture and a collection of integrated operational as well as decision-support applications and databases that provide the business community easy access to business data. Besides standard data processing, offered by database applications, BI can use modern, based on artificial intelligence, techniques like data mining. Data mining is the analysis of data with the intent to discover gems of hidden information in the vast quantity of data that has been captured in the normal course of running the business. Key words: Business Intelligence, Data Mining, Decision Support Systems, Machine Learning