ROLA I ORGANIZACJA METADANYCH W SYSTEMACH ANALITYCZNYCH NA PRZYKŁADZIE HURTOWNI DOKUMENTÓW Aleksander Billewicz Wprowadzenie Wiedza stanowi waŝny zasób kaŝdej organizacji i podobnie jak pozostałe zasoby wymaga ciągłego i efektywnego zarządzania. Biorąc pod uwagę fakt silnego rozproszenia wiedzy, jej sieciowy sposób powstawania, na szczególną uwagę zasługuje synteza i agregacja tego zasobu. Sytuacja taka doprowadziła do dynamicznego rozwoju systemów klasy Business Intelligence (BI), stanowiących szczególną grupę systemów informacyjno-decyzyjnych. Do ich kluczowych zadań naleŝą wspomaganie procesu podejmowania decyzji oraz udostępnianie informacji potrzebnych do realizowania celów strategicznych przedsiębiorstwa. Wymienione zadania realizowane są dzięki zastosowaniu technologii umoŝliwiającej pozyskiwanie, przechowywanie, selekcję, wielowymiarową analizę i czytelną prezentację informacji pochodzącej z róŝnych źródeł w organizacji i z jej otoczenia. Technologia ta zapewnia moŝliwość prowadzenia wielowymiarowych analiz danych historycznych, jak i prognozowanie wybranych wskaźników ekonomicznych, przy zaistnieniu określonych warunków w przyszłości [Bill04]. Jednym z problemów związanych z zarządzaniem organizacją opartą na wiedzy jest pozyskiwanie i przechowywanie danych będących źródłem tej wiedzy. Dane są często rozproszone i przechowywane w róŝnorodnych
formach. Szacuje się, Ŝe ponad 80% danych, istotnych dla efektywnego zarządzania organizacją, jest przechowywanych w formie dokumentów tekstowych lub innych dokumentów multimedialnych nie posiadających jednoznacznie określonej struktury. Kolejnym źródłem danych słabo ustrukturalizowanym, z którego firmy czerpią wiedzę o otoczeniu, jest Internet. Zasoby zgromadzone na stronach WWW, forach dyskusyjnych, poczcie e-mail, listach faq, itp. mogą stanowić waŝne źródło wiedzy o otoczeniu jak i o samej organizacji. Popularne relacyjne bazy danych (RBD) umoŝliwiają przechowywanie tego typu danych w polach BLOB. Rozwiązanie takie nie oferuje praktycznie Ŝadnych narzędzi wspomagających analizę tak przechowywanych danych. Większość systemów RBD pozwala jedynie na wykonywanie podstawowych operacji: dopisywania, usuwania, modyfikacji i częściowego wyszukiwania danych BLOB. Konieczne jest zatem poszukiwanie rozwiązań zapewniających przechowywanie oraz jednoczesną eksplorację danych pochodzących ze źródeł słaboustrukturalizowanych. Problematyka ta stanowi przedmiot intensywnych badań, co zaowocowało gwałtownym rozwojem technik i narzędzi text miningu. Narzędzia te mogą zostać zastosowane do przetwarzania danych rozproszonych, lub teŝ, korzystać z centralnych repozytoriów danych słaboustrukturalizowanych hurtowni dokumentów. W dalszej części artykułu zostały przedstawione najwaŝniejsze cechy hurtowni dokumentów oraz przykładowy model metadanych dla tej klasy systemów. Cechy hurtowni dokumentów Hurtownia dokumentów, podobnie jak hurtownia danych, stanowi tematycznie zorientowany, zintegrowany, uporządkowany w czasie i nie-
zmienny zbiór danych. W przeciwieństwie jednak do tradycyjnej hurtowni danych, której podstawowymi źródłami danych są systemy transakcyjne i relacyjne bazy danych, dane zgromadzone w hurtowni dokumentów pochodzą z przetworzonych dokumentów tekstowych lub teŝ innych dokumentów multimedialnych. Hurtownię dokumentów charakteryzują następujące cechy [IKNK98], [IsOK01], [Sull01]: NiezaleŜność od fizycznej lokalizacji dokumentów źródłowych; MoŜliwość przechowywania dokumentów o róŝnorodnej strukturze; MoŜliwość gromadzenia dokumentów z róŝnorodnych źródeł zarówno wewnętrznych jak i zewnętrznych dla organizacji; Implementacja języka zapytań umoŝliwiającego wyszukiwanie dokumentów na podstawie ich atrybutów i słów kluczowych; Gromadzenie i udostępnianie metadanych opisujących poszczególne dokumenty; Pobieranie i przechowywanie istotnych cech kaŝdego dokumentu (słowa kluczowe, streszczenia, indeksy itp.) niezaleŝnie od samego dokumentu; Automatyczna klasyfikacja dokumentów na podstawie kryteriów definiowanych przez uŝytkownika; MoŜliwość automatycznego grupowania dokumentów; Przechowywanie informacji o semantycznych powiązaniach pomiędzy dokumentami. Metadane Przechowywanie i zarządzanie metadanymi jest waŝnym zadaniem kaŝdego systemu klasy Business Intelligence (BI). Metadane są wykorzystywane do poznania zawartości danych źródłowych, śledzenia wszyst-
kich etapów przemian, jakie te dane przechodzą i ich ostatecznego opisu [PoKB00]. Ich kluczowym zadaniem jest wspomaganie zarządzanie i korzystanie z hurtowni. MoŜna wyróŝnić następujące składniki metadanych [JLVV03]: Słownik danych, obejmujący definicje obsługiwanych baz danych i relacji między elementami danych; Przepływy danych, czyli kierunek i częstotliwość przekazywania danych w systemie; Transformacje jakim podlegają dane podczas przenoszenia; Numery wersji przechowywanych metadanych oraz informacje o modyfikacjach; Statystyki uŝycia danych (profil danych); Nazwy nadane poszczególnym polom w bazie; Uprawnienia uŝytkowników dotyczące dostępu do danych. W przypadku hurtowni dokumentów, metadane moŝna podzielić na następujące kategorie [Sull01]: Opisujące zawartość dokumentów; Techniczne; Biznesowe. Metadane opisujące zawartości dokumentu są intensywnie wykorzystywane podczas przeszukiwania i pozyskiwania informacji oraz wiedzy z dokumentów tekstowych (ang. information retrieval, text mining). Stanowią one pewnego rodzaju interes pomiędzy hurtownią dokumentów i systemami wykorzystującymi jej zasoby. Zastosowanie uznanego i rozpowszechnionego standardu metadanych powinno zapewnić odpowiednią elastyczność hurtowni dokumentów w zakresie integracji z pozostałymi
komponentami systemu BI zarówno na etapie jego wdraŝania jak i późniejszego utrzymania i rozwoju. Przykładem standardu metadanych wykorzystywanego do tworzenia opisów zasobów elektronicznych jest Dublin Core Metadata Element Set (DCMS). Podstawą tego standardu jest zestaw piętnastu znaczników metadanych takich jak: zawartość (Content), tytuł (Title), twórca (Creator), opis rzeczowy (Subject), opis (Description), itp. Dalsze uszczegółowianie opisu zawartości elementów umoŝliwia rozszerzona wersja standardu - kwalifikowany Dublin Core [Prze04]. Wykorzystanie kwalifikatorów pozwala na zwiększenie semantycznej szczegółowości metadanych. W tabeli 1 przedstawiono podstawowy zbiór elementów Dublin Core. Tabela 1 Metadane dokumentu elektronicznego wg standardu Dublin Core Metadata Element Set Nazwa Opis Title (Tytuł) Nazwa nadana dokumentowi przez Twórcę lub Creator (Twórca lub Autor) Subject (Opis rzeczowy) Description (Opis) Publisher (Wydawca) Contributor (Współtwórca) Wydawcę Osoba lub organizacja pierwotnie odpowiedzialna za stworzenie treści intelektualnych dokumentu. Np. są to autorzy w przypadku dokumentów drukowanych, artyści, fotograficy, ilustratorzy dla dokumentów audiowizualnych. Temat dokumentu. Zazwyczaj opis rzeczowy wyraŝany jest za pomocą słów kluczowych lub wyra- Ŝeń określających przedmiot lub treść dokumentu. Planuje się uŝycie kontrolowanych słowników i schematów klasyfikacyjnych. Tekst opisujący treść dokumentu, taki jak abstrakt lub opis zawartości dla dokumentów wizualnych. Organizacja odpowiedzialna za udostępnienie dokumentu w jego obecnej formie, taka jak wydawnictwo, instytucja sprawcza lub inne odmiany wydawców. Osoba lub organizacja nie zamieszczona w elemencie Twórca, która posiada istotny wkład intelektualny w powstanie dokumentu, lecz wkład ten jest wtórny w stosunku do osoby lub organizacji określonej w elemencie Twórca (np. redaktor,
Nazwa Date (Data) Type (Typ) Format (Format) Identifier (Identyfikator) Source (Źródło) Language (Język) Relation (Relacja) Coverage (Miejsce i czas) Rights (Własność) Opis tłumacz lub ilustrator). Data udostępnienia dokumentu w obecnej formie. Rekomenduje się uŝycie 8-cyfrowej daty w formie RRRR-MM-DD. MoŜliwe jest uŝycie innej formy, jednak powinna ona być jednoznacznie zidentyfikowana. Rodzaj dokumentu, taki jak strona domowa, powieść, poemat, dokument roboczy, raport techniczny, słownik. Dla zapewnienia przenoszalności Typ powinien być wybierany z listy, nad którą obecnie trwają prace. Format danych w dokumencie, wykorzystywany do identyfikacji oprogramowania oraz czasem sprzętu potrzebnego do wyświetlenia i działania na dokumencie. Podobnie jak Typ, Format takŝe będzie wybierany z listy. Ciąg znaków lub numer uŝywany do indywidualnej identyfikacji dokumentu. Przykładami dla zasobów sieciowych są URL i URN. Innymi powszechnie stosowanymi identyfikatorami są ISBN i ISSN. Ciąg znaków lub numer słuŝący jednoznacznej identyfikacji dokumentu, z którego bieŝący dokument pochodzi. Np. wersja PDF powieści w elemencie Źródło moŝe zawierać ISBN powieści w formie ksiąŝkowej, na podstawie której stworzono wersję PDF. Język lub języki, w których przedstawiona została intelektualna treść dokumentu. Dostępna jest pełna lista kodów języków. Relacja pomiędzy dokumentem a innymi dokumentami. Element ten ma słuŝyć wyraŝaniu relacji istniejących pomiędzy dokumentami, które jednak istnieją samodzielnie. Np. obrazy (ilustracje) w dokumencie, rozdziały ksiąŝki lub części pliku. Czasowe i/lub przestrzenne charakterystyki dokumentu. Opis praw autorskich, copyright, lub odesłanie do serwisu dostarczającego informacji o warunkach dostępności dokumentu. Źródło: Opracowanie własne na podstawie [Noho00] Do najwaŝniejszych zalet standardu Dublin Core moŝna zaliczyć [Noho00]: Mały poziom złoŝoności - jest on prosty i zrozumiały dla większości uŝytkowników;
Spójność - dostarcza on spójne kategorie metadanych dla róŝnych typów dokumentów; Konsensus - DC ma charakter międzynarodowy, jest coraz powszechniej stosowany na wszystkich kontynentach; Elastyczność - moŝe słuŝyć do tworzenia zarówno prostych jak złoŝonych opisów; Dostosowawczość - wpisuje metadane w znane i powszechnie zrozumiałe systemy, a więc moŝe pracować w środowiskach juŝ wcześniej powstałych i działających (takich jak tradycyjne biblioteki czy przeszukiwarki internetowe). DCMS nie jest narzędziem rozwiązującym wszystkie potrzeby w zakresie metadanych opisujących zawartość dokumentów w hurtowni dokumentów. NaleŜy go raczej traktować jako podstawę do tworzenia dziedzinowych schematów metadanych umoŝliwiających bardziej rozbudowany opis źródeł. W przypadku hurtowni dokumentów, standard ten moŝna rozszerzyć o np.: Indeksy; Streszczenia; Klastry dokumentów. Metadane techniczne, są wykorzystywane do ekstrakcji, transformowania i ładowania dokumentów. Stanowią one pewne parametry określające przebieg procesów ETL i obejmują: Typy importowanych dokumentów; Lokalizacje dokumentów źródłowych (udres URL, ścieŝka dostępu w lokalnym lub sieciowym systemie plików); Docelowe tabele w hurtowni;
Metody i zasady agregowania danych; Kryteria czyszczenia danych; Częstotliwość przeszukiwania i pobierania danych; Ilość kolejnych prób odczytu; Głębokość przeszukiwania struktury danych źródłowych. Na rys. 1 przedstawiono przykładowy model metadanych opisujących dokumenty i metadanych technicznych w hurtowni dokumentów. NaleŜy podkreślić, iŝ jest to raczej logiczny model organizacji metadanych, którego fizyczna implementacja jest zaleŝna od uŝytej technologii. Rys.1. Model metadanych opisujących dokumenty i metadanych technicznych w hurtowni dokumentów Źródło: Opracowanie własne na podstawie [Sull01]
Metadane biznesowe są z wykorzystywane w procesie podejmowania decyzji przez uŝytkowników końcowych korzystających z zasobów zgromadzonych w hurtowni dokumentów. Metadane biznesowe opisują obiekty danych (bazy danych, tabele i kolumny), a takŝe obiekty informacyjne (zapytania, wykresy i raporty). Ponadto, metadane opisują wymiary, hierarchie i agregaty, które umoŝliwiają uŝytkownikom uproszczenie zapytań i poruszanie się po danych, a takŝe pozwalają na bardziej dogłębną ich analizę. Metadane biznesowe są wykorzystywane równieŝ do zarządzania uprawnieniami w hurtowni dokumentów. Większość nowoczesnych środowisk do budowy systemów analitycznych posiada własne formaty i mechanizmy zarządzania metadanymi. RóŜnorodność stosowanych standardów metadanych jest jedną z barier integracji heterogenicznych systemów, dlatego moŝna zaobserwować dąŝenie do wypracowania zunifikowanego, niezaleŝnego od platformy standardu metadanych biznesowych. Do najpopularniejszych standardów moŝna zaliczyć: Open Information Model, zastosowany np. przez firmę Microsoft w programie Microsoft Repository; Common Warehouse Model, opracowany przez Object Management Group Opis i porównanie wymienionych standardów moŝna znaleźć w [JLVV03], [VVSt00]. Podsumowanie Podczas podejmowania decyzji, podobnie jak przy kaŝdym innym działaniu, niezbędne są odpowiednie zasoby, takie jak dane, informacja, wiedza. Coraz częściej występuje problem pozyskiwania odpowiedniej wiedzy przez decydentów zgodnie z ich potrzebami.
Biorąc pod uwagę róŝnorodność źródeł pozyskiwania danych, wydaje się, Ŝe rola hurtowni dokumentów będzie coraz bardziej istotna dla efektywnego zarządzania organizacją. Na dowód tej tezy moŝna przytoczyć wyniki badań przeprowadzone przez Cutter Consortium w październiku 2003 roku. Ankietę przeprowadzono wśród 127 organizacji róŝnego rozmiaru, na całym świecie. Na pytanie, dotyczące pozyskiwania wiedzy z wykorzystaniem zaawansowanych technik text mining w portalach informacyjnych 10 % organizacji wskazało, Ŝe juŝ korzysta z rozwiązań text mining, natomiast 27% wskazało, iŝ planuje wdroŝyć takie techniki pozyskiwania wiedzy [Hall04]. Jak juŝ wcześniej zauwaŝono, hurtownie dokumentów mogą stanowić centralne repozytorium wszelkich relewantnych dokumentów w organizacji. Budowa systemu BI z wykorzystaniem hurtowni dokumentów wymaga zatem zaprojektowania spójnego i kompleksowego modelu metadanych. Model taki tworzą ustrukturalizowaną warstwę pośrednią pomiędzy danymi zgromadzonymi w hurtowni dokumentów oraz systemami analitycznymi. Hurtownia dokumentów jest rozwiązaniem komplementarnym w stosunku do hurtowni danych i razem powinny stanowić podstawę nowoczesnego systemu BI [Cody02]. Takie podejście pozwoli istotnie zwiększyć zasoby danych co, przy zastosowaniu odpowiednich narzędzi analitycznych, powinno przełoŝyć się na lepszą jakość podejmowanych decyzji. Wydaje się, Ŝe integracja środowisk hurtowni danych i hurtowni dokumentów jest jednym z kierunków rozwoju systemów BI, co wiąŝe się z koniecznością prowadzenia dalszych badań w tej dziedzinie. Integracja taka wymaga rozwiązania szeregu problemów i udzielenia odpowiedzi na następujące pytania: Jak powiązać wymiar tekstowy z wymiarem nume-
rycznym w hurtowni danych. Czy moŝliwe jest indeksowanie danych tekstowych wg tych samych kryteriów co danych numerycznych? Jakie dokumenty tekstowe wprowadzać do hurtowni? Jak mierzyć przydatność dokumentów? Literatura [Bill04] [Cody02] [Dubl02] [Hall04] [IKNK98] [IsOK01] Billewicz A.: Budowa procesów ekstrakcji, transformacji i ładowania danych w systemach Business Intelligence, w Sroka H., Porębska T. (red.), Systemy Wspomagani organizacji SWO2004, Katowice 2004. Cody W. F.: The integration of business intelligence and knowledge management. IBM Systems Journal Vol. 41, 2002. Dublin Core Metadata Element Set, Version 1.1: Reference Description http://ebib.oss.wroc.pl/standard/dc.html. Hall C.: Corporate Use of Text Mining in Enterprise Information Portals, Cutter Consortium 2004, http://www.cutter.com/bia/fulltext/advisor/2004/ bia040316.html Ishikawa H., Kubota K., Noguchi Y., Kato K., Ono M., Yoshizawa N., Kanaya A.: A Document Warehouse: A Multimedia Database Approach, 9th International Workshop on Database and Expert Systems Applications DEX- A'98, Vienna 1998. Ishikawa H., Ohta M., Kato K.: Document Warehousing: A Document-Intensive Application of Multimedia Data-
[JLVV03] [Naho00] [PoKB00] [Prze04] [Sull01] [VVSt00] base, 11th International Workshop on research Issues in Data Engineering, Heidelberg 2001. Jarke M., Lenzerini M., Vassiliou Y., Vassiliadis P.: Hurtownie danych. Podstawy organizacji i funkcjonowania, WSiP, Warszawa 2003. Nahotko M.: Metadane. Elektroniczny Biuletyn Informacyjny Bibliotekarzy nr 16 (czerwiec 2000) http://www.oss.wroc.pl/ biuletyn/ebib14/index.html Poe V., Klauer P., Brobst S.: Tworzenie hurtowni danych, Wydawnictwo Naukowo-Techniczne, Warszawa 2000. Przechlewski T.: Standardy wymiany informacji naukowej w Internecie. W Nowicki A., Jelonek D., Goliński J. (red.), Informatyka Ekonomiczna Aspekty naukowe i dydaktyczne, Częstochowa 2004. Sullivan D.: Document Warehousing and Text Mining, John Wiley & Sons 2001. Vetterli, T., Vaduva, A., and Staudt, M.: Metadata standards for data warehousing: open information model vs. common warehouse metadata. SIGMOD Rec. 29, 3 (Sep. 2000). Informacje o autorze Mgr Aleksander Billewicz Katedra Informatyki Akademia Ekonomiczna ul. Bogucicka 3 40-226 Katowice Polska Numer telefonu (fax) +48/32/2577277 e-mail: abillew@ae.katowice.pl