ROLA I ORGANIZACJA METADANYCH W SYSTEMACH ANALITYCZNYCH NA PRZYKŁADZIE HURTOWNI DOKUMENTÓW. Aleksander Billewicz



Podobne dokumenty
Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Metadane w Jagiellońskiej Bibliotece Cyfrowej. Piotr Myszkowski

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Hurtownie danych - przegląd technologii

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Systemy baz danych i hurtowni danych

Tomasz Grześ. Systemy zarządzania treścią

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

Pierwsze wdrożenie SAP BW w firmie

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

bo od managera wymaga się perfekcji

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Oracle11g: Wprowadzenie do SQL

Hurtownie danych - przegląd technologii

Bazy danych. wprowadzenie teoretyczne. Piotr Prekurat 1

Standardy meta danych w administracji publicznej

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Instrukcja do panelu administracyjnego. do zarządzania kontem FTP WebAs.

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

System INTEGRYB jako zintegrowane repozytorium danych umożliwiające zaawansowaną analitykę badawczą

Hurtownie danych - opis przedmiotu

Informatyczne uwarunkowania realizacji strategii inteligentnego wspomagania biznesu

Hurtownie danych a transakcyjne bazy danych

Hurtownia danych praktyczne zastosowania

Budowa modeli wymagań dla Regionalnych Systemów Informacji Medycznej opartych o hurtownie danych

PLAN ZARZĄDZANIA WYMAGANIAMI PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

PROJEKT INTERFEJSU UśYTKOWNIKA PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

ZAAWANSOWANYCH SYSTEMÓW INFORMACYJNO-ANALITYCZNYCH

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Systemy Business Intelligence w praktyce. Maciej Kiewra

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

KURS ACCESS 2003 Wiadomości wstępne

Technologia informacyjna

Bazy danych - wykład wstępny

HARMONIZACJA DANYCH PRZESTRZENNYCH JERZY GAŹDZICKI

OfficeObjects e-forms

The Dublin Core Metadata Element Set, Ver. 1.1 a potrzeby i oczekiwania bibliotekarzy cyfrowych - analiza przypadków

BUDOWA PROCESÓW EKSTRAKCJI, TRANSFORMACJI I ŁADOWANIA DANYCH W SYSTEMACH BUSINESS INTELLIGENCE

Co to jest Business Intelligence?

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

UWARUNKOWANIA WDROśEŃ HURTOWNI DANYCH W ORGANIZACJACH GOSPODARCZYCH

System do rekrutacji nowej generacji

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Spis tre±ci. Przedmowa... Cz ± I

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Sposoby wyszukiwania multimedialnych zasobów w Internecie

Ewolucja technik modelowania hurtowni danych

OLAP i hurtownie danych c.d.

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

Paweł Gołębiewski. Softmaks.pl Sp. z o.o. ul. Kraszewskiego Bydgoszcz kontakt@softmaks.pl

Funkcjonalność oprogramowania Bazy Wiedzy i Repozytorium Politechniki Warszawskiej

Baza danych. Modele danych

IMPLEMENTATION OF WDROŻENIE COMARCHW MINISTERSTWIE FINANSÓW SINDBAD RAPORTY ANALIZY BADANIA PROGNOZY CASE STUDY 1

Federacja Bibliotek Cyfrowych w sieci PIONIER

RELACYJNE BAZY DANYCH

Marcin Heliński, Cezary Mazurek, Tomasz Parkoła, Marcin Werla

Repozytorium Uniwersytetu Jagiellońskiego

P.2.1 WSTĘPNA METODA OPISU I

Hurtownie danych. 31 stycznia 2017

Problematyka hurtowni danych

Specjalizacja magisterska Bazy danych

Szczegółowy opis przedmiotu zamówienia

Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT

Analiza i projektowanie aplikacji Java

Pojęcie bazy danych. Funkcje i możliwości.

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko

Część I Tworzenie baz danych SQL Server na potrzeby przechowywania danych

Krzysztof Kadowski. PL-E3579, PL-EA0312,

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Standaryzacja metadanych w muzealnictwie

Hurtownie danych - przegląd technologii

Modele bezpieczeństwa logicznego i ich implementacje w systemach informatycznych / Aneta Poniszewska-Marańda. Warszawa, 2013.

Rozwój polskich bibliotek cyfrowych. Tomasz Parkoła Poznańskie Centrum Superkomputerowo-Sieciowe

Czytelnik w bibliotece cyfrowej

Rozumie istotę i znacznie procesów ekstrakcji, transformacji i ładowania danych (ETL), zna wybrany język ETL oraz odpowiednie narzędzia.

Bazy danych Access KWERENDY

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

System sprzedaŝy rezerwacji

Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi

Przepływy danych. Oracle Designer: Modelowanie przepływów danych. Diagramy przepływów danych (1) Diagramy przepływów danych (2)

Procesy ETL. 10maja2009. Paweł Szołtysek

OPIS i SPECYFIKACJA TECHNICZNA

Opis spełnienia wymagań (PSBD)

technologii informacyjnych kształtowanie , procesów informacyjnych kreowanie metod dostosowania odpowiednich do tego celu środków technicznych.

Migracja Business Intelligence do wersji

Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Transkrypt:

ROLA I ORGANIZACJA METADANYCH W SYSTEMACH ANALITYCZNYCH NA PRZYKŁADZIE HURTOWNI DOKUMENTÓW Aleksander Billewicz Wprowadzenie Wiedza stanowi waŝny zasób kaŝdej organizacji i podobnie jak pozostałe zasoby wymaga ciągłego i efektywnego zarządzania. Biorąc pod uwagę fakt silnego rozproszenia wiedzy, jej sieciowy sposób powstawania, na szczególną uwagę zasługuje synteza i agregacja tego zasobu. Sytuacja taka doprowadziła do dynamicznego rozwoju systemów klasy Business Intelligence (BI), stanowiących szczególną grupę systemów informacyjno-decyzyjnych. Do ich kluczowych zadań naleŝą wspomaganie procesu podejmowania decyzji oraz udostępnianie informacji potrzebnych do realizowania celów strategicznych przedsiębiorstwa. Wymienione zadania realizowane są dzięki zastosowaniu technologii umoŝliwiającej pozyskiwanie, przechowywanie, selekcję, wielowymiarową analizę i czytelną prezentację informacji pochodzącej z róŝnych źródeł w organizacji i z jej otoczenia. Technologia ta zapewnia moŝliwość prowadzenia wielowymiarowych analiz danych historycznych, jak i prognozowanie wybranych wskaźników ekonomicznych, przy zaistnieniu określonych warunków w przyszłości [Bill04]. Jednym z problemów związanych z zarządzaniem organizacją opartą na wiedzy jest pozyskiwanie i przechowywanie danych będących źródłem tej wiedzy. Dane są często rozproszone i przechowywane w róŝnorodnych

formach. Szacuje się, Ŝe ponad 80% danych, istotnych dla efektywnego zarządzania organizacją, jest przechowywanych w formie dokumentów tekstowych lub innych dokumentów multimedialnych nie posiadających jednoznacznie określonej struktury. Kolejnym źródłem danych słabo ustrukturalizowanym, z którego firmy czerpią wiedzę o otoczeniu, jest Internet. Zasoby zgromadzone na stronach WWW, forach dyskusyjnych, poczcie e-mail, listach faq, itp. mogą stanowić waŝne źródło wiedzy o otoczeniu jak i o samej organizacji. Popularne relacyjne bazy danych (RBD) umoŝliwiają przechowywanie tego typu danych w polach BLOB. Rozwiązanie takie nie oferuje praktycznie Ŝadnych narzędzi wspomagających analizę tak przechowywanych danych. Większość systemów RBD pozwala jedynie na wykonywanie podstawowych operacji: dopisywania, usuwania, modyfikacji i częściowego wyszukiwania danych BLOB. Konieczne jest zatem poszukiwanie rozwiązań zapewniających przechowywanie oraz jednoczesną eksplorację danych pochodzących ze źródeł słaboustrukturalizowanych. Problematyka ta stanowi przedmiot intensywnych badań, co zaowocowało gwałtownym rozwojem technik i narzędzi text miningu. Narzędzia te mogą zostać zastosowane do przetwarzania danych rozproszonych, lub teŝ, korzystać z centralnych repozytoriów danych słaboustrukturalizowanych hurtowni dokumentów. W dalszej części artykułu zostały przedstawione najwaŝniejsze cechy hurtowni dokumentów oraz przykładowy model metadanych dla tej klasy systemów. Cechy hurtowni dokumentów Hurtownia dokumentów, podobnie jak hurtownia danych, stanowi tematycznie zorientowany, zintegrowany, uporządkowany w czasie i nie-

zmienny zbiór danych. W przeciwieństwie jednak do tradycyjnej hurtowni danych, której podstawowymi źródłami danych są systemy transakcyjne i relacyjne bazy danych, dane zgromadzone w hurtowni dokumentów pochodzą z przetworzonych dokumentów tekstowych lub teŝ innych dokumentów multimedialnych. Hurtownię dokumentów charakteryzują następujące cechy [IKNK98], [IsOK01], [Sull01]: NiezaleŜność od fizycznej lokalizacji dokumentów źródłowych; MoŜliwość przechowywania dokumentów o róŝnorodnej strukturze; MoŜliwość gromadzenia dokumentów z róŝnorodnych źródeł zarówno wewnętrznych jak i zewnętrznych dla organizacji; Implementacja języka zapytań umoŝliwiającego wyszukiwanie dokumentów na podstawie ich atrybutów i słów kluczowych; Gromadzenie i udostępnianie metadanych opisujących poszczególne dokumenty; Pobieranie i przechowywanie istotnych cech kaŝdego dokumentu (słowa kluczowe, streszczenia, indeksy itp.) niezaleŝnie od samego dokumentu; Automatyczna klasyfikacja dokumentów na podstawie kryteriów definiowanych przez uŝytkownika; MoŜliwość automatycznego grupowania dokumentów; Przechowywanie informacji o semantycznych powiązaniach pomiędzy dokumentami. Metadane Przechowywanie i zarządzanie metadanymi jest waŝnym zadaniem kaŝdego systemu klasy Business Intelligence (BI). Metadane są wykorzystywane do poznania zawartości danych źródłowych, śledzenia wszyst-

kich etapów przemian, jakie te dane przechodzą i ich ostatecznego opisu [PoKB00]. Ich kluczowym zadaniem jest wspomaganie zarządzanie i korzystanie z hurtowni. MoŜna wyróŝnić następujące składniki metadanych [JLVV03]: Słownik danych, obejmujący definicje obsługiwanych baz danych i relacji między elementami danych; Przepływy danych, czyli kierunek i częstotliwość przekazywania danych w systemie; Transformacje jakim podlegają dane podczas przenoszenia; Numery wersji przechowywanych metadanych oraz informacje o modyfikacjach; Statystyki uŝycia danych (profil danych); Nazwy nadane poszczególnym polom w bazie; Uprawnienia uŝytkowników dotyczące dostępu do danych. W przypadku hurtowni dokumentów, metadane moŝna podzielić na następujące kategorie [Sull01]: Opisujące zawartość dokumentów; Techniczne; Biznesowe. Metadane opisujące zawartości dokumentu są intensywnie wykorzystywane podczas przeszukiwania i pozyskiwania informacji oraz wiedzy z dokumentów tekstowych (ang. information retrieval, text mining). Stanowią one pewnego rodzaju interes pomiędzy hurtownią dokumentów i systemami wykorzystującymi jej zasoby. Zastosowanie uznanego i rozpowszechnionego standardu metadanych powinno zapewnić odpowiednią elastyczność hurtowni dokumentów w zakresie integracji z pozostałymi

komponentami systemu BI zarówno na etapie jego wdraŝania jak i późniejszego utrzymania i rozwoju. Przykładem standardu metadanych wykorzystywanego do tworzenia opisów zasobów elektronicznych jest Dublin Core Metadata Element Set (DCMS). Podstawą tego standardu jest zestaw piętnastu znaczników metadanych takich jak: zawartość (Content), tytuł (Title), twórca (Creator), opis rzeczowy (Subject), opis (Description), itp. Dalsze uszczegółowianie opisu zawartości elementów umoŝliwia rozszerzona wersja standardu - kwalifikowany Dublin Core [Prze04]. Wykorzystanie kwalifikatorów pozwala na zwiększenie semantycznej szczegółowości metadanych. W tabeli 1 przedstawiono podstawowy zbiór elementów Dublin Core. Tabela 1 Metadane dokumentu elektronicznego wg standardu Dublin Core Metadata Element Set Nazwa Opis Title (Tytuł) Nazwa nadana dokumentowi przez Twórcę lub Creator (Twórca lub Autor) Subject (Opis rzeczowy) Description (Opis) Publisher (Wydawca) Contributor (Współtwórca) Wydawcę Osoba lub organizacja pierwotnie odpowiedzialna za stworzenie treści intelektualnych dokumentu. Np. są to autorzy w przypadku dokumentów drukowanych, artyści, fotograficy, ilustratorzy dla dokumentów audiowizualnych. Temat dokumentu. Zazwyczaj opis rzeczowy wyraŝany jest za pomocą słów kluczowych lub wyra- Ŝeń określających przedmiot lub treść dokumentu. Planuje się uŝycie kontrolowanych słowników i schematów klasyfikacyjnych. Tekst opisujący treść dokumentu, taki jak abstrakt lub opis zawartości dla dokumentów wizualnych. Organizacja odpowiedzialna za udostępnienie dokumentu w jego obecnej formie, taka jak wydawnictwo, instytucja sprawcza lub inne odmiany wydawców. Osoba lub organizacja nie zamieszczona w elemencie Twórca, która posiada istotny wkład intelektualny w powstanie dokumentu, lecz wkład ten jest wtórny w stosunku do osoby lub organizacji określonej w elemencie Twórca (np. redaktor,

Nazwa Date (Data) Type (Typ) Format (Format) Identifier (Identyfikator) Source (Źródło) Language (Język) Relation (Relacja) Coverage (Miejsce i czas) Rights (Własność) Opis tłumacz lub ilustrator). Data udostępnienia dokumentu w obecnej formie. Rekomenduje się uŝycie 8-cyfrowej daty w formie RRRR-MM-DD. MoŜliwe jest uŝycie innej formy, jednak powinna ona być jednoznacznie zidentyfikowana. Rodzaj dokumentu, taki jak strona domowa, powieść, poemat, dokument roboczy, raport techniczny, słownik. Dla zapewnienia przenoszalności Typ powinien być wybierany z listy, nad którą obecnie trwają prace. Format danych w dokumencie, wykorzystywany do identyfikacji oprogramowania oraz czasem sprzętu potrzebnego do wyświetlenia i działania na dokumencie. Podobnie jak Typ, Format takŝe będzie wybierany z listy. Ciąg znaków lub numer uŝywany do indywidualnej identyfikacji dokumentu. Przykładami dla zasobów sieciowych są URL i URN. Innymi powszechnie stosowanymi identyfikatorami są ISBN i ISSN. Ciąg znaków lub numer słuŝący jednoznacznej identyfikacji dokumentu, z którego bieŝący dokument pochodzi. Np. wersja PDF powieści w elemencie Źródło moŝe zawierać ISBN powieści w formie ksiąŝkowej, na podstawie której stworzono wersję PDF. Język lub języki, w których przedstawiona została intelektualna treść dokumentu. Dostępna jest pełna lista kodów języków. Relacja pomiędzy dokumentem a innymi dokumentami. Element ten ma słuŝyć wyraŝaniu relacji istniejących pomiędzy dokumentami, które jednak istnieją samodzielnie. Np. obrazy (ilustracje) w dokumencie, rozdziały ksiąŝki lub części pliku. Czasowe i/lub przestrzenne charakterystyki dokumentu. Opis praw autorskich, copyright, lub odesłanie do serwisu dostarczającego informacji o warunkach dostępności dokumentu. Źródło: Opracowanie własne na podstawie [Noho00] Do najwaŝniejszych zalet standardu Dublin Core moŝna zaliczyć [Noho00]: Mały poziom złoŝoności - jest on prosty i zrozumiały dla większości uŝytkowników;

Spójność - dostarcza on spójne kategorie metadanych dla róŝnych typów dokumentów; Konsensus - DC ma charakter międzynarodowy, jest coraz powszechniej stosowany na wszystkich kontynentach; Elastyczność - moŝe słuŝyć do tworzenia zarówno prostych jak złoŝonych opisów; Dostosowawczość - wpisuje metadane w znane i powszechnie zrozumiałe systemy, a więc moŝe pracować w środowiskach juŝ wcześniej powstałych i działających (takich jak tradycyjne biblioteki czy przeszukiwarki internetowe). DCMS nie jest narzędziem rozwiązującym wszystkie potrzeby w zakresie metadanych opisujących zawartość dokumentów w hurtowni dokumentów. NaleŜy go raczej traktować jako podstawę do tworzenia dziedzinowych schematów metadanych umoŝliwiających bardziej rozbudowany opis źródeł. W przypadku hurtowni dokumentów, standard ten moŝna rozszerzyć o np.: Indeksy; Streszczenia; Klastry dokumentów. Metadane techniczne, są wykorzystywane do ekstrakcji, transformowania i ładowania dokumentów. Stanowią one pewne parametry określające przebieg procesów ETL i obejmują: Typy importowanych dokumentów; Lokalizacje dokumentów źródłowych (udres URL, ścieŝka dostępu w lokalnym lub sieciowym systemie plików); Docelowe tabele w hurtowni;

Metody i zasady agregowania danych; Kryteria czyszczenia danych; Częstotliwość przeszukiwania i pobierania danych; Ilość kolejnych prób odczytu; Głębokość przeszukiwania struktury danych źródłowych. Na rys. 1 przedstawiono przykładowy model metadanych opisujących dokumenty i metadanych technicznych w hurtowni dokumentów. NaleŜy podkreślić, iŝ jest to raczej logiczny model organizacji metadanych, którego fizyczna implementacja jest zaleŝna od uŝytej technologii. Rys.1. Model metadanych opisujących dokumenty i metadanych technicznych w hurtowni dokumentów Źródło: Opracowanie własne na podstawie [Sull01]

Metadane biznesowe są z wykorzystywane w procesie podejmowania decyzji przez uŝytkowników końcowych korzystających z zasobów zgromadzonych w hurtowni dokumentów. Metadane biznesowe opisują obiekty danych (bazy danych, tabele i kolumny), a takŝe obiekty informacyjne (zapytania, wykresy i raporty). Ponadto, metadane opisują wymiary, hierarchie i agregaty, które umoŝliwiają uŝytkownikom uproszczenie zapytań i poruszanie się po danych, a takŝe pozwalają na bardziej dogłębną ich analizę. Metadane biznesowe są wykorzystywane równieŝ do zarządzania uprawnieniami w hurtowni dokumentów. Większość nowoczesnych środowisk do budowy systemów analitycznych posiada własne formaty i mechanizmy zarządzania metadanymi. RóŜnorodność stosowanych standardów metadanych jest jedną z barier integracji heterogenicznych systemów, dlatego moŝna zaobserwować dąŝenie do wypracowania zunifikowanego, niezaleŝnego od platformy standardu metadanych biznesowych. Do najpopularniejszych standardów moŝna zaliczyć: Open Information Model, zastosowany np. przez firmę Microsoft w programie Microsoft Repository; Common Warehouse Model, opracowany przez Object Management Group Opis i porównanie wymienionych standardów moŝna znaleźć w [JLVV03], [VVSt00]. Podsumowanie Podczas podejmowania decyzji, podobnie jak przy kaŝdym innym działaniu, niezbędne są odpowiednie zasoby, takie jak dane, informacja, wiedza. Coraz częściej występuje problem pozyskiwania odpowiedniej wiedzy przez decydentów zgodnie z ich potrzebami.

Biorąc pod uwagę róŝnorodność źródeł pozyskiwania danych, wydaje się, Ŝe rola hurtowni dokumentów będzie coraz bardziej istotna dla efektywnego zarządzania organizacją. Na dowód tej tezy moŝna przytoczyć wyniki badań przeprowadzone przez Cutter Consortium w październiku 2003 roku. Ankietę przeprowadzono wśród 127 organizacji róŝnego rozmiaru, na całym świecie. Na pytanie, dotyczące pozyskiwania wiedzy z wykorzystaniem zaawansowanych technik text mining w portalach informacyjnych 10 % organizacji wskazało, Ŝe juŝ korzysta z rozwiązań text mining, natomiast 27% wskazało, iŝ planuje wdroŝyć takie techniki pozyskiwania wiedzy [Hall04]. Jak juŝ wcześniej zauwaŝono, hurtownie dokumentów mogą stanowić centralne repozytorium wszelkich relewantnych dokumentów w organizacji. Budowa systemu BI z wykorzystaniem hurtowni dokumentów wymaga zatem zaprojektowania spójnego i kompleksowego modelu metadanych. Model taki tworzą ustrukturalizowaną warstwę pośrednią pomiędzy danymi zgromadzonymi w hurtowni dokumentów oraz systemami analitycznymi. Hurtownia dokumentów jest rozwiązaniem komplementarnym w stosunku do hurtowni danych i razem powinny stanowić podstawę nowoczesnego systemu BI [Cody02]. Takie podejście pozwoli istotnie zwiększyć zasoby danych co, przy zastosowaniu odpowiednich narzędzi analitycznych, powinno przełoŝyć się na lepszą jakość podejmowanych decyzji. Wydaje się, Ŝe integracja środowisk hurtowni danych i hurtowni dokumentów jest jednym z kierunków rozwoju systemów BI, co wiąŝe się z koniecznością prowadzenia dalszych badań w tej dziedzinie. Integracja taka wymaga rozwiązania szeregu problemów i udzielenia odpowiedzi na następujące pytania: Jak powiązać wymiar tekstowy z wymiarem nume-

rycznym w hurtowni danych. Czy moŝliwe jest indeksowanie danych tekstowych wg tych samych kryteriów co danych numerycznych? Jakie dokumenty tekstowe wprowadzać do hurtowni? Jak mierzyć przydatność dokumentów? Literatura [Bill04] [Cody02] [Dubl02] [Hall04] [IKNK98] [IsOK01] Billewicz A.: Budowa procesów ekstrakcji, transformacji i ładowania danych w systemach Business Intelligence, w Sroka H., Porębska T. (red.), Systemy Wspomagani organizacji SWO2004, Katowice 2004. Cody W. F.: The integration of business intelligence and knowledge management. IBM Systems Journal Vol. 41, 2002. Dublin Core Metadata Element Set, Version 1.1: Reference Description http://ebib.oss.wroc.pl/standard/dc.html. Hall C.: Corporate Use of Text Mining in Enterprise Information Portals, Cutter Consortium 2004, http://www.cutter.com/bia/fulltext/advisor/2004/ bia040316.html Ishikawa H., Kubota K., Noguchi Y., Kato K., Ono M., Yoshizawa N., Kanaya A.: A Document Warehouse: A Multimedia Database Approach, 9th International Workshop on Database and Expert Systems Applications DEX- A'98, Vienna 1998. Ishikawa H., Ohta M., Kato K.: Document Warehousing: A Document-Intensive Application of Multimedia Data-

[JLVV03] [Naho00] [PoKB00] [Prze04] [Sull01] [VVSt00] base, 11th International Workshop on research Issues in Data Engineering, Heidelberg 2001. Jarke M., Lenzerini M., Vassiliou Y., Vassiliadis P.: Hurtownie danych. Podstawy organizacji i funkcjonowania, WSiP, Warszawa 2003. Nahotko M.: Metadane. Elektroniczny Biuletyn Informacyjny Bibliotekarzy nr 16 (czerwiec 2000) http://www.oss.wroc.pl/ biuletyn/ebib14/index.html Poe V., Klauer P., Brobst S.: Tworzenie hurtowni danych, Wydawnictwo Naukowo-Techniczne, Warszawa 2000. Przechlewski T.: Standardy wymiany informacji naukowej w Internecie. W Nowicki A., Jelonek D., Goliński J. (red.), Informatyka Ekonomiczna Aspekty naukowe i dydaktyczne, Częstochowa 2004. Sullivan D.: Document Warehousing and Text Mining, John Wiley & Sons 2001. Vetterli, T., Vaduva, A., and Staudt, M.: Metadata standards for data warehousing: open information model vs. common warehouse metadata. SIGMOD Rec. 29, 3 (Sep. 2000). Informacje o autorze Mgr Aleksander Billewicz Katedra Informatyki Akademia Ekonomiczna ul. Bogucicka 3 40-226 Katowice Polska Numer telefonu (fax) +48/32/2577277 e-mail: abillew@ae.katowice.pl