BUDOWA PROCESÓW EKSTRAKCJI, TRANSFORMACJI I ŁADOWANIA DANYCH W SYSTEMACH BUSINESS INTELLIGENCE



Podobne dokumenty
Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Zajęcia prowadzone przez MCT, auditora wiodącego systemów bezpieczeństwa informacji.

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Hurtownie danych - przegląd technologii

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Hurtownie danych - przegląd technologii

Co to jest Business Intelligence?

Rola analityki danych w transformacji cyfrowej firmy

Systemy baz danych i hurtowni danych

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Instalacja SQL Server Konfiguracja SQL Server Logowanie - opcje SQL Server Management Studio. Microsoft Access Oracle Sybase DB2 MySQL

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Pierwsze wdrożenie SAP BW w firmie

KOMPUTEROWE WSPOMAGANIE ZARZĄDZANIA PROJEKTAMI W PRZEDSIĘBIORSTWIE

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012

Bazy danych i ich aplikacje

dlibra 3.0 Marcin Heliński

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

COMARCH DATA WAREHOUSE MANAGER 6.2

bo od managera wymaga się perfekcji

Maciej Kiewra Quality Business Intelligence Consulting

Hurtownie danych - przegląd technologii

UWARUNKOWANIA WDROśEŃ HURTOWNI DANYCH W ORGANIZACJACH GOSPODARCZYCH

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Analiza i projektowanie aplikacji Java

Problemy optymalizacji, rozbudowy i integracji systemu Edu wspomagającego e-nauczanie i e-uczenie się w PJWSTK

Wprowadzenie do Hurtowni Danych

Paweł Gołębiewski. Softmaks.pl Sp. z o.o. ul. Kraszewskiego Bydgoszcz kontakt@softmaks.pl

Automatyczne decyzje kredytowe, siła szybkiego reagowania i optymalizacji kosztów. Roman Tyszkowski ING Bank Śląski S.A. roman.tyszkowski@ingbank.

A posteriori wsparcie w podejmowaniu decyzji biznesowych.

Technologia informacyjna

Opracowanie narzędzi informatycznych dla przetwarzania danych stanowiących bazę wyjściową dla tworzenia map akustycznych

VI Kongres BOUG Praktyczne aspekty wykorzystania Business Intelligence w przemyśle wydobywczym węgla kamiennego

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

Automatyzacja Procesów Biznesowych. Systemy Informacyjne Przedsiębiorstw

Planowanie przestrzenne

Portale raportowe, a narzędzia raportowe typu self- service

Misja. Strategia. Cele UNIT4 TETA BI CENTER. Plan prezentacji. Grupa UNIT4 TETA. Grupa kapitałowa UNIT4 UNIT4 TETA BI CENTER

Specjalizacja magisterska Bazy danych

ROZWÓJ SYSTEMÓW SZTUCZNEJ INTELIGENCJI W PERSPEKTYWIE "PRZEMYSŁ 4.0"

Ramowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści

Ekspert MS SQL Server Oferta nr 00/08

firmy produkty intranet handel B2B projekty raporty notatki

ROLA I ORGANIZACJA METADANYCH W SYSTEMACH ANALITYCZNYCH NA PRZYKŁADZIE HURTOWNI DOKUMENTÓW. Aleksander Billewicz

Informacja o firmie i oferowanych rozwiązaniach

Wprowadzenie do metodologii modelowania systemów informacyjnych. Strategia (1) Strategia (2) Etapy Ŝycia systemu informacyjnego

Księgarnia PWN: Pod red. Celiny Olszak i Ewy Ziemby - Strategie i modele gospodarki elektronicznej. Spis treści

Deduplikacja danych. Zarządzanie jakością danych podstawowych

Część I Istota analizy biznesowej a Analysis Services

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

Załącznik nr 2. Zasady pracy aplikacji InteGrRej.

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Szkolenia SAS Cennik i kalendarz 2017

Szczegółowy opis przedmiotu zamówienia

OPIS PRZEDMIOTU ZAMÓWIENIA

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

1 Wprowadzenie do koncepcji Microsoft Office BI 1 Zakres ksiąŝki 2 Cel ksiąŝki 3 Wprowadzenie do tematu 3 Zawartość rozdziałów 4

Asseco CCR Comprehensive Consolidated Reporting. asseco.pl

Matryca pokrycia efektów kształcenia. Efekty kształcenia w zakresie wiedzy (cz. I)

Stawiamy na specjalizację. by CSB-System AG, Geilenkirchen Version 1.1

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Grzegorz Ruciński. Warszawska Wyższa Szkoła Informatyki Promotor dr inż. Paweł Figat

Spis tre±ci. Przedmowa... Cz ± I

Integracja systemu CAD/CAM Catia z bazą danych uchwytów obróbkowych MS Access za pomocą interfejsu API

BUSINESS INTELLIGENCE DEVELOPMENT Tego Cię nauczymy:

Platforma Cognos. Agata Tyma CMMS Department Marketing & Sales Specialist atyma@aiut.com.pl AIUT Sp. z o. o.

INŻYNIERIA OPROGRAMOWANIA

Informatyczne uwarunkowania realizacji strategii inteligentnego wspomagania biznesu

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

SiR_13 Systemy SCADA: sterowanie nadrzędne; wizualizacja procesów. MES - Manufacturing Execution System System Realizacji Produkcji

Zagadnienia egzaminacyjne INFORMATYKA. stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ

Hurtownie danych a transakcyjne bazy danych

Ewolucja technik modelowania hurtowni danych

KURS ACCESS 2003 Wiadomości wstępne

PREZENTACJA FUNKCJONALNA SYSTEMU PROPHIX

HP Service Anywhere Uproszczenie zarządzania usługami IT

Część I Rozpoczęcie pracy z usługami Reporting Services

Opracowanie systemu monitorowania zmian cen na rynku nieruchomości

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

TOPWEB Microsoft Excel 2013 i PowerBI Przygotowanie danych, analiza i efektowna prezentacja wyników raportów

Marcin Adamczak Jakub Gruszka MSP. Business Intelligence

Security Master Class


Rozumie istotę i znacznie procesów ekstrakcji, transformacji i ładowania danych (ETL), zna wybrany język ETL oraz odpowiednie narzędzia.

Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Transkrypt:

BUDOWA PROCESÓW EKSTRAKCJI, TRANSFORMACJI I ŁADOWANIA DANYCH W SYSTEMACH BUSINESS INTELLIGENCE Streszczenie Aleksander Billewicz Akademia Ekonomiczna w Katowicach Katedra Informatyki abillew@sulu.ae.katowice.pl W artykule porównano dwa sposoby budowy systemów ETL. Analizę poprzedzono charakterystyką procesów ETL oraz omówieniem funkcji jakie pełnią w systemach klasy Business Intelligence. W zakończeniu zawarto uwagi, dotyczące kierunków rozwoju narzędzi wspomagających budowę procesów ETL, wskazując równieŝ na moŝliwość ich szerszego zastosowania w organizacji. Słowa kluczowe:ładowanie danych, procesy ETL, zasilanie HD. Wstęp Systemy klasy Business Intelligence (BI) stanowią obecnie dynamicznie rozwijającą się grupę systemów informacyjno-decyzyjnych. Ich kluczowymi zadaniami są: wspomaganie procesu podejmowania decyzji oraz udostępnianie informacji potrzebnych do realizowania celów strategicznych przedsiębiorstwa. Wymienione zadania realizowane są dzięki zastosowaniu technologii umoŝliwiającej pozyskiwanie, przechowywanie, selekcję, wielowymiarową analizę i czytelną prezentację informacji pochodzącej z róŝnych źródeł w organizacji i z jej otoczenia. Technologia ta powinna zapewnić zarówno moŝliwość analizy danych historycznych jak i prognozowanie wybranych wskaźników ekonomicznych, przy zaistnieniu określonych warunków w przyszłości. W budowie systemów BI moŝna wyróŝnić cztery podstawowe moduły (warstwy), zawierające określone narzędzia (technologie), których obecność warunkuje ich funkcjonalność (por. [Dudy03], [OlZi03], [AIRR99]): Moduł integracji i składowanie stanowi trzon całościowego rozwiązania BI, zapewniając przede wszystkim dostęp do spójnych, zintegrowanych danych na poziomie całego przedsiębiorstwa. MoŜna wyróŝnić w nim dwa istotne elementy: narzędzia ekstrakcji, transformacji i ładowania danych (ETL), hurtownię danych (HD).

258 Zarządzanie wiedzą i rozwiązania Business Intelligence Moduł przetwarzania analitycznego jest z jednej strony systemem udostępniającym dane z hurtowni danych w postaci raportów statycznych lub dynamicznych. Moduł ten udostępnia równieŝ narzędzia do inteligentnej eksploracji danych, np.: algorytmy klasyfikacji, algorytmy grupowania, algorytmy genetyczne, sieci neuronowe. Moduł prezentacji wyników jest to ogół aplikacji wykorzystywanych do wizualizacji wyników pochodzących z modułu przetwarzania analitycznego. Oprócz prezentacji wyników, coraz częściej wskazuje się na konieczność implementacji mechanizmów ich dystrybucji Dotyczy to zarówno dystrybucji, w formie np. poczty e-mail, SMS, faxu, jak i harmonogramowanie samej wysyłki. Wydaje się zatem, iŝ uzasadnione jest stosowanie nazwy moduł prezentacji i dystrybucji wyników. Moduł administracji jest wykorzystywany do sterowanie pozostałymi modułami. MoŜna w nim wyodrębnić następujące funkcje: zarządzanie uprawnieniami, optymalizacja wydajności, personalizacja. Rola i miejsce procesów ETL w systemie BI Analizując model systemu klasy Business Intelligence, moŝna zauwaŝyć, iŝ warunkiem koniecznym skutecznego funkcjonowania takiego systemu jest zastosowane wydajnej składnicy zintegrowanych i historycznych danych. Dane takie, stanowią podstawę do diagnozowania jak i prognozowania stanu organizacji. Odpowiednim narzędziem moŝe być hurtownia danych, która z definicji spełnia wymienione warunki. Przydatność HD jest przede wszystkim uzaleŝniona od jakości danych w niej zgromadzonych stąd teŝ, szczególnie dokładnie naleŝy zaprojektować proces zasilania systemu danymi. WyróŜnia się w nim etapy ekstrakcji, transformacji i ładowania danych (ETL). Ekstrakcja danych pozwala na uzyskanie dostępu do danych, przechowywanych w systemach informatycznych organizacji, w celu ich załadowania do HD. Oprogramowanie realizujące ekstrakcję danych powinno równieŝ rejestrować szereg dodatkowych informacji jak np. strukturę źródeł danych, czas ekstrakcji, miejsce pochodzenia danych itp. Meta dane zgromadzone na tym etapie mogą zostać następnie wykorzystane zarówno w celu dokumentacji procesu ETL, jak i w celu objaśnienia źródeł danych i metod ich pozyskania [Micr01]. Do najwaŝniejszych problemów związanych z etapem ekstrakcji danych moŝna zaliczyć konieczność dostępu do wielu heterogenicznych źródeł (RBD, pliki tekstowe, dokumenty HTML, XML, poczta e-mail itp.) oraz identyfikację danych, które uległy zmianie od czasu poprzedniego importu. Z badań przeprowadzonych przez The Datawarehouse Institute (na zlecenie największych dostawców rozwiązań ETL tj.: Business Objects, DataMirror Corporation, Hummingbird Ltd, Informatica Corporation) wynika, Ŝe przeciętna organizacja wy-

Budowa procesów ekstrakcji, transformacji i ładowania danych 259 korzystująca HD pozyskuje informacje z dwunastu róŝnych źródeł danych [EcWh03]. Źródła te są przechowywane w róŝnorodnych formatach, z których najpopularniejsze zostały przedstawione w tabeli 1. W wyniku ekstrakcji, dane są zapisane przewaŝnie w relacyjnej bazie danych (RBD), co w istotnym stopniu ułatwia ich dalsze przetwarzanie na etapie transformacji. Dodatkowo zaleca się, aby baza taka była niezaleŝnym systemem zarówno od transakcyjnych systemów źródłowych jak i od samej hurtowni danych. Częstotliwość wykorzystania poszczególnych źródeł danych Tabela 1 RODZAJ ŹRÓDŁA DANYCH CZĘSTOTLIWOŚĆ Relacyjne bazy danych 89% Płaskie pliki tekstowe 81% Systemy mainframe 65% Systemy klasy ERP, CRM 39% Systemy replikacji danych 15% Strony WWW 15% Dokumenty XML 15% Komunikaty systemów integracji aplikacji (EAI) 12% Inne 4% Źródło: [EcWh03] Transformacja danych jest zarówno najbardziej złoŝonym etapem realizacji procesu ETL, jak i najsłabiej wspomaganym przez narzędzia informatyczne. W duŝej mierze proces ten implementowany jest za pomocą tradycyjnych języków programowania, języków skryptowych lub języka SQL. O jego złoŝoności moŝe świadczyć konieczność zaimplementowania szeregu reguł transformacji, które moŝna zaliczyć do jednej z trzech klas. Są to: reguły odwzorowania fizycznej struktury danych, reguły biznesowe zapewniające zgodność z modelowaną dziedziną, reguły biznesowe gwarantujące zgodność semantyczną pomiędzy powiązanymi danymi [Moss03]. Na tym etapie naleŝy sprowadzić dane do wspólnego formatu, obliczyć wszystkie potrzebne agregaty, zidentyfikować dane brakujące lub powtarzające się. Dopiero tak oczyszczone dane moŝna następnie odfiltrować i załadować do HD. Projektowanie procedur transformacji wymaga umiejętnego dobrania odpowiednich technik przetwarzania danych, co moŝe mieć istotny wpływ na wydajność całego procesu. Podczas procesu ETL dane po ekstrakcji są najczęściej przechowywane w tabelach tymczasowych. Zawartością tych tabel moŝna manipulować, wykorzystując np. język SQL. Niektóre programy wspomagające budowanie systemów ETL (jak np. Data Transformation Services firmy Microsoft) oferują dodatkowo moŝliwość manipulowania danymi juŝ na etapie pobierania ich ze źródła, za pomocą procedur napisanych np. w języku skryptowym. Pojawia się zatem problem, czy transformację naleŝy przeprowadzić za pomocą ję-

260 Zarządzanie wiedzą i rozwiązania Business Intelligence zyka skryptowego na etapie pobierania danych, czy teŝ wykorzystując tabele tymczasowe i język SQL. Stosując jako kryterium oceny wydajność procesu, przeprowadzono analizę czasu potrzebnego na zaimportowanie danych do RBD (za pomocą pakietu DTS), z plików tekstowych o róŝnym rozmiarze. Porównano czas potrzebny na wykonanie samego importu a następnie importu wraz z przekształceniem wybranych czterech kolumn. Transformacje (kaŝda o złoŝoności obliczeniowej N) oprogramowano wykorzystując skrypty napisane w języku VB a następnie procedury w języku T-SQL. Zaobserwowano, iŝ w przypadku małych plików, czas potrzebny na przeprowadzenie importu wraz z przekształceniem danych w języku VB był dłuŝszy niŝ w przypadku zastosowania języka T-SQL. Rozmiar pliku źródłowego nie miał istotnego wpływu na czas importu, gdy zastosowano przekształcenia w języku VB. Czas potrzebny na przeprowadzenie transformacji w języku T-SQL był krótszy dla małych plików. Wraz ze wzrostem ich rozmiarów, czas importu zaczął się wydłuŝać. Główną przyczyną tego zjawiska był ograniczony rozmiar pamięci operacyjnej (512MB) a co za tym idzie, konieczność intensywnego wykorzystywanie pliku wymiany, podczas importu plików o rozmiarze >=400MB (Tabela2). Porównanie czasów wykonania transformacji Kopiowanie (tk) Czas w sekundach Kopiowanie i transformacje SQL (tsql) Kopiowanie i tranasformacje VB (tvb) wskaźnik (tsql/tk) Tabela 2 wskaźnik (tvb/tk) Rozm. pliku (l. rekordów) 25 MB (65000) 83,00 88,00 104,67 106,02% 126,10% 50 MB (130000) 161,67 171,00 204,00 105,77% 126,19% 100 MB (260000) 340,67 361,67 420,67 106,16% 123,48% 200 MB (520000) 689,67 724,00 843,33 104,98% 122,28% 400 MB (1040000) 1355,67 1586,33 1704,00 117,01% 125,69% 800 MB (2080000) 2706,67 3343,00 3408,00 123,51% 125,91% Źródło: Opracowanie własne Ładowanie danych jest procesem, który zapewnia poprawne zasilanie systemu docelowego (przewaŝnie HD) zintegrowanymi, i oczyszczonymi danymi. Wymaga to często przestawienia systemu docelowego w tryb pracy off-line, stąd teŝ, istotne jest aby zminimalizować czas potrzebny na transfer danych. Proces ładowani przeprowadzany jest z reguły wsadowo za pomocą specjalistycznego oprogramowania (np. instrukcja BULK INSERT lub program bcp.exe w przypadku Ms SQL Server 2000). Rozwiązanie takie zapewnia wyŝszą wydajność jednak w przypadku wystąpienia błędów wycofywany jest jednak cały wsad, co utrudnia zidentyfikowanie błędnych rekordów i wygenerowanie szczegółowego

Budowa procesów ekstrakcji, transformacji i ładowania danych 261 logu. Innym sposobem zwiększenia wydajności jest wyłączenie więzów integralności w docelowej bazie danych. NaleŜy zauwaŝyć, Ŝe proces ETL ma bezpośredni wpływ na powodzenie całego przedsięwzięcia BI, poniewaŝ pochłania on przewaŝnie od 50 do 80 procent zasobów czasowych i finansowych przeznaczonych na projekt (por. [Perv03], [PBKK96], [VQVJ01]). Szczególnie istotna wydaje się optymalizacja tego procesu, ze względu na czas jego wykonania. Co więcej, z uwagi na fakt, Ŝe struktura przedsiębiorstwa, jego otoczenia oraz potrzeby informacyjne decydentów ulegają zmianom, konieczna jest permanentna modyfikacja procesów zasilania danymi. Projektując taki proces naleŝy mieć na uwadze, oprócz wydajności i spójności danych, równieŝ moŝliwość jego modyfikacji. Wydaje się, Ŝe właśnie potrzeba ciągłej modyfikacji jest jedną z istotnych przesłanek rozwoju narzędzi wspomagającego implementację procesów ETL, nazywanych w opracowaniu równieŝ generatorami ETL. Sposoby budowy procesów ETL Przedstawiona charakterystyka procesu ETL pozwala zauwaŝyć, iŝ jego implementacja nie jest zadaniem łatwym i wymaga starannego projektu, wnikliwych testów, szczegółowej i przejrzystej dokumentacji. Spełnienie tych wymagań pozwoli uzyskać spójne i wiarygodne dane będące podstawą do prowadzenia dalszych analiz. Odpowiednia dokumentacja ma istotny wpływ na obniŝenie kosztów związanych z utrzymaniem procesu ETL, co jest istotne, gdyŝ proces ten, jak juŝ wcześnie zauwaŝono, stale podlega zmianom. O istotnych trudnościach w budowie systemów zasilania danymi świadczy równieŝ fakt, iŝ w większości projektów czas przeznaczony na ten etap zostaje istotnie przekroczony z planowanych 3 miesięcy do 6 czy nawet 9 miesięcy [Kimb96]. W praktyce moŝna wyróŝnić dwa główne podejścia stosowane podczas realizacji procesu ETL. Często stosuje się rozwiązania tworzone od podstaw na potrzeby konkretnego systemu BI, oprogramowane w tradycyjnych językach programowania. W przypadku procesów ETL o homogenicznej strukturze źródeł danych oraz posiadaniu własnego, wykwalifikowanego zespołu projektowowdroŝeniowego rozwiązanie takie moŝe okazać się tańsze niŝ zakup profesjonalnego pakietu ETL. RównieŜ koszt utrzymania takiego systemu moŝe być niŝszy niŝ opłaty licencyjne wynikające z uŝytkowania profesjonalnych narzędzi ETL. Alternatywą dla przedstawionego podejścia jest wykorzystanie specjalistycznego oprogramowania wspomagającego budowę systemów ETL-generatory ETL. Są to kompleksowe środowiska wykorzystujące interfejs graficzny oraz szereg dodatkowych rozwiązań wspomagających uŝytkownika podczas budowy systemu ETL. W tabeli 3 dokonano próby porównania tych dwóch podejść wskazując ich zalety oraz wady.

262 Zarządzanie wiedzą i rozwiązania Business Intelligence Charakterystyka realizacji procesów ETL PODEJŚCIE ZALETY WADY Klasyczne (Procesy ETL składają się z szeregu procedur napisanych w typowych językach programowania) Niskie koszty nabycia środowiska programistycznego. MoŜliwość przetwarzania danych źródłowych o złoŝonej strukturze (np. powtarzające się nagłówki nr stron). Wysoka elastyczność w zakresie budowania algorytmów transformacji danych. MoŜliwość implementacji złoŝonych algorytmów ładowania łączących ładowanie wsadowe i ładowanie pojedynczych rekordów. MoŜliwość oprogramowania dowolnego zestawu raportów, dokumentujących przebieg procesu ETL. Generatory ETL Łatwość obsługi dzięki zastosowaniu GUI. Wizualna metoda projektowania i implementacji. Wysoka wydajność. MoŜliwość wielowątkowej realizacji procesu ETL. Wykorzystanie sprawdzonych i przetestowanych rozwiązań. Wygodna konserwacja. Wykorzystanie wbudowanych metod dostępu do róŝnorodnych źródeł danych (RBD, systemy mainframe, dokumenty tekstowe równieŝ HTML i XML, systemy ERP, CRM). Wykorzystanie gotowych komponentów transformacji dla typowych zadań. Wbudowany moduł raportowania. Wbudowany moduł rejestracji metadanych. Wbudowane mechanizmy harmonogramowania zadań. Źródło: Opracowanie własne Tabela 3 Konieczność opracowani indywidualnych rozwiązań dla róŝnych formatów danych. Konieczność oprogramowania kaŝdego etapu procesu ETL Niska wydajność. Brak mechanizmów automatycznej rejestracji i zarządzania metadanymi. Konieczność oprogramowania procedur rejestrujących w dziennikach przebieg procesu. Konieczność oprogramowania procedur harmonogramowania zadań. Konieczność integracji duŝej ilości niezaleŝnych programów. Konieczność szczegółowego testowania poszczególnych fragmentów kodu. Wysoki koszt zakupu. Czasochłonne rozpoznanie narzędzi. Brak narzędzi wspomagających tworzenie złoŝonych reguł ekstrakcji i transformacji danych (konieczność zastosowania w tym celu tradycyjnych języków programowania). Wysoka wydajność jest zapewniona dzięki wsadowemu ładowaniu rekordów. Utrudnia to identyfikację poszczególnych błędnych rekordów (metoda ładowania wszystko albo nic).

Budowa procesów ekstrakcji, transformacji i ładowania danych 263 Zakończenie Zalety generatorów ETL, przedstawionych w tabeli 3 przyczyniły się do ich szerokiego zastosowania w systemach klasy BI. Z badań przeprowadzonych w listopadzie 2002 roku, wśród 741 konsultantów i analityków pracujących dla duŝych przedsiębiorstw głównie w USA wynika, Ŝe w ponad 45% projektów BI zasilanie danymi było w całości tworzone przy wykorzystaniu tylko generatorów ETL. W 37% przypadków stosowane były zarówno systemy wspomagające budowę procesu ETL jak i dodatkowe programy napisane w celu jego realizacji. Tylko 18% projektów opracowano bez zastosowanie generatorów ETL. Z tych samych badań wynika, Ŝe 43% organizacji zamierza nadal rozwijać własny kod wykorzystywany do implementacji procesów ETL. 26% zamierza zastąpić, a 23% wzbogacić, własne oprogramowanie stosowane w procesach ETL, rozwiązaniami opracowanymi przy wykorzystaniu generatorów ETL. 2% przedsiębiorstw rozwaŝa moŝliwość outsorcingu prosesów ETL [EcWh03]. MoŜna zauwaŝyć, Ŝe zakres zastosowań dla narzędzi ETL jest coraz szerszy. Bogata funkcjonalność, a w szczególności wysoka wydajność, pozwala na wykorzystanie ich do integracji róŝnych systemów informatycznych, często w czasie rzeczywistym. Producenci oprogramowania zmierzają w kierunku rozszerzenia zakresu funkcjonalnego narzędzi ETL o właściwości systemów integracji aplikacji, EAI (Enterprise Application Integration), których przykładem są popularne monitory transakcyjne BEA Systems oraz platforma WebLogic [Perv03]. Narzędzia posiadające duŝą moc przetwarzania i transformacji danych (typową dla ETL) w połączeniu z moŝliwością przetwarzania danych w czasie rzeczywistym (właściwość EAI), mogą stanowić odpowiednią platformę do integracji wszystkich rozproszonych systemów informatycznych w przedsiębiorstwie. LITERATURA [Dudy03] [OlZi03] [VQVJ01] Hurtownie danych istotnym elementem zaawansowanych systemów informacyjno-analitycznych. W: Systemy Wspomagania Orgranizacji SWO2003, Katowice 2003. Olszak C., Ziemba E.: Business Intelligence as a Key to Management of an Enterprise. W: InSITE Informing Science+Information Technology Joint Conference, Pori, Finland 2003. Vassiliadis P., Quix C., Vassiliou Y., Jarke M.: The Data Warehouse Process Management, Information Systems, Vol. 26, No. 3, s. 205-236, 2001.

264 Zarządzanie wiedzą i rozwiązania Business Intelligence [Perv03] ETL-The Secret Weapon. Pervasive Software, Austin Texas, 2003.in Data Warehousing and Business Intelligence, Pervasive Software, Austin, Texas, USA 2003. [Micr01] SQL Server Resorce Kit, Microsoft Press, 2001. [Moss03] [Kimb96] [EcWh03] Moss L. T.: Business Intelligence Roadmap: The Complete Project Lifecycle for Decision Support Applications, Addison Wesley, 2003. Kimball R.: The Datawarehouse Toolkit, John Wiley & Sons, New York 1996. Eckerson W., White C.: Evaluating ETL and Data Integration Platforms, The Data Warehousing Institute, www.dwinstitute.com/etlreport., 2003. [PBKK96] Piatetsky-Shapiro G., Brachman R., Khabaza T, Kloesgen W, Simoudis E.: An Overview of Issues in Developing Industrial Data Mining and Knowledge Discovery Applications, Second International Conference on Knowledge Discovery and Data Mining, 1996. BUILDING THE ETL PROCESSES IN THE BUSINESS INTELLIGENCE SOLUTIONS Abstract This paper describes the role of the ETL processes in the Business Intelligence systems. Two different approaches to building the ETL systems are presented and compared. In the summary there are described possibilities of using the ETL processes as a systems integration framework in the enterprise. Key words: data extraction, transformation, loading, systems integration.