ZARZĄDZANIE NIEJEDNORODNYMI, ROZPROSZONYMI ZASOBAMI INFORMACJI



Podobne dokumenty
Usługi analityczne budowa kostki analitycznej Część pierwsza.

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Maciej Kiewra Quality Business Intelligence Consulting

Business Intelligence

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Hurtownie danych. 31 stycznia 2017

Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Oferta szkoleniowa Yosi.pl 2012/2013

Systemy baz danych i hurtowni danych

Co to jest Business Intelligence?

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Ramowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści

Proces ETL MS SQL Server Integration Services (SSIS)

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Kostki OLAP i język MDX

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Hurtownie danych a transakcyjne bazy danych

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Część I Istota analizy biznesowej a Analysis Services

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Wstęp do Business Intelligence

REFERAT O PRACY DYPLOMOWEJ

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

Spis tre±ci. Przedmowa... Cz ± I

Bazy analityczne (hurtownie danych, bazy OLAP)

Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

COMARCH DATA WAREHOUSE MANAGER 6.2

Migracja XL Business Intelligence do wersji

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Uruchamianie bazy PostgreSQL

Migracja Business Intelligence do wersji

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

ANALYSIS SERVICES. 1. Tworzymy połączenie ze źródłem danych. 2. Tworzymy nowy widok dla źródła danych

Bartłomiej Graczyk MCT,MCITP,MCTS

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS

LITERATURA. C. J. Date; Wprowadzenie do systemów baz danych WNT Warszawa 2000 ( seria Klasyka Informatyki )

Dotacje na innowacje. Inwestujemy w waszą przyszłość.

Ekspert MS SQL Server Oferta nr 00/08

Migracja Business Intelligence do wersji

PRZEWODNIK PO PRZEDMIOCIE

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Wprowadzenie do Hurtowni Danych

Projektowanie baz danych za pomocą narzędzi CASE

Pojęcie systemu baz danych

Pierwsze wdrożenie SAP BW w firmie

Leonard G. Lobel Eric D. Boyd. Azure SQL Database Krok po kroku. Microsoft. Przekład: Marek Włodarz. APN Promise, Warszawa 2014

Laboratorium Technologii Informacyjnych. Projektowanie Baz Danych

Kasy Fiskalne Lublin Analityk

Rola analityki danych w transformacji cyfrowej firmy

Program szkoleniowy Efektywni50+ Moduł V Raportowanie dla potrzeb analizy danych

Ewolucja technik modelowania hurtowni danych

Bazy danych i ich aplikacje

Instalacja SQL Server Konfiguracja SQL Server Logowanie - opcje SQL Server Management Studio. Microsoft Access Oracle Sybase DB2 MySQL

Migracja Business Intelligence do wersji

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

Hurtownie danych - przegląd technologii

Migracja Business Intelligence do wersji 11.0

Wprowadzenie do hurtowni danych

Hurtownie danych - przegląd technologii

Projektowanie architektury systemu rozproszonego. Jarosław Kuchta Projektowanie Aplikacji Internetowych

dziennik Instrukcja obsługi

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Modele danych - wykład V

PRZEWODNIK PO PRZEDMIOCIE

IBM SPSS Statistics - Essentials for Python: Instrukcje instalacji dla Windows

Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

Reporting Services. WinProg 2011/2012. Krzysztof Jeliński Dawid Gawroński 1 / 11

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

ActiveXperts SMS Messaging Server

UNIWERSYTET RZESZOWSKI KATEDRA INFORMATYKI

OLAP i hurtownie danych c.d.

Część I Rozpoczęcie pracy z usługami Reporting Services

Spis treści. Przedmowa

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

Migracja XL Business Intelligence do wersji

Zajęcia prowadzone przez MCT, auditora wiodącego systemów bezpieczeństwa informacji.

DOKUMENTACJA BI SOW PFRON. Powykonawcza. dla BI INSIGHT S.A. UL. WŁADYSŁAWA JAGIEŁŁY 4 / U3, WARSZAWA. Strona 1 z 23

Szpieg 2.0 Instrukcja użytkownika

Tworzenie aplikacji bazodanowych

Baza danych. Modele danych

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

Projekt współfinansowany przez Unię Europejską z Programu Operacyjnego Innowacyjna Gospodarka na lata ZAMAWIAJĄCY:

Organizacja zajęć BAZY DANYCH II WYKŁAD 1. Plan wykładu. SZBD Oracle

Praktyczne wykorzystanie elementów raportowania Microsoft Project 2010 /Project Server 2010 Sesja 5 PowerPivot & PowerView Bartłomiej Graczyk

Instrukcja instalacji i obsługi programu Szpieg 3

LITERATURA. Wprowadzenie do systemów baz danych C.J.Date; WNT Warszawa 2000

Wdrożenie modułu płatności eservice. dla systemu Zen Cart

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Transkrypt:

Scientific Bulletin of Chełm Section of Mathematics and Computer Science No. 1/2009 ZARZĄDZANIE NIEJEDNORODNYMI, ROZPROSZONYMI ZASOBAMI INFORMACJI DANIEL SKOWROŃSKI, ZDZISŁAW ŁOJEWSKI Uniwersytet Marii Curie-Skłodowskiej w Lublinie Streszczenie. Praca dotyczy zarządzania informacją w przypadku jej niejednorodności i rozproszenia. Pokazano, że technologie oparte na tak zwanych hurtowniach danych, przy wykorzystaniu narzędzi zlokalizowanych w systemie SQL Server 2008, pozwalają dość łatwo ujednolicić heterogeniczne dane pobrane z wielu różnych źródeł. 1. Wstęp Technologie relacyjnych baz danych [1] są w dzisiejszych czasach dominujące w dziedzinie przechowywania i przetwarzania dużych wolumenów informacji cyfrowej. W ostatnich latach zaobserwować można także gwałtowny rozwój technologii komunikacyjnych, służących wymianie danych poprzez sieci komputerowe. Połączenie technologii baz danych i nowoczesnych metod komunikacji stworzyło możliwość istnienia w firmach zdecentralizowanych systemów baz danych. Obserwujemy więc dzisiaj systemy informacyjne składające się z wielu systemów baz danych, niekiedy znacznie różniących się zarówno użytą technologią, jak i modelem przechowywanych danych. Dodatkowo, zazwyczaj wieloletnia działalność powoduje, że w systemie informatycznym istnieje wiele zasobów zawierających niejednorodne, nakładające się, a czasami nawet sprzeczne zestawy informacji. Prawdziwym wyzwaniem jest więc niekiedy przekształcenie niejednorodnych archiwów danych w źródło wiedzy, w taki sposób, aby użytkownikom przedstawiony został jeden, w pełni zintegrowany (skonsolidowany) przegląd danych, możliwy do wykorzystania w procesie wspierania decyzji biznesowych. Odpowiedzią na powyższe wyzwanie są tak zwane hurtownie danych. Koncepcja hurtowni danych została uznana za rozwiązanie [2], które realizuje wymagania stawiane systemowi zdolnemu do pobierania informacji z wielu heterogenicznych źródeł i wspierania procesów podejmowania decyzji biznesowych. W pracy został zbudowany i przedyskutowany model hurtowni danych, umożliwiający pracę z różnymi heterogenicznymi źródłami danych. Key words and phrases. relacyjne bazy danych, procesy ETL, hurtownie danych; relational database, processes ETL, warehouses. Treść artykułu była prezentowana w czasie VIII Konferencji Informatyki Stosowanej (Chełm 29-30 maja 2009 r.) 161

162 DANIEL SKOWROŃSKI, ZDZISŁAW ŁOJEWSKI Jednym z najważniejszych elementów hurtowni danych jest proces ETL [3], w którym hurtownia danych zasilana jest danymi z różnych źródeł. Do analizy tego procesu wybrano 3 heterogeniczne bazy danych oparte na trzech bardzo popularnych relacyjnych systemach bazodanowych, a mianowicie: Oracle [4], MySql [5] i PostgreSql [6]. Pozwoliło to prześledzić współpracę baz danych stworzonych w różniących się znacznie technologiach. Ten aspekt badań ma duże znaczenie praktyczne, jeśli dodać, że sama hurtownia danych zbudowana została w systemie MS SQL Server 2008 [7], który jest systemem oddanym bardzo niedawno do użytku i zawiera wiele nowych lub zmodyfikowanych funkcjonalności. System ten zawiera w swoim pakiecie komplet narzędzi niezbędnych do realizacji takiego przedsięwzięcia jakimi są hurtownie danych. W ramach projektu utworzona została również trójwarstwowa aplikacja internetowa w technologii ASP.NET [8] realizująca zasilanie danymi bazy źródłowe. 2. Hurtownia danych Hurtownie danych możemy nazwać systemami przetwarzania analitycznego (On-Line Analytical Processing - OLAP) [3, 8], w odróżnieniu od zwykłych baz danych, nazywanych systemami przetwarzania transakcyjnego (On-Line Transaction Processing - OLTP). Systemy przetwarzania analitycznego (OLAP) korzystają z danych zmagazynowanych w specjalnych strukturach bazodanowych, które są zasilane najczęściej z baz danych systemów typu OLTP, umożliwiających ich lepsze analizowanie, np. w celach raportowych, bądź obserwacji trendów, przewidywania jak najlepszej produkcji towarów, itp. Takie dane stanowią źródła dla analiz biznesowych [8]. Hurtownie danych mają zastosowanie w różnych gałęziach przemysłu i nauki, głównie jako systemy wspomagania decyzji (Decision Support Systems - DSS), przy zaawansowanym raportowaniu, odkrywaniu wiedzy (np. Data Mining), oraz systemach zarządzania kontaktami z klientami (Customer Relationship Management - CRM). Systemy tego typu są w stanie wspomóc analityków, managerów i dyrektorów, dostarczając specyficzne analizy, które zapewniają lepsze planowanie procesów biznesowych. 3. Ekstrakcja, transformacja, ładowanie (ETL) Heterogeniczne i rozproszone źródła danych zasilają hurtownię danymi za pośrednictwem warstwy oprogramowania ETL - Ekstrakcja, Transformacja, Ładowanie (ang. Extraction, Transformation, Load), (patrz rys. 1) [3, 8]. Rysunek 1. Procesy ETL

ZARZĄDZANIE NIEJEDNORODNYMI, ROZPROSZONYMI ZASOBAMI INFORMACJI 163 Podstawowymi zadaniami procesu ETL jest wykrywanie zmian w źródłach, transformacja danych do wspólnej postaci, uspójnianie, czyszczenie oraz agregowanie danych. 4. Wielowymiarowy model hurtowni danych Dane w HD organizowane są w postaci tzw. modelu wielowymiarowego, w którym wyróżnia się dwie podstawowe kategorie danych, tj. fakty i wymiary. Fakty reprezentują informacje, które podlegają analizie, np. fakt sprzedaży produktu, fakt dokonania badania lekarskiego, fakt ubezpieczenia nieruchomości, itp. Fakty są charakteryzowane ilościowo za pomocą cech zwanych miarami. Miary stanowią wartości liczbowe dla faktów. Przykładowo, miarą jest liczba zakupionych produktów, liczba przeprowadzonych badań, kwota ubezpieczenia. Wymiary ustalają szczegółowe warunki analizy danych. Przykładowo, analiza sprzedaży samochodów marki Opel Astra w poszczególnych miesiącach roku może być dokonywana w wymiarze Produktu, Sklepu (developera) i Czasu. Wymiary składają się z poziomów, które tworzą hierarchie. Jako przykład można podać wymiar Lokalizacja złożony z trzech następujących poziomów: Sklepy, Miasta i Województwa. Wymiar ten ustala hierarchię, w której sklepy należą do miast, a miasta do województw, itd. HD jest implementowana w postaci tabel, których schemat posiada najczęściej strukturę gwiazdy lub płatka śniegu (niekiedy też konstelacji faktów lub typu gwiazda-płatek śniegu). Model gwiazdy, używany w pracy i pokazany na rys. 2 prezentuje model nieznormalizowany, w którym może istnieć wiele redundancji danych. Jego logiczna struktura składa się z tabeli faktów i tabel wymiarów. Najczęściej tabela faktów posiada największą liczbę rekordów, zaś tabele wymiarów stanowią dla niej pewien rodzaj słownika. Rysunek 2. Model gwiazdy

164 DANIEL SKOWROŃSKI, ZDZISŁAW ŁOJEWSKI Faktem jest tabela Sprzedaż, wymiarami zaś tabela Towar, Czas i Klient. Fakt zawiera w sobie klucze obce do tabel wymiarów oraz dwie miary Kwota i Ilość. Wymiar Towar zawiera atrybuty modelujące ten wymiar jak Waga czy Cena. Model ten nie zachowuje hierarchii wymiarów. Każda tabela wymiarów połączona jest z tabelą faktów związkiem jeden do wielu [8, 9]. Drugi z modeli, tzw. model płatka śniegu, prezentuje model znormalizowany. Model ten prowadzi do mniej redundantnych danych. Podobnie do modelu gwiazdy, model płatka śniegu składa się z tabeli faktów i tabel wymiarów, lecz tabele wymiarów powiązane są kolejnymi tabelami wymiarów. Kolejne tabele wymiarów w hierarchiach stanowią słowniki dla poprzednich i tak do końca hierarchii [8]. W tym modelu jedynie tabele wymiarów na szczycie hierarchii połączone są związkami jeden do wielu z tabelą faktów. 5. Hurtownia danych Sieć sklepów antyków Celem projektu było przeanalizowanie modelu hurtowni danych, opartej na heterogenicznych systemach relacyjnych baz danych, często występujących w praktyce, tj. Oracle, MySql, oraz PostgreSql. Założono, że baza danych tematycznie związana jest ze sprzedażą antyków. Schematy baz danych sklepu antyków poszczególnych systemach przedstawia rys. 3. Dodatkowo, bazy różnią się w swojej strukturze. Segment hurtowni danych (aplikacji webowej) zbudowany został w środowisku MS SQL Server 2008 [7], przy pomocy narzędzia o nazwie SQL Server Business Intelligence Development Studio. Narzędzie to jest nakładką w środowisku programistycznym MS Visual Studio 2008. W tabeli 1 zaprezentowane zostały ogólne wymagania softwarowe projektu. Tabela 1: Wymagania techniczne System operacyjny Windows Vista Home Premium 64bit SP 1 Baza dla hurtowni danych MS SQL Server 2008 64bit Oracle 11g 64bit (instancja o nazwie domyślnej orcl ) Bazy źródłowe MySql 6.0.8-alpha 64bit PostgreSql 8.3.5 32bit Narzędzia dostępu do baz MySql Connector.NET 5.2.5 danych Npgsql.Net Data Provider for Postgresql Środowisko programistyczne MS Visual Studio Team System 2008 64bit Framework.NET Framework 3.5 SP 1 W celu przetestowania integracji danych pochodzących z różnych źródeł w projekcie użyto trzech popularnych systemów relacyjnych baz danych: Oracle, PostgreSql i My- SQL. Instalacja tych systemów nie stanowi większego problemu dzięki dostępnym interfejsom graficznym wspomagającym instalację krok po kroku. Problem stanowi jednak komunikacja z poziomu SSIS w środowisku 64bit, a mianowicie nie jest możliwa (przynajmniej na chwilę obecną) komunikacja przy użyciu standardowych komponentów jak ADO.NET Data Source dla systemów baz danych Oracle 11g oraz PostgreSql 8.3.5. ADO.NET Data Source to komponent umożliwiający w prosty sposób łączenie się z bazami źródłowymi w celu pobrania danych do procesu ETL.

ZARZĄDZANIE NIEJEDNORODNYMI, ROZPROSZONYMI ZASOBAMI INFORMACJI Rysunek 3. Schematy hurtowni danych i baz źródłowych 165

166 DANIEL SKOWROŃSKI, ZDZISŁAW ŁOJEWSKI W celu obejścia tego problemu, w pracy zastosowane zostały komponenty Script Component, w których zaimplementowane zostały metody połączenia i pobrania danych. Script Component to komponent umożliwiający tworzenie własnych bloków kodu w języku C# lub VB.NET. Obsługa połączenia i pobrania danych została zaimplementowana przy użyciu metod z przestrzeni nazw System.Data. 6. Architektura systemu informatycznego Projekt systemu informatycznego (hurtowni danych i systemów pomocniczych z nią powiązanych) pokazano na rys. 4. Składa się z 2 głównych segmentów, a mianowicie segmentu aplikacji webowej generującej dane do baz źródłowych dla hurtowni oraz segmentu hurtowni danych, gdzie przeprowadzany jest proces ETL, tworzona jest kostka danych oraz możliwość tworzenia raportów na bazie tej kostki. Rysunek 4. Architektura scentralizowana hurtowni danych Segment aplikacji webowej to projekt stworzony w technologii ASP.NET. Składa się z 3 warstw: - Database - jest to warstwa baz danych, w której zaimplementowana została klasa dostępu do poszczególnych źródłowych baz danych.

ZARZĄDZANIE NIEJEDNORODNYMI, ROZPROSZONYMI ZASOBAMI INFORMACJI 167 - Logic - jest to pomocnicza warstwa logiki bazodanowej dla celów testowania. W klasie tej zaimplementowane zostały metody takie jak wypełnienie baz źródłowych danymi o klientach i produktach, metody umożliwiające wprowadzenie do baz źródłowych transakcji wygenerowanych w warstwie prezentacji przez użytkownika aplikacji. - Hurtownia - warstwa prezentacji, zawierająca graficzne interfejsy użytkownika, umożliwiające zainicjowanie procesów ładowania danych domyślnych oraz generowanie przykładowych transakcji handlowych. Segment hurtowni danych składa się z 3 projektów: - Integration Services Projekt - jest to projekt typu Integration Services, w nim zbudowany został proces ETL. - Analysis Services Projekt - jest to projekt typu Analysis Services, w nim zbudowana została kostka danych oparta na danych dostarczonych do HD przez proces ETL. - Reporting Services Projekt - jest to projekt typu Reporting Services, w nim zbudowany został prosty raport wdrożony następnie na Raport Server Rysunek 5 przedstawia stronę główną utworzonej aplikacji webowej - Master page. Zapewnia ona takie elementy jak górne menu, nagłówek oraz stopkę strony. W Menu mamy dostępne pozycje Strona główna, Źródła MySql, Źródła Oracle, Źródła PostgreSql i Raporty. Kliknięcie w Raporty otwiera nowe okno, gdzie możliwe jest przeglądanie raportów tworzonych w projektach typu Reporting Services. Rysunek 5. Strona początkowa aplikacji webowej

168 DANIEL SKOWROŃSKI, ZDZISŁAW ŁOJEWSKI Przyciski Źródła... odsyłają nas na stronę, gdzie możemy przeglądać strukturę bazy danych dla poszczególnych systemów. Przykładowy wygląd dla systemu Oracle przedstawia rys. 6. Rysunek 6. Strona źródła Oracle Kliknięcie w przycisk Zasil na każdej ze stron baz źródłowych powoduje wprowadzenie danych. 7. ETL (Integration Services) SSIS (SQL Server Integration Services z ang. Usługi Integracji Danych) - stanowią element pakietu MS SQL Server. Jest to narzędzie umożliwiające przeprowadzenie procesu ETL. Bardzo ważną kwestią jest wymóg nadania użytkownikowi bazy danych wykonującemu pakiet SSIS uprawnień typu sys admin lub bulk admin (specyficznie dla MS SQL Server 2008). Jeśli tego nie zapewnimy, nie będzie możliwe, z powodu braku uprawnień, wykonanie procesu Data Flow Task (opisanego w dalszej części), który jest dla nas procesem ETL do przelania danych. SSIS posiada możliwości takie jak np. [8, 9, 10]: - import/export danych pomiędzy MS SQL Serwer a innymi bazami danych, - zaawansowane transformacje danych, - automatyzacja, zarządzanie procesami biznesowymi MS SQL Serwera, - wykonywanie dowolnych skryptów SQL, - wykonywanie powiadomień poprzez email, - możliwość wysyłania/pobierania plików poprzez protokół FTP, - wykonywanie zapytań Data Mining.

ZARZĄDZANIE NIEJEDNORODNYMI, ROZPROSZONYMI ZASOBAMI INFORMACJI 169 Graficzny interfejs pakietu SSIS pokazuje rys. 7. Rysunek 7. Panel Control Flow procesu ETL modułu SSIS Powyższy rysunek przedstawia zakładkę Control Flow pakietu SSIS. Zawiera ona kontrolki reprezentujące poszczególne zadania zaprojektowanie dla procesu ETL. Control Flow, jak sama nazwa wskazuje, wizualizuje przepływ danych w pakiecie. Zadania wykonywane są w tym projekcie w ustalonej sekwencji, zaś kolejność wykonywania zadania reprezentowana jest przez zielone strzałki. Do najważniejszych elementów na tej zakładce należą: - Kontrolka Sequence Container jest wizualizowana jako panel, do którego wprowadzane są inne kontrolki. Jej zastosowanie to wymuszenie wykonania wszystkich zadań zawartych w jej wnętrzu przed wykonaniem kolejnych zadań. - Kontrolka Data Flow Task wizualizowana jest poprzez dwie bazy danych połączone ze sobą, sama w sobie jest także kontenerem na inne kontrolki, ale to bardziej zaawansowany kontener, w którym dokonujemy transformacji pomiędzy kilkoma bazami danych i przelewamy dane pomiędzy nimi. Kontrolka ta zarazem stanowi kolejną zakładkę w pakiecie SSIS, po kliknięciu w który zarządzamy bardziej szczegółowym zadaniem w pakiecie. Kolejna zakładka w pakiecie to Data Flow. Wybór konkretnego zadania tego typu możliwy jest poprzez wybór odpowiedniego Data Flow z dostępnej listy rozwijanej. Rysunek 8 przedstawia Data Flow procesu ETL dla tabeli Klient z bazy MySql do docelowej tabeli Klient w hurtowni danych.

170 DANIEL SKOWROŃSKI, ZDZISŁAW ŁOJEWSKI Rysunek 8. PData Flow MySqlKlient 8. Przykładowa kostka danych (Analysis Services) SSAS (SQL Server Analysis Services z ang. Usługi Analityczne) stanowi element pakietu MS SQL Server. Narzędzie to daje ogromne możliwości dla analityków hurtowni danych, stanowi serce dla projektów Business Intelligence [8, 9, 10]. Kostkę danych (Hurtownia.cube) buduje się przechodząc intuicyjne kroki, klikając prawym przyciskiem na katalog Cubes i wybierając opcje utworzenia kostki. W poszczególnych krokach tego procesu określić można tabelę faktu, wybrać wymiary i miary dla utworzonego faktu. Wszystko to wykonujemy poprzez zaznaczanie/odznaczanie odpowiednich checkbox ów (rys. 9). Ponieważ utworzona hurtownia danych posiada model gwiazdy (rys. 10), nie zawiera ona żadnych hierarchii wymiarów, utworzone zostały więc sztuczne dwie hierarchie dla wymiaru czas: rok kwartał miesiąc dzień data, oraz dla wymiaru towar: kategoria nazwa. Utworzoną kostkę należy opublikować (wysłać) do MS SQL Server. W tym celu należy kliknąć prawym przyciskiem AS Project i wybrać opcję Deploy. Opublikowana kostka może służyć jako źródło raportu, możliwe jest również pisanie zapytań do kostki w języku MDX w celu dostosowana zwracanego zestawu danych do własnych potrzeb. Dla przykładu proste zapytanie MDX pobierające liczbę transakcji wszystkich produktów z podziałem na miesiące transakcji posiada składnię: SELECT { NONEMPTYCROSSJOIN([Measures].[Sprzedaz Count], [Czas].[Miesiac].ALLMEMBERS)} ON COLUMNS, { [Produkt].[Hierarchy].ALLMEMBERS } ON ROWS FROM [hurtownia]

ZARZĄDZANIE NIEJEDNORODNYMI, ROZPROSZONYMI ZASOBAMI INFORMACJI Rysunek 9. Tworzenie kostki danych Rysunek 10. Interfejs graficzny dla kostki danych 171

172 DANIEL SKOWROŃSKI, ZDZISŁAW ŁOJEWSKI Wynik powyższego zapytania prezentowany jest na rysunku 11. Zapytanie w kolumnach zwraca liczbę transakcji - Sprzedaż Count, z podziałem na miesiące. W wierszach zaś prezentowane są Produkty z uwzględnieniem hierarchii, czyli z podziałem na Kategorie. Rysunek 11. Zapytanie MDX w narzędziu SQL Server Management Studio 9. Prosty raport na bazie utworzonej kostki danych (Reporting Services) SSRS (SQL Server Reporting Services z ang. Usługi Raportowania) stanowią element pakietu MS SQL Server. Moduł ten zapewnia rozbudowane środowisko projektowania różnorodnych raportów. Raporty dostarczane są do odbiorców w różnorodnej postaci. Mogą zostać opublikowane na specjalnym serwerze raportowym nazwanym Report Server, lub np. poprzez pocztę elektroniczną [8, 9, 10]. Główne cechy SSRS to: - wydajny mechanizm przetwarzania i dostosowywania raportów, - zaawansowane zintegrowane narzędzia graficzne do budowania i zarządzania raportami, - interfejsy umożliwiające osadzanie raportów w różnych aplikacjach klienckich, - projektowane raporty mogą czerpać dane z wielu różnych źródeł jak np. SQL Server, ODBC, Oracle, SSAS, - wbudowane mechanizmy umożliwiające export do formatów np..xls czy.pdf. Dla potrzeb projektu zbudowany został prosty raport prezentujący zestawione w nagłówkach kolumn Nazwy towarów i ich kategorie, w nagłówkach wierszy zaś klienci z podziałem na płeć, a w szczegółach liczbę dokonanych transakcji (pole Sprzedaż Count ), ilość zakupionego towaru w transakcji oraz ogólna wartość transakcji (pole Wartość ). Źródłem danych dla raportu jest kostka danych opisana w poprzednim podrozdziale.

ZARZĄDZANIE NIEJEDNORODNYMI, ROZPROSZONYMI ZASOBAMI INFORMACJI 173 Utworzony raport można najpierw obejrzeć i służy do tego zakładka Preview. Po utworzeniu raport może został opublikowany na lokalnym Report Serwerze, poprzez kliknięcie prawym przyciskiem myszy na plik raportu i wybranie polecenia Deploy. Finalnie, do uprzednio utworzonej aplikacji webowej dodany został link do Report Server umożliwiający wygenerowanie raportu w oknie przeglądarki (rys.12). Rysunek 12. Raport w oknie przeglądarki 10. Podsumowanie i wnioski Celem pracy było przebadanie warunków zarządzania niejednorodnymi, rozproszonymi zasobami informacji. Sytuacja taka występuje bardzo często w firmach posiadających wieloletnie, różnorodne systemy przechowywania informacji. W pracy pokazano, że platforma MS SQL Server 2008 jest bardzo dobrym narzędziem do tworzenia procesów scalających i ujednolicających dane pochodzące z różnych systemów. Do tego celu konieczne było stworzenie hurtowni danych, grupującej i ujednolicającej dane pochodzące z takich popularnych źródeł baz danych jak MS SQL Server, Oracle, MySql i PostgreSql. Poznanie tych narzędzi w dzisiejszych czasach stanowi podstawę do biegłego posługiwania się prawie wszystkimi technologiami mającymi związek z bazami danych. Zaznajomienie się z tym segmentem nowoczesnych technologii jakimi są hurtownie danych czy też wykorzystane wielowarstwowych aplikacji internetowych w technologii ASP.NET było dużym wyzwaniem, jednak mimo wszystko nie stanowiło największego

174 DANIEL SKOWROŃSKI, ZDZISŁAW ŁOJEWSKI problemu. Największym problem było poprawne skonfigurowanie poszczególnych elementów dla 64 bitowego systemu MS Windows Vista SP1 i poprawne ich zaimplementowanie. Niestety, nowe technologie mają to do siebie, że nie zawsze wszystko zostało do końca poprawnie przemyślane i niekiedy należy znaleźć obejście problemu błędnego funkcjonowania oprogramowania. W wyniku pracy powstał system, który może przybliżyć jak skomplikowane i jak rozbudowane są systemy w wielkich korporacjach, gdzie projekt implementacji hurtowni danych może trwać nawet ponad rok czasu, a budżet przekracza miliony złotych czy dolarów. Pomimo napotkania wielu problemów doświadczenie zdobyte przy projektowaniu i implementacji tego typu projektu przyda się na pewno w przyszłości. Uważamy, że informacje zawarte w pracy są dobrym wstępem i zarysem do ogromnej dziedziny informatyki jaką są hurtownie danych. Przyszłość tej technologii nie jest jeszcze w pełni doceniania przez średnie i małe firmy, jednak duże korporacje już od wielu lat wykorzystują hurtownie danych do analizy i prognozowania rynku, w ten sposób zwiększając swoją ekspansję. Mamy nadzieję że treść zawarta w tej pracy dostarczyła wielu przydatnych i ciekawych informacji. Literatura [1] E. F. Codd, A relational model of data for large shared data banks, Comm. ACM, 13(6), 377, 1970. [2] W. H. Inmon, Building the DataWarehouse, New York, J. Wiley, 1997. [3] http://www.billinmon.com 2009 [4] http://oracle.com 2009 [5] http://mysql.com 2009 [6] http://postgresql.com 2009 [7] http://www.microsoft.com/poland/sql/ - materiały SQL Server 2008 [8] Corporate Information Factory - http://www.inmoncif.com/home/ 2009 [9] Ch. Todman. Projektowanie hurtowni danych, WNT 2003. [10] M. Jarke, M. Lenzerini, Y. Vassiliou, Hurtownie danych. Podstawy organizacji i funkcjonowania, WAiP 2003. [11] L. Langit, Foundations of SQL Server 2005 Business Intelligence, Apress 2007. [12] R. Elmasri S. B. Navathe, Wprowadzenie do systemów baz danych, Helion 2005. [13] Wykłady - J. Wróblewski, Polish-Japanese Institute of Information Technology, Institute of Mathematics, Warsaw University, http://www.jakubw.pl/zajecia/hur/index.html 2009 [14] T. Rizzo, A. Machanic, J. Skinner, SQL Server 2005, Helion 2007. [15] J. Mundy, W. Thornthwaite, R. Kimball, The Microsoft Data Warehouse Toolkit, Wiley Publishing, Inc. 2006. [16] Kimball Group - http://www.rkimball.com/ 2009 THE MANAGEMENT HETEROGENEOUS, DISPERSED RESOURCES OF INFORMATION DANIEL SKOWROŃSKI, ZDZISŁAW ŁOJEWSKI Abstract. The paper presents the problem of the information management, in the case of its inhomogeneity and dispersal. We demonstrate, that technology of the data warehouses with the tools of the SQL Server 2008 allow easily to standardize heterogeneous information taken from many different sources.