Wybrane aspekty budowy łańcucha przetwarzania danych w zorientowanych usługowo rozproszonych systemach dostarczania informacji decyzyjnych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Wybrane aspekty budowy łańcucha przetwarzania danych w zorientowanych usługowo rozproszonych systemach dostarczania informacji decyzyjnych"

Transkrypt

1 Zakład Zaawansowanych Technik Informacyjnych (Z-6) Wybrane aspekty budowy łańcucha przetwarzania danych w zorientowanych usługowo rozproszonych systemach dostarczania informacji decyzyjnych Praca nr Warszawa, grudzień 2009

2 2

3 Wybrane aspekty budowy łańcucha przetwarzania danych w zorientowanych usługowo rozproszonych systemach dostarczania informacji decyzyjnych Praca nr Słowa kluczowe (maksimum 5 słów): SOA, Jakość danych, Metoda Punktów Funkcyjnych, Zarządzanie Reputacją, Sprawiedliwy Podziału Zasobów Kierownik pracy: mgr inż. Mariusz Pajer Wykonawcy pracy: mgr inż. Michał Majdan mgr inż. Paweł Olender inż. Agnieszka Gosk mgr inż. Piotr Celej Kierownik Zakładu: dr inż. Janusz Granat Copyright by Instytut Łączności, Warszawa

4 4

5 Spis Treści 1 Wstęp Metody zapewnienia jakości w usługowych łańcuchach przetwarzania Motywacja do budowy usługowo zorientowanych łańcuchów przetwarzania Massive Parallel Processing i Shared Nothing Architecture jako klucz do wydajności i efektywności Service Oriented Architecture jako klucz do efektywności i elastyczności Podsumowanie Metoda Punktów Funkcyjnych jako narzędzie konstrukcji łańcucha przetwarzania Wstęp Metoda Punktów Funkcyjnych krótka charakterystyka Podstawowe elementy metody Klasyfikacje Charakterystyka systemów informacyjnych w kontekście pomiaru wielkości Dostosowanie Metody Punktów Funkcyjnych propozycja Podsumowanie i Wnioski Zarządzanie Reputacją w Systemach Informacji Zarządczej o Niepewnej Jakości Źródeł Informacji Wstęp Operator agregacji WOWA Model systemu zarządzania reputacją Podsumowanie Sprawiedliwy podział zasobów a systemy oparte o SOA Wprowadzenie SOA w systemach wspomagania decyzji Sprawiedliwość jako warunek efektywności SOA Podsumowanie Podsumowanie...29 Bibliografia...29 Załącznik Załącznik

6 6

7 1 Wstęp Łańcuchy przetwarzania (ŁP) są jednym z podstawowych elementów nowoczesnych systemów informacyjnych. W Hurtowniach Danych (HD), które są szczególnym skłądniukiem a jednocześnie i rodzajem systemów informacyjnych, łańcuch przetwarzania jest tożsamy z kompletnym zbiorem procesów Ekstrakcji, Transformacji i Ładowania (ang. Extraction- Transorformation-Load ETL). W przypadku tradycyjnie zbudowanych systemów informacyjnych, łańcuchy składają się z procedur, funkcji lub skryptów implementowanych najczęściej w tej samej technologii lub technologiach powiązanych ze sobą poprzez narzędzia dostawcy tzw. silnika hurtowni danych. Monolityczna budowa łańcucha przetwarzania bywa często powodem wielu komplikacji już w trakcie projektowania i implementacji hurtowni danych, które wiążą się najczęściej ze zbyt płytką analizą źródeł, ograniczonym lub nie pełnym projektem koncepcyjno-funkcjonalny, heterogenicznością i nie kompatybilnością źródeł danych, ograniczeniami w zakresie dostępnych interfejsów wyjściowych. W dalszych etapach życia systemu informacyjnego, budowa monolityczna powoduje często ograniczenia w zakresie wydajności lub rozwoju systemu informatycznego, które często łączą się z podatnością na utratę jakości danych. Biorąc pod uwagę powyższe ułomności tradycyjnych monolitycznych łańcuchów przetwarzania, autorzy niniejszej pracy proponują konstruowanie elastycznych i rozproszonych łańcuchów przetwarzania danych w zorientowanych usługowo rozproszonych systemach dostarczania informacji decyzyjnych, które umożliwią przezwyciężyć ograniczenia monolitycznych łańcuchów przetwarzania. W niniejszej pracy przedstawiono kilka nowych propozycji i metod w zakresie wybranych aspektów budowy łańcucha przetwarzania danych w zorientowanych usługowo rozproszonych systemach dostarczania informacji decyzyjnych, wśród których znalazły się: problemy zapewnienia jakości, szacowanie złożoności przy użyciu metody punktów funkcyjnych, problemy zarządzania reputacją oraz problemy sprawiedliwego podziału zasobów. 2 Metody zapewnienia jakości w usługowych łańcuchach przetwarzania 2.1 Motywacja do budowy usługowo zorientowanych łańcuchów przetwarzania Schemat przepływu danych w tradycyjnym systemie dostarczającym informacje decyzyjne przedstawia Rysunek 1. Jak widać, system taki jest najczęściej oparty o monolityczną hurtownię danych, w której stosuje się dwie podstawowe formy organizacji przetwarzania i składowania danych: 1. łańcucha przetwarzania danych do informacji wyjściowej zapisywanej w Globalnym Zasobie Hurtowni Danych (GZHD) w tym przypadku procesy ETL formułują zwarty łańcuch przetwarzania, który jako monolityczny blok przetwarza dane źródłowe w informacje składowane w hurtowni danych i udostępniane użytkownikom, w tym przypadku, każda z aplikacji użytkownika może najczęściej korzystać z tego samego zestawu agregatów i wielowymiarowych kostek danych; 2. łańcucha przetwarzania do informacji operacyjnych zapisywanych w Operacyjnych Zasobach Hurtowni Danych (OZHD) i informacji wyjściowych zapisywanych w specjalizowanych Data Martach (DM) w tym przypadku łańcuch procesów ETL jest dzielony na dwa bloki, pierwszy służy do przetworzenia danych pochodzących ze źródeł danych w operacyjne dane HD składowane w Operacyjnych Zasobach Hurtowni Danych, drugi służy do przetworzenia informacji Operacyjnego Zasobu Hurtowni Danych w docelowe informacje HD, zgodne z oczekiwaniami aplikacji użytkowników, w tym przypadku, każda z aplikacji użytkownika korzystać z własnego, dedykowanego zestawu agregatów i wielowymiarowych kostek danych. 7

8 Jak widać na wymienionym rysunku, w obydwu przypadkach, procesy ETL formułują zwarty blok łańcucha przetwarzania, a jedynymi znaczącymi różnicami są: wykorzystanie OZHD, jako dodatkowego operacyjnego repozytorium danych i specjalizacja wyjściowych struktur danych dla potrzeb aplikacji użytkowników w drugiej ze stosowanych form. Źródła danych Baza danych Baza danych Procesy ETL Moduły ładowania danych Moduły transformacji danych Hurtownia Danych Globalny zasób HD Operacyjne zasoby HD Interfejsy użytkownika HD Aplikacja OLAP 1 S Pliki Moduły ekstrakcji danych Moduły TL Aplikacja OLAP n S OLTP Data Mart(y) Monolityczna Hurtownia Danych Rysunek 1: Schemat przepływu danych w systemie informacyjnym opartym o tradycyjną hurtownię danych Tradycyjny monolityczny łańcuch przetwarzania jest nie adekwatny wobec potrzeb odbiorców informacji decyzyjnych, którzy zgłaszają potrzeby w zakresie: 1. dodawania nowych typów źródeł danych (ŹD, ang. Data Source DS), którymi mogą być na przykład strumienie danych czy sieci czujników; 2. integracji danych pochodzących z wielu heterogenicznych źródeł danych, np. baz danych, plików tekstowych i binarne, dokumentów HTML i XML, różnorodnych systemów transakcyjnych (ang. On-line Transaction Processing OLTP); 3. adaptacji używanych łańcuchów przetwarzania do lawinowo narastającej liczby i różnorodności ładowanych danych, które pochodzą ze zmiennych w czasie źródeł danych; 4. dostarczania zawsze aktualnych danych w wyjściowych strukturach GZHD lub Data Mart, przy czym oznacza to, że użytkownicy coraz częściej chcą móc obserwować w czasie rzeczywistym propagację zmian zachodzących w ŹD do informacji będących na wyjściu HD; 5. możliwości otrzymywania informacji decyzyjnej w postaci konfigurowalnych analiz i analiz wykonywanych na bieżąco na zamówienie decydenta (ang. ad-hock). Należy tu ponadto zauważyć, że w znaczący sposób jest zauważalne wzrastanie presji na natychmiastowe zaspokajanie wszystkich powyższych potrzeb na żądanie odbiorców informacji oraz na udostępnienie decydentom narzędzi mogących służyć do samodzielnego definiowania i modyfikowania analiz (zawartości aplikacji) udostępniających informacje decyzyjne, a także uruchamiania łańcucha przetwarzania w celu odświeżenia wytworzonej informacji lub wytworzenia nowej informacji decyzyjnej. 8

9 Częściowe spełnienie potrzeb 3 i 5 można uzyskuje się poprzez zwiększenie wydajności i efektywności przetwarzania danych, przy czym samo zastosowanie bardziej wydajnego sprzętu i oprogramowania tzw. silników przetwarzania danych jest tu nie wystarczające i konieczne staje się wprowadzanie zmian w konstrukcji używanych łańcuchów przetwarzania danych. Wszelkie wprowadzanie zmian w monolitycznych łańcuchach jest pracochłonne i obarczone ryzykiem wprowadzenia błędu, który nie zaburzając działania aktualnie modyfikowanego ogniwa łańcucha, będzie rzutował na działanie innych ogniw, a przez to będzie trudny do identyfikacji i usunięcia. Dodatkowe komplikacje pojawiają się w przypadku wprowadzania nowych funkcjonalności, które poszerzają zakres obsługiwanych źródeł, zwiększają złożoność przetwarzania I zmieniają zakres i formę informacji wyjściowych, tak jak tego wymagają wszystkie powyższe potrzeby. Z powyższych względów konieczne staje podzielenie łańcucha przetwarzania na mniejsze części, które staną się nie zależnymi ogniwami, które będzie można elastycznie modyfikować, dodawać i usuwać bez wpływu na inne ogniwa. Podsumowując, aby móc spełnić potrzeby 1-5, konieczne jest spełnienie trzech fundamentalnych postulatów jakościowych, które stawia się wobec nowoczesnych łańcuchów przetwarzania w systemach dostarczania informacji decyzyjnych: 1. większa wydajność; 2. większe efektywność; 3. większa elastyczność. 2.2 Massive Parallel Processing i Shared Nothing Architecture jako klucz do wydajności i efektywności Jak już wcześniej wspomniano, jedną z metod zwiększania efektywności i wydajności łańcuchów przetwarzania danych w systemach decyzyjnych jest zastosowanie bardziej wydajnego sprzętu i oprogramowania tzw. silników przetwarzania danych. Jedną z najbardziej obiecujących technologii stosowanych obecnie do osiągnięcia tych celów jest Massive Parallel Processing (MPP), co tłumaczy się na język polski jako Komputery Masowo Równoległe. MPP jest terminem oznaczającym bardzo wydajną architekturę komputerową i technologię wielostrumieniowego przetwarzania danych, zgodnie z którą pojedynczy i złożony system komputerowy budowany jest z użyciem wielu niezależnych od siebie jednostek obliczeniowych, które mogą być jednostkami arytmetycznymi, logicznymi lub pełnymi procesorami, z których każdy dysponuje własną prywatną pamięcią operacyjną i przestrzenią składowania danych, choć np. pamięć operacyjna może być również współdzielona. Wszystkie jednostki obliczeniowe, które wchodzącą w skład pojedynczego systemu MPP, działają równolegle i nie zależnie od siebie. Dzięki temu możliwe jest rozłożenie złożonych i zasobochłonnych obliczeń na kilka strumieni przetwarzanych równolegle na wielu jednostkach obliczeniowych. W przypadku łańcuchów przetwarzania danych, zastosowanie MPP umożliwia wprowadzenie wielu równoległych strumieni wprowadzania ustrukturalizowanych i nieustrukturalizowanych danych, ich transformacji i ładowania w ramach jednego wspólnego łańcucha przetwarzania, a także umożliwia stosowanie równoległych strumieni podłańcucha przetwarzania pomiędzy OZHD i DM, które mogą mieć formę strumieni zapytań pracujących na ustrukturalizowanych i nieustrukturalizowanych danych. Nowoczesne silniki hurtowni danych zbudowane w oparciu o architekturę MPP są obecnie coraz częściej implementowane w postaci wirtualnych hurtowni danych, które korzystają 9

10 z wirtualnych serwerów obliczeniowych osadzonych na sprzętowych rozwiązaniach typu serwery kasetowe (ang. Blade). Serwery kasetowe są rozwiązaniem polegającym na umieszczeniu od kilku do kilkunastu serwerów w jednej specjalizowanej obudowie, która zapewnia im korzystanie z wysokowydajnych i zwielokrotnionych szyn wymiany danych, komunikacji sieciowej i zasilania. Zastosowanie serwerów kasetowych, które korzystają z procesorów kompatybilnych z x86, pozwala nie tylko na minimalizację kosztów zakupu sprzętu, ale i na minimalizację kosztów utrzymania platformy sprzętowej, dzięki mniejszemu zużyciu energii, mniejszym wymaganiom wobec potrzebnej powierzchni użytkowej i mniejszej generacji ciepła. Jednak w przypadku wykorzystania MPP dla obsługi łańcuchów przetwarzania danych, podstawowe znaczenie ma możliwość skonstruowania przy użyciu platformy wirtualizacyjnej systemu MPP, w którym rolę jednostek obliczeniowych mogą pełnić poszczególne serwery kasetowe albo serwery wirtualne współdzielące fizyczne zasoby fizycznych serwerów kasetowych. Przykładem rozwiązania implementującego wirtualną hurtownię danych w architekturze MPP w oparciu o serwery kasetowe i wirtualizację jest rozwiązanie Kognitio WX 2. Upowszechnianie się technik wirtualizacyjnych, doprowadziło również do powstania nowych rozwiązań hybrydowych, które połączyły cechy klasycznie rozumianej architektury MPP z rozwiązaniami typowymi bardziej dla konkurencyjnej technologii wielostrumieniowego przetwarzania wielkich zbiorów danych w postaci obliczeń rozproszonych (ang. distributed computing). Przykładem takiego rozwiązania hybrydowego jest Shared Nothing Architecture (SN), w której każdy z węzłów obliczeniowych (jednostek obliczeniowych) jest nie zależny i samowystarczalny, przy czym węzły są zbudowane w oparciu o pojedyncze fizyczne serwery, które z założenia mogą być rozproszone lokalizacyjnie i fizycznie połączone siecią komputerową. Charakterystyczną cechą SN jest brak pojedynczych punktów dostępu do łańcuchów przetwarzania oraz informacji przetwarzanych i składowanych. Jest to cecha różniąca SN od tradycyjnych systemów obliczeń rozproszonych, w których poszczególne węzły mają ściśle określony zakres obsługiwanych funkcjonalności i porcji informacji, w SN każdemu z węzłów można zlecić wykonanie ten samego łańcucha obliczeniowego i uzyskać dostęp do tej samej porcji informacji, co oznacza, że systemem wewnętrznie i niejako poza kontrolą użytkownika dokona dystrybucji zleceń przetwarzania i odczyta rozproszone porcje informacji. Przykładem rozwiązania będącego implementacją wirtualnego systemu MPP w oparciu o SN jest Teradata, o której traktuje artykuł Agnieszki Gosk Query optimization in Teradata warehouse, kóry stanowi Załącznik 1 do niniejszego opracowania. Innym przykładem system zbudowanego z użyciem MPP SN jest GreenPlenum (produkt komercyjny). Wśród wysoko wydajnych systemów niekomercyjnych na uwagę zasługuje Apache Hadoop, który jest systemem zmierzającym w kierunku MPP SN pod względem sposobu przechowywania danych i organizacji przetwarzania i wyszukiwania informacji, jednak brak w nim jeszcze mechanizmów pełnej niezależności i samo wystarczalności wszystkich węzłow. 2.3 Service Oriented Architecture jako klucz do efektywności i elastyczności Zastosowanie MPP i SN umożliwia konstruowanie łańcuchów przetwarzania danych, które w swojej wydajności zbliżają się do przetwarzania w czasie rzeczywistym, o ile strumień przetwarzanych danych ma ograniczoną pojemność, do której dopasowano skalowanie wdrożonego silnika przetwarzania danych. Praktyka utrzymywania hurtowni danych dowodzi, że nie w dłuższym horyzoncie czasu nie jest możliwe utrzymanie zakładanej efektywności, a co za tym idzie wydajności przetwarzania, bez zastosowania dodatkowych rozwiązań, które umożliwią obsługę nie przewidywalnych zmiany w pojemności wejściowych strumieni danych, jakości danych wprowadzanych i przetwarzanych w łańcuchu przetwarzania, nawet przy zapewnieniu nie zmienności źródeł danych, konstrukcji łańcuchów przetwarzania i struktur informacji wyjściowych. Co więcej dynamika zmian zachodzących w źródłach 10

11 danych oraz wymagań wobec zawartości informacji decyzyjnych, które mają być produkowane przez łańcuchy przetwarzania powoduje, że konieczne jest wprowadzenie dodatkowych rozwiązań, które poprzez modularyzację łańcuchów przetwarzania zapewnią ich elastyczność, a poprzez to wymaganą efektywności i wydajność. Dla przykładu częstym problemem występującym w łańcuchach przetwarzania jest chwilowa utrata jakości danych pochodzących z jednego ze źródeł, która prowadzi do uzyskania pozbawionej jakości informacji wyjściowej. W takim przypadku konieczne jest powtórzenie przetwarzania dla poprawionego zbioru danych źródłowych. W przypadku monolitycznych łańcuchów przetwarzania, oznacza to powtórne wykonanie całego łańcucha, co w znaczącym stopniu skonsumuje część mocy obliczeniowej zasobów przewidywanych do wykonywania tego samego łańcucha dla aktualnych porcji danych źródłowych, a to może oznaczać nawet 50-o procentowy spadek efektywności i wydajności przetwarzania danych. Metodą pozwalającą na uniknięcie takiego spadku efektywności i wydajności przetwarzania jest taki podział łańcucha na moduły, aby konieczne było wykonanie tylko części z modułów łańcucha przetwarzani, które skonsumują dalece mniej zasobów niż cały łańcuch. Przytoczony powyżej przykład wskazuje również na konieczność zapewnienia konstruowania elastycznych modułowych łańcuchów przetwarzania, w celu uzyskania odpowiedniego poziomu zapewnienia jakości danych, co jest możliwe jedynie w przypadku wprowadzenia kontroli jakości na poziomie produktów poszczególnych modułów (ogniw) łańcucha przetwarzania. Innym częstym przykładem związanych z kwestią zapewnienia jakości przetwarzanych jest wprowadzenie do łańcucha przetwarzania zmian związanych z dodaniem, usunięciem czy modyfikacją źródła danych lub, co bardziej znaczące, zmian w logice przetwarzania danych w samym łańcuchu. W takim przypadku (jak to już wcześniej wspomniano) monolityczny łańcuch przetwarzania jest bardziej podatny na propagację utraty jakości danych będącej konsekwencją błędów w implementacji lub niezgodności z innymi niż modyfikowany partiami kodu. W celu zapewnienia odpowiedniego poziomu efektywności i elastyczności, konieczne jest zastosowanie architektury, która pozwoli na: ϖ rozdrobnienie i modularność łańcucha przetwarzania dzięki czemu łańcuch przestanie być monolityczną aplikacji, a stanie się zbiorem niezależnych modułów, które pozwolą na osiągnięcie najbardziej optymalnego rozdrobnienia procesów przetwarzania; ϖ możliwość wielokrotnego wykorzystania każdego z modułów łańcucha przetwarzania; ϖ możliwość nie zależnego budowania i modyfikacji poszczególnych modułów, jako komponentów wytwarzanych przez różnych dostawców; ϖ możliwość komponowania z dostępnych modułów dowolnej liczby różnych procesów przetwarzania danych; ϖ możliwość interakcji modułów pomiędzy sobą oraz pomiędzy nimi a źródłami danych i aplikacjami interfejsu użytkownika; ϖ zgodność modułów ze wspólnymi standardami tworzenia i interakcji niezależnych komponentów oprogramowania; ϖ zgodność modułów ze standardami wymiany i przepływu struktur danych i informacji specyficznymi dla rodzaju działalności biznesowej, w której konieczne będzie zastosowanie modułów przetwarzania; ϖ automatyzację identyfikacji, kategoryzacji, wyszukiwania, dostarczenia, zabezpieczenia i monitorowania udostępnionych modułów. Wszystkie wymienione powyżej postulaty spełnia Architektura Zorientowana Usługowo (ang. Service Oriented Architecture SOA), która umożliwia budowę łańcucha przetwarzania 11

12 danych w zorientowanych usługowo rozproszonych systemach dostarczania informacji decyzyjnych. Jest to możliwe między innymi dlatego, ze każda z usług zgodnych z SOA może działać jako dostawca i odbiorca usług, co oznacza, że usługi-moduły łańcucha przetwarzania zaimplementowanego w SOA są w pełni wzajemnie interaktywne. Spośród wielu możliwych sposobów implementacji rozwiązań opartych o SOA, najbardziej efektywne, elastyczne i coraz popularniejsze są implementacje korzystające z taskanych usług sieciowych (ang. Web Service WS). W przypadku zastosowania WS do implementacji modułów łańcucha przetwarzania każdy moduł łańcucha jest implementowany jako usługa sieciowa. Jeżeli, w formę usług sieciowych zostaną również opakowane źródła danych i aplikacji interfejsu, to wtedy możliwa jest budowa kompletnego Zorientowanego Usługowo Rozproszonego Systemu Dostarczania Informacji Decyzyjnych (ZURSDID), a dzięki temu możliwe jest spełnienie wszystkich postulatów 1-5 wymienionych w punkcie 2.1 niniejszego opracowania. Filozofia SOA promuje wprowadzenie nowych narzędzi zapewniania jakości w zakresie efektywnego rozdrobnienia funkcjonalności łańcucha przetwarzania danych pomiędzy poszczególnymi modułami-usługami. Rozdrobnienie funkcjonalności musi zapewniać bowiem jednoznaczną identyfikację zakresu i celu działania usługi oraz przeciwdziałać nadmiernym narzutom na obsługę interfejsów usług-modułów, co może mieć miejsce przy zbyt dużym rozdrobnieniu. Nowym użytecznym narzędziem zapewnienia jakości staje się w tym przypadku Business Process Modeling Notation (BPMN), który pozwala na zdefiniowanie logiki łańcucha przetwarzania zgodnie z logiką działań biznesowych, przez odbiorców informacji decyzyjnych, ekspertów w zakresie przedmiotu analiz zawierających informacje decyzyjne, ekspertów w zakresie zawartości źródeł danych i ekspertów w zakresie metod stosowanych w łańcuchach przetwarzania. Dzięki BPMN można wyodrębnić zbiory funkcjonalności, które zostaną zaimplementowane później jako usługimoduły oraz zdefiniować łańcuchy przetwarzania z nich korzystające. Dzięki możliwości przełożenia diagramów BPMN na język Web Services Business Process Execution Language (WS-BPEL), który specyfikuje interakcję pomiędzy usługami sieciowymi, można bezpośrednio zamieniać zdefiniowaną logikę dziedzinową na logikę działania łańcucha przetwarzania przy użyciu modułów-usług. W ten sposób decydenci mogą samodzielnie definiować nowe łańcuchy przetwarzania i tworzyć nowe aplikacje informacyjne bez utraty zapewnienia jakości wynikłej z ich braku wiedzy w zakresie działania samych modułowusług. Co więcej rozwiązania wypracowane przez ekspertów dziedzinowych w celu zapewnienia jakości na poziomie BPMN, mogą być łatwo przenoszone na poziom interakcji modułów-usług. Dzięki WS SOA, moduły łańcucha przetwarzania stają się luźno powiązanymi usługami, pomiędzy którymi nie ma żadnych bezpośrednich zależności. Konieczne jest przy tym natomiast dostarczenie informacji niezbędnych do zapewnia interakcji pomiędzy modułami, które muszą być świadome istnienia, interfejsów i możliwości usług kooperujących. Dlatego tworzone są kontrakty usług, które opisują warunki korzystania z pracy poszczególnych modułów i komunikacji z nimi. Kontrakt opisujący moduł-sługę może być ponadto istotnym nowym narzędziem zapewnienia jakości w łańcuchu przetwarzania, ponieważ w ramach zawartej w nim umowy Zapewnienia Poziomu Usługi (ang. Service Level Ageerment SLA), można zapisać wymagania co do jakości jego działania, wymagania warunkujące jakość jego działania w trakcie interakcji z innymi usługami. Kontrakty opisujące usługi są również konieczne z tego powodu, że każdy z modułów przetwarzania jest abstrakcyjną usługą, która enkapsuluje (opakowuje, ukrywa przedświtem zewnętrznym) swoje wewnętrzne mechanizmy działania przy użyciu zewnętrznych interfejsów. Dzięki temu, każdy moduł-usługa uzyskuje pełną autonomię w zakresie kontrolowania swojej wewnętrznej logiki działania. Abstrakcyjność, enakpsulacja i autonomia usług są kolejnymi nowymi narzędziami zapewnienia jakości, ponieważ uodparniają moduł usługę od błędów poczynionych w pracy nad innymi modułami i chronią inne moduły od błędów poczynionych w pracach nad aktualnym modułem. Pozwalają ponadto na 12

13 podniesienie jakości wdrażania ZURSDID, a szczególnie transformacji tradycyjnego systemu dostarczania informacji decyzyjnych w ZURSDID, gdzie w pierwszym etapie wdrażania ZURSDID, można dokonać tylko opakowywania wyodrębnionych modułów przetwarzania w interfejsy usługowe, co pozwoli wprowadzanie zmian w logice działania poszczególnych modułów w dowolnych kolejnych etapach i w dowolnej kolejności. Kontrakty są ponadto niezbędne dla poprawnego działania narzędzi do odkrywania usług dostępnych do użycia w budowanych aplikacjach. Mechanizm ten pozwala na odnalezienie i dostęp do dobrze zdefiniowanych usług. Z tego powodu w ZURSDID konieczne jest zapewnienie nowych narzędzi, które pozwolą na weryfikację jakości oferowanych kontraktów i działania mechanizmu wyszukiwania. Dzięki powyższych mechanizmom, moduły-usługi mogą być dowolnie komponowane w usługi złożone, które składają się z grup połączonych, skoordynowanych i pozostających w interakcji usług. Zdolność do kompozycji i ponownego wykorzystania raz utworzonych modułów-usług jest następnym nowym narzędziem, które pozwala zapewnić wymagany poziom jakości w trakcie tworzenia łańcucha przetwarzania lub jego złożonego elementu o nowej funkcjonalności. Wymaga to jednak zastosowania dodatkowych nowych narzędzi w postaci standardów specyfikujących zasady i organizację współpracy pomiędzy modułamiusługami, do czego w WS służą języki Web Services Choreography Description Language (WS-CDL) i WS-BPEL. Zgodnie z założeniami SOA, systemy informacyjne oparte o tę architekturę mogą korzystać z usług-modułów, które choć mogą być dostarczane przez różnych dostawców, to powinny być traktowane równorzędnie. Jednocześnie SOA przewiduje i promuje wprowadzanie zasad umożliwiających wybór usług działających i pasujących w sposób najbardziej optymalny do logiki działania aplikacji składającej się z tych usług. W przypadku ZURSDID stwarza to możliwość wprowadzenia nowego narzędzia do oceny jakości działania modułów-usług w łańcuchów przetwarzania danych, które pozwoli na preferowanie usług-modułów o najwyższej jakości. Źródła danych Usługi ŹD i HD ETL ZURSDID Struktury Hurtowni Danych Usługi UI Aplikacje Interfejsu Baza danych Baza danych Pliki Moduł Moduł Moduł Moduł Moduł Moduł Moduł Moduł Moduł A diti Moduł Moduł Globalny zasób HD Metadane HD Zasób Operacyjny Moduł Moduł Moduł Moduł OLAP OLAP OLTP Moduł Data Mart(y) Moduł OLTP Rysunek 2: Schemat przepływu danych w Zorientowanego Usługowo Rozproszonego Systemu Dostarczania Informacji Decyzyjnych (widoczne moduły-usługi łańcucha przetwarzania) 13

14 2.4 Podsumowanie Dzięki zastosowaniu Service Oriented Architecture zaimplementowanemu przy użyciu Web Services w połączeniu z Massive Parallel Processing lub Shared Nothing Architecture możliwe stało się zbudowanie Zorientowanych Usługowo Rozproszonych Systemów Dostarczania Informacji Decyzyjnych, które spełniają wymagania jakościowe względem wydajności, efektywności i elastyczności przetwarzania. Kluczem do realizacji tych wszystkich tych postulatów stało się przekształcenie monolitycznego łańcucha przetwarzania w elastyczny modułowo-usługowy łańcuch przetwarzania. Rozdrobnienie i racjonalność enkapsulowania funkcjonalności w modułach, ich autonomia, wzajemna niezależność i zdolność do kompozycji w bardziej złożone grupy usług stały się nowymi strategicznymi narzędziami do zapewnienia jakości w łańcuchu przetwarzania ZURSDID. Operacyjnymi nowymi narzędziami zapewnienia jakości są Business Process Modeling Notation, Web Services Business Process Execution Language, Web Services Choreography Description Language I kontrakty definiujące warunki działania usług. 3 Metoda Punktów Funkcyjnych jako narzędzie konstrukcji łańcucha przetwarzania 3.1 Wstęp Nieodłącznym elementem budowy systemów informatycznych, w tym także systemów informacyjnych i przetwarzania danych jest szacowanie wielkości systemu. Szacowania takie wykonuje się w różnych celach, do których należy między innymi ocena pracy wymaganej do budowy systemu, ocena złożoności jak i ocena wydajności. W przypadku systemów transakcyjnych, zbudowanych w celu przetwarzania operacyjnego danych oraz wykonywania czynności związanych z obsługiwanymi obszarami, szacowanie takie jest uproszczone, gdyż związane jest ono bezpośrednio z liczbą funkcjonalności, jakie implementuje dana aplikacja. Znacznie większy problem jest w przypadku systemów informacyjnych, w przypadku których, na najwyższym poziomie abstrakcji można powiedzieć, że implementowana jest jedna funkcjonalność dostarczanie informacji (danych, raportów itp.). Z oczywistych względów takie przedstawienie systemu informacyjnego jest zbyt dużym uproszczeniem i nie ma żadnego praktycznego zastosowania. W tej części pracy zaprezentowano metodę szacowania wielkości systemów zwaną metodą Punktów Funkcyjnych (Function Points Analysis) oraz zaproponowano modyfikacje związane z jej zastosowaniem w systemach dostarczających informacje. 3.2 Metoda Punktów Funkcyjnych krótka charakterystyka Metoda Punktów Funkcyjnych została po raz pierwszy zaproponowana przez Allana J. Albrechta z IBM w roku Pierwotnie miała na celu poprawienie możliwości szacowania wielkości aplikacji komputerowych jaką wcześniej wykonywano poprzez zliczanie linii kodu aplikacji. Metoda ta proponowała podejście od strony funkcjonalności dostarczanych użytkownikom, a nie od strony programisty, co pozwalało na szacowanie wielkości systemów niezależnie od zastosowanej technologii. W bardzo krótkim czasie metoda okazała się przydatna do szacowania większych aplikacji i pozwalała na wytłumaczenie zakładanej lub wyprodukowanej złożoności systemu stronie zamawiającej czyli w większości przypadków osobom bez doświadczenia informatycznego Podstawowe elementy metody 14

15 Określenie granic systemu Najważniejszym elementem szacowania wielkości systemu metodą Punktów Funkcyjnych jest określenie granic systemu. Związane jest to z dalszymi krokami tej metody. Każdy nowocześnie budowany system jest w jakiś sposób powiązany z innymi działającymi w organizacji i już samo to zadanie może okazać się skomplikowane. Każdy z działających systemów wyposażony jest także w szereg strumieni danych, poprzez które wymienia informacje z otoczeniem (w tym wypadku interfejs użytkownika też może być traktowany jako specyficzny strumień wymiany danych). System Zewnętrzny 1 Strumień Wejściowy Strumień Wyjściowy System Zewnętrzny 4 System Zewnętrzny 2 Strumień Wejściowy Opisywany System Strumień We-Wy System Zewnętrzny 3 Strumień We-Wy Rysunek 3: Schemat systemu i otoczenia Wyznaczenie granic opisywanego systemu jest istotne dla określenia w którym momencie wymieniane z otoczeniem pliki (w ramach strumieni) lub zapytania przekraczają jego granice, a gdzie są one jedynie przetwarzane wewnątrz systemu. Takie określenie przetwarzanych danych jest konieczne, gdyż idea metody Punktów Funkcyjnych opiera się na identyfikacji tych właśnie plików i operacji Elementy Szacowania Wyróżnienie poszczególnych elementów szacowania pozwala na określenie wielkości systemu. Jednocześnie ułatwia to badanie informacji o systemie, gdyż wyznaczony jest konkretny cel poszukiwanie opisu elementów. Informacje o tych elementach można znaleźć w projekcie systemu, dokumentacji technicznej, dokumentacji przepływów danych i innych dokumentach opisujących techniczne rozwiązania w systemie i otoczeniu. W metodzie Punktów Funkcyjnych wyróżnione są następujące elementy szacowania (podano wraz z krótką definicją): 1. Zewnętrzne Wejścia (External Inputs) Jako Zewnętrzne Wejście (EI) określany jest atomowy proces, w którym przetwarzane dane przekraczają granice systemu wchodząc 15

Metody i technologie budowy hurtowni danych ze szczególnym uwzględnieniem zapewnienia długookresowej jakości produktu

Metody i technologie budowy hurtowni danych ze szczególnym uwzględnieniem zapewnienia długookresowej jakości produktu Zakład Zaawansowanych Technik Informacyjnych Z-6 Metody i technologie budowy hurtowni danych ze szczególnym uwzględnieniem zapewnienia długookresowej jakości produktu Praca nr 06.30.002.7 Warszawa 2007

Bardziej szczegółowo

Testowanie i Ciągła Integracja w Projektach Java Enterprise Edition

Testowanie i Ciągła Integracja w Projektach Java Enterprise Edition UNIWERSYTET JAGIELLOŃSKI W KRAKOWIE Praca magisterska Testowanie i Ciągła Integracja w Projektach Java Enterprise Edition Adam Perlik Pracę wykonano w Zakładzie Technologii Informatycznych pod kierunkiem

Bardziej szczegółowo

Realizacja hurtowni danych dla administracji publicznej na przyk³adzie budowy systemu IACS

Realizacja hurtowni danych dla administracji publicznej na przyk³adzie budowy systemu IACS IX Konferencja PLOUG Koœcielisko PaŸdziernik 2003 Realizacja hurtowni danych dla administracji publicznej na przyk³adzie budowy systemu IACS Mariusz Muszyñski Pentacomp Systemy Informatyczne Prace nad

Bardziej szczegółowo

Niezawodność Systemów Wspomagania Decyzji

Niezawodność Systemów Wspomagania Decyzji Niezawodność Systemów Wspomagania Decyzji Zespół nr 3 Zespół: Ilona Grobarek Łukasz Grzywański Izabela Mączka Damian Tomalik Kamil Twórz Wrocław, maj 2007 1 Spis treści Cele 3 1. Niezawodność 4 2. Systemy

Bardziej szczegółowo

Business Intelligence Rozwiązania Business Intelligence oraz najnowsze technologie oparte o procesory Intel Xeon

Business Intelligence Rozwiązania Business Intelligence oraz najnowsze technologie oparte o procesory Intel Xeon Business ligence Rozwiązania Business ligence oraz najnowsze technologie oparte o procesory Xeon CUSTOM PUBLISHING Advertising Supplement IBM business intelligence Narzędzia pomocne w planowaniu i budżetowaniu

Bardziej szczegółowo

5. Podstawowe pakiety informatyczne, statystyczne i ekonometryczne

5. Podstawowe pakiety informatyczne, statystyczne i ekonometryczne Zestaw zagadnień informatycznych na egzamin magisterski 2004/2005 1. Dynamiczne struktury danych Opracowanie: Ania Zawrzykraj 2. Charakterystyka popularnych języków programowania Opracowanie: Jarosław

Bardziej szczegółowo

Zarządzanie zasobami gridowymi z użyciem parawirtualizacji

Zarządzanie zasobami gridowymi z użyciem parawirtualizacji Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Akademii Górniczo-Hutniczej im. St. Staszica w Krakowie Zarządzanie zasobami gridowymi z użyciem parawirtualizacji Rozprawa doktorska Jacek

Bardziej szczegółowo

SMESDaD synergetyczna metodyka rozwijania i wdrażania oprogramowania korporacyjnego

SMESDaD synergetyczna metodyka rozwijania i wdrażania oprogramowania korporacyjnego nauka SMESDaD synergetyczna metodyka rozwijania SMESDaD synergetyczna metodyka rozwijania i wdrażania oprogramowania korporacyjnego i wdrażania oprogramowania korporacyjnego Grzegorz Rogus, Paweł Skrzyński,

Bardziej szczegółowo

NARZĘDZIA I PROCESY ETL W HURTOWNIACH DANYCH

NARZĘDZIA I PROCESY ETL W HURTOWNIACH DANYCH NARZĘDZIA I PROCESY ETL W HURTOWNIACH DANYCH 1. Narzędzia ETL Narzędzia ETL (ang. extraction-transformation-load, ETL) automatyzują lub ułatwiają następujące rodzaje zadań: ekstrakcja (dostęp do różnorodnych

Bardziej szczegółowo

Znak sprawy: ZP-4/DTP/2013. Załącznik Nr 5.1 do SIWZ

Znak sprawy: ZP-4/DTP/2013. Załącznik Nr 5.1 do SIWZ Znak sprawy: ZP-4/DTP/2013 Załącznik Nr 5.1 do SIWZ Dostawa infrastruktury informatycznej i oprogramowania na potrzeby tworzenia i rozwoju nowoczesnych e-usług i aplikacji on-line oraz ich s wiadczenia

Bardziej szczegółowo

SERWIS. Controlling. i raportowanie zarządcze. Nr 1/2008. Spis treści. Nr 2/2006. Autorzy. Redakcja

SERWIS. Controlling. i raportowanie zarządcze. Nr 1/2008. Spis treści. Nr 2/2006. Autorzy. Redakcja CONTROLLING SERWIS I RAPORTOWANIE ZARZĄDCZE Nr 1/2008 Autorzy Paweł Bender Współwłaściciel spółki Specjalista w dziedzinie modeli i metodologii controllingu Artur Adamczyk Współwłaściciel spółki Specjalista

Bardziej szczegółowo

SYSTEMY ZARZĄDZANIA BAZĄ DANYCH I ARCHITEKTURA AGENTOWA W SŁUŻBACH RATOWNICZYCH PAŃSTWOWEJ STRAŻY POŻARNEJ

SYSTEMY ZARZĄDZANIA BAZĄ DANYCH I ARCHITEKTURA AGENTOWA W SŁUŻBACH RATOWNICZYCH PAŃSTWOWEJ STRAŻY POŻARNEJ mgr inż. Marcin Michał MIROŃCZUK Politechnika Białostocka Wydział Elektryczny SYSTEMY ZARZĄDZANIA BAZĄ DANYCH I ARCHITEKTURA AGENTOWA W SŁUŻBACH RATOWNICZYCH PAŃSTWOWEJ STRAŻY POŻARNEJ Database management

Bardziej szczegółowo

Zarządzanie usługami informatycznymi oraz infrastrukturą informatyczną

Zarządzanie usługami informatycznymi oraz infrastrukturą informatyczną Zakład Zaawansowanych Technik Informacyjnych Z-6 Zarządzanie usługami informatycznymi oraz infrastrukturą informatyczną (Z6)06.30.002.6 (OI)07.30.002.6 (Z2)02.30.007.6 Warszawa 2006 2 3 Zarządzanie usługami

Bardziej szczegółowo

SKRYPT DLA UCZNIÓW DO LABORATORIUM MAGAZYNOWEGO

SKRYPT DLA UCZNIÓW DO LABORATORIUM MAGAZYNOWEGO SKRYPT DLA UCZNIÓW DO LABORATORIUM MAGAZYNOWEGO Opracowanie, wydruk oraz wysyłka publikacji współfinansowane przez Unię Europejską w ramach Europejskiego Funduszu Społecznego Przekazujemy Państwu skrypt

Bardziej szczegółowo

4. Metody systemowe zarządzania jakością

4. Metody systemowe zarządzania jakością Zarządzanie jakością w praktyce inżynierskiej 4. Metody systemowe zarządzania jakością 4.1 Metody statystyczne w zarządzaniu jakością Do podstawowych instrumentów monitorowania procesów wytwórczych należą

Bardziej szczegółowo

Wewnętrzny portal uczelni

Wewnętrzny portal uczelni Wewnętrzny portal uczelni Przegląd tematyki z perspektywy Uniwersytetu Warszawskiego Materiały z prac Zespołu Rektorskiego do spraw portalu wewnętrznego Uniwersytetu Warszawskiego Warszawa, 2007 1 Główne

Bardziej szczegółowo

POLSKO-JAPOŃSKA WYŻSZA SZKOŁA TECHNIK KOMPUTEROWYCH PRACA MAGISTERSKA. Nr... Michał Degentysz Nr albumu 4870 Promotor

POLSKO-JAPOŃSKA WYŻSZA SZKOŁA TECHNIK KOMPUTEROWYCH PRACA MAGISTERSKA. Nr... Michał Degentysz Nr albumu 4870 Promotor POLSKO-JAPOŃSKA WYŻSZA SZKOŁA TECHNIK KOMPUTEROWYCH PRACA MAGISTERSKA Nr... Automatyzacja generowania plików pakietu MS Office Student/studentka Michał Degentysz Nr albumu 4870 Promotor Prof. dr inż. Kazimierz

Bardziej szczegółowo

Realizacja procesów B2B z wykorzystaniem technologii ICT

Realizacja procesów B2B z wykorzystaniem technologii ICT Realizacja procesów B2B z wykorzystaniem technologii ICT Koncepcja Publikacji: Leszek Czech Autorzy: Tomasz Dębicki Olgierd Dziamski Tomasz Kawecki Wojciech Kliber Marcin Kraska Piotr Nowak Michał Przybylski

Bardziej szczegółowo

CUSTOMER RELATIONSHIP MANAGEMENT - STRATEGIA BIZNESOWA I TECHNOLOGIA INFORMATYCZNA

CUSTOMER RELATIONSHIP MANAGEMENT - STRATEGIA BIZNESOWA I TECHNOLOGIA INFORMATYCZNA Zeszyty Naukowe Wydziału Informatycznych Technik Zarządzania Wyższej Szkoły Informatyki Stosowanej i Zarządzania Współczesne Problemy Zarządzania Nr 1/2012 CUSTOMER RELATIONSHIP MANAGEMENT - STRATEGIA

Bardziej szczegółowo

prof. dr hab. Przemysław Lech Grzegorz Laskowski

prof. dr hab. Przemysław Lech Grzegorz Laskowski 4 Konsultacja naukowa prof. dr hab. Przemysław Lech Projekt okładki i stron tytułowych Grzegorz Laskowski Ilustracja na okładce Kudryashka/Shutterstock Wydawca Łukasz Łopuszański Redaktor Barbara Jaworska

Bardziej szczegółowo

Whitepaper. Nowa generacja rozwiązań ERP. Jak nowe technologie pomagają redukować koszty i tworzyć. nowe możliwości dla firmy PAC 2009

Whitepaper. Nowa generacja rozwiązań ERP. Jak nowe technologie pomagają redukować koszty i tworzyć. nowe możliwości dla firmy PAC 2009 Whitepaper Nowa generacja rozwiązań ERP Jak nowe technologie pomagają redukować koszty i tworzyć nowe możliwości dla firmy PAC 2009 Whitepaper nowa generacja rozwiązań ERP Styczeń 2010 Wstęp Rozwój rozwiązań

Bardziej szczegółowo

Generyczny system do tworzenia i obsługi formularzy działający przez www.

Generyczny system do tworzenia i obsługi formularzy działający przez www. Katedra Inżynierii Oprogramowania Inżynieria Oprogramowania i Baz Danych Tomasz Paweł Skrobol Nr albumu: 4885 Generyczny system do tworzenia i obsługi formularzy działający przez www. Praca magisterska

Bardziej szczegółowo

Framework aplikacji bazodanowych

Framework aplikacji bazodanowych Wydział Informatyki Katedra Inżynierii Oprogramowania Inżynieria Oprogramowania i Baz Danych Rafał Monkiewicz Nr albumu 4001 Framework aplikacji bazodanowych Praca magisterska napisana pod kierunkiem Dr

Bardziej szczegółowo

Modele eksploracji danych - CROSS-SELLING, LTV, EVENT

Modele eksploracji danych - CROSS-SELLING, LTV, EVENT Zakład Zaawansowanych Technik Informacyjnych (Z-6) Modele eksploracji danych - CROSS-SELLING, LTV, EVENT Praca statutowa nr 06.30.003.6 Warszawa, grudzień 2006 Modele eksploracji danych - CROSS-SELLING,

Bardziej szczegółowo

Zapytanie ofertowe na. Wdrożenie systemu B2B szansą na dalszy rozwój firmy RUTEX

Zapytanie ofertowe na. Wdrożenie systemu B2B szansą na dalszy rozwój firmy RUTEX Częstochowa, dnia 03 lutego 2014 r. Zapytanie ofertowe na Wdrożenie systemu B2B szansą na dalszy rozwój firmy RUTEX (dotyczy: Programu Operacyjnego Innowacyjna Gospodarka, 8. Oś Priorytetowa Społeczeństwo

Bardziej szczegółowo

Udostępnianie aplikacji klasy enterprise w oparciu o usługi Amazon Cloud

Udostępnianie aplikacji klasy enterprise w oparciu o usługi Amazon Cloud Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Katedra Informatyki Praca magisterska Udostępnianie aplikacji klasy enterprise

Bardziej szczegółowo

STATISTICA W ADMINISTRACJI PUBLICZNEJ

STATISTICA W ADMINISTRACJI PUBLICZNEJ STATISTICA W ADMINISTRACJI PUBLICZNEJ Piotr Wójtowicz, StatSoft Polska Sp. z o.o. Administracja publiczna to jeden z obszarów, gdzie odpowiednio zastosowane metody analizy danych mogą przynieść znaczne

Bardziej szczegółowo

Dojrzałość rynku elektronicznego biznesu typu B2B w Polsce na przykładzie doświadczeń we wdrażaniu działania 8.2 Programu Operacyjnego Innowacyjna

Dojrzałość rynku elektronicznego biznesu typu B2B w Polsce na przykładzie doświadczeń we wdrażaniu działania 8.2 Programu Operacyjnego Innowacyjna Dojrzałość rynku elektronicznego biznesu typu B2B w Polsce na przykładzie doświadczeń we wdrażaniu działania 8.2 Programu Operacyjnego Innowacyjna Gospodarka 2007-2013 Wstęp Głównym celem przedstawionej

Bardziej szczegółowo

PRZEDMIOT: SYSTEMY INFORMATYCZNE ZARZĄDZANIA

PRZEDMIOT: SYSTEMY INFORMATYCZNE ZARZĄDZANIA SPOŁECZNA AKDAEMIA NAUK W ŁODZI KIERUNEK STUDIÓW: ZARZĄDZANIE PRZEDMIOT: SYSTEMY INFORMATYCZNE ZARZĄDZANIA (MATERIAŁ POMOCNICZY PRZEDMIOT PODSTAWOWY) Łódź Spis treści Wstęp...3 Moduł 1 Dane, informacje

Bardziej szczegółowo

ZINTEGROWANE SYSTEMY ZARZĄDZANIA ERP/ERP II

ZINTEGROWANE SYSTEMY ZARZĄDZANIA ERP/ERP II Przemysław Lech ZINTEGROWANE SYSTEMY ZARZĄDZANIA ERP/ERP II charakterystyka wykorzystanie w biznesie wdrażanie 1 Copyright by Przemysław Lech Wszelkie prawa zastrzeżone Niniejsza publikacja jest elektroniczną

Bardziej szczegółowo