Problematyka hurtowni danych



Podobne dokumenty
Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Hurtownie danych. 31 stycznia 2017

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)

Informatyzacja przedsiębiorstw

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Integracja systemów transakcyjnych

Pierwsze wdrożenie SAP BW w firmie

Hurtownie danych - przegląd technologii

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Wstęp do Business Intelligence

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Architektury i technologie integracji danych

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Hurtownie danych a transakcyjne bazy danych

Wielowymiarowy model danych

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

Hurtownia danych praktyczne zastosowania

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

Co to jest Business Intelligence?

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Rola analityki danych w transformacji cyfrowej firmy

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

Systemy baz danych i hurtowni danych

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Ewolucja systemów baz danych

OLAP i hurtownie danych c.d.

Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

Marcin Adamczak Jakub Gruszka MSP. Business Intelligence

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Część I Istota analizy biznesowej a Analysis Services

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Opis spełnienia wymagań (PSBD)

Spojrzenie na systemy Business Intelligence

Hurtownie danych w praktyce

PROJEKT WSPÓŁFINANSOWANY ZE ŚRODKÓW UNII EUROPEJSKIEJ W RAMACH EUROPEJSKIEGO FUNDUSZU SPOŁECZNEGO OPIS PRZEDMIOTU. Rozproszone Systemy Baz Danych

Prezentacja firmy WYDAJNOŚĆ EFEKTYWNOŚĆ SKUTECZNOŚĆ.

Hurtownie danych - opis przedmiotu

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

BD2 BazyDanych2. dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Hurtownie danych czyli jak zapewnić dostęp do wiedzy tkwiącej w danych

Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) niestacjonarne (stacjonarne / niestacjonarne)

Spis tre±ci. Przedmowa... Cz ± I

Maciej Kiewra Quality Business Intelligence Consulting

Business Intelligence

Procesy ETL. 10maja2009. Paweł Szołtysek

Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012

Bazy analityczne (hurtownie danych, bazy OLAP)

Bazy danych i ich aplikacje

Ewolucja technik modelowania hurtowni danych

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

1. Ewolucja systemów opartych na bazach danych 2. Czym się rożni modelowanie od strukturalizacji danych? Model danych Struktury (danych)

Hurtownie danych - przegląd technologii

4. Znaczenie czasu w modelowaniu i strukturalizacji danych

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Zaawansowane systemy baz danych - ZSBD. Hurtownie danych 1. Problematyka hurtowni danych. Wykład przygotował: Robert Wrembel. ZSBD wykład 12 (1)

Deduplikacja danych. Zarządzanie jakością danych podstawowych

Plan wykładu. Hurtownie danych. Problematyka integracji danych. Cechy systemów informatycznych

Wprowadzenie do Hurtowni Danych

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Modele danych - wykład V

COMARCH DATA WAREHOUSE MANAGER 6.2

LITERATURA. C. J. Date; Wprowadzenie do systemów baz danych WNT Warszawa 2000 ( seria Klasyka Informatyki )

Stawiamy na specjalizację. by CSB-System AG, Geilenkirchen Version 1.1

PREZENTACJA FUNKCJONALNA SYSTEMU PROPHIX

Procesy decyzyjne w oparciu o hurtownie danych

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Wprowadzenie do Hurtowni Danych

Paweł Gołębiewski. Softmaks.pl Sp. z o.o. ul. Kraszewskiego Bydgoszcz kontakt@softmaks.pl

Tematy projektów Edycja 2014

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Hurtownie danych wykład 5

Więzy integralności referencyjnej i klucze obce. PYTANIE NA EGZAMIN LICENCJACKI

Spis treści. Przedmowa

Wprowadzenie do projektowania i wykorzystania baz danych Relacje i elementy projektowania baz

Bazy danych. Dr Henryk Telega. BD 10/11 Wykład 1 1

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

Bazy danych 2. Wykład 1

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

KARTA PRZEDMIOTU. Hurtownie i eksploracja danych D1_5

Rozumie istotę i znacznie procesów ekstrakcji, transformacji i ładowania danych (ETL), zna wybrany język ETL oraz odpowiednie narzędzia.

Migracja XL Business Intelligence do wersji

Oferta szkoleniowa Yosi.pl 2012/2013

Analityka danych & big data

Automatyzacja Procesów Biznesowych. Systemy Informacyjne Przedsiębiorstw

Zasady sprawnego i efektywnego sterowania przepływami materiałów i wyrobów

Transkrypt:

Plan wykładu Problematyka hurtowni 1. Bibliografia 2. Systemy klasy Business Intelligence 3. Podejścia do integracji 4. Definicja hurtowni 5. Architektury hurtowni Hurtownie, wykład Bartosz Bębel E-mail: bartosz.bebel@cs.put.poznan.pl 2 Bibliografia Business Intelligence (BI) (1) 1. Anahory S., Murray D., Data Warehousing in the real world, Addison- Wesley, 1997, ISBN 0-201-17519-3 2. Bębel B., Morzy M., Projektowanie schematów logicznych dla magazynów, 2000, Materiały konferencji PLOUG 2000, Zakopane 3. Hobbs L., Hillson S., Lawande S.: Oracle9iR2 Data Warehousing. Digital Press, 2003, ISBN 1-55558-287-7 4. Jarke M., Lenzerini M., Vassiliou Y., Vassiliadis P.: Fundamentals of Data Warehouses. Springer-Verlag, 2000, ISBN 3-540-65365-1 5. Królikowski Z., Hurtownie : logiczne i fizyczne struktury, Wydawnictwo Politechniki Poznańskiej, 2007, ISBN:978-83-7143-310-8 6. Mattison R., Data Warehousing - Strategies, Technologies, and Techniques, McGraw-Hill, 1996, ISBN 0-07-041034-8 BI ang. Business Intelligence: szeroki wachlarz aplikacji i technologii dla pozyskiwania, składowania, analizowania oraz udostępniania informacji o organizacji i środowisku jej działania BI odkrywa wiedzę zawartą w : trendy, tendencje, korelacje, BI prezentuje odkrytą wiedzę przy wykorzystaniu różnych technik prezentacyjnych: raporty, zestawienia, wykresy, pulpity managerskie, odkryta wiedza służy: decydentom: kierownikom wysokiego i średniego szczebla, analitykom w procesach podejmowania decyzji 3 4

Business Intelligence (BI) (2) Business Intelligence (BI) (3) Systemy klasy BI: System wspomagania decyzji DSS (ang. Decision Support System) System powiadamiania kierownictwa EIS (ang. Executive Information System) System wspomagania zarządzania MIS (ang. Management Information System) System informacji geograficznej GIS (ang. Geographic Information System) Problemy: 1. ogrom informacji do zanalizowania: ok. 80% systemów BI posiada dane o rozmiarze przekraczającym 1 TB, przykłady: Facebook ok. 21 PB, ebay 6,5 PB konieczność zapewnienia odpowiedniego sprzętu, oprogramowania i algorytmów efektywnego przetwarzania 2. dynamiczny przyrost informacji: w 40% systemów BI dane rosną o 50% rocznie, w 18% rozmiar rocznie się podwaja, przykład: CERN przewidywany przyrost eksperymentalnych (surowych): 27 TB/dziennie, 150 PB przestrzeni dyskowej konieczność zapewnienia odpowiedniej infrastruktury przechowywania 5 6 Business Intelligence (BI) (4) Integracja Problemy (cd): 3. heterogeniczność informacji dane pochodzą z różnych źródeł: różne formaty składowania : systemy obsługi bieżącej (systemy relacyjnych i obiektowych baz ), systemy spadkowe, arkusze kalkulacyjne, strony WWW, pliki XML, pliki tekstowe, różne miejsca składowania konieczność zastosowania mechanizmów integracji Integracja proces łączenia, zlokalizowanych w systemach źródłowych (być może heterogenicznych), celem dostarczenia użytkownikowi (aplikacji) jednolitego widoku system integracji daje użytkownikowi iluzję pracy z jednym systemem informacyjnym 7 8

Podejścia do integracji (1) 1. integracja ręczna użytkownik wykonuje bezpośrednią interakcję z systemami źródłowymi i dokonuje integracji ich użytkownik musi posiadać dogłębną wiedzę o strukturze systemów źródłowych, metodach (językach) dostępu do nich, itd. zastosowania: sieci P2P, usługi sieciowe 2. wspólny interfejs użytkownika użytkownik ma do dyspozycji interfejs (np. przeglądarkę WWW), zapewniający zunifikowany wygląd dane z różnych systemów źródłowych są od siebie odseparowane, ich połączenie musi być zrealizowane przez użytkownika (np. wyszukiwarkę internetową) Podejścia do integracji (2) 3. integracja przez aplikację aplikacja wykonuje dostęp do z systemów źródłowych i prezentuje zintegrowany wynik użytkownikowi wskazane dla systemów z małą liczbą integrowanych systemów źródłowych aplikacja rośnie w miarę zwiększania liczby systemów źródłowych zastosowania: sieci P2P, usługi sieciowe, systemy przepływu pracy 4. integracja przez warstwę pośredniczącą (ang. middleware) dodatkowe oprogramowanie, które ukrywa przed aplikacją szczegóły systemów źródłowych, jednak aplikacja nadal musi wykonywać pewne dodatkowe operacje przykład: warstwa pośrednicząca SQL (ang. SQL-middleware) umożliwia odczyt systemów źródłowych przy pomocy języka SQL, jednak wyniki poszczególnych zapytań nie są łączone w jeden zbiór to musi zostać zrealizowane przez aplikację 9 10 Podejścia do integracji (3) Hurtownia definicja (1) 5. zunifikowany dostęp do aplikacja widzi wszystkie dane systemów źródłowych w postaci jednego, zunifikowanego zbioru, jednak są to dane wirtualne integracja jest realizowana w locie zapewnienie tej cechy może być kosztowne pod względem czasu odpowiedzi systemu zastosowania: systemy mediacyjne, sfederowane bazy, portale www 6. wspólna składnica dane pobrane z systemów źródłowych są trwale składowane w nowym miejscu systemy źródłowe po pobraniu z nich mogą zostać zarówno wyłączone jak i pozostać aktywne, w tym drugim przypadku konieczne jest okresowe odświeżanie wspólnej składnicy nowymi danymi ze źródeł zastosowania: hurtownie Definicja 1. Zbiór technologii, nakierowanych na wspomaganie użytkowników (kierownictwo wysokiego i średniego szczebla, analitycy) w procesie podejmowania decyzji (głównie biznesowych) Definicja 2. Zbiór : 1. tematycznie zorientowany, 2. zintegrowany, 3. uwzględniający atrybut czasu i 4. nieulotny, wykorzystywany w organizacji głównie do wspomagania podejmowania decyzji 11 12

Hurtownia definicja (2) 1. Dane tematycznie zorientowane dotyczą określonej dziedziny (lub wielu dziedzin) w działalności organizacji. 2. Dane zintegrowane pochodzą z różnych systemów źródłowych, są tłumaczone do wspólnego formatu celem łatwiejszego przetwarzania. 3. Dane uwzględniające atrybut czasu wyposażone w duży horyzont czasowy, pokazujące pełną historię. 4. Dane nieulotne przechowywane trwale, dostępne niezależnie od dostępności systemów źródłowych; dane podlegają jedynie operacjom odczytu (bardzo rzadko modyfikacji i usuwania). Architektury hurtowni (1) 1. Architektura podstawowa: elementy: źródło (DS n ) system źródłowy, np.: system obsługi bieżącej, system spadkowy, arkusz kalkulacyjny, strona www, plik XML, plik tekstowy, wrapper odpowiada za transformację źródła do formatu i modelu hurtowni monitor wykrywa zmiany i struktury źródła integrator przekształca i łączy dane ze źródeł w jeden spójny zbiór aplikacja kliencka oprogramowanie, wykorzystywane przez użytkownika do przeprowadzania analiz hurtowni 13 14 Architektury hurtowni (2) Model przetwarzania w HD 2. Architektura rozszerzona: elementy dodatkowe: operacyjna składnica (ODS m ) zbiór szczegółowych : wstępnie przetwarza i składuje dane źródła przed ich właściwą integracją, dostarcza szczegółowych do rozszerzonych analiz w hurtowni tematyczna hurtownia (DM k ) podzbiór hurtowni, opisujących pojedynczą dziedzinę działania organizacji; przykład: hurtownia operatora telefonii komórkowej może zawierać tematyczne hurtownie : dane marketingowe, dane finansowe, dane kadrowe, itd. OLAP (ang. On-Line Analytical Processing) zbiór technologii programowych, umożliwiających decydentom i analitykom na uzyskanie wglądu w dane, przy wykorzystaniu szybkich i interaktywnych metod dostępu do informacji, przetransformowanych z surowych, w różnych możliwych perspektywach, odzwierciedlających rzeczywistą wielowymiarowość działania organizacji w sposób rozumiany przez użytkownika (za OLAP Council) przeciwieństwo OLTP (ang. On-Line Transaction Processing) model przetwarzania w systemach obsługi bieżącej: system rezerwacji system obsługi punktu sprzedaży system bankowy 15 16

OLTP vs OLAP (1) Źródło do przetwarzania Cecha OLTP OLAP Dane operacyjne Dane skonsolidowane (dane surowe pochodzą z systemów OLTP) Cel Obsługa podstawowych procesów Wspomaganie planowania, podejmowania biznesowych (sprzedaż, rezerwacja, ) decyzji Zawartość Bieżący stan procesów biznesowych Bieżący stan procesów biznesowych + historia, wielowymiarowe spojrzenie na różne aktywności biznesowe Czas w Tylko dane bieżące Dane bieżące + dane historyczne Profil użytkownika Pracownik operacyjny (sprzedawca, pracownik centrum rezerwacji, ) Decydent, analityk Profil zapytań Proste, zwykle zwracające kilka rekordów, Bardzo złożone, wymagające agregacji, zapytania tworzą dobrze znany zbiór przetwarzające dużo, często tworzone ad-hoc Czas odpowiedzi na zapytania Miara wydajności Zwykle bardzo szybki (maks. kilka sekund) Przepustowość liczba transakcji na sekundę Zależny od rozmiaru przetwarzanych, może sięgnąć wielu godzin Czas odpowiedzi OLTP vs OLAP (2) Cecha OLTP OLAP Tryb dostępu do Zarówno odczyt jak i zapis Użytkownicy tylko odczyt, zapis tylko przez proces odświeżania hurtowni Model Dwuwymiarowy Wielowymiarowy Struktura bazy (w modelu relacyjnym) Wysoce znormalizowana z dużą ilością tabel Najczęściej zdenormalizowana z niewielką ilością tabel (dla modelu ROLAP) na podstawie http://www.rainmakerworks.com/ 17 18 Aktywności w hurtowni (1) Aktywności w hurtowni (2) 1. Sesje analityczne użytkowników: realizowane w celu przeprowadzenia analiz biznesowych podaj przychód ze sprzedaży produktu X w sklepach sieci Y w trzecim i czwartym kwartale 2008 r. ) składają się z serii zapytań analitycznych główna aktywność hurtowni 2. Ładowanie hurtowni : realizowane tylko raz w procesie wdrożenia hurtowni pierwsze wypełnienie hurtowni danymi pobranymi ze źródeł kroki składowe procesu: 1. ekstrakcja ze źródeł 2. przekształcanie (czyszczenie, uspójnianie, eliminacja powtórzeń, sprowadzenie do wspólnego formatu, itd.) 3. zapisanie w hurtowni 4. wyliczenie zagregowanych 3. Odświeżanie hurtowni : uaktualnienie hurtowni zmianami, jakie zaszły w źródłach od momentu ostatniego procesu odświeżenia lub ładowania, realizowane cyklicznie, kroki procesu identyczne jak w procesie ładowania hurtowni problemy: kiedy odświeżać dane? jak często odświeżać dane? odświeżać przyrostowo czy całkowicie? Procesy ładowania i odświeżania hurtowni noszą wspólną nazwę procesu ETL (ang. Extract, transform, and load) 19 20

Kategorie w hurtowni (1) Kategorie w hurtowni (2) 1. Dane elementarne (operacyjne): pozyskiwane bezpośrednio ze źródeł zapisywane w hurtowni w procesie ładowania i odświeżania duży poziom szczegółowości 3. Dane zagregowane: przetworzone dane elementarne niski stopień szczegółowości (wysoki stopień zagregowania) powstają w procesie agregacji 2. Dane historyczne: wersje elementarnych wcześniejsze od wersji aktualnej powstają w momencie pojawienia się nowej wersji aktualnych elementarnych w procesie odświeżania hurtowni 4. Metadane: opisują znaczenie, pochodzenie (źródła, sposoby przetwarzania) pozostałych hurtowni 21 22 Źródła dla hurtowni (1) Źródła dla hurtowni (2) Cechy: heterogeniczność: różne formaty składowania, np.: systemy zarządzania bazami (bazy relacyjne, obiektowe, obiektoworelacyjne, wielowymiarowe, ) pliki CSV pliki XML pliki www pliki arkusze kalkulacyjne dokumenty (doc, pdf, odf, ) systemy o specyficznym sposobie składowania (systemy spadkowe) Cechy (cd): heterogeniczność (cd): różne poziomy funkcjonalności wpływają na stopień skomplikowania procesu ETL: źródła kooperujące dostarczają automatycznych mechanizmów wykrywania zmian w ich zawartości i zawiadamiania HD o wykrytych zmianach; podział:» źródła aktywne np. system bazy z mechanizmem wyzwalaczy» źródła z mechanizmami replikacji np. system bazy z opcją replikacji źródła niekooperujące HD musi samodzielnie odczytać dane ze źródła; podział:» z możliwością wydawania zapytań np. systemy baz» udostępniające dziennik zmian np. systemy baz, systemy pocztowe» migawkowe udostępniają całą swoją zawartość bez jakichkolwiek mechanizmów filtracji, np. pliki płaskie różni producenci, np. systemy baz różne dialekty języka SQL 23 24

Źródła dla hurtowni (3) Cechy (cd): autonomiczność zmiany zawartości źródeł są niezależne od jakichkolwiek systemów zewnętrznych w stosunku do źródła źródło może ograniczać dostęp z zewnątrz do swoich np. pozwala na pobieranie swoich tylko w porach małej aktywności lokalnych użytkowników źródła hurtownia nie może wpływać na strukturę i sposób działania źródła źródło może zmienić strukturę swoich, hurtownia musi dostosować proces pobierania ze źródła do zmian i być może dokonać zmian struktury swoich 25