Hurtownie Danych. Dariusz Dymek
|
|
- Grzegorz Woźniak
- 8 lat temu
- Przeglądów:
Transkrypt
1 Dariusz Dymek
2 Definicja Hurtownia danych to tematyczna baza danych, która trwale przechowuje zintegrowane dane opisane wymiarem czasu [Inmon96] Hurtownie danych są ukierunkowane na realizację celów strategiczno-analitycznych, w przeciwieństwie do transakcyjnych baz danych, które realizują cele operacyjne 2
3 Tematyczna Zakres danych, ich model oraz struktura ich przechowywania w HD wynika z potrzeb związanych z zadanym tematem (np. klientami), łącząc w sobie wszystkie informacje pochodzące z różnych systemów (np. zamówienia, sprzedaż, płatności, etc.) 3
4 Trwale Dane w HD nie podlegają modyfikacji ani archiwizacji. Mają one charakter przyrostowy, a zakres operacji na danych sprowadza się tylko do zapisu i odczytu. Trwałość danych stanowi duże wyzwanie dla procesów ich pozyskiwania (ETL), gdyż po wczytaniu danych nie można dokonywać żadnych poprawek. 4
5 Zintegrowane Dane w HD pochodzą z różnych systemów, w których mogą być przechowywane w różnych modelach i strukturach. Integracja w HD polega na narzuceniu danym jednolitego modelu i struktury, niezależnie od źródła pochodzenia danych oraz na zapewnieniu ich merytorycznej poprawności 5
6 Opisane wymiarem czasu Dla wszystkich danych w HD wymiar czasu jest jedną z podstawowych form porządkowania. Wszystkie dane są opisane w terminach czasowych, co w połączeniu z trwałością oznacza, że analizy za dany okres czasu, bez względu na czas ich wykonania muszą być identyczne (w zakresie danych) t 5 t 4 t 3 t 2 t 1 6
7 Zakres stosowania Złożone raporty Analizy statystyczne Prognozy i trendy Zależności między danymi (data mining) Planowanie i kontrola 7
8 Dlaczego nie OLTP? OLPT (On Line Transaction Processing) to klasa systemów ukierunkowanych na transakcyjne przetwarzanie danych (przykładem może być większość systemów informatycznych dla biznesu). OLTP jest ukierunkowane na: Operacje - szybkie przetwarzanie pojedynczych i stosunkowo małych ilości danych (np. pojedyncza sprzedaż) Odzwierciedlanie stanu aktualnego, co oznacza ciągłą zmianę stanu Wydajność w przetwarzaniu pojedynczych danych z istotnym warunkiem czasu odpowiedzi 8
9 OLTP vs HD Właściwość OLTP HD Czasowy zakres danych 3-12 miesięcy Co najmniej kilka lat Organizacja danych wg aplikacji wg tematu (dziedziny) Typowy rozmiar danych Liczony w MB lub GB Liczony w GB lub TB Aktualność danych Bieżąca Historyczna Zakres operacji na danych Określony przez DML Selekcja* Zasilanie danymi Ciągłe, dane pojedyncze Periodyczne, dane w pakietach zbiorczych Obciążenie dysku Małe-średnie Duże Czas odpowiedzi do sekundy nawet kilka godzin *) Brak możliwości zmieniania danych wynika z faktu, że dane pochodzą z innych systemów, więc ich modyfikacja powinna być traktowana jako falsyfikacja danych (lub taka możliwość), ogranicza to w praktyce możliwości operowania na danych jedynie do ich wybierania 9
10 Architektura Hurtowni Danych Schemat ogólny 10
11 Usytuowanie Hurtowni Danych 11
12 Struktura Hurtowni Danych 12
13 Warianty Struktury Architektura Hurtowni Danych 13
14 Hurtownia scentralizowana Dane są kopiowane z systemów źródłowych do czasowego obszaru składowania (Temporary Storage Area) Dane po transformacji, oczyszczeniu i przetworzeniu są zapisywane w Centralnym Repozytorium Danych (Central Data Repository, Data Vault) Aplikacje analityczne korzystają z danych z CRD Możliwe wyodrębnienie baz tematycznych jako baz wirtualnych (virtual view) Inne nazwy: Korporacyjna Hurtownia Danych (Enterprise Data Warehouse) 14
15 Hurtownia scentralizowana z zależnymi hurtowniami tematycznymi Dane są kopiowane z systemów źródłowych do czasowego obszaru składowania (Temporary Storage Area) Dane po transformacji, oczyszczeniu i przetworzeniu są zapisywane w Centralnym Repozytorium Danych (Central Data Repository, Data Vault) Hurtownie tematyczne (Data Marts - DM) są zasilane z CRD i mają charakter zmaterializowany Aplikacje analityczne mogą korzystać z danych z DM lub z CRD (rzadziej) Inne nazwy: Depended Data Marts 15
16 Niezależne hurtownie tematyczne Dane są kopiowane z systemów źródłowych do czasowego obszaru składowania (Temporary Storage Area) Dane po transformacji, oczyszczeniu i przetworzeniu są zapisywane w hurtowniach tematycznych (DM) Procesy zasilania poszczególnych DM mogą być realizowane niezależnie Aplikacje analityczne mogą korzystać z danych z DM Inne nazwy: Independed Data Marts 16
17 Unia hurtowni tematycznych Dane są kopiowane z systemów źródłowych do czasowego obszaru składowania (Temporary Storage Area) Dane po transformacji, oczyszczeniu i przetworzeniu są zapisywane w hurtowniach tematycznych (DM) Proces zasilania jest wspólny dla wszystkich DM Aplikacje analityczne mogą korzystać z danych z DM Inne nazwy: Data Mart Bus 17
18 Schemat Hurtowni Danych uwarunkowania wyboru Architektury oparte o CRD wymagają planowania i projektowania z wyprzedzeniem, wymagają dużych nakładów na początku, ale dają obraz całościowy i większe możliwości rozbudowy hurtowni z zachowaniem spójności danych i dzięki centralizacji są łatwiejsze w administrowaniu i utrzymaniu (lepsza kontrola nad dostępem do danych, jedna platforma, itd.) Architektury oparte o DM (bez CRD) mogą być realizowane bezpośrednio w odpowiedzi na potrzeby użytkowników ( biznesu ), ale niezależność procesów zasilania może prowadzić do utraty spójności danych między poszczególnymi DM. Całość jest trudniejsza w administrowaniu i utrzymaniu (wielu właścicieli danych, możliwe różne procedury dostępu czy narzędzia implementacyjne, itd.) 18
19 Architektura Hurtowni Danych Model warstwowy 19
20 Model Konceptualny Warstwa pojęciowa-funkcjonalna (HD-WPF) operuje na poziomie informacji, definiuje funkcje (biznesowe) HD, posługuje się językiem pojęć biznesowych Warstwa logiczna (HD-WL) operuje na poziomie informacji i danych, mapuje pojęcia biznesowe (informację) na język danych Warstwa fizyczna (HD-WF) operuje na poziomie danych, stanowi implementację warstwy logicznej 20
21 Model konceptualny 21
22 Model konceptualny WARSTWA POJĘCIOWO - FUNKCJONALNA Dariusz Dymek
23 Warstwa pojęciowo-funkcjonalna (WPF) Schemat funkcjonalny Opisuje funkcjonalność HD na poziomie biznesowym, wskazując jakie funkcje biznesowe będą realizowane i wspierane oraz w jaki sposób, lokuje HD w systemie informacyjnych organizacji Schemat informacyjny HD Opisuje zakres informacji przechowywanych i udostępnianych przez DH posługując się językiem pojęć biznesowych Schematy informacyjne źródeł danych Wskazuje na źródła informacji (danych) dla HD, opisuje jakie informacje będą pochodzić z jakich źródeł, opisuje źródła w języku użytkowników HD (np. system FK, baza klientów, etc.), definiuje relacje między pojedynczymi źródłami informacji oraz specyfikuje wymagania jakościowe 23
24 WPF schemat funkcjonalny Docelowo HD staje się jednym z elementów systemu informacyjnego organizacji, dlatego należy ustalić jego rolę w tym systemie Definiujemy jakie funkcje udostępnia HD (np. raporty typu X dla działu Y) i w jakim trybie (np. na żądanie), identyfikując równocześnie użytkowników HD i ich role (np. właściciel tematu) Schemat funkcjonalny jest opisywany na poziomie pojęć i procesów biznesowych, Odpowiada Specyfikacji Wymagań Biznesowych w Inżynierii Oprogramowania (Inżynierii Wymagań) 24
25 WPF schemat informacyjny Wskazanie obiektów (w sensie biznesowym np. klient, dostawca, produkt, usługa, etc. w nomenklaturze HD: fakty) jakie mają być opisywane w Hurtowni Danych oraz sposób ich opisu (atrybuty, zakres informacji opisujących fakty, np. data, miejsce, etc. w nomenklaturze HD: wymiary) i miar atrybutów Mapowanie pomiędzy zawartością HD (fakty i wymiary) a elementami schematu funkcyjnego (np. raporty) 25
26 WPF- schemat informacyjny źródeł danych opis źródeł danych na poziomie informacji zdefiniowanie relacji pomiędzy obiektami (faktami i wymiarami) Hurtowni Danych a obiektami opisywanymi przez źródła danych 26
27 Warstwa pojęciowo-funkcjonalna (WPF) Opis warstwy pojęciowo-funkcjonalnej tworzy Model Pojęciowo-Funkcjonalny (MPF) MPF jest podstawą do wszelkich prac analitycznych i implementacyjnych przy budowie Hurtowni Danych Podejście do realizacji MPF: LAV : Local-As-View opis danych źródłowych i hurtowni danych jest realizowany w jednym wspólnym modelu pojęciowym (! trzeba go stworzyć) GAV : Global-As-View dane źródłowe są opisywane we własnych modelach pojęciowych i mapowane na model pojęciowy hurtowni danych (! trzeba mapować) 27
28 Model Pojęciowo-Funkcjonalny (MPF) Do formalnego opisu MPF można wykorzystać np. diagramy ERD lub inne narzędzia pozwalające na opisanie relacji pomiędzy różnymi obiektami i atrybutami je charakteryzującymi W trakcie eksploatacji, Hurtownia Danych ulega ciągłym modyfikacjom na skutek: Dodawania nowych źródeł danych Dodawania nowej (lub modyfikacji istniejącej) funkcjonalności Każda zmiana znajduje swoje odbicie w MPF. 28
29 MPF dodanie nowego źródła danych Opisanie nowego źródła w istniejącym modelu pojęciowym (z ewentualnym rozszerzeniem tego modelu o nowe pojęcia) Umiejscowienie nowego (lokalnego) modelu pojęciowego nowego źródła w modelu pojęciowym hurtowni Zdefiniowanie relacji pomiędzy nowym źródeł a hurtownią (na poziomie informacji) Sprawdzanie zgodności nowego źródła z już istniejącymi Stworzenia nowej wersji MPF 29
30 MPF dodanie nowej funkcjonalności Opisanie nowej funkcjonalności (analizy, raportu) w istniejącym modelu pojęciowym (z ewentualnym rozszerzeniem tego modelu o nowe pojęcia wynikające z tej funkcjonalności) Sprawdzenie zgodności nowej funkcjonalności z istniejącym opisem źródeł zasilania (w przypadku konieczności zmian w źródłach zasilania: patrz MPF dodanie nowych źródeł zasilania) Sprawdzenie zgodności pojęciowej nowej funkcjonalności z już istniejącą Stworzenia nowej wersji MPF 30
31 Model konceptualny WARSTWA LOGICZNA Dariusz Dymek
32 Warstwa logiczna (WL) Specyfikacja aplikacji użytkownika Specyfikacja struktur HD Specyfikacja struktur ETL Specyfikacja logiki ekstrakcji danych Specyfikacja logiki transformacji danych Specyfikacja logiki ładowania danych Specyfikacja struktur źródeł danych Warstwa logiczna stanowi odpowiednik analizy i szczegółowego projektu Hurtowni Danych punktem wyjścia jest MPF 32
33 WL Specyfikacja aplikacji użytkownika Stanowi odpowiednik Specyfikacji Wymagań Użytkowników w Inżynierii Oprogramowania (Inżynierii Wymagań) Aplikacje grupują funkcjonalność wg potrzeb użytkowników Specyfikacja aplikacji użytkownika jest tworzona w oparciu o MFP oraz o Specyfikację struktur danych DH (na poziomie logicznym model danych HD z wyróżnieniem struktur danych) 33
34 WL Specyfikacja struktur HD Wychodząc od MPF definiujemy logiczną strukturę danych dla Hurtowni Danych Specyfikacja struktur HD powinna być zrobiona w narzędziach niezależnych od narzędzi implementacyjnych Specyfikacja struktur HD jest mapowana na funkcjonalność poszczególnych aplikacji (a do niej są mapowane specyfikacje struktur źródeł danych) 34
35 WL- Model struktury danych Fakty (zdarzenia) Opisuje fakty (np. sprzedaż) przeważnie w ujęciu ilościowym (np. ilość, wartość, cena) (miary) Główna tabela (tabele) Hurtowni Danych połączona z tabelami wymiarów Wymiary Nadają znaczenie faktom (np. kto, co, komu i kiedy sprzedał) Przechowywane w odrębnych tabelach Mogą mieć strukturę hierarchiczną (wielopoziomową) Określenie faktów i wymiarów je opisujących (wraz z zakresem wartości) jest elementem projektu logicznego hurtowni 35
36 WL - Model struktury danych - Gwiazda Najprostszy model wykorzystywany w HD Tabela faktów jest w trzeciej postaci normalnej Dla każdego z wymiarów występuje tylko jedna zdenormalizowana tabela Klucz główny tabeli faktów jest zwykle złożony z wszystkich kolumn z wyjątkiem miar 36
37 WL - Model struktury danych Płatek śniegu Jest bardziej złożoną wersją schematu gwiazdy Główną różnicą jest normalizacja tabel wymiarów Używana głównie gdy tabele wymiarów osiągają duże rozmiary 37
38 WL- Model struktury danych Konstelacja Może być wykorzystany zarówno w schemacie gwiazdy jak i płatka śniegu Zakłada istnienie więcej niż jednej tabeli faktów Tabele faktów mogą współdzielić wymiary, ale mogą też posiadać odrębne wymiary 38
39 WL Specyfikacja struktur ETL (WL-ETL) ETL: pozyskanie, transformacja i ładowanie danych (do Hurtowni Danych) Ogół działań mających na celu pozyskanie danych ze źródeł danych, ich przekształcenie do postaci wymaganej przez model HD, sprawdzenie ich poprawności (formalnej i merytorycznej), wykonanie niezbędnych przetwarzań (np. agregacji) oraz załadowanie ich do struktur HD 39
40 WL-ETL Specyfikacja logiczna ekstrakcji danych Opis procesu pozyskania danych z każdego źródła z uwzględnieniem: Zakresu pozyskiwanych danych Postaci poszczególnych elementów danych Sposobu ich pozyskania (np. ekstrakcja do plików tekstowych, odczyt z baz operacyjnych lub archiwalnych, itp.) Uwarunkowań procesu pozyskania, w tym: Możliwości techniczno-czasowe dostępności danych Formy transmisji danych Mechanizmy kontroli poprawności ekstraktów na etapie ich przygotowania i na etapie transmisji (np. kody parzystości do identyfikowania kompletności plików tekstowych) 40
41 WL-ETL Specyfikacja logiczna transformacji danych Dla każdego ze źródeł danych specyfikujemy procesy przetwarzania danych do postaci wymaganej przez model HD Specyfikacja obejmuje: Przekształcenia typów i wartości Przekształcenie do wymaganej struktury Zasady sprawdzenia poprawności pojedynczych ekstraktów jak i spójności danych zawartych w różnych ekstraktach Kolejność i warianty wykonywanych przetwarzań (z uwzględnieniem wydajności) na tym etapie jako źródło danych rozumiemy ekstrakty ze wcześniej wyspecyfikowanych źródeł danych może być ich więcej niż systemów źródłowych, gdyż pojedynczy system może dostarczać więcej niż jeden ekstrakt, dodatkowo liczba tych ekstraktów nie musi być stała w czasie np. dzienne, tygodniowe, itd. 41
42 WL-ETL Specyfikacja logiczna ładowania danych Specyfikacja ładowania danych czyli zasilenia struktur hurtowni danych obejmuje: Specyfikację procesu wczytania poprawnych danych (kolejność ładowania danych) Specyfikację mapowania poszczególnych elementów danych do struktur hurtowni danych Specyfikację procesów przetwarzania danych realizowanych na poziomie Hurtowni Danych, w tym m.in.: Procesy zasilające Tematyczne (Data Mart y) Procesy wyliczające predefiniowane raporty i analizy (w oparciu o ustaloną listę) Specyfikacja musi uwzględniać kwestie wydajnościowe oraz warianty ładowania i przetwarzania danych 42
43 WL Specyfikacja struktur źródeł danych Opis struktury logicznej wszystkich źródeł danych Struktury danych, relacje między danymi, wartości i formaty danych Określenie sposobu pozyskania danych dla każdego ze źródeł: Sposób dostępu do danych (np. funkcje systemu źródłowego, bezpośredni dostęp do bazy danych i wykorzystanie zapytań SQL, itd.) Uwarunkowania dostępu do danych (np. czasowe, wydajnościowe, itd.) 43
44 Warstwa logiczna (WL) Warstwa logiczna modelu koncepcyjnego odpowiada projektowi technicznemu (w inżynierii oprogramowania), co oznacza w szczególności że specyfikacja warstwy logicznej musi zawierać opis wszystkich algorytmów Warstwa logiczna stanowi punkt wyjścia do prac implementacyjnych (i decyzji projektowych) Znaczenie WL (!) 44
45 Model konceptualny WARSTWA FIZYCZNA Dariusz Dymek
46 Warstwa fizyczna (WF) Warstwa prezentacji - aplikacje użytkownika Warstwa przechowania danych - (Centralne) Repozytorium Danych Warstwa filtracyjna Moduły transformacji danych Moduły ładowania danych Źródła danych Moduły ekstrakcji danych Warstwa fizyczna to działająca Hurtownia Danych 46
47 Warstwa fizyczna 47
48 Źródła danych i ich ekstrakcja Proces pozyskania danych (skrypty SQL, aplikacje zewnętrzne, funkcje wbudowane, itd.) dla każdego ze zdefiniowanych źródeł danych musi być zintegrowany w normalny proces jego obsługi Musi uwzględniać kwestie czasowe (dane muszą być dostępne w określonym momencie aby można je było wczytać w zakładanym terminie) oraz wydajnościowe (proces pozyskania danych nie może zakłócać funkcjonowania systemów źródłowych w istotny sposób) Proces ten musi mieć wbudowane mechanizmy weryfikacji poprawności, zanim dane zostaną przesłane do hurtowni Przesłanie danych do warstwy filtracyjnej powinien być w maksymalnym stopniu zautomatyzowany przesłanie danych kończy proces ich pozyskania 48
49 Warstwa filtracyjna odczyt danych Odczyt danych dostarczonych ze źródeł danych scheduling czasowo-zdarzeniowy Automatyczna identyfikacja nadejścia danych Weryfikacja źródła danych Weryfikacja kompletności danych na poziomie technicznym (kompletność plików, brak uszkodzeń w plikach, nadejście wszystkich plików przewidzianych w planie) Wczytanie danych do struktur pomocniczych (TSA) Czasowe przechowywanie danych źródłowych do zakończenia procesu ładowania oraz ich archiwizacja Wszystkie działania związane z wczytaniem danych musi przebiegać w oparciu o zdefiniowane procedury oraz być dokumentowana (log operacji, listy kontrolne, itd.) 49
50 Warstwa filtracyjna - transformacja Realizowana na danych wczytanych do struktur tymczasowych (TSA Temporary Storage Area) Obejmuje konwersję danych do modelu hurtowni: Konwersja typów Konwersja wartości z kontrolą ich wartości (reguły, listy, itd.) Kategoryzacja wartości (wg. wartości zdefiniowanych dla wymiarów ) Sprawdzenie poprawności danych po konwersji Polega najczęściej na przepisaniu danych z formatów transportowych do struktur zgodnych z modelem hurtowni (rezultaty są dalej składowane w TSA) 50
51 Warstwa filtracyjna - Integracja Wczytane i poddane transformacji dane zgromadzone w TSA muszą być poddane dalszemu przetwarzaniu, celem ich połączenia w jednolity zbiór danych zgodnych z modelem hurtowni Integracja obejmuje m.in.: Ustanowienie relacji pomiędzy danymi z różnych źródeł Przetwarzanie danych w oparciu o dane z więcej niż jednego źródła (przykład: terminy rzeczywiste) Agregację danych do poziomu wymaganego przez model hurtowni W wyniku integracji wolumen danych może ulec istotnym zmianom 51
52 Warstwa filtracyjna Czyszczenie Proces realizowany w TSA, obejmujący sprawdzenie poprawności merytorycznej danych pochodzących z różnych(!) źródeł Czyszczenie danych jest realizowane w oparciu o reguły kontrolne opisujące wymagane właściwości danych, np.: Sumy krzyżowe w rozbiciach wg. różnych parametrów Zgodności sum wartości analitycznych z wartościami syntetycznymi Kompletność relacji między danymi z różnych źródeł (np. każda umowa musi być przypisana do klienta) Dla wykrytych niezgodności mogą być zdefiniowane automatyczne procedury naprawcze, ale może też być wymagana ingerencja użytkownika. W skrajnych przypadkach, może być zatrzymany proces zasilenia hurtowni. 52
53 Warstwa filtracyjna Ładowanie danych Proces polegający na przepisaniu danych ze struktur tymczasowych (TSA) do stałych struktur hurtowni danych (CRD Central Repository of Data) Wszystkie działania podejmowane w warstwie filtracyjnej powinny być sterowane danymi* opisującymi ten proces a przebieg i rezultaty tych działań muszą być odnotowane w strukturach hurtowni danych (w najprostszym przypadku w formie logów również składowanych w hurtowni*) *) dane o procesach ETL, ich przebiegu i rezultacie są elementem Metadanych HD omawianych w dalszej części wykładu 53
54 Warstwa filtracyjna Implementacja procesów Procesy warstwy filtracyjnej składają się z podprocesów (zadań) obsługujących dane cząstkowe. Wyniki działania jednych zadań są danymi wejściowymi kolejnych zadań. W efekcie zadania tworzą strukturę grafową. 54
55 Warstwa filtracyjna Implementacja procesów Uruchomienie zadania jest warunkowane spełnieniem niezbędnych kryteriów: dostępność danych właściwe zakończenie zadań poprzedzających Przebieg zadania powinien być monitorowany (log) Zadanie zwraca informacje o statusie zakończenia pomyślne wystąpiły błędy Uruchomienie zadań następujących jest warunkowane sposobem zakończenia bieżącego zadania w grafie procesów mogą występować ścieżki warunkowe 55
56 Warstwa filtracyjna Implementacja procesów Procesy (zadania) warstwy filtracyjnej (ETL) są wykonywane pod kontrolą modułu sterującego (będącego częścią HD i kontrolującego przebieg wszystkich przetwarzań w HD w tym w warstwie filtracyjnej), który odpowiada za: Harmonogramowanie zadań (pod-)moduł harmonogramujący Uruchomienie zadań (pod-)moduł uruchomieniowy Monitorowanie wykonania zadań (pod-)moduł monitorowania Należy pamiętać, że ekstrakcja danych jest często realizowana na poziomie systemów źródłowych, nad którymi moduł sterujący (a więc i szeroko rozumiana HD) nie ma kontroli 56
57 Warstwa filtracyjna harmonogramowanie procesów Zaplanowanie właściwej kolejności zadań z uwzględnieniem: Scenariusza zasilania na dany dzień Następstwa zadań Dostępnych zasobów Zapotrzebowania poszczególnych zadań na zasoby (moc obliczeniowa, pamięć, dyski, itd.) Harmonogramowanie procesów musi mieć charakter dynamiczny. Niewłaściwe zakończenie jednego z zadań musi prowadzić do zmiany harmonogramu. 57
58 Warstwa filtracyjna uruchamianie procesów Realizacja harmonogramu procesów: Sprawdzenie spełnienia warunków uruchomienia procesu zakończenie poprzedzających procesów z właściwym statusem Sprawdzenie dostępności potrzebnych danych Sprawdzenie dostępności wystarczającej ilości wymaganych zasobów Uruchamianie procesów jest sterowane harmonogramem, ale nie jest to po prostu automatyczne uruchamianie programów, lecz jest to proces aktywnej analizy stanu procesów i środowiska przetwarzania, tak aby zapewnić możliwość poprawnego wykonania każdego z uruchamianych procesów 58
59 Warstwa filtracyjna monitorowanie procesów Monitorowanie procesów odpowiada za nadzór nad przebiegiem poszczególnych procesów, a w szczególności: śledzi parametry pracy procesów (obciążenie procesora, zajęte miejsce na dysku, wykorzystywana pamięć operacyjna) monitoruje operacje we/wy procesów (dostęp do plików, baz danych, uruchamianie podprocesów, komunikacja z innymi procesami, itd.) kończenie procesów uznanych za niepoprawne ( zawieszenie ) śledzenie informacji o trybie (wyniku) zakończenia procesów Moduł monitorowania przekazuje informacje do modułu harmonogramowania, który na tej podstawie może modyfikować harmonogram procesów 59
60 Moduł Sterujący HD Moduł sterujący odpowiada za nie tylko za procesy warstwy filtracyjnej, ale obsługuje wszystkie procesy HD Moduł sterujący nie obsługuje części procesów pozyskania danych oraz procesów lokalnych aplikacji korzystających z danych zgromadzonych w HD Dariusz Dymek
61 Warstwa przechowania CENTRALNE REPOZYTORIUM DANYCH Dariusz Dymek
62 Centralne Repozytorium Danych (CRD) Implementacja relacyjna: Opiera się na wykorzystaniu koncepcji relacyjnych baz danych do fizycznej implementacji struktur modelu danych. Modele gwiazdy, płatka śniegu czy konstelacji, dają się łatwo implementować w postaci relacyjnej bazy danych. Fakty i wymiary są implementowane w postaci tabel połączonych relacjami. Dla agregatów wykorzystywane są materializowane perspektywy (materialized view) Na poziomie technicznymi wykorzystywane są powszechnie dostępne RDBMS lub ich wersje dostosowane do potrzeb HD (duża wielkość danych, ograniczony zakres zmian w danych i transakcyjność) 62
63 CRD Implementacja relacyjna Partycjonowanie danych*: Partycjonowane tabele i indeksy umożliwiają fizyczny podział danych na niewielkie, łatwe w zarządzaniu podzbiory, nazywane partycjami Każda partycja stanowi odrębny segment w bazie danych Partycje mogą być opcjonalnie dzielone na subpartycje Partycjonowanie umożliwia równoległą realizację poleceń DML *) na podstawie: Hurtownie danych na podstawie referatów IV Szkoły PLOUG 63
64 CRD Implementacja relacyjna Metody partycjonowania: Partycjonowanie zakresowe - rozdział rekordów pomiędzy partycje odbywa się według przynależności wartości kolumny-klucza do predefiniowanych przedziałów Partycjonowanie haszowe - rozdział rekordów odbywa się według wartości funkcji haszowej (modulo) wyliczanej dla kolumny-klucza Partycjonowanie wg listy - rozdział rekordów odbywa się według przynależności wartości kolumny-klucza do predefiniowanych list wartości Partycjonowanie dwupoziomowe zakresowo-haszowe - rozdział rekordów na partycje wg zakresów, a następnie na subpartycje wg wartości funkcji haszowej Partycjonowanie dwupoziomowe zakresowo-listowe - rozdział rekordów na partycje wg zakresów, a następnie na subpartycje wg przynależności do list wartości 64
65 Centralne Repozytorium Danych (CRD) Implementacja wielowymiarowa: Opiera się na wykorzystaniu koncepcji wielowymiarowych kostek danych (ang. cube or multidimensional array storage) Źródło: 65
66 CRD Implementacja wielowymiarowa Wymaga wykorzystania specjalnych narzędzi dla baz wielowymiarowych MDBMS (Multidimensional Data Base Management System) Ze względu na liczbę obliczeń przy tworzeniu kostek nie najlepiej nadaje się do dużych zbiorów danych częściej jest wykorzystywane w Data Martach i aplikacjach użytkowników(patrz: MOLAP poniżej) Zapewnia szybki dostęp do (predefiniowanych) agregatów danych, ale w złożonych zapytaniach może być mniej wydajne niż implementacja relacyjna 66
67 CRD Implementacja wielowymiarowa Operacje na kostkach*: Selekcja i wycinanie (ang. slice & dice) wybieranie fragmentu danych poprzez określenie warunków na wartościach wymiarów oraz ograniczenia listy wymiarów (zmniejszenie wymiaru kostki wynikowej) *) na podstawie: 67
68 CRD Implementacja wielowymiarowa Operacje na kostkach: Zwijanie (ang. roll-up, drill-up) zmniejszenie szczegółowości poprzez przejście na wyższy poziom hierarchii wymiaru (np. z dni na miesiące) 68
69 CRD Implementacja wielowymiarowa Operacje na kostkach: Drążenie (ang. drill-down, drill-through) zwiększenie szczegółowości poprzez przejście na niższy poziom hierarchii wymiaru (lub do danych źródłowych) 69
70 CRD Implementacja wielowymiarowa Operacje na kostkach: Obracanie (ang.pivoting) zmiana kolejności (położenia) wymiarów (np. przy przeglądaniu) 70
71 Warstwa przechowania DATA MARTS Dariusz Dymek
72 DATA MART Hurtownia tematyczna W architekturze zcentralizowanej stanowi kopię wyselekcjonowanych danych z CRD, stanowi rozwiązanie problemu wydajności przetwarzania danych poprzez ich rozproszenie W architekturach opartych na hurtowniach tematycznych (Niezależne hurtownie tematyczne, Unia hurtowni tematycznych) jest głównym miejscem składowania danych W zakresie sposobów implementacji wykorzystuje analogiczne modele jak CRD, mniejsza ilość danych pozwala częściej wykorzystywać model wielowymiarowy 72
73 DATA MART Kryterium wyodrębniania DM-ów opiera się na zakresie wykorzystania konkretnych danych i funkcjonalności aplikacji użytkowników Przykłady DM: Sprawozdawcze Raportowe Monitorowanie wykonania planów (finansowych, sprzedaży, itd.) Analityczne (np. do analiz statystycznych lub data miningu) Relacje z klientami (CRM) 73
74 Warstwa prezentacji: APLIKACJE UŻYTKOWNIKÓW Dariusz Dymek
75 Warstwa prezentacji Na warstwę prezentacji składają się mechanizmy dostępu do danych zgromadzonych w HD Bezpośredni i swobodny dostęp do danych (np. zapytania ad-hoc) podlega ścisłym restrykcjom ze względów wydajnościowych i jest dostępny tylko wąskiej grupie użytkowników (power-user) Pozostali użytkownicy mają jedynie dostęp do aplikacji o określonej funkcjonalności, które bezpośrednio (w przypadku korzystania z CRD) lub pośrednio (w przypadku korzystania z DM) korzystają z danych zawartych w HD 75
76 Aplikacje użytkownika - OLAP Rodzaje OLAP (On-line Analytical Processing): ROLAP Relational Online Analytical Processing Wykorzystuje implementację relacyjną w procesach analizy danych MOLAP Multidimensional Online Analytical Processing Wykorzystuje implementację wielowymiarową w procesach analizy danych HOLAP Hybrid Online Analytical Processing Wariant hybrydowy najczęściej wykorzystywane wymiary (i ich kombinacje są agregowane i przechowywane w postaci kostki wielowymiarowej, a pozostałe dane pozostają w formie relacyjnej i są dostępne lub agregowane na żądanie Rodzaj OLAP w ogólnym przypadku nie determinuje obszaru zastosowań wybór zależy od wielu czynników takich jak: wielkość danych, stopień agregacji, powtarzalność operacji, itd. 76
77 ROLAP Zalety: Może obsługiwać bardzo duże ilości danych. Limit danych w ROLAP jest limitem danych w relacyjnej bazie danych na której jest oparty. Posiada funkcjonalność relacyjnej bazy danych. Wady: Słaba wydajność. ROLAP opiera się na zapytaniach SQL, co w przypadku dużej ilości danych, może oznaczać długi czas wykonania. Ograniczona funkcjonalność. Możliwości ROLAP opierają się na możliwościach języka SQL, co powoduje problemy np. przy złożonych obliczenia. 77
78 MOLAP Zalety: Duża wydajność. Kostki wielowymiarowe zawierają już przetworzone dane, zoptymalizowane do szybkiego dostępu do danych. Możliwość skomplikowanych obliczeń. Obliczenia są wykonywane podczas tworzenia kostki, co umożliwia wykorzystanie zewnętrznych narzędzi. Wady: Ograniczona ilość danych. Wszystkie obliczenia są wykonywane przy tworzeniu kostki, więc nie jest możliwe wrzucanie olbrzymich ilości danych w kostkę. Problemy przy złożonych zapytaniach, wykraczających poza zakres uwzględniony przy definiowaniu kostek Wymaga dodatkowych inwestycji w technologię wielowymiarową. 78
79 HOLAP Będąc hybrydą rozwiązań relacyjnych i wielowymiarowych, w zakresie funkcjonalnym jest próbą połączenia zalet obu tych rozwiązań: wielkość danych duża wydajność Jednocześnie z technicznego punktu widzenia częściowo łączy wady obu rozwiązań: konieczność inwestowania w nową technologię złożone środowisko przetwarzania Potencjalnie najlepsze rozwiązania, ale wymaga dużej staranności przy planowaniu i w trakcie eksloatacji 79
80 Aplikacje użytkownika - interfejs Raporty i zestawienia statyczne: Ekranowe Wydruki Export w formatach stałych (np. pdf) i edytowalnych (np. xls) Raporty i zestawienia dynamiczne: Koncepcja kokpitu managera: 80
81 METADANE Dariusz Dymek
82 Metadane Hurtowni Danych Metadane = dane o danych Stanowią ustrukturalizowany opis wszystkich aspektów Hurtowni Danych na każdym z poziomów (pojęciowym, logicznym i fizycznym) Metadane są podstawą działania Hurtowni Danych, umożliwiając: Automatyzację działania Hurtowni Danych Metadane techniczne Wspólne rozumienie danych Metadane biznesowe 82
83 Metadane biznesowe Przechowują definicje pojęć biznesowych w języku modelu i struktur danych zarówno dla systemów źródłowych jak i repozytorium danych Opisują relacje pomiędzy danymi źródłowymi i danymi w Hurtowni Danych w zakresie transformacji modeli i danych Zawierają opis reguł biznesowych wykorzystywanych przy transformacji danych i weryfikacji ich biznesowej poprawności Opisują wszystkie struktury hurtowni danych, w tym: typy i wielkość pól, opis wszystkich dopuszczalnych wartości (w sensie merytorycznym) 83
84 Metadane techniczne Obejmują informację m.in. o: Źródłach danych, ich strukturze i trybie dostępu Schematach odczytu danych źródłowych (weryfikacja poprawności, kolejność wczytywania, scenariusze procesu wczytywania danych) Szczegółowych algorytmach mapowania i transformacji danych źródłowych do hurtowni danych Mapowaniu i transformacji danych źródłowych (scenariusze procesu transformacji, kontroli poprawności danych i ładowania danych, scenariusze predefiniowane procesy przetwarzania danych) Przechowują informacje o użytkownikach (role) 84
85 Metadane techniczne Gromadzą dane o bieżącej aktywności HD: Informacje o terminach uzyskania dostępu do danych Przebieg procesów ETL dla poszczególnych dat zasilania, m.in. w zakresie: wielkości danych, czasu przetwarzania, rezultatu przetwarzania, wykorzystywanych scenariuszy, itd. Logi szczegółowe wszystkich procesów zasilania, przetwarzania i wykorzystania Hurtowni Danych Logi aktywności użytkowników m.in. w zakresie czasu dostępu, zakresu danych, uruchamianych procesów, itd. Definiują i przechowują dane o działaniach związanych z administracją hurtowni danych (back-up, przeglądy, itd.) Przechowują informację o wszystkich zmianach w funkcjonowaniu hurtowni danych (źródła, modele, procesy, itd.) 85
86 EKSPLOATACJA Dariusz Dymek
87 Zasilanie (aktualizacja) HD Zdarzeniowa (detekcja zmian) Okresowa (dzienna, miesięczna, inna) Propagacja aktualizacja czyli aktualizacja THD (Data Martów): Natychmiastowa (po aktualizacji CRD) Odroczona Eksploatacja Hurtowni Danych przy pierwszym odwołaniu w kolejnym planowanym terminie w trybie nocnym na żądanie Wypracowania strategii aktualizacji ma często charakter heurystyczny (strojenie hurtowni danych) i może ona ulegać zmianie wraz z rozwojem HD 87
88 Eksploatacja Hurtowni Danych Automatyzacja procesów ETL: Sterowanie czasem i zdarzeniami (scheduling czasowo-zdarzeniowy) Wymuszanie działań Wykonywanie zapytań Zapytanie standardowe (preprocesing) Strategie kolejkowania (priorytety) Zapytania ad-hoc Działania zasobochłonne o dużym stopniu złożoności, np. eksploracja (drążenie) danych (data mining) czy generacja złożonych raortów, są najczęściej wykonywane na przygotowanych osobno danych (data mart) z wykorzystaniem zewnętrznych narzędzi 88
89 Eksploatacja Hurtowni Danych Eksploatacja Hurtowni Danych jest procesem podlegającym ciągłym zmianom, wynikającym z: Zmian w systemach zasilających Zmian wymagań użytkowników (nowe zapytania, raporty, analizy) Zmian w samej hurtowni danych (nowe aplikacje użytkowników, nowe tematy, itd.) W praktyce proces budowy Hurtowni Danych ma charakter ciągły, gdyż współcześnie potrzeby użytkowników rosną szybciej niż możliwości ich zaspokajania 89
90 Dziękuję za uwagę Dariusz Dymek
91 Literatura Ch. Todman, Projektowanie hurtowni danych WNT - Warszawa 2003 M. Jarke, M. Lenzerini, Y. Vassiliou, P. Vassiliadis, Hurtownie danych. Podstawa organizacji i funkcjonowania WSiP - Warszawa 2003 V. Poe, P. Klauer, S. Brobst, Tworzenie hurtowni danych WNT - Warszawa 2000 W.H.Inmon: Building the Data Warehouse, (4th Edition), Wiley, 2005 Internet 91
Hurtownie danych. Wstęp. Architektura hurtowni danych. http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH
Wstęp. Architektura hurtowni. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH B. Inmon, 1996: Hurtownia to zbiór zintegrowanych, nieulotnych, ukierunkowanych
Wprowadzenie do technologii Business Intelligence i hurtowni danych
Wprowadzenie do technologii Business Intelligence i hurtowni danych 1 Plan rozdziału 2 Wprowadzenie do Business Intelligence Hurtownie danych Produkty Oracle dla Business Intelligence Business Intelligence
Hurtownie danych. 31 stycznia 2017
31 stycznia 2017 Definicja hurtowni danych Hurtownia danych wg Williama Inmona zbiór danych wyróżniający się następującymi cechami uporządkowany tematycznie zintegrowany zawierający wymiar czasowy nieulotny
Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)
Hurtownie danych dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki Maciej Zakrzewicz (1) Plan wykładu Wprowadzenie do Business Intelligence (BI) Hurtownia danych Zasilanie hurtowni
Modele danych - wykład V
Modele danych - wykład V Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Zagadnienia 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie
Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE
Modele danych - wykład V Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Zagadnienia 1. Wprowadzenie 2. MOLAP modele danych 3. modele danych 4. Podsumowanie 5. Zadanie fajne
Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych
Plan wykładu Bazy Wykład 14: Hurtownie Bazy operacyjne i analityczne Architektura hurtowni Projektowanie hurtowni Małgorzata Krętowska, Agnieszka Oniśko Wydział Informatyki PB Bazy (studia dzienne) 2 Rodzaje
Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu
i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2012 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę
Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu
i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2007 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę
Usługi analityczne budowa kostki analitycznej Część pierwsza.
Usługi analityczne budowa kostki analitycznej Część pierwsza. Wprowadzenie W wielu dziedzinach działalności człowieka analiza zebranych danych jest jednym z najważniejszych mechanizmów podejmowania decyzji.
BD2 BazyDanych2. dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego
BD2 BazyDanych2 dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego ³ Copyright c Tomasz Traczyk Instytut Automatyki i Informatyki Stosowanej Politechniki Warszawskiej Materiały dydaktyczne
Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie
Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2008 Zagadnienia do omówienia 1. 2. Przegląd architektury HD 3. Warsztaty
Hurtownie danych a transakcyjne bazy danych
Hurtownie danych a transakcyjne bazy danych Materiały źródłowe do wykładu: [1] Jerzy Surma, Business Intelligence. Systemy wspomagania decyzji, Wydawnictwo Naukowe PWN, Warszawa 2009 [2] Arkadiusz Januszewski,
Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence
Hurtownie danych Rola hurtowni danych w systemach typu Business Intelligence Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika
Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services
Spis treści Wstęp... ix Odkąd najlepiej rozpocząć lekturę?... ix Informacja dotycząca towarzyszącej ksiąŝce płyty CD-ROM... xi Wymagania systemowe... xi Instalowanie i uŝywanie plików przykładowych...
Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU
Hurtownie danych Przetwarzanie zapytań. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Magazyny danych operacyjnych, źródła Centralna hurtownia danych Hurtownie
Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence
Hurtownie danych Wprowadzenie do systemów typu Business Intelligence Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika
OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie
OdświeŜanie hurtownie danych - wykład IV Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006/2007 Zagadnienia do omówienia 1. Wprowadzenie 2. Klasyfikacja źródeł danych 3. Wymagania
Wprowadzenie do Hurtowni Danych. Mariusz Rafało
Wprowadzenie do Hurtowni Danych Mariusz Rafało mrafalo@sgh.waw.pl WARSTWA PREZENTACJI HURTOWNI DANYCH Wykorzystanie hurtowni danych - aspekty Analityczne zbiory danych (ADS) Zbiór danych tematycznych (Data
Pierwsze wdrożenie SAP BW w firmie
Pierwsze wdrożenie w firmie Mirosława Żurek, BCC Poznao, maj 2013 Zakres tematyczny wykładu Podstawowe założenia i pojęcia hurtowni danych ; Przykładowe pierwsze wdrożenie w firmie i jego etapy; Przykładowe
Rady i porady użytkowe
Rady i porady użytkowe Dział Eksploatacji CONTROLLING SYSTEMS sp. z o.o. Rady i porady - źródło prezentacji: Najczęstsze problemy zgłaszane przez Klientów na etapie eksploatacji systemu Spostrzeżenia konsultantów
OLAP i hurtownie danych c.d.
OLAP i hurtownie danych c.d. Przypomnienie OLAP -narzędzia analizy danych Hurtownie danych -duże bazy danych zorientowane tematycznie, nieulotne, zmienne w czasie, wspierjące procesy podejmowania decyzji
Wielowymiarowy model danych
Plan wykładu Wielowymiarowy model danych 1. Model danych 2. Analiza wielowymiarowa 3. Model wielowymiarowy: koncepcja wymiarów i faktów 4. Operacje modelu wielowymiarowego 5. Implementacje modelu wielowymiarowego:
Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw.
Hurtownie danych Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw.pl/hur UZASADNIENIE BIZNESOWE Po co nam hurtownia danych? Jakie mogą
Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl
Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Plan wykładów Wprowadzenie - integracja
Hurtownie danych - przegląd technologii
Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Plan wykład adów Wprowadzenie - integracja
Hurtownie danych - przegląd technologii
Hurtownie danych - przegląd technologii Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Biznesowe słowniki pojęć biznesowych odwzorowania pojęć
Wprowadzenie do Hurtowni Danych. Mariusz Rafało
Wprowadzenie do Hurtowni Danych Mariusz Rafało mrafalo@sgh.waw.pl PROJEKTOWANIE WARSTWY DANYCH DETALICZNYCH - ZAGADNIENIA Partycjonowanie Partycja jest wydzielonym miejscem na dysku, w którym przechowywane
Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.
PI-14 01/12 Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.! Likwidacja lub znaczne ograniczenie redundancji (powtarzania się) danych! Integracja danych!
Wstęp do Business Intelligence
Wstęp do Business Intelligence Co to jest Buisness Intelligence Business Intelligence (analityka biznesowa) - proces przekształcania danych w informacje, a informacji w wiedzę, która może być wykorzystana
Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie
Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2012 Zagadnienia do omówienia 1. Miejsce i rola w firmie 2. Przegląd architektury
Wprowadzenie do Hurtowni Danych. Mariusz Rafało
Wprowadzenie do Hurtowni Danych Mariusz Rafało mariusz.rafalo@hotmail.com WPROWADZENIE DO HURTOWNI DANYCH Co to jest hurtownia danych? Hurtownia danych jest zbiorem danych zorientowanych tematycznie, zintegrowanych,
Schematy logiczne dla hurtowni danych
Schematy logiczne dla hurtowni danych 26 Plan rozdziału 27 Model biznesowy, logiczny i fizyczny hurtowni danych Podstawowe pojęcia w modelu logicznym, logiczny model wielowymiarowy Implementacje ROLAP/MOLAP
Projekt dotyczy stworzenia zintegrowanego, modularnego systemu informatycznego wspomagającego zarządzanie pracownikami i projektami w firmie
Projekt dotyczy stworzenia zintegrowanego, modularnego systemu informatycznego wspomagającego zarządzanie pracownikami i projektami w firmie informatycznej. Zadaniem systemu jest rejestracja i przechowywanie
Oracle11g: Wprowadzenie do SQL
Oracle11g: Wprowadzenie do SQL OPIS: Kurs ten oferuje uczestnikom wprowadzenie do technologii bazy Oracle11g, koncepcji bazy relacyjnej i efektywnego języka programowania o nazwie SQL. Kurs dostarczy twórcom
Ewolucja technik modelowania hurtowni danych
Baza wiedzy JPro Ewolucja technik modelowania hurtowni Porównanie technik modelowania hurtowni podsumowanie: Strona 1/6 Nazwa podejścia Corporate Information Factory Kimball Bus Architecture Data Vault
Hurtownie danych wykład 3
Hurtownie danych wykład 3 dr Sebastian Zając SGH Warszawa 7 lutego 2017 Architektura relacyjna i wielowymiarowa Ze względu na przechowywanie danych na serwerze możemy zdecydować się na relacyjną bazę danych
Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa
Budowa systemu wspomagającego podejmowanie decyzji Metodyka projektowo wdrożeniowa Agenda Systemy wspomagające decyzje Business Intelligence (BI) Rodzaje systemów BI Korzyści z wdrożeń BI Zagrożenia dla
Business Intelligence
Business Intelligence Paweł Mielczarek Microsoft Certified Trainer (MCT) MCP,MCSA, MCTS, MCTS SQL 2005, MCTS SQL 2008, MCTS DYNAMICS, MBSS, MBSP, MCITP DYNAMICS. Geneza Prowadzenie firmy wymaga podejmowania
Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL
Podstawy baz danych: Rysunek 1. Tradycyjne systemy danych 1- Obsługa wejścia 2- Przechowywanie danych 3- Funkcje użytkowe 4- Obsługa wyjścia Ewolucja baz danych: Fragment świata rzeczywistego System przetwarzania
4. Znaczenie czasu w modelowaniu i strukturalizacji danych
Temat1- Geneza 1. Ewolucja systemów opartych na bazach danych Początki to np. ręczne spisy danych na papirusie w Egipcie. Ręczne zapisywanie danych trwało aż do końca XIX wieku. W XIX wieku stworzone zostały
Informatyzacja przedsiębiorstw
Informatyzacja przedsiębiorstw Izabela Szczęch Politechnika Poznańska Plan wykładu Elementy Business Intelligence Model wielowymiarowy Modelowanie hurtowni danych podstawowe schematy logiczne Operacje
HURTOWNIE DANYCH I BUSINESS INTELLIGENCE
BAZY DANYCH HURTOWNIE DANYCH I BUSINESS INTELLIGENCE Akademia Górniczo-Hutnicza w Krakowie Adrian Horzyk horzyk@agh.edu.pl Google: Horzyk HURTOWNIE DANYCH Hurtownia danych (Data Warehouse) to najczęściej
Spis tre±ci. Przedmowa... Cz ± I
Przedmowa.................................................... i Cz ± I 1 Czym s hurtownie danych?............................... 3 1.1 Wst p.................................................. 3 1.2 Denicja
HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego
HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego http://www.jakubw.pl/zajecia/hur/bi.pdf http://www.jakubw.pl/zajecia/hur/dw.pdf http://www.jakubw.pl/zajecia/hur/dm.pdf http://www.jakubw.pl/zajecia/hur/
Część I Istota analizy biznesowej a Analysis Services
Spis treści Część I Istota analizy biznesowej a Analysis Services 1 Analiza biznesowa: podstawy analizy danych... 3 Wprowadzenie do analizy biznesowej... 3 Wielowymiarowa analiza danych... 5 Atrybuty w
Hurtownie danych. Ładowanie, integracja i aktualizacja danych. http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH ETL
Hurtownie danych Ładowanie, integracja i aktualizacja danych. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH Źródła danych ETL Centralna hurtownia danych Do hurtowni
Hurtownie danych - opis przedmiotu
Hurtownie danych - opis przedmiotu Informacje ogólne Nazwa przedmiotu Hurtownie danych Kod przedmiotu 11.3-WI-INFD-HD Wydział Kierunek Wydział Informatyki, Elektrotechniki i Automatyki Informatyka / Zintegrowane
Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32
Analiza i projektowanie oprogramowania Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania 2/32 Cel analizy Celem fazy określania wymagań jest udzielenie odpowiedzi na pytanie:
Bazy danych 2. Wykład 1
Bazy danych 2 Wykład 1 Sprawy organizacyjne Materiały i listy zadań zamieszczane będą na stronie www.math.uni.opole.pl/~ajasi E-mail: standardowy ajasi@math.uni.opole.pl Sprawy organizacyjne Program wykładu
Bazy danych i ich aplikacje
ORAZ ZAPRASZAJĄ DO UDZIAŁU W STUDIACH PODYPLOMOWYCH Celem Studiów jest praktyczne zapoznanie słuchaczy z podstawowymi technikami tworzenia i administrowania bazami oraz systemami informacyjnymi. W trakcie
Co to jest Business Intelligence?
Cykl: Cykl: Czwartki z Business Intelligence Sesja: Co Co to jest Business Intelligence? Bartłomiej Graczyk 2010-05-06 1 Prelegenci cyklu... mariusz@ssas.pl lukasz@ssas.pl grzegorz@ssas.pl bartek@ssas.pl
COMARCH DATA WAREHOUSE MANAGER 6.2
COMARCH DATA WAREHOUSE MANAGER 6.2 WSTĘP DO ZAGADNIENIA HURTOWNI DANYCH Gromadzenie danych biznesowych z systemów rozproszonych, oraz doprowadzenie do ich uwspólnienia, w celu przeprowadzenia analiz oraz
Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska
Systemy OLAP I Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr zimowy 2008/09 Studia
Proces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,
Proces ETL Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris, tegra}@eti.pg.gda.pl - 1 - Proces ETL - 2 -
EXSO-CORE - specyfikacja
EXSO-CORE - specyfikacja System bazowy dla aplikacji EXSO. Elementy tego systemu występują we wszystkich programach EXSO. Może on ponadto stanowić podstawę do opracowania nowych, dedykowanych systemów.
Problemy optymalizacji, rozbudowy i integracji systemu Edu wspomagającego e-nauczanie i e-uczenie się w PJWSTK
Problemy optymalizacji, rozbudowy i integracji systemu Edu wspomagającego e-nauczanie i e-uczenie się w PJWSTK Paweł Lenkiewicz Polsko Japońska Wyższa Szkoła Technik Komputerowych Plan prezentacji PJWSTK
Bazy analityczne (hurtownie danych, bazy OLAP)
Bazy analityczne (hurtownie danych, bazy OLAP) Materiały pomocnicze. Bazy produkcyjne (transakcyjne) i analityczne Większość systemów baz danych to systemy produkcyjne, inaczej nazywane transakcyjnymi,
dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017
dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017 KONTAKT Z PROWADZĄCYM dr inż. Paweł Morawski e-mail: pmorawski@spoleczna.pl www: http://pmorawski.spoleczna.pl
Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI
Bazy danych Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI Wszechnica Poranna Trzy tematy: 1. Bazy danych - jak je ugryźć? 2. Język SQL podstawy zapytań. 3. Mechanizmy wewnętrzne baz danych czyli co
Hurtownie danych - przegląd technologii
Hurtownie danych - przegląd technologii Problematyka zasilania hurtowni danych - Oracle Data Integrator Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel
CRM VISION FUNKCJE SYSTEMU
www.crmvision.pl CRM VISION FUNKCJE SYSTEMU www.crmvision.pl CRM VISION FUNKCJE SYSTEMU CRM Vision to nowoczesne, bezpieczne oprogramowanie wspomagające zarządzanie firmą poprzez usprawnienie przepływu
Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania
Przedmiot: Bazy danych Rok: III Semestr: V Rodzaj zajęć i liczba godzin: Studia stacjonarne Studia niestacjonarne Wykład 30 21 Ćwiczenia Laboratorium 30 21 Projekt Liczba punktów ECTS: 4 C1 C2 C3 Cel przedmiotu
Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne
Architektury i technologie integracji danych Systemy Mediacyjne Multi-wyszukiwarki Wprowadzenie do Mediacyjnych Systemów Zapytań (MQS) Architektura MQS Cechy funkcjonalne MQS Cechy implementacyjne MQS
Plan wykładu. Hurtownie danych. Problematyka integracji danych. Cechy systemów informatycznych
1 Plan wykładu 2 Hurtownie danych Integracja danych za pomocą hurtowni danych Przetwarzanie analityczne OLAP Model wielowymiarowy Implementacje modelu wielowymiarowego ROLAP MOLAP Odświeżanie hurtowni
Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska
Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr zimowy 2007/08 Studia uzupełniajace magisterskie
Bazy Danych. C. J. Date, Wprowadzenie do systemów baz danych, WNT - W-wa, (seria: Klasyka Informatyki), 2000
Bazy Danych LITERATURA C. J. Date, Wprowadzenie do systemów baz danych, WNT - W-wa, (seria: Klasyka Informatyki), 2000 J. D. Ullman, Systemy baz danych, WNT - W-wa, 1998 J. D. Ullman, J. Widom, Podstawowy
ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia
ZP/ITS/11/2012 Załącznik nr 1a do SIWZ ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych
Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012
Szkolenie autoryzowane MS 10777 Wdrażanie hurtowni danych w Microsoft SQL Server 2012 Strona szkolenia Terminy szkolenia Rejestracja na szkolenie Promocje Opis szkolenia Szkolenie przeznaczone jest dla
Opis spełnienia wymagań (PSBD)
Numer sprawy: DPZ/4/15 Nr arch. DPZ/087/059-16/15 1. Zakres przedmiotu zamówienia: Opis spełnienia wymagań (PSBD) Załącznik nr 1d do formularza ofertowego Wykonanie dzieła polegającego na dostawie, kompleksowym
Hurtownie danych. Metadane i czynniki jakości. http://zajecia.jakubw.pl/hur BAZA METADANYCH. Centralna hurtownia danych. Metadane
Hurtownie danych Metadane i czynniki jakości. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur Magazyny danych operacyjnych, źródła ładowanie, czyszczenie, transformacja BAZA METADANYCH
1. Ewolucja systemów opartych na bazach danych 2. Czym się rożni modelowanie od strukturalizacji danych? Model danych Struktury (danych)
1. Ewolucja systemów opartych na bazach danych Początki to np. ręczne spisy danych na papirusie w Egipcie. Ręczne zapisywanie danych trwało aż do końca XIX wieku. W XIX wieku stworzone zostały urządzenia,
Systemy GIS Systemy baz danych
Systemy GIS Systemy baz danych Wykład nr 5 System baz danych Skomputeryzowany system przechowywania danych/informacji zorganizowanych w pliki Użytkownik ma do dyspozycji narzędzia do wykonywania różnych
Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,
Bazy Danych Bazy Danych i SQL Podstawowe informacje o bazach danych Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl Oczekiwania? 2 3 Bazy danych Jak przechowywać informacje? Jak opisać rzeczywistość?
nr sprawy: BZP.243.24.2013.ML Wrocław, dn. 29 stycznia 2014 r. INFORMACJA DLA WYKONAWCÓW NR 6
nr sprawy: BZP.243.24.2013.ML Wrocław, dn. 29 stycznia 2014 r. INFORMACJA DLA WYKONAWCÓW NR 6 dotyczy: postępowania nr BZP.243.24.2013.ML prowadzonego w trybie przetargu nieograniczonego na realizację
poziom: Core wersja: 2.6 moduł: B : Wytwarzanie SYLLABUS
poziom: Core wersja: 2.6 moduł: B : Wytwarzanie SYLLABUS Niniejszy dokument jest syllabusem obowiązującym dla certyfikatu EUCIP ver. 2.6. Prezentuje obszary wiedzy, których znajomość jest niezbędna do
Tom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania
Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli Diagnostyka stanu nawierzchni - DSN Generalna Dyrekcja Dróg Krajowych i Autostrad Warszawa, 21 maja 2012 Historia dokumentu
OPIS PRZEDMIOTU ZAMÓWIENIA
Załącznik nr 1 OPIS PRZEDMIOTU ZAMÓWIENIA Licencja Microsoft Windows SQL Server Standard 2012 (nie OEM) lub w pełni równoważny oraz licencja umożliwiająca dostęp do Microsoft Windows SQL Server Standard
Hurtownie danych w praktyce
Hurtownie danych w praktyce Fakty i mity Dr inż. Maciej Kiewra Parę słów o mnie... 8 lat pracy zawodowej z hurtowniami danych Projekty realizowane w kraju i zagranicą Certyfikaty Microsoft z Business Intelligence
Opis wymagań i program szkoleń dla użytkowników i administratorów
Załącznik nr 3 do OPZ Opis wymagań i program szkoleń dla użytkowników i administratorów Spis treści Wprowadzenie...2 1. Typ i zakres szkoleń...2 2. Grupy użytkowników...2 3. Warunki ogólne szkoleń...3
Moduł mapowania danych
Moduł mapowania danych Styczeń 2011 Wszelkie prawa zastrzeżone. Dokument może być reprodukowany lub przechowywany bez ograniczeń tylko w całości. W przeciwnym przypadku, żadna część niniejszego dokumentu,
Migracja XL Business Intelligence do wersji
Migracja XL Business Intelligence do wersji 2019.0 Copyright 2018 COMARCH Wszelkie prawa zastrzeżone Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej publikacji w jakiejkolwiek postaci
Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)
Big Data Organizacyjnie Prowadzący: dr Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło: BIG) Automatyzacja Automatyzacja przetwarzania: Apache NiFi Źródło: nifi.apache.org 4 Automatyzacja
Tom 6 Opis oprogramowania
Część 4 Narzędzie do wyliczania wielkości oraz wartości parametrów stanu Diagnostyka stanu nawierzchni - DSN Generalna Dyrekcja Dróg Krajowych i Autostrad Warszawa, 30 maja 2012 Historia dokumentu Nazwa
Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017
Analityka danych w środowisku Hadoop Piotr Czarnas, 27 czerwca 2017 Hadoop i Business Intelligence - wyzwania 1 Ładowane danych do Hadoop-a jest trudne 2 Niewielu specjalistów dostępnych na rynku Dostęp
Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska
Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr letni 2006/07 Plan wykładu Systemy baz
Hurtownia danych praktyczne zastosowania
Hurtownia danych praktyczne zastosowania Dorota Olkowicz dorota.olkowicz@its.waw.pl Centrum Bezpieczeństwa Ruchu Drogowego ITS Plan prezentacji 1. Hurtownie danych 2. Hurtownia danych POBR 3. Narzędzia
Pojęcie bazy danych. Funkcje i możliwości.
Pojęcie bazy danych. Funkcje i możliwości. Pojęcie bazy danych Baza danych to: zbiór informacji zapisanych według ściśle określonych reguł, w strukturach odpowiadających założonemu modelowi danych, zbiór
Diagramu Związków Encji - CELE. Diagram Związków Encji - CHARAKTERYSTYKA. Diagram Związków Encji - Podstawowe bloki składowe i reguły konstrukcji
Diagramy związków encji (ERD) 1 Projektowanie bazy danych za pomocą narzędzi CASE Materiał pochodzi ze strony : http://jjakiela.prz.edu.pl/labs.htm Diagramu Związków Encji - CELE Zrozumienie struktury
PREZENTACJA FUNKCJONALNA SYSTEMU PROPHIX
PREZENTACJA FUNKCJONALNA SYSTEMU PROPHIX Architektura i struktura funkcjonalna systemu PROPHIX PROPHIX Corporate Performance Management (Zarządzanie Wydajnością Firmy) System do samodzielnego planowania,
RELACYJNE BAZY DANYCH
RELACYJNE BAZY DANYCH Aleksander Łuczyk Bielsko-Biała, 15 kwiecień 2015 r. Ludzie używają baz danych każdego dnia. Książka telefoniczna, zbiór wizytówek przypiętych nad biurkiem, encyklopedia czy chociażby
WPROWADZENIE DO BAZ DANYCH
WPROWADZENIE DO BAZ DANYCH Pojęcie danych i baz danych Dane to wszystkie informacje jakie przechowujemy, aby w każdej chwili mieć do nich dostęp. Baza danych (data base) to uporządkowany zbiór danych z
Opracowanie: Izabela Czepil i Andrzej Solski
Opracowanie: Izabela Czepil i Andrzej Solski Wykorzystanie serwisów do wykonywania operacji na serwerze Generowanie nowych struktur budżetowych na podstawie istniejących zbiorcze kopiowanie struktur Mechanizm
Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017
Analityka danych w środowisku Hadoop Piotr Czarnas, 5 czerwca 2017 Pytania stawiane przez biznes 1 Jaka jest aktualnie sytuacja w firmie? 2 Na czym jeszcze możemy zarobić? Które procesy możemy usprawnić?
ZAŁĄCZNIK NR 5 - GRUPA PRODUKTÓW 5: OPROGRAMOWANIE BAZODANOWE
ZAŁĄCZNIK NR 5 - GRUPA PRODUKTÓW 5: OPROGRAMOWANIE BAZODANOWE Opis przedmiotu zamówienia Licencja na Microsoft SQL Server 2008 R2 Standard Edition Gov. MOLP 1 CPU (2 szt.) lub Licencja na Microsoft SQL
KARTA PRZEDMIOTU. Hurtownie i eksploracja danych D1_5
KARTA PRZEDMIOTU 1. Informacje ogólne Nazwa przedmiotu i kod (wg planu studiów): Nazwa przedmiotu (j. ang.): Kierunek studiów: Specjalność/specjalizacja: Poziom kształcenia: Profil kształcenia: Forma studiów:
SZKOLENIE: Administrator baz danych. Cel szkolenia
SZKOLENIE: Administrator baz danych. Cel szkolenia Kurs Administrator baz danych skierowany jest przede wszystkim do osób zamierzających rozwijać umiejętności w zakresie administrowania bazami danych.
SYLABUS DOTYCZY CYKLU KSZTAŁCENIA realizacja w roku akademickim 2016/17
Załącznik nr 4 do Uchwały Senatu nr 430/01/2015 SYLABUS DOTYCZY CYKLU KSZTAŁCENIA 2013-2017 realizacja w roku akademickim 2016/17 1.1. PODSTAWOWE INFORMACJE O PRZEDMIOCIE/MODULE Nazwa przedmiotu/ modułu
Usługa archiwizacji danych w systemie Eureca. Marek Jelenik CONTROLLING SYSTEMS sp. z o.o.
Usługa archiwizacji danych w systemie Eureca Marek Jelenik CONTROLLING SYSTEMS sp. z o.o. Na czym polega usługa archiwizacji danych w systemie Eureca? 2012 2013 2014 2015 Przed archiwizacją SQL OLAP BAZA
Procesowanie i partycjonowanie Analysis Services od podszewki (300) Adrian Chodkowski Adrian.Chodkowski@outlook.com
Media Partners Procesowanie i partycjonowanie Analysis Services od podszewki (300) Adrian Chodkowski Adrian.Chodkowski@outlook.com Adrian Chodkowski Konsultant Business Intelligence w Jcommerce S.A Certyfikowany