Hurtownie Danych ETL wybrane zagadnienia
|
|
- Liliana Kasprzak
- 7 lat temu
- Przeglądów:
Transkrypt
1 Hurtownie Danych ETL wybrane zagadnienia Krzysztof Jankiewicz Politechnika Poznańska Instytut Informatyki
2 Plan Czym jest ETL? Architektura Hurtowni Danych działania ETL Działania ETL Ekstrakcja Czyszczenie i dostosowywanie Dostarczanie Zarządzanie Architektura Hurtowni Danych repozytoria ETL Data Warehouse Staging Area Operational Data Store Narzędzia czy własne rozwiązania? K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 2
3 Czym jest ETL? Kluczowy składnik infrastruktury Hurtowni Danych Czymś w rodzaju "kuchni" w restauracji? Skrót E ekstrakcja T transformacja L ładowanie (dostarczanie) A rzeczywistość? Ralph Kimball * wyróżnia 34 działania (podsystemy) wchodzące w skład procesów ETL * założyciel Kimball Group i autor wielu książek poświęconych tematyce Hurtowni Danych i procesów ETL K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 3
4 Architektura Hurtowni Danych w kontekście procesów ETL Operacyjne źródła danych Dokumenty, arkusze kalkulacyjne Stare systemy inf. Systemy OLTP Pliki Archiwa Warstwa integracji Staging Area Warstwa repozytorium danych Hurtownia danych na poziomie przeds. Operacyjna Składnica Danych (ODS) Warstwa dostępu do informacji Tematyczne DataMarty Regionalne DataMarty Oddziałowe DataMarty Aplikacyjne DataMarty Warstwa aplikacji biznesowych Analizy What-If Analizy statystyczne Analizy wielowym. Raporty Dane zewnętrzne Funkcjonalne DataMarty Planowanie K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 4
5 Dlaczego aż 34 działania? Everyone understands the three letters: You get the data out of its original source location (E), you do something to it (T), and then you load it (L) into a final set of tables for the business users to query. When asked about the best way to design and build the ETL system, many designers say, Well, that depends. It depends on the source; it depends on limitations of the data; it depends on the scripting languages and ETL tools available; it depends on the staff s skills; and it depends on the BI tools. But the it depends response is dangerous because it becomes an excuse to take an unstructured approach to developing an ETL system, which in the worse-case scenario results in an undifferentiated spaghetti-mess of tables, modules, processes, scripts, triggers, alerts, and job schedules. This creative design approach should not be tolerated. Cytat: R. Kimball - K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 5
6 Komponenty ETL Działania ETL zazwyczaj można pogrupować w następujące grupy uwzględniające zagadnienie, których dotyczą: Ekstrakcja Oczyszczenie i dostosowanie Dostarczanie Zarządzanie K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 6
7 Zakres działań 1 Ekstrakcja danych Działania: Profilowanie danych (1) analiza źródeł danych dostarczająca mniej lub bardziej złożonych statystyk (np. liczba krotek, wolumen danych, liczba wartości pustych, typy i formaty wykorzystywanych danych) CDC (Change Data Capture) (2) detekcja zmian w źródłach danych, które miały miejsce od ostatniej ekstrakcji. Ekstrakcja (3) pobranie danych z ich źródeł. Różnorodny format, funkcjonalność, dynamika i charakter źródeł determinuje złożoność tego procesu K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 7
8 Przykładowe działanie Change Data Capture To proces wykrywania zmian w źródłach danych Podział CDC: inwazyjne oparte na danych źródła danych (ang. Source-Based CDC) oparte na wyzwalaczach źródła danych (ang. Trigger-Based CDC) oparte na porównaniu poprzedniego i bieżącego obrazu źródła danych (ang. Snapshot-Based CDC) nieinwazyjne oparte na dziennikach (np. plikach dzienników powtórzeń) (ang. Log-Based CDC) K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 8
9 Source-Based CDC Źródło danych posiada znaczniki czasowe określające danę ostatniej modyfikacji/wstawienia Wady: Nie każde źródło znaczniki posiada Poprawne wykorzystywanie tych znaczników zależy od zewnętrznych czynników (poza ETL) np. aplikacji, wyzwalaczy Brak informacji o usunięciu danych Nie można wykryć wielokrotnych modyfikacji Możliwość desynchronizacji zegarów (ETL, system źródłowy) Zalety Prostota K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 9
10 Trigger-Based CDC Źródło za pomocą wyzwalaczy rejestruje fakt zmiany danych Rejestracja może odbywać się w różnych repozytoriach we wnętrzu systemu źródłowego w przeznaczonych do tego tabelach na zewnątrz systemu źródłowego np.: poprzez rejestrowanie zmienionych danych w zewnętrznym repozytorium (np. Staging Area) poprzez uruchamianie procedur ETL z parametrami zawierającymi informacje o zmienionych danych Wady: Nie każde źródło danych posiada funkcjonalność umożliwiającą implementację tego rozwiązania Poprawne funkcjonowanie zależy od zewnętrznych czynników (poza ETL) Zalety możliwość rejestracji wszelkich zmian (również usunięcia) możliwość rejestracji wielokrotnych modyfikacji możliwość implementacji dowolnie złożonych mechanizmów CDC K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 10
11 Snapshot-Based CDC Porównanie dwóch wersji danych źródłowych poprzedniej (przechowywanej zazwyczaj w OSA) oraz bieżącej Idea porównania polega na wyznaczeniu zmian w źródłowych danych wstawionych (SELECT * FROM DANE_BIEZACE WHERE ID NOT IN (SELECT ID FROM DANE_POPRZEDNIE)) usuniętych (SELECT * FROM DANE_POPRZEDNIE WHERE ID NOT IN (SELECT ID FROM DANE_BIEZACE)) zmienionych (SELECT * FROM DANE_BIEZACE B JOIN DANE_POPRZEDNIE P ON (B.ID=P.ID) WHERE B.C1<>P.C1 OR B.C2<>P.C2 OR ) Jakie wady a jakie zalety ma to rozwiązanie? K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 11
12 Log-Based CDC Analiza dzienników generowanych podczas standardowej pracy bazy danych Najmniej inwazyjny sposób wykrywania zmian Często używany w rozwiązaniach komercyjnych, ale także niekomercyjnych Oracle GoldenGate Attunity Stream Wisdomforce mysqlbinlog K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 12
13 Cechy różnych typów CDC Cechy Source-Based Trigger-Based Snapshot-Based Log-Based Rozróżnienie pomiędzy wstawieniem a modyfikacją Detekcja wielu (sekwencji) modyfikacji Nie Tak Tak Tak Nie Tak Nie Tak Detekcja usunięcia Nie Tak Tak Tak Bezinwazyjne Nie Nie Nie Tak Wsparcie dla systemów czasu rzeczywistego Wymagane zaangażowanie administratora bazy danych Nie Tak Nie Tak Nie Tak Nie Tak Niezależne od bazy danych Tak Nie Tak Nie K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 13
14 Zakres działań 2 Oczyszczenie i dostosowanie (1/2) Z reguły najbardziej złożony komponent (zagadnienie) w procesach ETL praktycznie każda instytucja posiada problemy z jakością danych bardzo rzadko istotne dane źródłowe przechowywane są w pojedynczym źródle Działania Oczyszczanie danych (4) naprawa (poprawa jakości) danych wchodzących do procesów ETL, monitorowanie i raportowanie błędów w danych Detekcja danych wymagających naprawy wynika z: profilowania danych stosowanych reguł biznesowych Obsługa błędów (5) wykrywanie i rejestracja błędów zachodzących podczas procesów ETL. Pozwala to na monitorowanie i analizę błędów i ich przyczyn K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 14
15 Oczyszczenie i dostosowanie (2/2) Utrzymanie wymiaru kontrolnego (audit dimension) (6) wymiar kontrolny to wewnętrzna składowa hurtowni danych, tabela powiązana z tabelą faktów zawierająca metadane dotyczące zmian w tabeli faktów: czas rozpoczęcia/zakończenia ładowania danych do tabeli faktów liczbę załadowanych/błędnych rekordów informacje o błędnych rekordach itp. Wykrywanie duplikatów (7) jeden z bardziej złożonych problemów duplikaty dokładne problem trywialny duplikaty przybliżone Potwierdzanie zgodności danych (8) weryfikacja czy poszczególne wymiarów pochodzące z wielu źródeł są: strukturalne identyczne, pozbawione: duplikatów, błędnych danych ustandaryzowane pod względem zawartości weryfikacja czy dane faktów odnoszą się do określonych danych z tabel wymiarów K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 15
16 Przykładowe działanie Wykrywanie duplikatów Wykrywanie duplikatów dokładnych z reguły jest zadaniem trywialnym Wykrywanie duplikatów przybliżonych nie jest niestety już takie proste czy Jankiewicz i Jaszkiewicz to ta sama osoba? czy 79 Stapleton Road i Stapleton Rd, 79 to ten sam adres? W wielu przypadkach pomocne bywają techniki Fuzzy Matching. Przykłady często wykorzystywanych algorytmów: Levenshtein i Damerau-Levenshtein Needleman Wunsch Jaro i Jaro Winkler Pair letters similarity Algorytmy fonetyczne K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 16
17 Levenshtein i Damerau-Levenshtein Wyznaczają odległość miedzy ciągami znaków wyrażoną krokami edycji wymaganymi do tego aby jeden ciąg przekształcić w drugi Algorytm Levenshtein uwzględnia następujące operacje dodanie znaku Insert (i) usunięcie znaku Delete (d) zmiana znaku Substitute (s) Algotrym Damerau-Levenshtein uzupełnia powyższą listę o zamianę znaków Transpose (t) Wynikiem porównania ciągów znaków dla obu algorytmów jest minimalna liczba wymaganych zmian Aby uniezależnić się od długości ciągów (odległość 2 ma inne znaczenie dla ciągu 2-literowego i 20-literowego) wyznacza się odległość procentowo dzieląc ją przez długość dłuższego ciągu K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 17
18 Levenshtein i Damerau-Levenshtein algorytm int Damerau-Levenshtein-Distance(char str1[1..lenstr1], char str2[1..lenstr2]) declare int d[0..lenstr1, 0..lenStr2] declare int i, j, cost for i from 0 to lenstr1 d[i, 0] := i for j from 1 to lenstr2 d[0, j] := j for i from 1 to lenstr1 for j from 1 to lenstr2 if str1[i] = str2[j] then cost := 0 else cost := 1 d[i, j] := minimum( d[i-1, j ] + 1, // usunięcie (d) d[i, j-1] + 1, // wstawienie (i) d[i-1, j-1] + cost // zmiana (s) ) // poniższy fragment nie występuje w algorytmie Levenshteina if(i > 1 and j > 1 and str1[i] = str2[j-1] and str1[i-1] = str2[j]) then d[i, j] := minimum( d[i, j], d[i-2, j-2] + cost // zamiana (t) ) return d[lenstr1, lenstr2] Damerau, Fred J. (March 1964), "A technique for computer detection and correction of spelling errors", Communications of the ACM (ACM) 7 (3): Levenshtein_distance K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki
19 Levenshtein i Damerau-Levenshtein str1 n a j str j 1 1 s 2 s 2 e a 2 2 s 1 e 2 i n 3 2 e 2 d 2 s str2 a m p h i b i a str a 1 0 e 1 i 2 i 3 i 4 i 5 i 6 i 7 e m 2 1 d 0 e 1 i 2 i 3 i 4 i 5 i 6 i f 3 2 d 1 d 1 s 2 s 3 s 4 s 5 s 6 s i 4 3 d 2 d 2 s 2 s 2 e 3 i 4 e 5 i b 5 4 d 3 d 3 s 3 s 3 s 2 e 3 i 4 i i 6 5 d 4 d 4 s 4 s 3 e 3 d 2 e 3 i przykłady str2 h u t str c 1 1 d 2 s 3 s h 2 1 e 2 s 3 s ł 3 2 d 2 s 3 s ó 4 3 d 3 s 3 s d 5 4 d 4 s 4 s str2 f o o t str f 1 0 e 1 i 2 i 3 i o 2 1 d 0 e 1 e 2 i t 3 2 d 1 d 1 t 1 e o 4 3 d 2 e 1 e 1 t a 7 6 e 5 d 5 s 5 s 4 d 4 s 3 d 2 e K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 19
20 Needleman Wunsch Określa podobieństwo pomiędzy ciągami znaków znajdując dodatkowo ich "najlepsze dopasowanie". Przez najlepsze dopasowanie rozumiemy dopasowanie wymagające najmniejszej liczby mutacji. Często wykorzystywane w bioinformatyce. Zaproponowane przez C. Wunscha i S. Needelmana w Algorytm wykorzystuje: macierz kosztów zamiany mutacji (liter) scorring function koszt usunięcia lub dodania mutacji (litery) gap_penalty rekurencyjną funkcję wykorzystywaną podczas wypełniania tabeli T T i, j = max T i 1, j 1 + (i, j) T i 1, j + gap_penalty T i, j 1 + gap_penalty K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 20
21 n a j n a j gap_penalty = -2 Needleman Wunsch str1 n a j przykład str j a n T i, j = max T i 1, j 1 + (i, j) T i 1, j + gap_penalty T i, j 1 + gap_penalty Wyznaczenie macierzy T umożliwia określenie najlepszego dopasowania pomiędzy sekwencjami startujemy od dolnej prawej komórki przechodzimy kolejno do "poprzedzających" komórek wybierając te o najlepszym wyniku n a j j a n K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 21
22 Needleman Wunsch przykłady Budowa macierzy kosztów umożliwia uwzględnianie różnorodnych aspektów związanych ze zmianą liter np. odległości klawiszy na klawiaturze, A G C trudności podmiany nukleotydów F O T F O T gap_penalty = -1 F O O T _ F O _ T O str2 F O O T str F O T O T i, j = max G A T T G A C A _ A T A C A gap_penalty = -5 T i 1, j 1 + (i, j) T i 1, j + gap_penalty T i, j 1 + gap_penalty str2 G A T T G A C A str A T A C A T A G C T K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 22
23 Jaro i Jaro Winkler algorytm (1/4) Wyznacza podobieństwo pomiędzy dwoma ciągami znaków. Wynik mieści się w granicach 0..1, gdzie 0 oznacza brak podobieństwa, a 1 identyczność. Wyznaczanie podobieństwa odbywa się w kilku krokach: Krok 1 wyznaczanie pasujących znaków Na początku wyliczana jest matchrange maksymalna odległość pomiędzy znakami pozwalająca na uznanie ich pasującymi max ( s1, s2 ) matchrange = 1 2 Następnie wyznaczane są pasujące do siebie znaki oraz ich liczba numcommon. Pasujące znaki są takie same, a ich odległość nie jest większa niż matchrange M A R T H A J O N E S M A R H T A J O H N S O N matchrange = max(6,6)/2-1 = 3-1 = 2 matchrange = max(5,7)/2-1 = 3-1 = 2 numcommons = 6 numcommons = 4 K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 23
24 Jaro i Jaro Winkler algorytm (2/4) Krok 2 wyznaczanie liczby transpozycji numtransposed Po dopasowaniu liter podsekwencje dopasowanych znaków w obu porównywanych ciągach są ekstrahowane Obie te podsekwencje posiadają tę samą długość. Liczba znaków w jednej z podsekwencji, która nie pokrywa się (pod względem pozycji) ze znakami z drugiej podsekwencji jest liczbą pół-transpozycji (ang. half transpositions). Całkowita liczba transpozycji podzielona przez dwa i zaokrąglona w dół jest liczbą transpozycji M A R T H A M A R H T A numtransposed = 2/2 = 1 J O N E S => J O N S J O H N S O N => J O N S numtransposed = 0 K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 24
25 Jaro algorytm (3/4) Podobieństwo ciągów wg algorytmu Jaro wyrażone jest wzorem d j = 0 if m = 0 1 m 3 s 1 + m m t + s 2 m otherwise gdzie: m numcommons t numtransposed Innymi słowy, podobieństwo wg alg. Jaro jest średnią z trzech wartości: procentowo wyrażonej części pasującego pierwszego ciągu procentowo wyrażonej części pasującego drugiego ciągu procentowo wyrażonej części pasujących znaków, które nie wymagają transpozycji. M A R T H A M A R H T A numcommons = 6 numtransposed = 1 jaroproximity = 1/3*(6/6+6/6+5/6) = 0,944 J O N E S J O H N S O N numcommons = 4 numtransposed = 0 jaroproximity = 1/3*(4/5+4/7+4/4) = 0,79 K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 25
26 Jaro Winkler algorytm (4/4) Modyfikacja Winklera pozwala na zwiększenie wartość podobieństwa dla ciągów, których podobieństwo wg algorytmu Jaro przekracza zadany poziom weightthreshold (w źródłowych opracowaniach 0,7) Zwiększenie wartości podobieństwa opiera się na analizie podobieństwa pierwszych numchars znaków (w źr. opr. 4). Ostatecznie zatem podobieństwo ciągów wg algorytmu Jaro Winkler wyrażone jest wzorem: d w = d j ifd j weightthreshold d j prefixmatch s1, s2, numchars 1 d j otherwise gdzie: d j podobieństwo wg alg. Jaro prefixmatch długość wspólnego prefiksu s1 i s2 ograniczona do numchars M A R T H A M A R H T A jaroproximity = 0,944 jarowinklerprox= 0,944+0,1*3*(1-0,944)=0,961 J O N E S J O H N S O N jaroproximity = 0,79 jarowinklerprox=0,79+0,1*2*(1-0,79)=0,832 K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 26
27 Pair letters similarity Bardzo prosta metoda wyznaczania podobieństwa, która oparta jest na porównywaniu par znaków w obu ciągach Algorytm każdy porównywany ciąg znaków dzielony jest na pary znaków wyznaczana jest liczba par znaków istniejących w obu porównywanych ciągach wyznaczona powyżej liczba dzielona jest przez liczbę wszystkich par M A R T H A => (MA,AR,RT,TH,HA) M A R H T A => (MA,AR,RH,HT,TA) commonpairs = 4 (2*2) allpairs = 10 pairletterssimilarity = 0,4 J O N E S => (JO,ON,NE,ES) J O H N S O N => (JO,OH,HN,NS,SO,ON) commonpairs = 4 (2*2) allpairs = 10 pairletterssimilarity = 0,4 K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 27
28 Algorytmy fonetyczne Algorytmy fonetyczne dopasowują ciągi znaków na podstawie ich "brzmienia". Algorytmy te użyteczne są w przypadku korzystania z określonego języka (angielski) i nie przydatne są w przypadku innych języków Przykładowe algorytmy fonetyczne to: Metaphone, Double Metaphone, SoundEx, Refined SoundEx K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 28
29 Zakres działań 3 Dostarczanie danych (1/2) Dostarczanie danych do systemu źródłowego musi uwzględniać wiele różnych aspektów np.: Różne sposoby aktualizacji tabel wymiarów uwzględniające stosowane techniki SCD Generowanie sztucznych kluczy Zapewnienie, że wszystkie dane wymiarów zostaną załadowane zanim będą ładowane tabele faktów Ładowanie tabel faktów z reguły posiadają znaczące rozmiary uwzględniają lub nie modyfikację Różne modele hurtowni danych MOLAP, ROLAP Działania: Obsługa SCD (9) Generowanie sztucznych kluczy (10) Budowanie i kontrola hierarchii wymiarów (11) Obsługa wymiarów specjalnych (12) K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 29
30 Dostarczanie danych (2/2) Ładowanie tabel faktów (13) Pobieranie kluczy wymiarów podczas ładowania faktów (14) Ładowanie tabel wymiarów o różnej wysokości hierarchii lub korzystających z powiązań N-M (15) Obsługa faktów, które dotyczą wartości nie znajdujących się w tabelach wymiarów (ang. Late- Arriving Data) (16) Dostarczanie wymiarów do Data Martów (17) Dostarczanie faktów do Data Martów (18) Obliczanie danych zagregowanych (19) Obsługa wielowymiarowych kostek danych (MOLAP) (20) Dostarczanie (integracja) danych hurtowni do zewnętrznych repozytoriów (21) K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 30
31 Przykładowe działanie SCD Slowly Changing Dimension K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 31
32 Przykładowe działanie Obsługa wymiarów specjalnych W każdej hurtowni istnieje co najmniej jeden specjalny wymiar (wymiar czasu), którego utrzymanie różni się od utrzymania wymiarów konwencjonalnych Innymi przykładami wymiarów specjalnych mogą być: wymiary "śmieciowe" (junk, garbage) zawierające atrybuty, które są wymagane podczas analiz jednak nie pasują do innych wymiarów mini-wymiary pozwalają wyodrębnić atrybuty wymiarów o różnej częstotliwości zmian patrz SCD 4 skurczone lub zwinięte wymiary tworzone z wymiarów podstawowych wówczas, gdy zagregowane dane tworzone są na niższym poziomie ziarnistości (sklep->miejscowość) statyczne wymiary zwykle małe tabele, nie pochodzące ze źródeł danych, zawierające np. tłumaczenia, dane typu lookup (listy wartości, statusy, warianty, rozwinięte ciągi znaków) wymiary utrzymywane przez użytkowników sposoby grupowania, hierarchie, opisy, nie pochodzące ze źródeł danych ale wymagane podczas raportowania. K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 32
33 Działania pozwalające zarządzać infrastrukturą ETL Działania Harmonogramowanie operacji ETL (22) Archiwizowanie (23) Odtwarzanie i restartowanie (24) Kontrola wersji (25) Migrowanie rozwiązań ze środowiska programistycznego do produkcyjnego (26) Monitorowanie przepływu zadań ETL (27) Sortowanie danych (28) Zakres działań 4 Zarządzanie (1/2) Analizowanie pochodzenia i zależności pomiędzy danymi (29) Informowanie o błędach (30) Zrównoleglanie działań i potokowa ich realizacja (31) Zapewnienie bezpieczeństwa (32) Monitorowanie i audyt poszczególnych etapów procesów ETL pochodzenia danych, operacji wykonywanych, wyglądu danych na poszczególnych etapach przetwarzania itp. (33) Zarządzanie repozytorium metadanych (34) K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 33
34 Przykładowe działanie Archiwizowanie Archiwizowanie to podstawowy mechanizm zabezpieczający przed utratą danych W kontekście procesów ETL zaleca się archiwizację w trzech momentach bezpośrednio po ekstrakcji danych i przed ich modyfikacją po oczyszczaniu danych (zestaw działań 2) po ostatecznym przygotowaniu danych do ich udostępnienia Archiwizacja samej Hurtowni Danych nie należy do zadań ETL, jednak warto uwzględnić/dostosować również ten aspekt przy projektowaniu procesów ETL K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 34
35 Architektura Hurtowni Danych repozytoria dla procesów ETL Operacyjne źródła danych Dok., arkusze kalk. Stare systemy inf. Systemy OLTP Pliki Archiwa Dane zewnętrzne 1 Warstwa integracji 2 Staging Area 3 4 Warstwa repozytorium danych Hurtownia danych na poziomie przeds. Operacyjna Składnica Danych (ODS) Ale zanim Gdzie są wykonywane poszczególne działania wchodzące w skład procesów ETL? 5 Warstwa dostępu do informacji Tematyczne DataMarty Regionalne DataMarty Oddziałowe DataMarty Aplikacyjne DataMarty Funkcjonalne DataMarty Warstwa aplikacji biznesowych Analizy What-If Analizy statystyczne Analizy wielowymiarowe Raporty Planowanie K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 35
36 Data Warehouse Staging Area co to jest? To miejsce składowania danych oraz zbiór procesów wykorzystywanych podczas przetwarzania ETL mających miejsce pomiędzy: źródłami danych a hurtownią danych hurtownią danych a data martami K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 36
37 Data Warehouse Staging Area jakie ma cechy? Dane przechowywane w DSA: mogą mieć charakter tymczasowy po poprawnym załadowaniu danych mogą być kasowane, mogą służyć jako słowniki które np. są wykorzystywane przez procesy ETL, mogą zawierać poprzednie obrazy danych źródłowych np. w celu porównania ich z obecną ich postacią, mogą zawierać dane pośrednie uzyskiwane podczas procesów ETL K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 37
38 Data Warehouse Staging Area do czego może być wykorzystywany? Do przechowywania danych z różnych źródeł, które następnie będą wielokrotnie wykorzystywane w ramach procesów ETL. Do przechowywania danych wydobytych z systemów źródłowych w sposób szybki i prosty, aby następujące po tym procesy ETL nie angażowały systemów źródłowych. Do wyszukania zmian pomiędzy systemem źródłowym w obecnej i przeszłej postaci. Do wyszukania zmian w bieżącej postaci hurtowni danych i data martów. Do transformacji danych realizowanych wieloetapowo ze składowaniem pośrednich efektów przetwarzania. Do wyznaczania agregatów. Do wytworzenia i składowania danych w postaci docelowej dla hurtowni danych (w szczególności tabel faktów) w celu ich wydajnego ładowania. K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 38
39 Operacyjna Składnica Danych (Operational Data Store) charakterystyka Tematyczna (ang. Subject Oriented) dane w ODS dotyczą określonego zagadnienia. Zintegrowana dane w ODS pochodzą zazwyczaj z wielu źródłowych aplikacji. Dane są pobierane i przetwarzane w ramach procesów ETL. Aktualna dane w ODS są bieżące. Nie przechowujemy danych historycznych. Szczegółowa dane w ODS przechowywane są na poziomie szczegółów (bardzo często na poziomie analogicznym do systemów źródłowych). K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 39
40 Narzędzia ETL czy własne rozwiązania? Oba podejścia mają swoje wady i zalety Generalnie zaleca się wykorzystywanie narzędzi ETL, jednak w niektórych indywidualnych podejściach własne rozwiązania w dalszym ciągu są uzasadnione Narzędzia ETL zalety Wizualizują procesy ETL automatyczna dokumentacja Strukturalne podejście do projektowania ETL Stabilne mechanizmy uruchamiania i monitorowania procesów ETL Mechanizmy analizy pochodzenia i zależności danych Zaawansowane komponenty czyszczenia danych Wydajność Narzędzia ETL wady Koszty licencji Konieczna dobra znajomość narzędzia ich możliwości i ograniczeń Ograniczona elastyczność K. Jankiewicz - Politechnika Poznańska, Instytut Informatyki 40
OLAP i hurtownie danych c.d.
OLAP i hurtownie danych c.d. Przypomnienie OLAP -narzędzia analizy danych Hurtownie danych -duże bazy danych zorientowane tematycznie, nieulotne, zmienne w czasie, wspierjące procesy podejmowania decyzji
Proces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,
Proces ETL Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris, tegra}@eti.pg.gda.pl - 1 - Proces ETL - 2 -
Wprowadzenie do Hurtowni Danych. Mariusz Rafało
Wprowadzenie do Hurtowni Danych Mariusz Rafało mariusz.rafalo@hotmail.com WPROWADZENIE DO HURTOWNI DANYCH Co to jest hurtownia danych? Hurtownia danych jest zbiorem danych zorientowanych tematycznie, zintegrowanych,
Hurtownie danych - przegląd technologii
Hurtownie danych - przegląd technologii Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Biznesowe słowniki pojęć biznesowych odwzorowania pojęć
Usługi analityczne budowa kostki analitycznej Część pierwsza.
Usługi analityczne budowa kostki analitycznej Część pierwsza. Wprowadzenie W wielu dziedzinach działalności człowieka analiza zebranych danych jest jednym z najważniejszych mechanizmów podejmowania decyzji.
OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie
OdświeŜanie hurtownie danych - wykład IV Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006/2007 Zagadnienia do omówienia 1. Wprowadzenie 2. Klasyfikacja źródeł danych 3. Wymagania
Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence
Hurtownie danych Rola hurtowni danych w systemach typu Business Intelligence Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika
Technologie Zasilania i Odświeżania Hurtowni Danych
Technologie Zasilania i Odświeżania Hurtowni Danych laboratorium Krzysztof Jankiewicz Politechnika Poznańska, Instytut Informatyki Część 5 DATA WAREHOUSE STAGING AREA TECHNIKI CHANGE DATA CAPTURE PODSUMOWANIE
Wprowadzenie do Hurtowni Danych. Mariusz Rafało
Wprowadzenie do Hurtowni Danych Mariusz Rafało mrafalo@sgh.waw.pl WARSTWA PREZENTACJI HURTOWNI DANYCH Wykorzystanie hurtowni danych - aspekty Analityczne zbiory danych (ADS) Zbiór danych tematycznych (Data
Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl
Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Plan wykładów Wprowadzenie - integracja
Ewolucja technik modelowania hurtowni danych
Baza wiedzy JPro Ewolucja technik modelowania hurtowni Porównanie technik modelowania hurtowni podsumowanie: Strona 1/6 Nazwa podejścia Corporate Information Factory Kimball Bus Architecture Data Vault
Hurtownie danych - przegląd technologii
Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Plan wykład adów Wprowadzenie - integracja
Hurtownie danych a transakcyjne bazy danych
Hurtownie danych a transakcyjne bazy danych Materiały źródłowe do wykładu: [1] Jerzy Surma, Business Intelligence. Systemy wspomagania decyzji, Wydawnictwo Naukowe PWN, Warszawa 2009 [2] Arkadiusz Januszewski,
Procesy ETL. 10maja2009. Paweł Szołtysek
Procesy 10maja2009 Paweł Szołtysek 1/12 w praktyce w praktyce 2/12 Zagadnienie Business Inteligence w praktyce 3/12 Czym jest proces? w praktyce Dane: dowolny zbiór danych ze źródeł zewnętrznych. Szukane:
Hurtownie danych - przegląd technologii
Hurtownie danych - przegląd technologii Problematyka zasilania hurtowni danych - Oracle Data Integrator Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel
Pierwsze wdrożenie SAP BW w firmie
Pierwsze wdrożenie w firmie Mirosława Żurek, BCC Poznao, maj 2013 Zakres tematyczny wykładu Podstawowe założenia i pojęcia hurtowni danych ; Przykładowe pierwsze wdrożenie w firmie i jego etapy; Przykładowe
Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska
Systemy OLAP I Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr zimowy 2008/09 Studia
Hurtownie danych. 31 stycznia 2017
31 stycznia 2017 Definicja hurtowni danych Hurtownia danych wg Williama Inmona zbiór danych wyróżniający się następującymi cechami uporządkowany tematycznie zintegrowany zawierający wymiar czasowy nieulotny
Wprowadzenie do technologii Business Intelligence i hurtowni danych
Wprowadzenie do technologii Business Intelligence i hurtowni danych 1 Plan rozdziału 2 Wprowadzenie do Business Intelligence Hurtownie danych Produkty Oracle dla Business Intelligence Business Intelligence
Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska
Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr zimowy 2007/08 Studia uzupełniajace magisterskie
Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie
Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2012 Zagadnienia do omówienia 1. Miejsce i rola w firmie 2. Przegląd architektury
Spis tre±ci. Przedmowa... Cz ± I
Przedmowa.................................................... i Cz ± I 1 Czym s hurtownie danych?............................... 3 1.1 Wst p.................................................. 3 1.2 Denicja
Hurtownie danych w praktyce
Hurtownie danych w praktyce Fakty i mity Dr inż. Maciej Kiewra Parę słów o mnie... 8 lat pracy zawodowej z hurtowniami danych Projekty realizowane w kraju i zagranicą Certyfikaty Microsoft z Business Intelligence
Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne
Architektury i technologie integracji danych Systemy Mediacyjne Multi-wyszukiwarki Wprowadzenie do Mediacyjnych Systemów Zapytań (MQS) Architektura MQS Cechy funkcjonalne MQS Cechy implementacyjne MQS
Przepływy danych. Oracle Designer: Modelowanie przepływów danych. Diagramy przepływów danych (1) Diagramy przepływów danych (2)
Przepływy danych Oracle Designer: Modelowanie przepływów danych Cele: zobrazowanie funkcji zachodzących w organizacji, identyfikacja szczegółowych informacji, przetwarzanych przez funkcje, pokazanie wymiany
Hurtownie danych. Wstęp. Architektura hurtowni danych. http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH
Wstęp. Architektura hurtowni. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH B. Inmon, 1996: Hurtownia to zbiór zintegrowanych, nieulotnych, ukierunkowanych
Technologie Zasilania i Odświeżania Hurtowni Danych na przykładzie Pentaho DI część 6
Technologie Zasilania i Odświeżania Hurtowni Danych na przykładzie Pentaho DI część 6 I. Data Marts. W wielu przypadkach centralna hurtownia danych tworzona na potrzeby całego przedsiębiorstwa staje się
Opis spełnienia wymagań (PSBD)
Numer sprawy: DPZ/4/15 Nr arch. DPZ/087/059-16/15 1. Zakres przedmiotu zamówienia: Opis spełnienia wymagań (PSBD) Załącznik nr 1d do formularza ofertowego Wykonanie dzieła polegającego na dostawie, kompleksowym
HURTOWNIE DANYCH I BUSINESS INTELLIGENCE
BAZY DANYCH HURTOWNIE DANYCH I BUSINESS INTELLIGENCE Akademia Górniczo-Hutnicza w Krakowie Adrian Horzyk horzyk@agh.edu.pl Google: Horzyk HURTOWNIE DANYCH Hurtownia danych (Data Warehouse) to najczęściej
Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services
Spis treści Wstęp... ix Odkąd najlepiej rozpocząć lekturę?... ix Informacja dotycząca towarzyszącej ksiąŝce płyty CD-ROM... xi Wymagania systemowe... xi Instalowanie i uŝywanie plików przykładowych...
Hurtownie danych. Ładowanie, integracja i aktualizacja danych. http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH ETL
Hurtownie danych Ładowanie, integracja i aktualizacja danych. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH Źródła danych ETL Centralna hurtownia danych Do hurtowni
Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU
Hurtownie danych Przetwarzanie zapytań. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Magazyny danych operacyjnych, źródła Centralna hurtownia danych Hurtownie
Część I Istota analizy biznesowej a Analysis Services
Spis treści Część I Istota analizy biznesowej a Analysis Services 1 Analiza biznesowa: podstawy analizy danych... 3 Wprowadzenie do analizy biznesowej... 3 Wielowymiarowa analiza danych... 5 Atrybuty w
Procesy ETL - wykład V. Struktura. Wprowadzenie. 1. Wprowadzenie. 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków.
Procesy ETL - wykład V Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2012 Struktura 1. Wprowadzenie 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków Wprowadzenie
Hurtownia danych praktyczne zastosowania
Hurtownia danych praktyczne zastosowania Dorota Olkowicz dorota.olkowicz@its.waw.pl Centrum Bezpieczeństwa Ruchu Drogowego ITS Plan prezentacji 1. Hurtownie danych 2. Hurtownia danych POBR 3. Narzędzia
Wstęp do Business Intelligence
Wstęp do Business Intelligence Co to jest Buisness Intelligence Business Intelligence (analityka biznesowa) - proces przekształcania danych w informacje, a informacji w wiedzę, która może być wykorzystana
Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie
Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2008 Zagadnienia do omówienia 1. 2. Przegląd architektury HD 3. Warsztaty
Modele danych - wykład V
Modele danych - wykład V Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Zagadnienia 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie
Część 1: OLAP. Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych
Łukasz Przywarty 171018 Wrocław, 05.12.2012 r. Grupa: CZW/N 10:00-13:00 Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych Część 1: OLAP Prowadzący: dr inż. Henryk Maciejewski
Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE
Modele danych - wykład V Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Zagadnienia 1. Wprowadzenie 2. MOLAP modele danych 3. modele danych 4. Podsumowanie 5. Zadanie fajne
Składowanie i dostęp do danych w rozproszonym systemie ochrony własności intelektualnej ANDRZEJ SOBECKI, POLITECHNIKA GDAŃSKA INFOBAZY 2014
Składowanie i dostęp do danych w rozproszonym systemie ochrony własności intelektualnej ANDRZEJ SOBECKI, POLITECHNIKA GDAŃSKA INFOBAZY 2014 Podstawowy proces gromadzenia Trudności: Weryfikacja dokumentu
Hurtownie Danych Slowly Changing Dimension
Hurtownie Danych Slowly Changing Dimension Krzysztof Jankiewicz Politechnika Poznańska Instytut Informatyki Z założenia hurtownia danych zawiera dane trwałe nieulotne. Nieulotność wymusza wprowadzanie
Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych
Plan wykładu Bazy Wykład 14: Hurtownie Bazy operacyjne i analityczne Architektura hurtowni Projektowanie hurtowni Małgorzata Krętowska, Agnieszka Oniśko Wydział Informatyki PB Bazy (studia dzienne) 2 Rodzaje
Architektury i technologie integracji danych
Architektury i technologie integracji danych Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Problematyka i architektury integracji
Hurtownia danych. Załącznik Nr 1 do SIWZ. Opis przedmiotu zamówienia. Lp. FUNKCJONALNOŚĆ/PARAMETRY WYMAGANE
Załącznik Nr 1 do SIWZ Opis przedmiotu zamówienia Lp. FUNKCJONALNOŚĆ/PARAMETRY WYMAGANE Hurtownia danych 1. Wielowymiarowa hurtownia danych oparta o model konstelacji faktów. 2. Brak ograniczenia na liczbę
Plan. Formularz i jego typy. Tworzenie formularza. Co to jest formularz? Typy formularzy Tworzenie prostego formularza Budowa prostego formularza
4 Budowa prostych formularzy, stany sesji, tworzenie przycisków Plan Co to jest formularz? Typy formularzy Tworzenie prostego formularza Budowa prostego formularza 2 Formularz i jego typy Tworzenie formularza
Wprowadzenie do Hurtowni Danych. Mariusz Rafało
Wprowadzenie do Hurtowni Danych Mariusz Rafało mrafalo@sgh.waw.pl WARIANTY BUDOWY HURTOWNI DANYCH Literatura R. Kimball, The Data Warehouse Lifecycle, Wiley, 2013 W. Inmon, Building the Data Warehouse,
Procedury wyzwalane. (c) Instytut Informatyki Politechniki Poznańskiej 1
Procedury wyzwalane procedury wyzwalane, cel stosowania, typy wyzwalaczy, wyzwalacze na poleceniach DML i DDL, wyzwalacze typu INSTEAD OF, przykłady zastosowania, zarządzanie wyzwalaczami 1 Procedury wyzwalane
Instrukcja obsługi systemu elektronicznego katalogu przedmiotów (sylabusów)
Instrukcja obsługi systemu elektronicznego katalogu przedmiotów (sylabusów) 1. Uruchomienie systemu System wykonany został w postaci aplikacji web. Do uruchomienia wymagany jest dostęp do sieci Internet.
Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0
Słowem wstępu Część rodziny języków XSL Standard: W3C XSLT 1.0-1999 razem XPath 1.0 XSLT 2.0-2007 Trwają prace nad XSLT 3.0 Problem Zakładane przez XML usunięcie danych dotyczących prezentacji pociąga
COMARCH DATA WAREHOUSE MANAGER 6.2
COMARCH DATA WAREHOUSE MANAGER 6.2 WSTĘP DO ZAGADNIENIA HURTOWNI DANYCH Gromadzenie danych biznesowych z systemów rozproszonych, oraz doprowadzenie do ich uwspólnienia, w celu przeprowadzenia analiz oraz
E.14 Bazy Danych cz. 18 SQL Funkcje, procedury składowane i wyzwalacze
Funkcje użytkownika Tworzenie funkcji Usuwanie funkcji Procedury składowane Tworzenie procedur składowanych Usuwanie procedur składowanych Wyzwalacze Wyzwalacze a ograniczenia i procedury składowane Tworzenie
Wprowadzenie do Hurtowni Danych. Mariusz Rafało
Wprowadzenie do Hurtowni Danych Mariusz Rafało mrafalo@sgh.waw.pl PROJEKTOWANIE WARSTWY DANYCH DETALICZNYCH - ZAGADNIENIA Partycjonowanie Partycja jest wydzielonym miejscem na dysku, w którym przechowywane
Integracja systemów transakcyjnych
Integracja systemów transakcyjnych Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Problematyka i architektury integracji danych
Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa
Budowa systemu wspomagającego podejmowanie decyzji Metodyka projektowo wdrożeniowa Agenda Systemy wspomagające decyzje Business Intelligence (BI) Rodzaje systemów BI Korzyści z wdrożeń BI Zagrożenia dla
Co to jest Business Intelligence?
Cykl: Cykl: Czwartki z Business Intelligence Sesja: Co Co to jest Business Intelligence? Bartłomiej Graczyk 2010-05-06 1 Prelegenci cyklu... mariusz@ssas.pl lukasz@ssas.pl grzegorz@ssas.pl bartek@ssas.pl
Programowanie MorphX Ax
Administrowanie Czym jest system ERP? do systemu Dynamics Ax Obsługa systemu Dynamics Ax Wyszukiwanie informacji, filtrowanie, sortowanie rekordów IntelliMorph : ukrywanie i pokazywanie ukrytych kolumn
Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska
Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr letni 2006/07 Plan wykładu Systemy baz
Opis wymagań i program szkoleń dla użytkowników i administratorów
Załącznik nr 3 do OPZ Opis wymagań i program szkoleń dla użytkowników i administratorów Spis treści Wprowadzenie...2 1. Typ i zakres szkoleń...2 2. Grupy użytkowników...2 3. Warunki ogólne szkoleń...3
Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.
PI-14 01/12 Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.! Likwidacja lub znaczne ograniczenie redundancji (powtarzania się) danych! Integracja danych!
Rozszerzenia grupowania
Rozszerzenia grupowania 226 Plan rozdziału 227 Wprowadzenie ROLLUP CUBE GROUPING SETS GROUPING Rozszerzenia grupowania danych 228 W złożonych magazynach danych oprócz tabel faktów i wymiarów istnieje dodatkowo
Bloki anonimowe w PL/SQL
Język PL/SQL PL/SQL to specjalny język proceduralny stosowany w bazach danych Oracle. Język ten stanowi rozszerzenie SQL o szereg instrukcji, znanych w proceduralnych językach programowania. Umożliwia
Wprowadzenie do hurtowni danych
Wprowadzenie do hurtowni danych przygotował: Paweł Kasprowski Kostka Kostka (cube) to podstawowy element hurtowni Kostka jest wielowymiarowa (od 1 do N wymiarów) Kostka składa się z: faktów wektora wartości
TP1 - TABELE PRZESTAWNE od A do Z
TP1 - TABELE PRZESTAWNE od A do Z Program szkolenia 1. Tabele programu Excel 1.1. Wstawianie tabeli 1.2. Style tabeli 1.3. Właściwości tabeli 1.4. Narzędzia tabel 1.4.1. Usuń duplikaty 1.4.2. Konwertuj
77. Modelowanie bazy danych rodzaje połączeń relacyjnych, pojęcie klucza obcego.
77. Modelowanie bazy danych rodzaje połączeń relacyjnych, pojęcie klucza obcego. Przy modelowaniu bazy danych możemy wyróżnić następujące typy połączeń relacyjnych: jeden do wielu, jeden do jednego, wiele
T-SQL dla każdego / Alison Balter. Gliwice, cop Spis treści. O autorce 11. Dedykacja 12. Podziękowania 12. Wstęp 15
T-SQL dla każdego / Alison Balter. Gliwice, cop. 2016 Spis treści O autorce 11 Dedykacja 12 Podziękowania 12 Wstęp 15 Godzina 1. Bazy danych podstawowe informacje 17 Czym jest baza danych? 17 Czym jest
Wprowadzenie do metodologii modelowania systemów informacyjnych. Strategia (1) Strategia (2) Etapy Ŝycia systemu informacyjnego
Etapy Ŝycia systemu informacyjnego Wprowadzenie do metodologii modelowania systemów informacyjnych 1. Strategia 2. Analiza 3. Projektowanie 4. Implementowanie, testowanie i dokumentowanie 5. WdroŜenie
Proces ETL MS SQL Server Integration Services (SSIS)
Proces ETL MS SQL Server Integration Services (SSIS) 3 kwietnia 2014 Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików PDF sformatowanych jak ten. Będą się na nie
Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)
Hurtownie danych dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki Maciej Zakrzewicz (1) Plan wykładu Wprowadzenie do Business Intelligence (BI) Hurtownia danych Zasilanie hurtowni
Modelowanie hierarchicznych struktur w relacyjnych bazach danych
Modelowanie hierarchicznych struktur w relacyjnych bazach danych Wiktor Warmus (wiktorwarmus@gmail.com) Kamil Witecki (kamil@witecki.net.pl) 5 maja 2010 Motywacje Teoria relacyjnych baz danych Do czego
Laboratorium nr 4. Temat: SQL część II. Polecenia DML
Laboratorium nr 4 Temat: SQL część II Polecenia DML DML DML (Data Manipulation Language) słuŝy do wykonywania operacji na danych do ich umieszczania w bazie, kasowania, przeglądania, zmiany. NajwaŜniejsze
Migracja Business Intelligence do wersji 11.0
Migracja Business Intelligence do wersji 11.0 Copyright 2012 COMARCH Wszelkie prawa zastrzeżone Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej publikacji w jakiejkolwiek postaci jest
Podstawy programowania. Wykład Funkcje. Krzysztof Banaś Podstawy programowania 1
Podstawy programowania. Wykład Funkcje Krzysztof Banaś Podstawy programowania 1 Programowanie proceduralne Pojęcie procedury (funkcji) programowanie proceduralne realizacja określonego zadania specyfikacja
Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik
Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik Technologia Przykłady praktycznych zastosowań wyzwalaczy będą omawiane na bazie systemu MS SQL Server 2005 Wprowadzenie
Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012
Szkolenie autoryzowane MS 10777 Wdrażanie hurtowni danych w Microsoft SQL Server 2012 Strona szkolenia Terminy szkolenia Rejestracja na szkolenie Promocje Opis szkolenia Szkolenie przeznaczone jest dla
PRZESTRZENNE BAZY DANYCH WYKŁAD 2
PRZESTRZENNE BAZY DANYCH WYKŁAD 2 Baza danych to zbiór plików, które fizycznie przechowują dane oraz system, który nimi zarządza (DBMS, ang. Database Management System). Zadaniem DBMS jest prawidłowe przechowywanie
Oracle11g: Wprowadzenie do SQL
Oracle11g: Wprowadzenie do SQL OPIS: Kurs ten oferuje uczestnikom wprowadzenie do technologii bazy Oracle11g, koncepcji bazy relacyjnej i efektywnego języka programowania o nazwie SQL. Kurs dostarczy twórcom
Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych
Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych www.ascen.pl 1 Agenda O firmie Zarządzanie jakością danych Aplikacje mobilne i ich rola w zarządzaniu jakością danych 2 O firmie Data
4. Budowa prostych formularzy, stany sesji, tworzenie przycisków
4. Budowa prostych formularzy, stany sesji, tworzenie przycisków 1. Utwórz formularz tabelaryczny umożliwiający modyfikację prowadzących listę przebojów. a. Zaloguj się do systemu APEX podając znaną Ci
Specjalizacja magisterska Bazy danych
Specjalizacja magisterska Bazy danych Strona Katedry http://bd.pjwstk.edu.pl/katedra/ Prezentacja dostępna pod adresem: http://www.bd.pjwstk.edu.pl/bazydanych.pdf Wymagania wstępne Znajomość podstaw języka
Przykładowa baza danych BIBLIOTEKA
Przykładowa baza danych BIBLIOTEKA 1. Opis problemu W ramach zajęć zostanie przedstawiony przykład prezentujący prosty system biblioteczny. System zawiera informację o czytelnikach oraz książkach dostępnych
7. Formularze master-detail
7. Formularze master-detail 1. Utworzymy teraz jeden z bardziej złożonych formularzy dostępnych z kreatora formularz master-detail. Będzie on swoją strukturą przypominał utworzony wcześniej formularz dotyczący
dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017
dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017 KONTAKT Z PROWADZĄCYM dr inż. Paweł Morawski e-mail: pmorawski@spoleczna.pl www: http://pmorawski.spoleczna.pl
Hurtownie danych wykład 5
Hurtownie danych wykład 5 dr Sebastian Zając SGH Warszawa 7 lutego 2017 1 Współbieżność i integracja Niezgodność impedancji 2 bazy danych Współbieżność i integracja Niezgodność impedancji Bazy relacyjne
HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego
HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego http://www.jakubw.pl/zajecia/hur/bi.pdf http://www.jakubw.pl/zajecia/hur/dw.pdf http://www.jakubw.pl/zajecia/hur/dm.pdf http://www.jakubw.pl/zajecia/hur/
Analityka danych & big data
TomaszJangas.com Analityka danych & big data 15 października 2017 W tym artykule opiszę architekturę, jaka często wykorzystywana jest dzisiaj w środowiskach do analityki danych w wielu różnych organizacjach
SQL :: Data Definition Language
SQL :: Data Definition Language 1. Zaproponuj wydajną strukturę danych tabela) do przechowywania macierzy o dowolnych wymiarach w bazie danych. Propozycja struktury powinna zostać zapisana z wykorzystaniem
Business Intelligence
Business Intelligence Paweł Mielczarek Microsoft Certified Trainer (MCT) MCP,MCSA, MCTS, MCTS SQL 2005, MCTS SQL 2008, MCTS DYNAMICS, MBSS, MBSP, MCITP DYNAMICS. Geneza Prowadzenie firmy wymaga podejmowania
4. Znaczenie czasu w modelowaniu i strukturalizacji danych
Temat1- Geneza 1. Ewolucja systemów opartych na bazach danych Początki to np. ręczne spisy danych na papirusie w Egipcie. Ręczne zapisywanie danych trwało aż do końca XIX wieku. W XIX wieku stworzone zostały
Migracja Business Intelligence do wersji 2013.3
Migracja Business Intelligence do wersji 2013.3 Copyright 2013 COMARCH Wszelkie prawa zastrzeżone Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej publikacji w jakiejkolwiek postaci jest
Prezentacja firmy WYDAJNOŚĆ EFEKTYWNOŚĆ SKUTECZNOŚĆ. http://www.qbico.pl
Prezentacja firmy { WYDAJNOŚĆ EFEKTYWNOŚĆ SKUTECZNOŚĆ http://www.qbico.pl Firma ekspercka z dziedziny Business Intelligence Srebrny Partner Microsoft w obszarach Business Intelligence i Data Platform Tworzymy
Maciej Kiewra mkiewra@qbico.pl. Quality Business Intelligence Consulting http://www.qbico.pl
Maciej Kiewra mkiewra@qbico.pl Quality Business Intelligence Consulting http://www.qbico.pl Wstęp Integration Services narzędzie do integracji danych Pomyślane do implementacji procesów ETL Extract ekstrakcja
Hurtownie danych wykład 3
Hurtownie danych wykład 3 dr Sebastian Zając SGH Warszawa 7 lutego 2017 Architektura relacyjna i wielowymiarowa Ze względu na przechowywanie danych na serwerze możemy zdecydować się na relacyjną bazę danych
Wyzwalacz - procedura wyzwalana, składowana fizycznie w bazie, uruchamiana automatycznie po nastąpieniu określonego w definicji zdarzenia
Wyzwalacz - procedura wyzwalana, składowana fizycznie w bazie, uruchamiana automatycznie po nastąpieniu określonego w definicji zdarzenia Składowe wyzwalacza ( ECA ): określenie zdarzenia ( Event ) określenie
Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence
Hurtownie danych Wprowadzenie do systemów typu Business Intelligence Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika
The Binder Consulting
The Binder Consulting Contents Indywidualne szkolenia specjalistyczne...3 Konsultacje dla tworzenia rozwiazan mobilnych... 3 Dedykowane rozwiazania informatyczne... 3 Konsultacje i wdrożenie mechanizmów
w PL/SQL bloki nazwane to: funkcje, procedury, pakiety, wyzwalacze
w PL/SQL bloki nazwane to: funkcje, procedury, pakiety, wyzwalacze Cechy bloków nazwanych: w postaci skompilowanej trwale przechowywane na serwerze wraz z danymi wykonywane na żądanie użytkownika lub w
Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI
Bazy danych Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI Wszechnica Poranna Trzy tematy: 1. Bazy danych - jak je ugryźć? 2. Język SQL podstawy zapytań. 3. Mechanizmy wewnętrzne baz danych czyli co
Comarch ERP XL Business Intelligence Start. Migracja do wersji 2018
Business Intelligence Start Copyright 2018 COMARCH Wszelkie prawa zastrzeżone Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie