Hurtownie danych Wykład dla studentów matematyki



Podobne dokumenty
Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Hurtownie danych. 31 stycznia 2017

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

Bazy danych Wykład zerowy. P. F. Góra

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Bazy Danych. C. J. Date, Wprowadzenie do systemów baz danych, WNT - W-wa, (seria: Klasyka Informatyki), 2000

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Krzysztof Kadowski. PL-E3579, PL-EA0312,

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Pojęcie bazy danych. Funkcje i możliwości.

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania

Baza danych. Modele danych

OLAP i hurtownie danych c.d.

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

RELACYJNE BAZY DANYCH

Wprowadzenie do projektowania i wykorzystania baz danych Relacje i elementy projektowania baz

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Adam Cankudis IFP UAM

LK1: Wprowadzenie do MS Access Zakładanie bazy danych i tworzenie interfejsu użytkownika

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

2017/2018 WGGiOS AGH. LibreOffice Base

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Systemy baz danych i hurtowni danych

Program wykładu. zastosowanie w aplikacjach i PL/SQL;

Wstęp do Business Intelligence

Bazy danych - wykład wstępny

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko

Relacyjny model baz danych, model związków encji, normalizacje

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 6.0

Ogólny plan przedmiotu. Strony WWW. Literatura BAZY DANYCH. Materiały do wykładu:

System kontroli wersji - wprowadzenie. Rzeszów,2 XII 2010

Projektowanie relacyjnych baz danych

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2013/2014

Bazy danych i usługi sieciowe

Projektowani Systemów Inf.

Ewolucja technik modelowania hurtowni danych

BD2 BazyDanych2. dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0

Karta (sylabus) modułu/przedmiotu Mechanika i Budowa Maszyn Studia I stopnia

PRZESTRZENNE BAZY DANYCH WYKŁAD 2

LITERATURA. C. J. Date; Wprowadzenie do systemów baz danych WNT Warszawa 2000 ( seria Klasyka Informatyki )

Informatyzacja przedsiębiorstw

Bazy danych i ich aplikacje

Procedura Walidacyjna Interfejs

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

mail: strona: konsultacje: na stronie (po wcześniejszym umówieniu drogą mailową)

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Pytania SO Oprogramowanie Biurowe. Pytania: Egzamin Zawodowy

Szkolenie autoryzowane. MS 6232 Wdrażanie bazy danych Microsoft SQL Server 2008 R2

Procesy ETL. 10maja2009. Paweł Szołtysek

Hurtownie danych - przegląd technologii

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

Wykład 2. Relacyjny model danych

Wrocławska Wyższa Szkoła Informatyki Stosowanej. Bazy danych. Dr hab. inż. Krzysztof Pieczarka.

Modele danych - wykład V

Wprowadzenie do Hurtowni Danych

Technologia informacyjna

Baza danych. Baza danych to:

Bazy danych. Dr Henryk Telega. BD 10/11 Wykład 1 1

BAZY DANYCH NORMALIZACJA BAZ DANYCH. Microsoft Access. Adrian Horzyk. Akademia Górniczo-Hutnicza

BAZY DANYCH. Co to jest baza danych. Przykłady baz danych. Z czego składa się baza danych. Rodzaje baz danych

Systemy baz danych. mgr inż. Sylwia Glińska

Hurtownie danych w praktyce

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Pierwsze wdrożenie SAP BW w firmie

Czym jest baza danych?

SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ

Pojęcie systemu informacyjnego i informatycznego

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Elektroenergetyki Technologie informatyczne

Ewolucja systemów baz danych

Bazy danych Wprowadzenie Wykład dla IV i V roku matematyki

Procesy ETL - wykład V. Struktura. Wprowadzenie. 1. Wprowadzenie. 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków.

OpenOfficePL. Zestaw szablonów magazynowych. Instrukcja obsługi

Usługa archiwizacji danych w systemie Eureca. Marek Jelenik CONTROLLING SYSTEMS sp. z o.o.

Hurtownie danych wykład 5

OfficeObjects e-forms

Podstawowe zagadnienia z zakresu baz danych

Kopie bezpieczeństwa NAPRAWA BAZ DANYCH

Jak generować i zapisywać raporty. Copyright Tungsten Corporation plc 2018

Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

Część II. Zadanie 3.2. (0 3)

Grzegorz Ruciński. Warszawska Wyższa Szkoła Informatyki Promotor dr inż. Paweł Figat

ORGANIZACJA ZAJĘĆ BAZY DANYCH PLAN WYKŁADU SCHEMAT SYSTEMU INFORMATYCZNEGO

Comarch BI Point Standalone ulotka. Wersja: 6.2

LITERATURA. Wprowadzenie do systemów baz danych C.J.Date; WNT Warszawa 2000

Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012

Transkrypt:

Hurtownie danych Wykład dla studentów matematyki 13 maja 2016

Przeglad Tradycyjne bazy danych sa skonfigurowane na równoczesna obsługę wielu małych, prostych zapytań. Niektóre nowe aplikacje używaja mniej, ale bardziej czasochłonnych i złożonych zapytań. Powstały nowe architektury do efektywnej obsługi złożonych zapytań analitycznych.

Hurtownia danych Najpopularniejszy sposób integracji danych. Kopiujemy dane źródłowe z operacyjnych baz danych do pojedynczej bazy danych (hurtowni) i dbamy o ich aktualność. Aktualizacja przez doładowanie: okresowa rekonstrukcja hurtowni, np. w nocy. Często używana bezpośrednio dla obsługi zapytań analitycznych, lepiej jednak tworzyć z niej specjalizowane tematyczne bazy danych.

Aplikacje operacyjne Określane również jako OLTP On-Line Transaction Processing Duża liczba równocześnie wykonywanych prostych transakcji; Przewaga operacji modyfikacji (insert/update/delete), czyli duża dynamika zmian w bazie danych; Modyfikacje dotycza niewielkiej liczby krotek. Konieczność normalizacji danych dla unikania anomalii; Proste, przewidywalne zapytania (zwykle dotyczace pojedynczych wierszy). Przykłady: odpowiedzi na zapytania z interfejsu WWW, bankomaty. sprzedaż biletów lotniczych.

OLAP Obecnie rośnie znaczenie aplikacji analitycznych programów typu On-Line Analytical Processing (OLAP). Niewiele zapytań, ale bardziej złożonych moga być przetwarzane godzinami. Zapytania nie wymagaja bezwzględnie aktualnej bazy danych. Integralność danych zapewniana podczas konstrukcji (lub doładowania) Później sprawdzanie integralności zbędne, bo tylko zapytania (bez modyfikacji). Brak transakcji.

Aplikacje analityczne Maja do czynienia z formułowanymi ad-hoc, złożonymi zapytaniami sumarycznymi. Wymagaja często denormalizacji dla uzyskania zadowalajacych osiagów. Poczatkowo do analizy używano po prostu arkuszy kalkulacyjnych połaczonych z operacyjna baza danych, obecnie jednak korzysta się ze specjalizowanych narzędzi (często z interfejsem w postaci arkusza kalkulacyjnego).

Przykłady OLAP Amazon analizuje zamówienia swoich klientów, aby wyświetlić im ekran powitalny z produktami z zakresu ich zainteresowań. Analitycy w Wal-Mart szukaja towarów z rosnac a sprzedaża w jakimś regionie. System Teradata: 900 CPU, 2700 dysków, 23 TB

Typowa architektura Lokalne bazy danych w oddziałach obsługuja OLTP. Noca kopiuje się lokalne bazy danych do centralnej hurtowni danych. Analitycy używaja hurtowni do zapytań OLAP.

Co to jest hurtownia? Kolekcja rozmaitych danych często zorientowana tematycznie przeznaczona dla menadżerów, do podejmowania decyzji często kopia danych operacyjnych z dodatkowymi informacjami (np. podsumowania, historia) zintegrowana zmienna w czasie nieulotna

Co to jest hurtownia? Kolekcja narzędzi do: zbierania danych czyszczenia i integracji danych analizy i raportowania monitorowania i zarzadzania hurtownia

Konieczność integracji danych Obecnie duże firmy (np. banki, towarzystwa ubezpieczeniowe) posiadaja co najmniej kilka operacyjnych baz danych. Obok własnych danych operacyjnych często korzysta się również ze źródeł zewnętrznych: wyników badań rynkowych, publicznych administracyjnych baz danych itp. Zanim więc przystapi się do analizy zawartej w nich informacji, należy dokonać integracji danych z różnych źródeł.

Integracja danych Informacje ze źródłowych (najczęściej operacyjnych) baz danych sa łaczone w zbiorcza bazę danych, nazywana hurtownia danych (data warehouse). Oddzielenie od systemów operacyjnych umożliwia operowanie również danymi historycznymi potrzebne np. do analizy trendów.

Odziedziczone bazy danych Sa to stare bazy danych, często zbudowane w innej (zwykle przestarzałej) technologii. Często pochodza one z przejętych firm i maja inny model danych. Te tzw. odziedziczone bazy danych (legacy databases) stanowia poważnych problem. W ich zbudowanie włożono często wiele lat pracy, więc natychmiastowa centralizacja z ujednoliceniem schematu nie wchodzi w grę. Pozostawia się więc je na biegu lokalnie, ale okresowo (powiedzmy co noc) ich zawartość migruje się do zbiorczego systemu, właśnie hurtowni danych. Model danych hurtowni stanowi podstawę dalszych prac rozwojowych, jej też używa się jako punktu wyjścia do analizy danych.

Hurtownie danych Dwa sposoby realizacji: Realna zbiorcza baza danych wraz procedurami okresowego doładowywania nowymi informacjami źródłowymi. Hurtownia wirtualna, oparta na koncepcji mediatora i wrapperów.

Wybór źródeł danych Idealnym rozwiazaniem przy wyborze danych do załadowania do hurtowni danych byłoby wstępne określenie wszystkich zapytań, które będa generowane przez aplikacje pracujace na hurtowni danych, po czym ustalenie wszystkich tabel i pól zawartych w tych zapytaniach. Zaleta hurtowni wirtualnej jest możliwość zbadania, jakie dane źródłowe sa potrzebne w używanych zapytaniach. Po przeanalizowaniu logów wygenerowanych przez zapytania z wszystkich aplikacji łatwiej określić schemat hurtowni.

Łaczenie danych Łaczenie to okazja do usunięcia błędów. Przede wszystkim jednak dane sa uspójniane. Przykład: pole klient może w jednej z baz danych oprócz imienia i nazwiska obejmować tytuł (np. prof. ), w drugiej na tytuł jest przeznaczone osobne pole, a w trzeciej imię i nazwisko trzymane sa w osobnych polach, a tytułu brak. Czyszczenie danych obejmuje też przeformatowanie danych i eliminację duplikatów.

Kroki budowy hurtowni 1 Analiza źródłowych danych pod względem rozmieszczenia, spisanie rodzaju i zawartości danych. 2 Projekt hurtowni danych zawierajacy spis dostępnych źródłowych baz danych wraz z narzędziami scalajacymi. 3 Wydobywanie odpowiednich danych z baz źródłowych, przekształcenie wydobytych danych tak aby pasowały do zaprojektowanej hurtowni danych. Załadowanie przekształconych danych do hurtowni danych.

Słownik (repozytorium) metadanych Zawiera informacje: skad pochodza dane (z jakiej bazy danych i jakiej tabeli); co reprezentuja, np. kolumna salesyr to roczna sprzedaż brutto towaru wyrażona w złotych ; jak dane sa przechowywane (format zapisu), np. salesyr jako fixed-decimal; kto odpowiada za aktualizację danych (dział/rola), np. księgowość ; kiedy dana jest zwykle zmieniana, np. na koniec każdego roku.

Problem jakości danych Większość przedsiębiorstw nie ma najmniejszego pojęcia o jakości swoich danych i jest zawsze naiwna w tym względzie. Jest kilka kategorii zagadnień dotyczacych jakości danych. Dane moga być: brakujace (lub częściowo brakujace) błędne nieaktualne niespójne wprowadzajace w bład

Problem jakości danych Brakujace dane sa łatwe do wychwycenia, trudniej jest je poprawiać. Dane błędne moga być trudniejsze do wykrycia i poprawienia. Dane wprowadzajace w bład moga wystapić gdy robione sa zmiany retrospektywne, a reprezentacja czasu nie jest poprawna. Dzieje się tak na przykład, gdy nastapi zmiana adresu i (z uwagi na niepoprawne zastosowanie retrospekcji) nowy ades jest mylnie stosowany do poprzednich danych.

Błędne dane Wartości spoza zakresu poprawności. Sa one zwykle łatwe do rozpoznania. Ten typ błędu zdarza się, kiedy, powiedzmy, płeć klienta, która powinna mieć wartość K lub M, zawiera inna wartość, taka jak X. Odnosi się to także do wartości numerycznych, takich jak wiek. Poprawne wartości mogłyby być zdefiniowane między 18 a 100 lat. Jeśli wiek znajduje się poza tym zakresem, to uznaje się, że wystapił bład. Błędy referencyjne. Jest to każdy bład naruszajacy więzy spójności referencyjnej. Błedy poprawności. Sa to błędy w danych niemal niemożliwe do wykrycia: wartości, które po prostu zostały wstawione niepoprawnie, ale sa z zakresu poprawności. Na przykład wstawiono wiek klienta jako 26, podczas gdy powinno być 62. Błędy takie pochodza z operacyjnych baz danych i w zasadzie tam właśnie powinny być korygowane.

Ujednolicenie danych Jednolitość jest problemem dla wielu przedsiębiorstw, zwłaszcza tych, które używaja różnych typów narzędzi. Niektóre różnice dotycza kwestii podstawowych, jak choćby kodowanie znaków. W większości systemów stosuje się kod ASCII (American Standard Code for Information Interchange). Sa jednak wyjatki. IBM oparł wszystkie systemy mainframe na całkowicie odmiennym kodowaniu znaków, zwanym EBCDIC (Extended Binary Coded Decimal Interchange Code). Litera P w kodzie ASCII ma wartość dziesiętna 80, a w EBCDIC wartość 215 (znakiem, który ma wartość 80 w EBCDIC jest & ). Inne różnice dotycza dat. Większość systemów zarzadzania bazami danych obsługuja typ "Date", ale format przechowywania jest zależny od DBMS.

Ujednolicenie danych Jeszcze subtelniejsze sa różnice wewnatrz różnych aplikacji tworzonych przy użyciu tych samych narzędzi. Może się na przykład zdarzyć, że jeden z projektantów postanowi zapisywać adresy klientów w pięciu polach po 25 znaków każde, inny zaś zdecyduje się gromadzić je w jednym polu typu Varchar(100). Kolor czarny w jednej aplikacji reprezentuje się napisem BLACK, w drugiej napisem BL, a w trzeciej BL oznacza kolor niebieski. Różnice semantyczne: w jednej bazie danych odróżnia się półciężarówki od mikrobusów, a w drugiej nie. Katalogi nazw i adresów pozwalaja naprawić błędy przy wprowadzaniu danych i pozwola uzupełnić brakujace informacje takie jak kod adresowy, powiat itp. Takie naprawianie typowych błędów wymaga jednak interwencji człowieka, który zatwierdzi poprawki programu.

Problem wydajności i skalowalności Relacyjne bazy danych używaja metod przyśpieszania dostępu takich jak haszowanie lub indeksy do wybrania małej liczby pożadanych rekordów bez potrzeby skanowania całej tabeli lub bazy danych. Takie metody przyśpieszania dostępu sa wysoce efektywne w odpowiedziach na zapytania o pojedyncze pole (lub mała liczbę pól), kiedy wynikiem jest niewielka część całej tabeli. Przykładem takich zapytań jest: znajdź wszystkich 25 letnich programistów. Odpowiedzi na takie zapytania sa szybkie, gdyż może być stworzony indeks dla kolumny wiek lub kolumny zawód.

Problem wydajności i skalowalności Klasyczne metody dostępu sa mało pomocne w odpowiedziach na zapytania, których rezultatem jest znaczna część tabeli. Przykładem jest znajdź wszystkich młodych pracowników".

Literatura V. Poe, P. Klauer, S. Brobst, Tworzenie hurtowni danych, WNT, 2000. W.H. Inmon, Building the Data Warehouse. R. Kimball, The Data Warehouse Toolkit, J.Wiley & Sons, 1996.