Hurtownie danych wykład 3

Podobne dokumenty
Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Modele danych - wykład V

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

Wielowymiarowy model danych

Hurtownie danych. 31 stycznia 2017

Hurtownie danych a transakcyjne bazy danych

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Informatyzacja przedsiębiorstw

Wstęp do Business Intelligence

Część I Istota analizy biznesowej a Analysis Services

OLAP i hurtownie danych c.d.

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Hurtownie danych - przegląd technologii

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Plan. Inteligencja bisnesowa (Bussiness Intelligence) Hurtownia danych OLAP

4. Znaczenie czasu w modelowaniu i strukturalizacji danych

Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)

Projektowanie hurtowni danych

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Microsoft Excel 2013: Budowanie modeli danych przy użyciu PowerPivot

Business Intelligence

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

Spis tre±ci. Przedmowa... Cz ± I

Wprowadzenie do hurtowni danych

Projektowanie hurtowni danych i modelowanie wielowymiarowe

Schematy logiczne dla hurtowni danych

Ćwiczenia z Zaawansowanych Systemów Baz Danych

LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Bazy danych Wykład zerowy. P. F. Góra

Hurtownie danych w praktyce

Projektowanie Systemów Informacyjnych

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

Alicja Marszałek Różne rodzaje baz danych

Bazy analityczne (hurtownie danych, bazy OLAP)

Modelowanie wielowymiarowe hurtowni danych

Projektowanie hurtowni danych i modelowanie wielowymiarowe

Opracowanie: Izabela Czepil i Andrzej Solski

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Modelowanie hurtowni danych

Wykład I. Wprowadzenie do baz danych

forma studiów: studia stacjonarne Liczba godzin/tydzień: 1, 0, 2, 0, 0

Pojęcie bazy danych. Funkcje i możliwości.

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Podstawowe zagadnienia z zakresu baz danych

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Rady i porady użytkowe

Plan wykładu. Hurtownie danych. Problematyka integracji danych. Cechy systemów informatycznych

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko

Proces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,

Hurtownia danych. Załącznik Nr 1 do SIWZ. Opis przedmiotu zamówienia. Lp. FUNKCJONALNOŚĆ/PARAMETRY WYMAGANE

1. Ewolucja systemów opartych na bazach danych 2. Czym się rożni modelowanie od strukturalizacji danych? Model danych Struktury (danych)

Egzamin / zaliczenie na ocenę* 0,5 0,5

Grupa kursów: Wykład Ćwiczenia Laboratorium Projekt Seminarium 15 30

KARTA PRZEDMIOTU. WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI Ogólne umiejętności posługiwania się komputerem

Bazy danych. wprowadzenie teoretyczne. Piotr Prekurat 1

Faza Określania Wymagań

Zaawansowane systemy baz danych - ZSBD. Hurtownie danych 1. Problematyka hurtowni danych. Wykład przygotował: Robert Wrembel. ZSBD wykład 12 (1)

Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Kostki OLAP i język MDX

Oracle11g: Wprowadzenie do SQL

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Diagramu Związków Encji - CELE. Diagram Związków Encji - CHARAKTERYSTYKA. Diagram Związków Encji - Podstawowe bloki składowe i reguły konstrukcji

2017/2018 WGGiOS AGH. LibreOffice Base

Wykład 8. SQL praca z tabelami 5

Normalizacja baz danych

Migracja Business Intelligence do wersji

Baza danych. Modele danych

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

Karta (sylabus) modułu/przedmiotu Mechanika i Budowa Maszyn Studia I stopnia

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl

Platforma Cognos. Agata Tyma CMMS Department Marketing & Sales Specialist atyma@aiut.com.pl AIUT Sp. z o. o.

Modelowanie danych, projektowanie systemu informatycznego

Monitoring procesów z wykorzystaniem systemu ADONIS

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 6.0

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Transformacja modelu ER do modelu relacyjnego

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Projektowanie bazy danych przykład

Technologia informacyjna

Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym

Projektowanie hurtowni danych i modelowanie wielowymiarowe

Monitoring procesów z wykorzystaniem systemu ADONIS. Krok po kroku

Informatyka Ćwiczenie 10. Bazy danych. Strukturę bazy danych można określić w formie jak na rysunku 1. atrybuty

ANALYSIS SERVICES. 1. Tworzymy połączenie ze źródłem danych. 2. Tworzymy nowy widok dla źródła danych

Projektowanie relacyjnych baz danych

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

Diagramy związków encji. Laboratorium. Akademia Morska w Gdyni

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Pierwsze wdrożenie SAP BW w firmie

Bazy danych 2. Wykład 1

Transkrypt:

Hurtownie danych wykład 3 dr Sebastian Zając SGH Warszawa 7 lutego 2017

Architektura relacyjna i wielowymiarowa Ze względu na przechowywanie danych na serwerze możemy zdecydować się na relacyjną bazę danych (RDB Relational Database), bądź też na wielowymiarową bazę danych (MDDB Multidimensional Database). Relational OLAP Dane przechowywane są w tabelach relacyjnych, przy czym schemat odzwierciedla wielowymiarową strukturę danych.charakterystyczne dla tego podejścia są schematy: gwiazdy, płatka śniegu oraz konstelacji faktów.

Multidimensional OLAP Dane przechowywane w wielowymiarowych tablicach, zwanych też kostkami danych. Rozróżniamy dwa rodzaje baz wielowymiarowych: disk based oraz RAM based. Zalety: bardzo wysoka wydajność wyszukiwania i prezentacji danych.naturalna budowa struktur wielowymiarowych Wady: bardzo mała elastyczność - Jeśli chcemy dodać lub zmodyfikować kostkę trzeba ją usunąć i stworzyć od nowa. Bardzo niska skalowalność co powoduje, iż zalecana jest dla nie za dużych danych. Hybrid OLAP Oba podejścia mają wady i zalety - stąd pomysł na połączenie obu podejść. W tym rozwiązaniu dane przechowywane są tabelach na serwerze relacyjnym, zaś przetwarzanie danych realizowane jest na serwerze wielowymiarowym.

Co to jest OLAP Zadanie: dostarczenie informacji strategicznej i prezentowanie w prosty i w intuicyjny do zrozumienia sposób. Narzędzia: bazy danych oraz zaawansowane modele matematyczne. Podstawą modelu OLAP są: Fakty fact - informacje podlegające analizie, opisujące proces biznesowy, charakteryzowane ilościowo za pomocą miar np: sprzedaż, rozmowa telefoniczna... Charakteryzują się dużym wolumenem danych (TB). Wymiary dimension - ustalają kontekst analizy np. produkt, sklep, czas itp. Mogą składać się z poziomów, które tworzą hierarchię.

W modelu wielowymiarowym analizujemy fakty wzdłuż wymiarów. Fakt to pojedyncze zdarzenie - podstawa naszej analizy (np. sprzedaż, fakt wzięcia kredytu, wykonanie przelewu) będąca zbiorem miar (numeryczne wartości opisujące zdarzenie). Wartości miar zależą ściśle od wymiarów, po których analizowane są dane. Wymiarami analizy najczęściej są : produkt, klient, obszary sprzedaży, data sprzedaży (czas) Miara jest reprezentowana jako punkt w n-wymiarowej przestrzeni wymiarów. Wymiary opisywane są zbiorami atrybutów (atrybuty mogą tworzyć hierarchie).

Kostka OLAP - wielowymiarowa baza danych Koncepcyjnie model OLAP można przedstawić jako hiper -kostkę, która w swoim wnętrzu zawiera miary, natomiast wymiary stanowią jej brzegi. Ze względu, iż analizy danych dotyczą różnych poziomów szczegółowości wymiary posiadają najczęściej wewnętrzną strukturę ułatwiającą przechodzenie od ogółu do szczegółu np. czas: lata miesiące dni, państwa miasta województwa obszary Ze względu na ograniczenia trójwymiarowej przestrzeni, zaprezentować na rysunku można kostkę co najwyżej trzy-wymiarową. W rzeczywistości analizuje się od pięciu do siedmiu wymiarów.

Kostka OLAP

Operacje na kostkach: Rozwijanie (Roll-down) schodzenie na niższy poziom hierarchii wymiaru, czyli przejście od ogółu do szczegółu. Np przejście z widoku sprzedaży rocznej na kwartalną, miesięczną bądź dzienną. Zwijanie (Roll-up) wchodzenie na wyższy poziom hierarchii wymiaru, czyli przejście od szczegółu do ogółu. np sprzedaż poszczególnych towarów zmieniamy na sprzedaż kategorii produktów. Drążenie (drill through) przeglądanie danych szczegółowych dotyczących konkretnego podsumowania.

Selekcja (Slice) wycinanie fragmentu danych przez określenie warunków na wartościach wymiarów oraz listy wymiarów branych pod uwagę w raporcie (podkostka) np dwuwymiarowy plaster (slice) - pozostałe wymiary są rzutowane (agregowane). Ze względu na dużą przejrzystość tabel dwuwymiarowych efekty raportów to selekcje z kostki.

Filtrowanie ograniecznie się do prezentacji tylko tych danych, które spełniają zdefiniowane przez użytkownika warunki na wartościach miar lub atrybutach wymiaru. W przeciwieństwie do selekcji filtrowanie nie dotyczy odrzucania całych wymiarów a jedynie ogranicza ich zakres. Obracanie (pivot, rotate) zmiana orientacji (kolejności wymiarów) kostki. W przypadku arkusza dwu wymiarowego obracanie to inaczej transpozycja (zamiana wierszy i kolumn) często poprawia czytelność otrzymanych wyników. Wybór n górnych miejsc bądź n górnych procent. Korzystamy gdy chcemy wybrać np. dziesięć najlepiej sprzedających się produktów w podanym roku bądź 5

Drill-down

Rotating, slicing,dicing

Model punktowy Przed stworzeniem logicznego modelu danych (gwiazda, płatek śniegu) należy uzgodnić model pojęciowy. Jedną z przykładowych technik modelowania na tym etapie jest Model Punktowy: Fakty reprezentowane są punktami wymiary reprezentowane są przez nazwy podobnie reprezentujemy kolejne poziomy hierarchi Model może obejmować wiele faktów, korzystając częściowo ze wspólnej hierarchii wymiarów

Model punktowy

Model punktowy W modelu punktowym zapisujemy informacje na temat: Nazwy atrybutów Typy danych więzy integralności Retrospekcja (zmienności wartości atrybutów w czasie) Częstości odświeżania Pochodzenia danych Metadane biznesowe Retrospekcje dzielimy na: prawdziwa - zapisujemy wszystkie zmiany wartości z dokładnym czasem fałszywa - nowe wartości zastępują stare trwała - nie przewidujemy zmian wartości

ROLAP Relacyjna implementacja dla OLAP PROBLEMY: Zidentyfikowanie faktów Zidentyfikowanie kluczowych wymiarów Zaprojektowanie tabel faktów Zaprojektowanie tabel wymiarów

ROLAP Zidentyfikowanie faktów Należy wskazać kluczowe typy transakcji w systemie produkcyjnym, realizujące kluczowe operacje w zależności od branży: handel - transakcja sprzedaży, bankowość - kursy walut, operacje na kontach, ubezpieczenia - zgłoszenie szkody, zakup polisy, giełda - wahania kursów akcji, operacje giełdowe opieka zdrowotna - wynik leczenia, przyjęcie pacjenta, forma leczenia, telekomunikacja - realizacja rozmowy, zmiana abonamentu, zawarcie umowy

ROLAP Zidentyfikowanie wymiarów Należy kluczowe wymiary dla określonych wcześniej faktów handel - analiza sprzedaży w miastach i okresach czasowych bankowość - Wahania kursów w poszczególnych dniach, analiza przyrostu nowych rachunków w poszczególnych miesiącach, rodzaje rachunków ubezpieczenia - analiza przyrostu spadku/wzrostu ilości polis w poszczególnych miastach i w miesiącach giełda - wahania kursów akcji w poszczególnych dniach i dla każdej z firm, ilość transakcji w jednostce czasu i łączne kwoty operacji telekomunikacja - analiza rozkładu rozmów poszczególnych klientów w czasie doby

Projektowanie tabeli faktów Poziom szczegółowości informacji rozmiar tabeli faktów: rejestrowanie kwoty zakupu pojedynczego produktu rejestrowanie sumarycznej kwoty zakupu całego koszyka rejestrowanie sumarycznej kwoty zakupu w tygodniu Horyzont czasowy danych jak długo przechowywać informacje na najwyższym poziomie szczegółowości? co ze starszymi danymi - strategia agregacji

Projektowanie tabeli faktów Właściwy zbiór atrybutów Czy atrybut wnosi nową wiedzę o fakcie (usuń jeśli nie) czy wartość atrybutu można wyliczyć (usuń i wylicz) minimalizacja rozmiarów atrybutów

klucze podstawowe i sztuczne Klucze naturalne np. nr rejestracyjny, Vin, NIP, Pesel... klucze sztuczne - generowane automatycznie przez system np. nr klienta, nr transakcji, id produktu połączenie tabeli wymiaru i faktów za pomocą klucza podstawowego-obcego zapytania kierujemy wyłącznie do tabeli faktów.

Schematy wielowymiarowych danych w ROLAP 1 schemat gwiazdy 2 schemat płatka śniegu 3 schemat konstelacji faktów

schemat gwiazdy

schemat płatka śniegu

schemat konstelacji