Hurtownie danych. Metadane i czynniki jakości. http://zajecia.jakubw.pl/hur BAZA METADANYCH. Centralna hurtownia danych. Metadane



Podobne dokumenty
Hurtownie danych - przegląd technologii

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

OLAP i hurtownie danych c.d.

Spis tre±ci. Przedmowa... Cz ± I

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Hurtownie danych w praktyce

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Monitoring procesów z wykorzystaniem systemu ADONIS

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Koncepcja systemu zarządzania jakością w dużym projekcie informatycznym zgodnie z normą ISO/IEC 9001:2008

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Pierwsze wdrożenie SAP BW w firmie

Migracja Comarch ERP Altum Business Intelligence do wersji 2019

ZAPYTANIE OFERTOWE. Zamawiający. Przedmiot zapytania ofertowego. Wrocław, dnia r.

Wstęp. Inżynieria wymagań. Plan wykładu. Wstęp. Wstęp. Wstęp. Schemat procesu pozyskiwania wymagań

Część I Istota analizy biznesowej a Analysis Services

Projekt dotyczy stworzenia zintegrowanego, modularnego systemu informatycznego wspomagającego zarządzanie pracownikami i projektami w firmie

Metodyka projektowania komputerowych systemów sterowania

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Ewolucja technik modelowania hurtowni danych

Procedura Walidacyjna Interfejs

Bazy danych 2. Wykład 1

Kluczowe zasoby do realizacji e-usługi Warszawa, 16 października Maciej Nikiel

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Procesy ETL. 10maja2009. Paweł Szołtysek

OD JAKOŚCI DO TRWAŁOŚCI REZULTATÓW W PROJEKTACH ERASMUS+

Wybór ZSI. Zakup standardowego systemu. System pisany na zamówienie

Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych

Migracja XL Business Intelligence do wersji

Transformacja wiedzy w budowie i eksploatacji maszyn

RFP. Wymagania dla projektu. sklepu internetowego B2C dla firmy Oplot

INDECT. Projekt i implementacja prototypu systemu GIS dla akwizycji, wizualizacji i przetwarzania wiedzy o zagrożeniach.

Projektowanie baz danych

CRM VISION FUNKCJE SYSTEMU

Hurtownie danych wykład 3

Zarządzaj projektami efektywnie i na wysokim poziomie. Enovatio Projects SYSTEM ZARZĄDZANIA PROJEKTAMI

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

ZAPYTANIE OFERTOWE. z dnia 20 grudnia 2013r.

Migracja Business Intelligence do wersji

Plan prezentacji. 1. Archer DMS. 2. Organizacja archiwum. 3. Organizacja pracy. 4. Funkcjonalność systemu. Quality Software Solutions 2

Case Study. aplikacji Microsoft Dynamics CRM 4.0. Wdrożenie w firmie Finder S.A.

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

RELACYJNE BAZY DANYCH

Migracja Business Intelligence do wersji

Wykład 1 Inżynieria Oprogramowania

Modele danych - wykład V

Zasady organizacji projektów informatycznych

Migracja Business Intelligence do wersji

Sekcja I: Instytucja zamawiająca/podmiot zamawiający

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

SKRÓCONY OPIS systemu lojalnościowego

Currenda EPO Instrukcja Konfiguracji. Wersja dokumentu: 1.3

Opracowanie: Izabela Czepil i Andrzej Solski

VII Kongres BOUG 03 października 2012

Katalog handlowy e-quality

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Efektywność wyszukiwania informacji w publicznie dostępnych katalogach bibliotek wykorzystujących polskie programy biblioteczne

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Autor: Mantaj Przemysław

Investing f or Growth

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

Szczególne problemy projektowania aplikacji internetowych. Jarosław Kuchta Projektowanie Aplikacji Internetowych

APIO. W7 SPECYFIKACJA (UŻYCIA) DOSTĘPU DO DANYCH I SPOSOBU ICH PRZETWARZANIA 1. METODA CRUD 2. LOGIKA FUNKCJI

Metoda przedwdrożeniowego wymiarowania zmian oprogramowania wybranej klasy systemów ERP

1. Prace rozwojowe usługi informatyczne w zakresie opracowania prototypu oprogramowania serwisowo-instalatorskiego dla systemu testowego

Hurtownie danych a transakcyjne bazy danych

Oprogramowanie systemu B2B zakup licencji na oprogramowanie umożliwiające zarządzanie informacjami o produktach:

Laboratorium Technologii Informacyjnych. Projektowanie Baz Danych

Hurtownia danych praktyczne zastosowania

Faza Określania Wymagań

Wykład I. Wprowadzenie do baz danych

Elektroniczny Case Report Form

Hurtownie danych - przegląd technologii

Zapytanie ofertowe. planuje zakup usług doradczych. Zapytanie kierowane jest do firm z branży informatycznej.

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Etapy życia oprogramowania

Specyfikacja wymagań systemowych (może podlegać edytowaniu na kolejnych etapach)

Korzyści z integracji danych klienta. Seminarium PIU Jakość danych w systemach informatycznych ZU Warszawa Przygotowała Ewa Galas

Narzędzie informatyczne do modelowania, zarządzania i dokumentowania procesów systemu zarządzania jakością

Analityka danych & big data

Migracja Comarch ERP Altum Business Intelligence do wersji

Tom 6 Opis oprogramowania

Monitoring procesów z wykorzystaniem systemu ADONIS. Krok po kroku

Hurtownie danych. 31 stycznia 2017

Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012

System monitorowania realizacji strategii rozwoju. Andrzej Sobczyk

Sybase Professional Services

Transkrypt:

Hurtownie danych Metadane i czynniki jakości. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur Magazyny danych operacyjnych, źródła ładowanie, czyszczenie, transformacja BAZA METADANYCH Centralna hurtownia danych Hurtownie tematyczne Metadane Baza metadanych (metadata repository) wykorzystywana jest na wszystkich etapach pracy hurtowni danych. 1

BAZA METADANYCH Zawartość bazy metadanych: - Perspektywa pojęciowa (dane biznesowe) - Perspektywa logiczna (schemat) - Perspektywa fizyczna - Statystyki danych - Statystyki użycia - Informacje administracyjne METADANE - PERSPEKTYWA POJĘCIOWA - Sformalizowany opis zawartości hurtowni w terminach konkretnego przedsiębiorstwa (obiektów rzeczywistych, np. klient, sprzedawca) - Opis procesu integracji pojęciowej danych - Opis (biznesowy) z punktu widzenia użytkownika (np. raporty) Opis może być sformalizowany (z możliwością automatycznego wykorzystania do wnioskowania) lub w języku naturalnym. Przykład: Asercje międzymodelowe - zdefiniowane związki między różnymi pojęciami występującymi w różnych modelach. Np. możemy zapisać, że kontrahent (pojęcie należące do modelu jednego ze źródeł danych) to szczególny przypadek klienta (pojęcie z modelu przedsiębiorstwa). Pozwala to sprawnie zlokalizować wszystkie źródła, z których pochodzą informacje o klientach. 2

METADANE - PERSPEKTYWA LOGICZNA - Schemat danych w centralnej hurtowni danych, źródłach i hurtowniach tematycznych - Przechowuje: - nazwy tablic i kolumn, - typy danych, - rodzaje relacji między tablicami, - definicje perspektyw zmaterializowanych, - definicje więzów integralności, - definicje kostek danych i hierarchii wymiarów, - opis logiczny procesu ładowania danych. METADANE - PERSPEKTYWA FIZYCZNA - Definicja fizycznego rozmieszczenia danych i ich przepływu - Podstawowe obiekty perspektywy fizycznej: magazyny danych i agenci. - Informacje o lokalizacji fragmentów danych składających się na logiczne źródło danych - Definicje agentów: - sterujących (np. wyzwalacze, programy powiadamiające) - transportowych (procedury przeprowadzające ładowanie, czyszczenie i transformację danych, a także propagację aktualizacji) Wszystkie trzy perspektywy metadanych są powiązane - np. magazyn danych przechowuje część logicznej tablicy, wchodzącej w skład pojęcia z perspektywy pojęciowej. 3

STATYSTYKI DANYCH I UŻYCIA - Rodzaj metadanych aktualizowanych bardzo często (przy każdej aktualizacji danych). - Statystyki danych (np. histogramy wartości, wielkości tablic) są wykorzystywane podczas optymalizacji procesów, zapytań i modelu fizycznego danych. - Statystyki użycia (dzienniki zapytań) pozwalają ocenić, jak często wykorzystywane są informacje redundantne (perspektywy zmaterializowane), oraz zlokalizować powtarzające się zapytania, które jeszcze nie zostały zoptymalizowane. - Możliwość automatycznej optymalizacji pracy. - Rejestracja zmian w danych i w metadanych. METADANE ADMINISTRACYJNE - Zasady dostępu do danych, definicje użytkowników i ich grup. - Terminy wykonywania cyklicznych czynności w hurtowni danych (aktualizacja ze źródeł, backup). - Inne, np. informacje o właścicielach poszczególnych danych. 4

STANDARDY Próby pełnej standaryzacji metadanych jak dotąd nie powiodły się. Microsoft Repository / Meta Data Engine: - Schematy metadanych wykorzystują język UML - Wykorzystywane mechanizmy: COM (Common Object Model), OEM (Object Exchange Model) Metadata Interchange Specification (MDIS): - Pliki tekstowe o określonej strukturze (specyfikacja rozszerzalna) - Obiekty baza danych, element, relacja itp. Można np. opisać relacje między tablicami czy kolumnami za pomocą słów kluczowych EQUIVALENT, INCLUDES, DERIVED itp. Telos (systemy ConceptBase, Semantic Index): - uniwersalny język opisu danych, oferujący obiekty złożone, hierarchie, relacje, a także mechanizmy automatycznego wnioskowania Inne: OIM (Open Information Model), CWM (Common Warehouse Metamodel) PRZYKŁAD Zadanie: aplikacja wspomagająca proces backupu danych (decydowanie, które tablice lub ich części możemy przenieść do archiwum) na podstawie statystyk użycia danych. Monitorujemy dziennik zapytań do hurtowni danych i analizujemy (OLAP) zapytania pod kątem użytych danych. Przechowujemy informacje o każdym zapytaniu: - Kto zadał zapytanie? (Użytkownik, grupa użytkowników itp.) - Które tablice zostały użyte? - Jakie dane zostały użyte? (Zakres dat bezwzględnych, zakres czasowy względny, np. dane z trzech miesięcy poprzedzających zadanie zapytania). 5

CZYNNIKI JAKOŚCI Potrzeba ilościowego określenia jakości hurtowni danych wynika z kilku przyczyn: - ustalenie i weryfikacja założeń projektowych - ustalenie kierunku rozwoju hurtowni (eliminacja słabych punktów) - identyfikacja źródeł ewentualnych problemów eksploatacyjnych. Miary liczbowe (uzyskiwane z metadanych) obiektywizują ocenę jakości i pozwalają zautomatyzować część zadań związanych z jakością. Projektowanie hurtowni danych z uwzględnieniem jakości jest zawsze zadaniem optymalizacji wielokryterialnej: nie da się zoptymalizować jednocześnie wszystkich czynników (np. większa szybkość uzyskana poprzez materializację wielu perspektyw wydłuża czas odświeżania, a więc zmniejsza dyspozycyjność hurtowni). CZYNNIKI JAKOŚCI - DANE - Dokładność: procent danych o wartościach zgodnych z rzeczywistością. - Kompletność: procent danych o niepustych wartościach (spośród tych, które w rzeczywistości mają niepuste wartości). - Spójność: stopień zgodności formatów danych, np. procent wpisów niezgodnych z założonym formatem. - Weryfikowalność: ilość danych, których jakość można sprawdzić (procent rekordów, kolumn itp.). 6

CZYNNIKI JAKOŚCI CZAS - Aktualność: procent danych o wartościach zgodnych czasowo z rzeczywistością. - Ulotność: procent danych o wartościach spełniających wymagania wiekowe (np. dane o zawartości magazynu mają co najwyżej dobę). - Świeżość: procent danych o wartościach wprowadzonych do hurtowni we właściwym czasie. CZYNNIKI JAKOŚCI - DZIAŁANIE - Dyspozycyjność transakcyjna: procent czasu, w jakim system jest w pełni wykorzystywalny (np. nie aktualizuje danych). - Dyspozycyjność systemowa: procent czasu, w jakim system jest włączony i przyjmuje polecenia. - Dostępność: procent danych (tablic, perspektyw, kolumn) możliwych do wykorzystania przez uprawnionych użytkowników. - Interaktywność: wygoda komunikacji z użytkownikiem. - Bezpieczeństwo: możliwość wprowadzenia autoryzacji, odporność na nieprzewidziane błędy. 7

CZYNNIKI JAKOŚCI - PROJEKT - Poprawność schematu: rozbieżności między światem rzeczywistym a modelem pojęciowym i logicznym. - Kompletność schematu: zakres, w jakim model pokrywa całe przedsiębiorstwo. - Minimalność: prostota opisu rzeczywistości. - Interpretowalność: przejrzystość modelu. - Weryfikowalność: istnienie metod wykrywania rozbieżności. - Jakość metadanych: kompletność, łatwość dostępu i rozbudowy bazy metadanych. CZYNNIKI JAKOŚCI - NARZĘDZIA - Szybkość: wydajność systemu podczas przetwarzania zapytań. - Funkcjonalność: zgodność z wymaganiami użytkowników końcowych. - Użyteczność: prostota obsługi i bogactwo funkcji. - Niezawodność: liczba występujących błędów i ich diagnostyka. - Łatwość konserwacji. - Przenośność. 8

CZYNNIKI JAKOŚCI - PUNKTY WIDZENIA Z punktu widzenia projektanta i administratora: - jakość schematów: poprawność, kompletność, minimalność, weryfikowalność, interpretowalność, spójność - jakość metadanych: łatwa ewolucja metadanych - jakość implementacji oprogramowania: funkcjonalność, niezawodność, wydajność, przenośność, łatwość konserwacji. Z punktu widzenia użytkownika: - dostępność (łatwy dostęp za pomocą zapytań) - dyspozycyjność systemowa i transakcyjna - użyteczność, bezpieczeństwo, odpowiedniość czasowa, aktualność, ulotność. PODEJŚCIE QFD QFD (quality function deployment) - przykład formalnego podejścia do jakości hurtowni. W specjalnej tabeli zwanej House of Quality uwzględniamy cele jakościowe, możliwe rozwiązania techniczne, wymagania i priorytety użytkowników, ocenę kosztu itd. Potem szukamy optimum. Rozwiązania Macierz związków pomiędzy rozwiązaniami (np. użycie jednego rozwiązania osłabia inne) Cele Konkurencyjność użytkowa Wymagania i priorytety (wagi) nadane przez użytkowników Konkur. techn., ograniczenia techniczne Macierz wpływu rozwiązań na założone cele jakościowe (np. wpływ pozytywny, negatywny, ewentualnie stopień wpływu) 9

PODEJŚCIE GQM GQM (goal-question-metric) - przykład formalnego podejścia do jakości hurtowni. 1. Identyfikacja celów jakości na poziomie przedsiębiorstwa (pojęciowym). 2. Wybór tych celów, które będą podlegały dalszej analizie i stworzenie pytań definiujących te cele. Rodzaje pytań: - Jaki jest aktualny, rzeczywisty poziom jakości wybranych obiektów? - Jaki jest kierunek zmian jakości (na skutek podjęcia działań optymalizacyjnych)? - Jaki jest praktyczny (widoczny) wymiar tych zmian? 3. Specyfikacja pomiarów pozwalających ilościowo odpowiedzieć na powyższe pytania. 4. Wdrożenie mechanizmów automatycznego zbierania tych danych. 10