OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

Podobne dokumenty
Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

ETL - wykład III. Zagadnienia do omówienia. Identyfikacja wymagań

Spis tre±ci. Przedmowa... Cz ± I

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Hurtownie danych. Metadane i czynniki jakości. BAZA METADANYCH. Centralna hurtownia danych. Metadane

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Modele danych - wykład V

Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) niestacjonarne (stacjonarne / niestacjonarne)

Procesy ETL - wykład V. Struktura. Wprowadzenie. 1. Wprowadzenie. 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków.

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

INTERNETOWE BAZY DANYCH materiały pomocnicze - wykład X

Hurtownie danych - opis przedmiotu

Spis treści. Przedmowa

Pierwsze wdrożenie SAP BW w firmie

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Informatyzacja przedsiębiorstw

OLAP i hurtownie danych c.d.

Bazy danych i ich aplikacje

Bazy danych. wprowadzenie teoretyczne. Piotr Prekurat 1

Proces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Oracle11g: Wprowadzenie do SQL

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Hurtownie danych - przegląd technologii

Problematyka hurtowni danych

SQL Server i T-SQL w mgnieniu oka : opanuj język zapytań w 10 minut dziennie / Ben Forta. Gliwice, Spis treści

Hurtownie danych. 31 stycznia 2017

Hurtownia danych praktyczne zastosowania

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

Plan. Formularz i jego typy. Tworzenie formularza. Co to jest formularz? Typy formularzy Tworzenie prostego formularza Budowa prostego formularza

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Bazy Danych. C. J. Date, Wprowadzenie do systemów baz danych, WNT - W-wa, (seria: Klasyka Informatyki), 2000

Mechanika i Budowa Maszyn II stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny)

Systemy baz danych i hurtowni danych

RELACYJNE BAZY DANYCH

COMARCH DATA WAREHOUSE MANAGER 6.2

Logika Temporalna i Automaty Czasowe

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Integracja systemów transakcyjnych

Procesy ETL. 10maja2009. Paweł Szołtysek

Hurtownie danych a transakcyjne bazy danych

Laboratorium nr 4. Temat: SQL część II. Polecenia DML

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi

Bazy danych. Plan wykładu. Rozproszona baza danych. Fragmetaryzacja. Cechy bazy rozproszonej. Replikacje (zalety) Wykład 15: Rozproszone bazy danych

Projektowanie oprogramowania

Wyzwalacze. do automatycznego generowania wartości kluczy głównych. Składnia instrukcji tworzacej wyzwalacz

Zaawansowane systemy baz danych - ZSBD. Hurtownie danych 1. Problematyka hurtowni danych. Wykład przygotował: Robert Wrembel. ZSBD wykład 12 (1)

Usługa archiwizacji danych w systemie Eureca. Marek Jelenik CONTROLLING SYSTEMS sp. z o.o.

Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012

Ewolucja technik modelowania hurtowni danych

Pojęcie bazy danych. Funkcje i możliwości.

Część I Tworzenie baz danych SQL Server na potrzeby przechowywania danych

Hurtownie danych w praktyce

SZKOLENIE: Administrator baz danych. Cel szkolenia

PROJEKT Z BAZ DANYCH

Architektury i technologie integracji danych

Hurtownie danych - przegląd technologii

Proces ekstrakcji, transformacji i ładowania danych (Proces ETL)

Bazy danych 2. Wykład 1

SQL w 24 godziny / Ryan Stephens, Arie D. Jones, Ron Plew. Warszawa, cop Spis treści

Proces ekstrakcji, transformacji i ładowania danych (Proces ETL)

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki

Opis Architektury Systemu Galileo

Logika Temporalna i Automaty Czasowe

Część 1: OLAP. Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych

Warstwa integracji. wg. D.Alur, J.Crupi, D. Malks, Core J2EE. Wzorce projektowe.

Realizacja hurtowni danych dla administracji publicznej na przyk³adzie budowy systemu IACS

Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik

Procesy integracji modeli danych do jednolitej struktury WBD. Tadeusz Chrobak, Krystian Kozioł, Artur Krawczyk, Michał Lupa

K1A_W11, K1A_W18. Egzamin. wykonanie ćwiczenia lab., sprawdzian po zakończeniu ćwiczeń, egzamin, K1A_W11, K1A_W18 KARTA PRZEDMIOTU

SIECI KOMPUTEROWE I BAZY DANYCH

Podstawy języka T-SQL : Microsoft SQL Server 2016 i Azure SQL Database / Itzik Ben-Gan. Warszawa, Spis treści

1 TEMAT LEKCJI: 2 CELE LEKCJI: 3 METODY NAUCZANIA 4 ŚRODKI DYDAKTYCZNE. Scenariusz lekcji. 2.1 Wiadomości: 2.2 Umiejętności: Scenariusz lekcji

Karta (sylabus) modułu/przedmiotu Mechanika i Budowa Maszyn Studia I stopnia

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2013/2014

Wprowadzenie do Hurtowni Danych

Praktyczne aspekty stosowania metody punktów funkcyjnych COSMIC. Jarosław Świerczek

Wprowadzenie do Hurtowni Danych

ZMIANY ZWIĄZANE Z LIKWIDACJĄ KODU BLOZ12 ORAZ WDROŻENIEM NOWEGO FORMATU OSOZ-EDI OBOWIĄZUJĄCEGO OD 12 GRUDNIA 2012

Technologia informacyjna

DOTYCZY KLIENTA PKO BIURO OBSŁUGI LEASING ZAPYTANIE O INFORMACJĘ OTYCZY: DOSTAWY PLATFORMY ELEKTRONICZNE DLA PKO

Transkrypt:

OdświeŜanie hurtownie danych - wykład IV Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006/2007 Zagadnienia do omówienia 1. Wprowadzenie 2. Klasyfikacja źródeł danych 3. Wymagania - odświeŝanie 4. Czyszczenie danych przykłady 5. Decyzje projektowe 6. Podsumowanie Wprowadzenie ODŚWIEśANIE HURTOWNIA DANYCH ODŚWIEśANIE proces wykrycia i uwzględnienia w HD zmian, które zaszły w źródłach danych (w przypadku wielowarstwowej architektury HD - propagacja zmian do kolejnych warstw) ŁADOWANIE proces przetworzenia zazwyczaj bardzo duŝej ilości danych w celu utworzenia hurtowni, 1

Wprowadzenie ODŚWIEśANIE HURTOWNIA DANYCH ODŚWIEśANIE z uwzględnieniem zmian w danych pobranych wcześniej, np. poprawki w zamówieniach, uzupełnienia wyników badań pacjentów ODŚWIEśANIE (ZASILANIE) nowymi danymi, np. Faktury VAT są poprawiane poprzez dokumenty korygujące (ale w praktyce zaraz po wystawieniu moŝe być zmieniona; zgodność z prawem?! ), osiągnięcia sportowców (np. wyniki zawodów) Wprowadzenie WŁAŚCIWE ZAPROJEKTOWANIE ODŚWIEśANIA >> JEDEN Z KLUCZOWYCH CZYNNIKÓW SUKCEU << Wprowadzenie Warstwy schemat HD (patrz: materiały ksero). Pojęcia: ODS (Operational Data Store) operacyjna baza danych CDW (Corporate Data Warehouse) centralna HD, DM (Data Marts) hurtownie tematyczne UWAGA: Najmniej jedna warstwa, wówczas odpowiednie mechanizmy w procesie ETL 2

Wprowadzenie Perspektywa zmaterializowana (materialized view) - relacja uzyskana najczęściej przez zapytanie na zbiorze relacji źródłowych Niektóre problemy: spójności ze źródłem, doboru metody odświeŝania (np. natychmiastowa po zmianach źródła, z opóźnieniem, samoczynna lub nie), w trakcie działania HD (dynamiczna) lub w wydzielonym czasie (np. noc, jeśli nie korzystamy), inne (np. optymalizacja, ocena jakości) Klasyfikacja źródeł danych Klasyfikacja źródeł danych wg. [1] Źródła niewspółpracujące Źródła współpracujące Z dziennikiem Specjalne Z mechanizmem migawek odpytywane Aktywne z aktywnością wewnętrzną Powielane Aktywne - informujące Klasyfikacja źródeł danych Współpracujące (cooperative) mechanizmy powiadamiające o zmianach (np. wyzwalacze) źródła informujące (callback source) np. powiadamianie przez wyzwalacz (w relacyjnej bazie po operacjach insert, update, delete); Oracle7 mechanizm komunikacji bazy z monitorem zmian poprzez tzw. potoki (Oracle Pipes) źródła z aktywnością wewnętrzną (internal action source) np. dodatkowo notacja czasu wprowadzonych zmian (wymaga rozszerzenia danych źródłowych) 3

Klasyfikacja źródeł danych Niewspółpracujące (non-cooperative) sami musimy sprawdzać czy i gdzie zaszły zmiany migawki (snapshot sources) przeglądanie źródła (np. pliku) co pewien czas i porównywanie ze stanem poprzednim (musi być pamiętany), specjalne - bardzo zróŝnicowane źródła danych wymagające róŝnych metod (zastana sytuacja w przedsiębiorstwie), z dziennikiem (logged source) np. systemy poczty elektronicznej, problemy z aktualnością, dostępem i analizą dzienników Klasyfikacja źródeł danych Niewspółpracujące (non-cooperative) sami musimy sprawdzać czy i gdzie zaszły zmiany odpytywane (queryable source) z interfejsem umoŝliwiającym odpytywanie (np. relacyjne bazy danych). PYTANIE: 1) Jaka metoda została/zostanie zastosowana na laboratorium? 2) Czy jest u nas coś takiego jak monitor zmian? Wymagania - odświeŝanie Wymagania: świeŝość danych w HD (stopień aktualności wymagany przez uŝytkownika), dyspozycyjność źródeł (np. zdefiniowanie tzw. okna czasowego), dostępność danych czas przygotowania dla uŝytkownika (np. wymagania na poziomie sekund lub godzin), opóźnienia zapisu danych źródłowych (np. opóźnienia modyfikacji dzienników przez system operacyjny), 4

Wymagania - odświeŝanie Wymagania: uwzględnianie modyfikacji awaryjnych (np. zmiany wprowadzone przez administratora bazy danych takie, jak usunięcie błędnego dokumentu), uwzględnienia modyfikacji schematów (metadanych) danych źródłowych, np. zmiana województw (podziału administracyjnego kraju) często wpływała na zmianę schematu relacyjnej bazy danych, propagacja zmian (patrz: materiały ksero) Wymagania - odświeŝanie WYMAGANIA - JAKO ODPOWIEDŹ NA ZIDENTYFIKOWANE (PRAWIDŁOWO) POTRZEBY >> JEDEN Z KLUCZOWYCH CZYNNIKÓW SUKCEU << Wymagania - odświeŝanie PYTANIE: 1) Jakie przyjmiemy wymagania dla naszej (laboratoryjnej HD)? 2) Jakie problemy napotkamy z tym związane? 3) Czy wymagania są odpowiedzią na potrzeby? 5

Czyszczenie - przykłady Inne Techniki czyszczenia danych: Konwersja i normalizacja (conversion and normalization) - funkcje przekształcające róŝne formaty danych do określonych standardów Funkcje czyszczące specjalnego zastosowanie (special-purpose clearing) - wykorzystanie słowników (np. synonimów) Czyszczenie oparte na regułach (rule-based clearing) - wykorzystanie róŝnych reguł świata rzeczywistego, np. biznesowych, do ustalenia warunków dopasowania wartości z róŝnych źródeł Czyszczenie niezalezne od dziedziny (domain-independent clearing) - zastosowanie algorytmów dopasowania pól do przyporządkowania pól z róŝnych źródeł Czyszczenie - przykłady scalanie rekordów, przykład w [1], reguły matematyczne, A = B * C gdzie: A wartość netto, B ilość, C cena jednostkowa np. szacujemy (analiza próbki danych) Dokładność: 0,99 V = A * D gdzie: A parametr, V %VAT, D wartość brutto np. szacujemy (analiza próbki danych) Dokładność: 0,68 Dlaczego? reguły logiczne, np.. jeŝeli, to IF klient_miasto IS Wrocław AND klient_status IS SUPER AND Towar_KAT = artykuły budowlane THEN Klient = Dozersi Decyzje projektowe dla odświeŝania metody oraz zakres uwzględniania zmian historycznych (poziomy zgodności, kompletności, dokładności, świeŝości danych), poziom przybliŝenia danych (jeśli róŝne poziomy w źródłach), zakres czasu uwzględniany w historii (kompromis pomiędzy istotnością, a obciąŝaniem HD dodatkowymi procesami), strategia integracji danych (wybór chwili integracji danych, wybór technik np. scalania, itp.) 6

Decyzje projektowe dla odświeŝania strategia propagacji aktualizacji Analiza tabel w [1], str. 102 i 104. Bibliografia BIBLIOGRAFIA: [1] M. Jarke,, M. Lenzerini,, Y. Vassiliou,, P. Vassiliadis Hurtownie danych. Podstawy organizacji i funkcjonowania. WSiP,, Warszawa 2003, str. 66 [2] http://www.microsoft.com www.microsoft.com/casestudies casestudies/casestudy.aspx?casestudyid=48299 Inne źródła do przejrzenia: [3] http://212.191.65.35/info/wyklady/dss/dss01.pdf - informacje o hurtowniach danych, systemy wspomagania decyzji [4] http://www.ploug.org.pl www.ploug.org.pl/konf_03/ /konf_03/materialy/pdf/27_pentacomp_iacs.pdf - hurtownie danych omówione na przykładzie hurtowni dla administracji acji publicznej [5] http://www.microsoft.com www.microsoft.com/poland/sql sql/wdrozenia/default.mspx default.mspx 7