OdświeŜanie hurtownie danych - wykład IV Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006/2007 Zagadnienia do omówienia 1. Wprowadzenie 2. Klasyfikacja źródeł danych 3. Wymagania - odświeŝanie 4. Czyszczenie danych przykłady 5. Decyzje projektowe 6. Podsumowanie Wprowadzenie ODŚWIEśANIE HURTOWNIA DANYCH ODŚWIEśANIE proces wykrycia i uwzględnienia w HD zmian, które zaszły w źródłach danych (w przypadku wielowarstwowej architektury HD - propagacja zmian do kolejnych warstw) ŁADOWANIE proces przetworzenia zazwyczaj bardzo duŝej ilości danych w celu utworzenia hurtowni, 1
Wprowadzenie ODŚWIEśANIE HURTOWNIA DANYCH ODŚWIEśANIE z uwzględnieniem zmian w danych pobranych wcześniej, np. poprawki w zamówieniach, uzupełnienia wyników badań pacjentów ODŚWIEśANIE (ZASILANIE) nowymi danymi, np. Faktury VAT są poprawiane poprzez dokumenty korygujące (ale w praktyce zaraz po wystawieniu moŝe być zmieniona; zgodność z prawem?! ), osiągnięcia sportowców (np. wyniki zawodów) Wprowadzenie WŁAŚCIWE ZAPROJEKTOWANIE ODŚWIEśANIA >> JEDEN Z KLUCZOWYCH CZYNNIKÓW SUKCEU << Wprowadzenie Warstwy schemat HD (patrz: materiały ksero). Pojęcia: ODS (Operational Data Store) operacyjna baza danych CDW (Corporate Data Warehouse) centralna HD, DM (Data Marts) hurtownie tematyczne UWAGA: Najmniej jedna warstwa, wówczas odpowiednie mechanizmy w procesie ETL 2
Wprowadzenie Perspektywa zmaterializowana (materialized view) - relacja uzyskana najczęściej przez zapytanie na zbiorze relacji źródłowych Niektóre problemy: spójności ze źródłem, doboru metody odświeŝania (np. natychmiastowa po zmianach źródła, z opóźnieniem, samoczynna lub nie), w trakcie działania HD (dynamiczna) lub w wydzielonym czasie (np. noc, jeśli nie korzystamy), inne (np. optymalizacja, ocena jakości) Klasyfikacja źródeł danych Klasyfikacja źródeł danych wg. [1] Źródła niewspółpracujące Źródła współpracujące Z dziennikiem Specjalne Z mechanizmem migawek odpytywane Aktywne z aktywnością wewnętrzną Powielane Aktywne - informujące Klasyfikacja źródeł danych Współpracujące (cooperative) mechanizmy powiadamiające o zmianach (np. wyzwalacze) źródła informujące (callback source) np. powiadamianie przez wyzwalacz (w relacyjnej bazie po operacjach insert, update, delete); Oracle7 mechanizm komunikacji bazy z monitorem zmian poprzez tzw. potoki (Oracle Pipes) źródła z aktywnością wewnętrzną (internal action source) np. dodatkowo notacja czasu wprowadzonych zmian (wymaga rozszerzenia danych źródłowych) 3
Klasyfikacja źródeł danych Niewspółpracujące (non-cooperative) sami musimy sprawdzać czy i gdzie zaszły zmiany migawki (snapshot sources) przeglądanie źródła (np. pliku) co pewien czas i porównywanie ze stanem poprzednim (musi być pamiętany), specjalne - bardzo zróŝnicowane źródła danych wymagające róŝnych metod (zastana sytuacja w przedsiębiorstwie), z dziennikiem (logged source) np. systemy poczty elektronicznej, problemy z aktualnością, dostępem i analizą dzienników Klasyfikacja źródeł danych Niewspółpracujące (non-cooperative) sami musimy sprawdzać czy i gdzie zaszły zmiany odpytywane (queryable source) z interfejsem umoŝliwiającym odpytywanie (np. relacyjne bazy danych). PYTANIE: 1) Jaka metoda została/zostanie zastosowana na laboratorium? 2) Czy jest u nas coś takiego jak monitor zmian? Wymagania - odświeŝanie Wymagania: świeŝość danych w HD (stopień aktualności wymagany przez uŝytkownika), dyspozycyjność źródeł (np. zdefiniowanie tzw. okna czasowego), dostępność danych czas przygotowania dla uŝytkownika (np. wymagania na poziomie sekund lub godzin), opóźnienia zapisu danych źródłowych (np. opóźnienia modyfikacji dzienników przez system operacyjny), 4
Wymagania - odświeŝanie Wymagania: uwzględnianie modyfikacji awaryjnych (np. zmiany wprowadzone przez administratora bazy danych takie, jak usunięcie błędnego dokumentu), uwzględnienia modyfikacji schematów (metadanych) danych źródłowych, np. zmiana województw (podziału administracyjnego kraju) często wpływała na zmianę schematu relacyjnej bazy danych, propagacja zmian (patrz: materiały ksero) Wymagania - odświeŝanie WYMAGANIA - JAKO ODPOWIEDŹ NA ZIDENTYFIKOWANE (PRAWIDŁOWO) POTRZEBY >> JEDEN Z KLUCZOWYCH CZYNNIKÓW SUKCEU << Wymagania - odświeŝanie PYTANIE: 1) Jakie przyjmiemy wymagania dla naszej (laboratoryjnej HD)? 2) Jakie problemy napotkamy z tym związane? 3) Czy wymagania są odpowiedzią na potrzeby? 5
Czyszczenie - przykłady Inne Techniki czyszczenia danych: Konwersja i normalizacja (conversion and normalization) - funkcje przekształcające róŝne formaty danych do określonych standardów Funkcje czyszczące specjalnego zastosowanie (special-purpose clearing) - wykorzystanie słowników (np. synonimów) Czyszczenie oparte na regułach (rule-based clearing) - wykorzystanie róŝnych reguł świata rzeczywistego, np. biznesowych, do ustalenia warunków dopasowania wartości z róŝnych źródeł Czyszczenie niezalezne od dziedziny (domain-independent clearing) - zastosowanie algorytmów dopasowania pól do przyporządkowania pól z róŝnych źródeł Czyszczenie - przykłady scalanie rekordów, przykład w [1], reguły matematyczne, A = B * C gdzie: A wartość netto, B ilość, C cena jednostkowa np. szacujemy (analiza próbki danych) Dokładność: 0,99 V = A * D gdzie: A parametr, V %VAT, D wartość brutto np. szacujemy (analiza próbki danych) Dokładność: 0,68 Dlaczego? reguły logiczne, np.. jeŝeli, to IF klient_miasto IS Wrocław AND klient_status IS SUPER AND Towar_KAT = artykuły budowlane THEN Klient = Dozersi Decyzje projektowe dla odświeŝania metody oraz zakres uwzględniania zmian historycznych (poziomy zgodności, kompletności, dokładności, świeŝości danych), poziom przybliŝenia danych (jeśli róŝne poziomy w źródłach), zakres czasu uwzględniany w historii (kompromis pomiędzy istotnością, a obciąŝaniem HD dodatkowymi procesami), strategia integracji danych (wybór chwili integracji danych, wybór technik np. scalania, itp.) 6
Decyzje projektowe dla odświeŝania strategia propagacji aktualizacji Analiza tabel w [1], str. 102 i 104. Bibliografia BIBLIOGRAFIA: [1] M. Jarke,, M. Lenzerini,, Y. Vassiliou,, P. Vassiliadis Hurtownie danych. Podstawy organizacji i funkcjonowania. WSiP,, Warszawa 2003, str. 66 [2] http://www.microsoft.com www.microsoft.com/casestudies casestudies/casestudy.aspx?casestudyid=48299 Inne źródła do przejrzenia: [3] http://212.191.65.35/info/wyklady/dss/dss01.pdf - informacje o hurtowniach danych, systemy wspomagania decyzji [4] http://www.ploug.org.pl www.ploug.org.pl/konf_03/ /konf_03/materialy/pdf/27_pentacomp_iacs.pdf - hurtownie danych omówione na przykładzie hurtowni dla administracji acji publicznej [5] http://www.microsoft.com www.microsoft.com/poland/sql sql/wdrozenia/default.mspx default.mspx 7