ETL - wykład III Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006-2008 Zagadnienia do omówienia 1. na dane 2. Specyfikacja wymagań / systemu 3. Integracja informacji 4. Dyskusja wybrane zagadnienia 5. Podsumowanie PROBLEM: Budowa systemu często o niezbyt dokładnie określonych wymaganiach. 1
WYMAGANIA (dla twórcy/twórców HD): - zrozumienie zasad funkcjonowania firmy, metod pracy, potrzeb w zakresie informacji przydatnych przy podejmowaniu decyzji, - umiejętność zrozumienia wymagań końcowych, odbiorców informacji oraz najlepszej formy jej prezentacji, - umiejętności pozyskiwania informacji od personelu, z dokumentacji itp. - umiejętności w zakresie modelowania danych, - zdolność kierowania oczekiwaniami uŝytkowników. Przykłady pytań - zrozumienie zasad funkcjonowania firmy: Jakie analizy są obecnie przeprowadzane? Czemu słuŝą? Jaka jest hierarchia/hierarchie danych (np. mogą być generowane zestawiania dla działów, a potem zbiorcze dla placówek)? Jakie są uwarunkowania czasowe (np. mogą być raporty miesięczne, okresowe, wynik finansowy roczny lub miesięczny, czy teŝ kwartalny itp.)? Jaka jest struktura organizacyjna? Jakie obowiązują procedury decyzyjne (np. w bankach jasno określona procedura zatwierdzania kredytu) i jakie informacje są w nich wykorzystywane? Przykładowe źródła informacji Analitycy i uŝytkownicy zasadniczych (dla HD) działów Kierownicy zasadniczych działów Zarząd/dyrekcja przedsiębiorstwa Eksperci zewnętrzni z branŝy przedsiębiorstwa Analitycy i uŝytkownicy pozostałych (dla HD) działów Kierownicy pozostałych działów Klienci Osoby doświadczone/eksperci w dziedzinie tworzenia Hurtowni Danych 2
Przykłady wytycznych prowadzenie rozmów: 1. Analitycy/uŜytkownicy końcowi: Cel: zapoznanie z pracą, wykorzystywanymi danymi (raporty, pytania, zadania), generowaną dokumentacją i jej adresatami, Ilość: grupy kilkuosobowe Czas: nawet do kilku godzin (początkowo) Dokumentacja: notatki odręczne, nagrywanie (!za zgodą osób) UWAGA: problemy związane ze stosunkami międzyludzkimi (relacje interpersonalne) problem z doborem grup, przydatna znajomość psychologii, nagrywania pozwala na wnikliwszą analizę, ale moŝe krępować rozmówcę (konieczna zgoda!) Przykłady wytycznych prowadzenie rozmów: 1. Kierownicy przedsiębiorstwa: Cel: - zapoznanie ze strategią i celami przedsiębiorstwa, - i/lub połączenie (weryfikacja) informacji zebranej od pracowników oraz naszego wyobraŝenia o firmie, - i/lub oddziaływanie psychologiczne (sygnał dla pracowników o waŝności prac nad HD) - i/lub wskazanie osób, które posiadają duŝą wiedzę i mogą być przydatne, Ilość: jedna osoba Czas: krótki (np. ¼, ½ godziny), Dokumentacja: notatki odręczne, nagrywanie (!za zgodą osób) Przykłady konkretnych pytań moŝna znaleźć w: V.Poe, P.Klauer, S.Brobst Tworzenie hurtowni danych, WNT, Warszawa 2000, str. 151-160 3
Specyfikacja wymagań / systemu TYPOWO zidentyfikowane i szczegółowo opisane wymagania, zidentyfikowane i wstępnie określone interfejsy, ściśle określone problemy DLA HD brak ściśle określonych wymagań (raczej sądzimy, Ŝe często brak wiedzy o interfejsach konieczność identyfikacji problemów Specyfikacja wymagań / systemu TYPOWO etapowość pracy (zazwyczaj specyfikacja zakończona dokumentem) wymogi prawne związane z działalnością (np. ustawa o działalności gosp.) DLA HD konieczność modyfikacji wymagań /systemu do zmian w organizacji i jej otoczeniu konieczność uzasadnienia biznesowego lub utylitarnego Specyfikacja wymagań / systemu TYPOWO sprawdzone i opisane metody zarządzania DLA HD trudne zarządzanie niepewność celów, nieprecyzyjność kryteriów, obawa nieudanego przedsięwzięcia, - wysokie koszty. 4
Integracja moŝe obejmować: 1. Integrację schematów Dane: schematy źródeł Wynik: pojedynczy schemat (docelowy) oraz specyfikacja odwzorowania 2. Integrację danych zmaterializowanych Dane: zbiory danych źródłowych Wynik: zbiór danych < reprezentacja zbiorów źródeł 3. Integracja danych wirtualnych Dane: zbiory danych źródłowych Wynik: specyfikacja dostępu do danych ( fizycznie dane pozostają w źródłach) Przykład etapów integracji: IDENTYFIKACJA ŹRÓDEŁ ORAZ WYSELEKCJONOWANIE PÓL KONWERSJA DANYCH PRZENOSZENIE DANYCH IDENTYFIKACJA ŹRÓDEŁ ORAZ WYSELEKCJONOWANIE PÓL - zrozumienie potrzeb i oczekiwań uŝytkowników, - zidentyfikowanie źródeł danych i określenie, czy są wystarczające (UWAGA: źródła danych, to nie tylko istniejące bazy, to takŝe np. procedury w firmie, dane zewnętrzne jak np. dane o pogodzie, kursy walut, indeksy giełdowe), - przegląd dostępnych źródeł, klasyfikacja oraz określenie zakresu początkowej HD, - zaprojektowanie dostępu do danych (np. w oparciu o przegląd interfejsów, raportów z analiz) 5
Proces polegający na identyfikacji wspólnych danych, zaleŝności pomiędzy nimi, reguł dostępu do nich w celu zbudowania nowego modelu dla potrzeb HD. Konsolidacja obejmuje m. in.: - analizę dokumentacji źródeł (jeśli jest i najlepiej przy wsparciu administratorów/architektów istniejących źródeł), - dodatkowo: opracowanie słownika terminologii, - określenie zasad postępowanie w sytuacjach konfliktowych: konflikty róŝnorodności zróŝnicowane modele danych (poziom konceptualny), Konsolidacja obejmuje m. in.: - określenie zasad postępowanie w sytuacjach konfliktowych, cd.: konflikty nazewnictwa zróŝnicowana terminologia: Homonimy te same nazwy, ale róŝne pojęcia (np. TYP dla auta w jednej bazie moŝe oznaczać model: CIVIC, FIESTA, ASTRA, a w innej rodzaj: terenowy, osobowy), Synonimy róŝne nazwy, ale to samo pojęcie (np. ID_pracownika i Numer_pracownika), Analogie atrybuty opisujące to samo, ale w róŝnym zakresie (np. formy płatności: gotówka, przelew, czek oraz PLN, Euro, VISA Electron, Master Card ) 6
Konsolidacja obejmuje m. in.: - określenie zasad postępowanie w sytuacjach konfliktowych, cd.: konflikty semantyczne modelowanie podobnej rzeczywistości na róŝnym poziomie abstrakcji, konflikty strukturalne reprezentowanie tych samych pojęć przez róŝne konstrukcje (np. kraj, region, kod_produktu jako xxyyaaa PLDS112, gdzie PL Polska, DS dolnośląskie) Konsolidacja obejmuje m. in.: - analiza dziedzin atrybutów (typ, rozmiar, zakres wartości, opcjonalność, zgodność ze specyfikacją), - wybór kluczy głównych (ewentualna eliminacja kluczy sztucznych oraz rozpoznanie kluczy obcych jeśli konieczne), prz. ID_klienta ulica_zameld kod_zameld miasto_zameld poczta_zameld ulca_korespond ulica_zamieszk Przykład transformacji ID_klienta Typ_adresu ulica kod miasto poczta KONWERSJA DANYCH Zadania stojące przed twórcą/twórcami HD, to m. in.: - opracowanie wytycznych (specyfikacji) przekształcenia danych (atrybutów) źródłowych do postaci w HD, - określenie zasad postępowania dla atrybutów odbiegających od normy (np. dopuszczalny: Wrocław, jest: Wroclaw, Wrocllaw, Wrocła DS. T-19), - ustalenie wartości domyślnych, - dodatkowo: np. zastosowanie data maining (do wykrywania tych samych obiektów w bazach ubezpieczeniowych, energetycznych jedna osoba moŝe nawet w jednej bazie występować jako dwa obiekty itp.), - opracowanie reguł postępowanie w sytuacjach wyjątkowych. 7
PRZENOSZENIE DANYCH - opracowanie programów (szablonów, pakietów zaleŝnie od narzędzia), - testowanie (uzyskanie informacji o niepasujących danych oraz skuteczności opracowanych i zaimplementowanych metod), - testowanie pod kątem wydajności, - walidacja. DYSKUSJA 1. Czy są róŝnice pomiędzy systemem raportowym, a hurtownią danych? SYSTEM RAPORTOWY określona struktura systemu i raportów, dotyczy zazwyczaj określonej części ( wycinka ) przedsiębiorstwa określone źródła informacji (zazwyczej na bazie jednego systemu), opracowania metodami statystycznymi HD moŝliwość generowania raportów ad-hoc, szeroki zbiór danych moŝliwość opracowania nowych raportów. zazwyczaj wsparcie w zakresie analizy danych (np. algorytmy genetyczne, sieci neuronowe, metody statystyczne) DYSKUSJA 2. Problem związany z kosztem budowy HD oraz obecnych cen oprogramowania. (materiały pomocnicze: http://www.bakk.com oraz http://www.microsoft.com/sqlserver/2008/en/us/pricing.aspx) 3. Problem budowy i wdroŝenia HD (materiałów konferencyjnych dotyczących: budowy HD w BZ WBK, wdroŝenie systemu informatycznego w placówce medycznej ). 8
Podsumowanie Tworzenie HD materiały ksero. 9