Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2008 Zagadnienia do omówienia 1. 2. Przegląd architektury HD 3. Warsztaty BD sprzedaŝy Serwer WWW 1
Umiejscowienie hurtowni danych ujednolicone, przetworzone struktury danych struktury operacyjne (analiza danych) struktury dla potrzeb prezentacji danych Przykłady problemów: dobór odpowiedniej architektury HD (np. model relacyjny, wielowymiarowy, struktura scentralizowana, czy teŝ federacyjna) oraz odpowiedni model danych (np. ROLAP, MOLAP), opracowanie sposobu zasilania HD danymi ze źródeł zewnętrznych (m. in. ujednolicenie, czyszczenie danych, postępowanie z brakującymi danymi, ale takŝe np. optymalizacja czasowa, problem aktualności danych, problem z dostępem do danych) Przykłady problemów cd.: spełnienie wymogów związanych z wymaganiami dla zapytań analitycznych - czas odpowiedzi (np. wymogi na poziomie sekund lub godzin), - aktualność danych (np. problemy przy łączeniu danych z baz umiejscowionych w róŝnych krajach lub wynikające z opóźnionego wpisu danych przez system operacyjny do plików dyskowych) 2
optymalizacja zapytań analitycznych - zastosowanie agregacji (problem z aktualnością danych, czasem obliczania perspektyw, czasem obliczeń zapytania), - wykorzystanie perspektyw, - inne techniki (o czym później ). dobór narzędzi (m. in. platforma sprzętowa, wparcie ze strony SQL dla HD, moŝliwość partycjonowania danych, przetwarzanie rozproszone np. optymalizacja przetwarzania z wykorzystaniem systemów agentowych) dostosowanie całej architektury do struktury firmy oraz moŝliwości ewolucji HD przy zmianach zachodzących w przyszłości w firmie (trudne do określenia) łatwość rozszerzania i przebudowy, wsparcie ze strony narzędzia oraz zaprojektowanie zrozumiałej i czytelnej prezentacji wyników dla personelu nietechnicznego, specyfikacja wymagań uŝytkowników dla potrzeb budowy procesów analitycznych (budowa HD, to często budowa systemu z niezdefiniowanymi wymaganiami w świecie rzeczywistym naleŝy je dopiero określić wspólnie z personelem firmy), inne aspekty, to np.: sposób zarządzania projektem, koszty projektu, ocena jakości, problemy związane z reorganizacją źródeł danych, dobór technologii; nie zawsze sprawdzona technologia implementacyjna w jednym rozwiązaniu daje równie dobre wyniki w innym, zrozumienie biznesu, zabezpieczenie danych zarówno przed utratą, jak i dostępem nieupowaŝnionych osób. 3
źródła danych: ORACLE, Informix, database, Teradata, MS SQL Server, arkusze kalkulacyjne, róŝne pliki, transformacja danych: porównywanie danych z róŝnych systemów w celu zapewnienia jakości (m. in. uzupełnianie brakujących pola mogą być puste, wyszukiwanie i rozpoznawanie tych samych danych jedna osoba moŝe występować w róŝnych źródłach, nawet z róŝnymi atrybutami), transformacja danych cd.: standaryzacja danych (jedne źródła mogą zapisywać WROCŁAW, inne Wroclaw lub Wrocław), integracja danych (jedne źródła pamiętają sprzedaŝ, inne dane sprzedawcy jako np. parametry konfiguracji muszą one być połączone), i inne. hurtownia danych: odpowiednia organizacja, wspomaganie zapytań analitycznych, itp. 4
raportowanie: narzędzia z obszaru business intelligence, narzędzia dla OLAP/MOLAP tworzenie struktur wielowymiarowych oraz dostarczanie mechanizmów ich prezentacji w czytelnej, graficznej formie, data mining wykrywanie trendów, wzorców itp. z wykorzystaniem róŝnych metod, np. statystyki, sieci neuronowych ip. inne. metadane: dane o danych, mogą być wykorzystane np. do modyfikacji HD, w procesach integracji, ładowania i czyszczenia danych (patrz - ksero), operacje: odpowiadają m. in. za procesy ekstrakcji, manipulacji i ładowania danych do HD (narzędzia ETL) Architektura scentralizowana łatwa skalowalność, brak konieczności przesyłania danych (oprócz ładowania), wspólne metadane. 5
Architektura federacyjna optymalizacja, trudniejsze odświeŝanie danych, trudniejsze modyfikacje procesów analitycznych Architektura warstwowa prz.: etapowe gromadzenie danych integracja istniejących struktur, trudniejsza realizacja zapytań analitycznych moŝliwość autonomii oddziałów Architektura warstwowa, rozproszona optymalizacja przetwarzania, konieczność przesyłania danych trudniejsza aktualizacja danych, trudniejsza modyfikacja procesów 6
Architektura inne pomysły koncepcja Data Hubs (PowerCenter 6 INFORMATICA ),?, przetwarzanie zapytań analitycznych w systemie wieloagentowym (wykorzystanie mocy obliczeniowej róŝnego sprzętu, równowaŝenie obciąŝenia), wykorzystanie metadanych do zapamiętywania zmian w strukturze relacji (zmiana modelu relacyjnego) i inteligentna obsługa zapytań analitycznych. typowo gromadzenie informacji z róŝnych źródeł, organizacja danych dla potrzeb analitycznych HURTOWNIA DANYCH gromadzenie i odpowiednia organizacja (jak obok), Przykład architektury ksero. gromadzenie informacji o procesach w firmie (np. jak wygląda proces przyznania kredytu od złoŝenia wniosku do wypłaty środków w zaleŝności od tego, jacy pracownicy realizują poszczególne etapy) często wymaga to opracowania metod pozyskiwania takich informacji, umoŝliwia np. wspomaganie decyzji personalnych Przykład: propozycja Microsoft u Warstwa prezentacji IE, Office lub Business Scorecard Manager, ProClarity Analytics 6 (Performance Point) lub innych firm 7
Przykład: materiały ksero: MicroStrategy materiał CD: Business Object XI Connect koszt poszczególnych elemntów budowy HD - materiały pomocnicze DZIĘKUJĘ ZA UWAGĘ śyczę miłego dnia 8