Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2012 Zagadnienia do omówienia 1. Miejsce i rola w firmie 2. Przegląd architektury 3. Warsztaty Miejsce i rola w firmie HURTOWNIA DANYCH JAKO SYSTEM WSPOMAGANIA DECYZJI pliki systemowe (np. informacje o logowaniu pracowników, logi systemowe) Narzędzia analityczne i prezentacji danych Narzędzia analityczne, interaktywna konstrukcja analiz Zarząd Analitycy Serwer WWW SYSTEM WSPOMAGANIA DECYZJI 1
Miejsce i rola w firmie Umiejscowienie hurtowni danych ujednolicone, przetworzone struktury danych struktury operacyjne (analiza danych) struktury dla potrzeb prezentacji danych Miejsce i rola w firmie Przykłady problemów: dobór odpowiedniej architektury (np. model relacyjny, wielowymiarowy, struktura scentralizowana, czy też federacyjna) oraz odpowiedni model danych (np. ROLAP, MOLAP), opracowanie sposobu zasilania danymi ze źródeł zewnętrznych (m. in. ujednolicenie, czyszczenie danych, postępowanie z brakującymi danymi, ale także np. optymalizacja czasowa, problem aktualności danych, problem z dostępem do danych) Miejsce i rola w firmie Przykłady problemów cd.: spełnienie wymogów związanych z wymaganiami dla zapytań analitycznych - czas odpowiedzi (np. wymogi na poziomie sekund lub godzin), - aktualność danych (np. problemy przy łączeniu danych z baz umiejscowionych w różnych krajach lub wynikające z opóźnionego wpisu danych przez system operacyjny do plików dyskowych) 2
Miejsce i rola w firmie optymalizacja zapytań analitycznych - zastosowanie agregacji (problem z aktualnością danych, czasem obliczania perspektyw, czasem obliczeń zapytania), - wykorzystanie perspektyw, - inne techniki (o czym później ). dobór narzędzi (m. in. platforma sprzętowa, wparcie ze strony SQL dla, możliwość partycjonowania danych, przetwarzanie rozproszone np. optymalizacja przetwarzania z wykorzystaniem systemów agentowych) Miejsce i rola w firmie dostosowanie całej architektury do struktury firmy oraz możliwości ewolucji przy zmianach zachodzących w przyszłości w firmie (trudne do określenia) łatwość rozszerzania i przebudowy, wsparcie ze strony narzędzia oraz zaprojektowanie zrozumiałej i czytelnej prezentacji wyników dla personelu nietechnicznego, specyfikacja wymagań użytkowników dla potrzeb budowy procesów analitycznych (budowa, to często budowa systemu z niezdefiniowanymi wymaganiami w świecie rzeczywistym należy je dopiero określić wspólnie z personelem firmy), Miejsce i rola w firmie inne aspekty, to np.: sposób zarządzania projektem, koszty projektu, ocena jakości, ocena ryzyka problemy związane z reorganizacją źródeł danych, dobór technologii; nie zawsze sprawdzona technologia implementacyjna w jednym rozwiązaniu daje równie dobre wyniki w innym, zrozumienie biznesu, zabezpieczenie danych zarówno przed utratą, jak i dostępem nieupoważnionych osób. 3
WARSTWA METADANYCH (ang. Metadata Layer) DANE ŹRÓDŁOWE (ang. Source Data Layer) WARSTWA TRANSFORMACJI DANYCH (ang. Data Transformation Layer) WARSTWA HURTOWNI DANYCH (ang. Data Warehouse Layer) WARSTWA OPERACYJNA (ang. Operations Layer) WARSTWA GENEROWANIA RAPORTÓW (ang. Reporting Layer) źródła danych: ORACLE, Informix, database, Teradata, MS SQL Server, arkusze kalkulacyjne, różne pliki, transformacja danych: porównywanie danych z różnych systemów w celu zapewnienia jakości (m. in. uzupełnianie brakujących pola mogą być puste, wyszukiwanie i rozpoznawanie tych samych danych jedna osoba może występować w różnych źródłach, nawet z różnymi atrybutami), transformacja danych cd.: standaryzacja danych (jedne źródła mogą zapisywać WROCŁAW, inne Wroclaw lub Wrocław), integracja danych (jedne źródła pamiętają sprzedaż, inne dane sprzedawcy jako np. parametry konfiguracji muszą one być połączone), i inne. hurtownia danych: odpowiednia organizacja, wspomaganie zapytań analitycznych, itp. 4
raportowanie: narzędzia z obszaru business intelligence, narzędzia dla OLAP/MOLAP tworzenie struktur wielowymiarowych oraz dostarczanie mechanizmów ich prezentacji w czytelnej, graficznej formie, data mining wykrywanie trendów, wzorców itp. z wykorzystaniem różnych metod, np. statystyki, sieci neuronowych ip. inne. metadane: dane o danych, mogą być wykorzystane np. do modyfikacji, w procesach integracji, ładowania i czyszczenia danych (patrz - ksero), operacje: odpowiadają m. in. za procesy ekstrakcji, manipulacji i ładowania danych do (narzędzia ETL) Architektura scentralizowana łatwa skalowalność, brak konieczności przesyłania danych (oprócz ładowania), wspólne metadane. 5
Architektura federacyjna marketing optymalizacja, zaopatrzenie i dystrybucja trudniejsze odświeżanie danych, trudniejsze modyfikacje procesów analitycznych Architektura warstwowa prz.: etapowe gromadzenie danych integracja istniejących struktur, trudniejsza realizacja zapytań analitycznych Wrocław Kraków Centralna możliwość autonomii oddziałów Architektura warstwowa, rozproszona Wrocław Kraków 1 marketing 2 3 optymalizacja przetwarzania, konieczność przesyłania danych trudniejsza aktualizacja danych, trudniejsza modyfikacja procesów 6
Architektura inne pomysły koncepcja Data Hubs (PowerCenter 6 INFORMATICA ),?, przetwarzanie zapytań analitycznych w systemie wieloagentowym (wykorzystanie mocy obliczeniowej różnego sprzętu, równoważenie obciążenia), wykorzystanie metadanych do zapamiętywania zmian w strukturze relacji (zmiana modelu relacyjnego) i inteligentna obsługa zapytań analitycznych. HURTOWNIA DANYCH typowo dodatkowo gromadzenie informacji z różnych źródeł, organizacja danych dla potrzeb analitycznych gromadzenie informacji o procesach w firmie (np. proces przyznania kredytu, proces windykacji należności) przykład kserokopia 1. zbieranie informacji z otoczenia (np. informacje giełdowe, informacje pogodowe, pliki systemowe, odczyty z urządzeń automatyki), inne np. informacje o zmianach w źródle danych, informacje opracowywane przez samą hurtownię, Przykład: propozycja Microsoft u Interfejs dostępu SQL ORACLE DB 2 SYSTEMY ŹRÓDŁOWE Pozyskiwanie danych Replication Services (Replikacja) Integration Services (ETL - Ekstrakcja, Trnasformacja, Ładowanie) Warstwa prezentacji IE, Office lub Business Scorecard Manager, ProClarity Analytics 6 (Performance Point) lub innych firm SQL Server 2005 Enterprise Edition + Office Professional 2003 Enterprise Edition 7
Przykłady: propozycja systemu: MicroStrategy (ksero) raportowanie z wykorzystaniem Business Object XI Connect (CD) koszt poszczególnych elementów budowy (ksero) Zlecenie (dla specjalisty ): zaproponować architekturę bazy OLTP oraz (ma służyć analizie ponoszonych wydatków na ubezpieczenie zdrowotne w kontekście umów zleceń oraz regionu) dokumenty źródłowe w załączeniu. DZIĘKUJĘ ZA UWAGĘ Życzę miłego dnia 8