ETL - wykład III. Zagadnienia do omówienia. Identyfikacja wymagań



Podobne dokumenty
Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Procesy ETL - wykład V. Struktura. Wprowadzenie. 1. Wprowadzenie. 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków.

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

PLAN ZARZĄDZANIA WYMAGANIAMI PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

bo od managera wymaga się perfekcji

Oferta Banku Zachodniego WBK S.A. na usługę Elektronicznej Identyfikacji NaleŜności dla. Warszawa,

Procesy ETL. 10maja2009. Paweł Szołtysek

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

INTERNETOWE BAZY DANYCH materiały pomocnicze - wykład XII

Pierwsze wdrożenie SAP BW w firmie

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Wstęp. Inżynieria wymagań. Plan wykładu. Wstęp. Wstęp. Wstęp. Schemat procesu pozyskiwania wymagań

PRZEWODNIK PO PRZEDMIOCIE

Diagramu Związków Encji - CELE. Diagram Związków Encji - CHARAKTERYSTYKA. Diagram Związków Encji - Podstawowe bloki składowe i reguły konstrukcji

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE

Paweł Skrobanek. C-3, pok

Inżynieria oprogramowania. Wykład 7 Inżynieria wymagań: punkty widzenia, scenariusze, przypadki użycia

KIERUNKOWE EFEKTY KSZTAŁCENIA

Projektowanie systemów informatycznych. Roman Simiński siminskionline.pl. Modelowanie danych Diagramy ERD

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

Hurtownie danych - opis przedmiotu

KIERUNKOWE EFEKTY KSZTAŁCENIA

Modele danych - wykład V

Opracowanie narzędzi informatycznych dla przetwarzania danych stanowiących bazę wyjściową dla tworzenia map akustycznych

Opracowanie systemu monitorowania zmian cen na rynku nieruchomości

Case study: Mobilny serwis WWW dla Kolporter

Proces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,

Uchwała Nr 22/2017/V Senatu Politechniki Lubelskiej z dnia 25 maja 2017 r.

Programowanie w Javie nazwa przedmiotu SYLABUS A. Informacje ogólne

Analityk i współczesna analiza

PRINCE2 Foundation & Practitioner - szkolenie z egzaminem certyfikacyjnym

Zajęcia prowadzone przez MCT, auditora wiodącego systemów bezpieczeństwa informacji.

Budowanie skutecznych systemów zarządzania opartych na normach ISO

PLAN ZARZĄDZANIA KONFIGURACJĄ OPROGRAMOWANIA PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

Technologia informacyjna

Hurtownie danych - przegląd technologii

Hurtownie danych - przegląd technologii

PLAN WDROśENIA SYSTEMU PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

Systemy informatyczne. Modelowanie danych systemów informatycznych

Jakub Kisielewski.

Korzyści z integracji danych klienta. Seminarium PIU Jakość danych w systemach informatycznych ZU Warszawa Przygotowała Ewa Galas

Wykład 5. Cel wykładu. Korespondencja seryjna. WyŜsza Szkoła MenedŜerska w Legnicy. Informatyka w zarządzaniu Zarządzanie, zaoczne, sem.

VII Kongres BOUG 03 października 2012

Podrozdziały te powinny zawierać informacje istotne z punktu widzenia przyjętego celu pracy

PROJEKT INŻYNIERIA OPROGRAMOWANIA. Temat: System obsługi kasy - projekt wzorcowy

Certified IT Manager Training (CITM ) Dni: 3. Opis:

Diagramy przypadków użycia. WYKŁAD Piotr Ciskowski

AKTYWNE FORMY ZAJĘĆ DYDAKTYCZNYCH

Bazy Danych. Modele danych. Krzysztof Regulski WIMiIP, KISiM,

Koncepcja cyfrowej transformacji sieci organizacji publicznych

Departament Zakupów Centralnych ul. Żaryna 2A, Warszawa tel. (22) DZC/AS/708/12. Warszawa, dn. 27 listopada 2012 r.

Lokalizacja Oprogramowania

Efekty kształcenia. Tabela efektów kształcenia

Wykład 1 Inżynieria Oprogramowania

Etapy życia oprogramowania

Baza danych. Modele danych

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Efekty kształcenia na kierunku AiR drugiego stopnia - Wiedza Wydziału Elektrotechniki, Automatyki i Informatyki Politechniki Opolskiej

Zasady organizacji projektów informatycznych

Zarządzanie wiedzą w opiece zdrowotnej

Inżynieria Programowania Inżynieria wymagań. Plan wykładu. Motto. Wstęp. Notatki. Notatki. Notatki. Notatki. Arkadiusz Chrobot

Zarządzanie konfiguracją produktu w całym cyklu Ŝycia. Aleksandra Grzywak-Gawryś Warsztaty Rola IRIS w branŝy kolejowej

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Ocena jakości kursów online

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

OPIS PRZEDMIOTU ZAMÓWIENIA

Zamawiający dysponuje szerokim spektrum rozwiązań infrastrukturalnych. Wykonawca uzyska dostęp do infrastruktury w niezbędnym zakresie.

Wprowadzenie do metodologii modelowania systemów informacyjnych. Strategia (1) Strategia (2) Etapy Ŝycia systemu informacyjnego

Konfiguracja modelowania w procesie wytwarzania oprogramowania

Diagram Przepływu Danych - podstawowe bloki składowe i reguły konstrukcji

Księgarnia PWN: Kevin Kenan - Kryptografia w bazach danych. Spis treści. Podziękowania O autorze Wprowadzenie... 15

Analiza danych. TEMATYKA PRZEDMIOTU

Projektowanie bazy danych przykład

Cykle życia systemu informatycznego

PRZEWODNIK PO PRZEDMIOCIE

Wykład 3 Wymagania. MIS n Inżynieria oprogramowania Październik Kazimierz Michalik Akademia Górniczo-Hutnicza im. S. Staszica w Krakowie

Analiza biznesowa a metody agile owe

Iteracyjno-rozwojowy proces tworzenia oprogramowania Wykład 3 część 1

SYSTEMY OPERACYJNE WYKLAD 6 - procesy

PRZEWODNIK PO PRZEDMIOCIE

Agenda. O firmie. Wstęp Ksavi. Opis funkcjonalności systemu Ksavi Auditor. Podsumowanie

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

PRZEWODNIK PO PRZEDMIOCIE

Integracja systemów transakcyjnych

ZARZĄDZANIE I INŻYNIERIA PRODUKCJI

PROJEKT INTERFEJSU UśYTKOWNIKA PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

Proces ekstrakcji, transformacji i ładowania danych (Proces ETL)

Świat rzeczywisty i jego model

KIERUNKOWE EFEKTY KSZTAŁCENIA

Przepływy danych. Oracle Designer: Modelowanie przepływów danych. Diagramy przepływów danych (1) Diagramy przepływów danych (2)

STUDIA I MONOGRAFIE NR

Strategia informatyzacji sektora ochrony zdrowia

Transkrypt:

ETL - wykład III Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006-2008 Zagadnienia do omówienia 1. na dane 2. Specyfikacja wymagań / systemu 3. Integracja informacji 4. Dyskusja wybrane zagadnienia 5. Podsumowanie PROBLEM: Budowa systemu często o niezbyt dokładnie określonych wymaganiach. 1

WYMAGANIA (dla twórcy/twórców HD): - zrozumienie zasad funkcjonowania firmy, metod pracy, potrzeb w zakresie informacji przydatnych przy podejmowaniu decyzji, - umiejętność zrozumienia wymagań końcowych, odbiorców informacji oraz najlepszej formy jej prezentacji, - umiejętności pozyskiwania informacji od personelu, z dokumentacji itp. - umiejętności w zakresie modelowania danych, - zdolność kierowania oczekiwaniami uŝytkowników. Przykłady pytań - zrozumienie zasad funkcjonowania firmy: Jakie analizy są obecnie przeprowadzane? Czemu słuŝą? Jaka jest hierarchia/hierarchie danych (np. mogą być generowane zestawiania dla działów, a potem zbiorcze dla placówek)? Jakie są uwarunkowania czasowe (np. mogą być raporty miesięczne, okresowe, wynik finansowy roczny lub miesięczny, czy teŝ kwartalny itp.)? Jaka jest struktura organizacyjna? Jakie obowiązują procedury decyzyjne (np. w bankach jasno określona procedura zatwierdzania kredytu) i jakie informacje są w nich wykorzystywane? Przykładowe źródła informacji Analitycy i uŝytkownicy zasadniczych (dla HD) działów Kierownicy zasadniczych działów Zarząd/dyrekcja przedsiębiorstwa Eksperci zewnętrzni z branŝy przedsiębiorstwa Analitycy i uŝytkownicy pozostałych (dla HD) działów Kierownicy pozostałych działów Klienci Osoby doświadczone/eksperci w dziedzinie tworzenia Hurtowni Danych 2

Przykłady wytycznych prowadzenie rozmów: 1. Analitycy/uŜytkownicy końcowi: Cel: zapoznanie z pracą, wykorzystywanymi danymi (raporty, pytania, zadania), generowaną dokumentacją i jej adresatami, Ilość: grupy kilkuosobowe Czas: nawet do kilku godzin (początkowo) Dokumentacja: notatki odręczne, nagrywanie (!za zgodą osób) UWAGA: problemy związane ze stosunkami międzyludzkimi (relacje interpersonalne) problem z doborem grup, przydatna znajomość psychologii, nagrywania pozwala na wnikliwszą analizę, ale moŝe krępować rozmówcę (konieczna zgoda!) Przykłady wytycznych prowadzenie rozmów: 1. Kierownicy przedsiębiorstwa: Cel: - zapoznanie ze strategią i celami przedsiębiorstwa, - i/lub połączenie (weryfikacja) informacji zebranej od pracowników oraz naszego wyobraŝenia o firmie, - i/lub oddziaływanie psychologiczne (sygnał dla pracowników o waŝności prac nad HD) - i/lub wskazanie osób, które posiadają duŝą wiedzę i mogą być przydatne, Ilość: jedna osoba Czas: krótki (np. ¼, ½ godziny), Dokumentacja: notatki odręczne, nagrywanie (!za zgodą osób) Przykłady konkretnych pytań moŝna znaleźć w: V.Poe, P.Klauer, S.Brobst Tworzenie hurtowni danych, WNT, Warszawa 2000, str. 151-160 3

Specyfikacja wymagań / systemu TYPOWO zidentyfikowane i szczegółowo opisane wymagania, zidentyfikowane i wstępnie określone interfejsy, ściśle określone problemy DLA HD brak ściśle określonych wymagań (raczej sądzimy, Ŝe często brak wiedzy o interfejsach konieczność identyfikacji problemów Specyfikacja wymagań / systemu TYPOWO etapowość pracy (zazwyczaj specyfikacja zakończona dokumentem) wymogi prawne związane z działalnością (np. ustawa o działalności gosp.) DLA HD konieczność modyfikacji wymagań /systemu do zmian w organizacji i jej otoczeniu konieczność uzasadnienia biznesowego lub utylitarnego Specyfikacja wymagań / systemu TYPOWO sprawdzone i opisane metody zarządzania DLA HD trudne zarządzanie niepewność celów, nieprecyzyjność kryteriów, obawa nieudanego przedsięwzięcia, - wysokie koszty. 4

Integracja moŝe obejmować: 1. Integrację schematów Dane: schematy źródeł Wynik: pojedynczy schemat (docelowy) oraz specyfikacja odwzorowania 2. Integrację danych zmaterializowanych Dane: zbiory danych źródłowych Wynik: zbiór danych < reprezentacja zbiorów źródeł 3. Integracja danych wirtualnych Dane: zbiory danych źródłowych Wynik: specyfikacja dostępu do danych ( fizycznie dane pozostają w źródłach) Przykład etapów integracji: IDENTYFIKACJA ŹRÓDEŁ ORAZ WYSELEKCJONOWANIE PÓL KONWERSJA DANYCH PRZENOSZENIE DANYCH IDENTYFIKACJA ŹRÓDEŁ ORAZ WYSELEKCJONOWANIE PÓL - zrozumienie potrzeb i oczekiwań uŝytkowników, - zidentyfikowanie źródeł danych i określenie, czy są wystarczające (UWAGA: źródła danych, to nie tylko istniejące bazy, to takŝe np. procedury w firmie, dane zewnętrzne jak np. dane o pogodzie, kursy walut, indeksy giełdowe), - przegląd dostępnych źródeł, klasyfikacja oraz określenie zakresu początkowej HD, - zaprojektowanie dostępu do danych (np. w oparciu o przegląd interfejsów, raportów z analiz) 5

Proces polegający na identyfikacji wspólnych danych, zaleŝności pomiędzy nimi, reguł dostępu do nich w celu zbudowania nowego modelu dla potrzeb HD. Konsolidacja obejmuje m. in.: - analizę dokumentacji źródeł (jeśli jest i najlepiej przy wsparciu administratorów/architektów istniejących źródeł), - dodatkowo: opracowanie słownika terminologii, - określenie zasad postępowanie w sytuacjach konfliktowych: konflikty róŝnorodności zróŝnicowane modele danych (poziom konceptualny), Konsolidacja obejmuje m. in.: - określenie zasad postępowanie w sytuacjach konfliktowych, cd.: konflikty nazewnictwa zróŝnicowana terminologia: Homonimy te same nazwy, ale róŝne pojęcia (np. TYP dla auta w jednej bazie moŝe oznaczać model: CIVIC, FIESTA, ASTRA, a w innej rodzaj: terenowy, osobowy), Synonimy róŝne nazwy, ale to samo pojęcie (np. ID_pracownika i Numer_pracownika), Analogie atrybuty opisujące to samo, ale w róŝnym zakresie (np. formy płatności: gotówka, przelew, czek oraz PLN, Euro, VISA Electron, Master Card ) 6

Konsolidacja obejmuje m. in.: - określenie zasad postępowanie w sytuacjach konfliktowych, cd.: konflikty semantyczne modelowanie podobnej rzeczywistości na róŝnym poziomie abstrakcji, konflikty strukturalne reprezentowanie tych samych pojęć przez róŝne konstrukcje (np. kraj, region, kod_produktu jako xxyyaaa PLDS112, gdzie PL Polska, DS dolnośląskie) Konsolidacja obejmuje m. in.: - analiza dziedzin atrybutów (typ, rozmiar, zakres wartości, opcjonalność, zgodność ze specyfikacją), - wybór kluczy głównych (ewentualna eliminacja kluczy sztucznych oraz rozpoznanie kluczy obcych jeśli konieczne), prz. ID_klienta ulica_zameld kod_zameld miasto_zameld poczta_zameld ulca_korespond ulica_zamieszk Przykład transformacji ID_klienta Typ_adresu ulica kod miasto poczta KONWERSJA DANYCH Zadania stojące przed twórcą/twórcami HD, to m. in.: - opracowanie wytycznych (specyfikacji) przekształcenia danych (atrybutów) źródłowych do postaci w HD, - określenie zasad postępowania dla atrybutów odbiegających od normy (np. dopuszczalny: Wrocław, jest: Wroclaw, Wrocllaw, Wrocła DS. T-19), - ustalenie wartości domyślnych, - dodatkowo: np. zastosowanie data maining (do wykrywania tych samych obiektów w bazach ubezpieczeniowych, energetycznych jedna osoba moŝe nawet w jednej bazie występować jako dwa obiekty itp.), - opracowanie reguł postępowanie w sytuacjach wyjątkowych. 7

PRZENOSZENIE DANYCH - opracowanie programów (szablonów, pakietów zaleŝnie od narzędzia), - testowanie (uzyskanie informacji o niepasujących danych oraz skuteczności opracowanych i zaimplementowanych metod), - testowanie pod kątem wydajności, - walidacja. DYSKUSJA 1. Czy są róŝnice pomiędzy systemem raportowym, a hurtownią danych? SYSTEM RAPORTOWY określona struktura systemu i raportów, dotyczy zazwyczaj określonej części ( wycinka ) przedsiębiorstwa określone źródła informacji (zazwyczej na bazie jednego systemu), opracowania metodami statystycznymi HD moŝliwość generowania raportów ad-hoc, szeroki zbiór danych moŝliwość opracowania nowych raportów. zazwyczaj wsparcie w zakresie analizy danych (np. algorytmy genetyczne, sieci neuronowe, metody statystyczne) DYSKUSJA 2. Problem związany z kosztem budowy HD oraz obecnych cen oprogramowania. (materiały pomocnicze: http://www.bakk.com oraz http://www.microsoft.com/sqlserver/2008/en/us/pricing.aspx) 3. Problem budowy i wdroŝenia HD (materiałów konferencyjnych dotyczących: budowy HD w BZ WBK, wdroŝenie systemu informatycznego w placówce medycznej ). 8

Podsumowanie Tworzenie HD materiały ksero. 9