Procesy ETL. 10maja2009. Paweł Szołtysek



Podobne dokumenty
Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Procedura Walidacyjna Interfejs

COMARCH DATA WAREHOUSE MANAGER 6.2

Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

Modele bezpieczeństwa logicznego i ich implementacje w systemach informatycznych / Aneta Poniszewska-Marańda. Warszawa, 2013.

Załącznik nr 1 do Instrukcji użytkownika minisiis, SIIS 5.x. Spis kodów błędów

VII Kongres BOUG 03 października 2012

Przewodnik użytkownika (instrukcja) AutoMagicTest

Lokalizacja Oprogramowania

29. Poprawność składniowa i strukturalna dokumentu XML

Pierwsze wdrożenie SAP BW w firmie

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Hurtownia danych praktyczne zastosowania

Szczegółowy opis przedmiotu zamówienia

Architektury i technologie integracji danych

SYSTEMY KONTROLI JAKOŚCI OPAKOWAŃ NOWOCZESNE SYSTEMY ANALIZY JAKOŚCIOWEJ OPAKOWAŃ DLA BRANŻY FARMACEUTYCZNEJ. EyeC Proofiler Graphic.

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Proces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,

Jednolity Plik Kontrolny

Autor: dr inż. Katarzyna Rudnik

Bazy danych - wykład wstępny

Sekcja I: Instytucja zamawiająca/podmiot zamawiający

OLAP i hurtownie danych c.d.

Sposób implementacji e-faktury w oprogramowaniu Sage. e-faktura. implementacja w oprogramowaniu

Spis tre±ci. Przedmowa... Cz ± I

Algorytm SiRF dekoder i jego wykorzystanie w systemie ASG-EUPOS

Projektowani Systemów Inf.

Dlaczego GML? Gdańsk r. Karol Stachura

1. Wprowadzanie danych z klawiatury funkcja scanf

Przewodnik użytkownika (instrukcja) AutoMagicTest

REFERAT PRACY DYPLOMOWEJ Temat pracy: Projekt i realizacja serwisu ogłoszeń z inteligentną wyszukiwarką

Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki. Paweł Parys. Nr albumu: Aukcjomat

Analiza najczęstszych błędów w sprawozdawanych danych

Maciej Oleksy Zenon Matuszyk

Załącznik nr 2. Zasady pracy aplikacji InteGrRej.

Opis spełnienia wymagań (PSBD)

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

mbank CompanyNet, BRESOK

Zarządzanie projektem informatycznym

Poznań, dzień Zapytanie ofertowe

Integracja systemów transakcyjnych

Etapy weryfikacji GESUT

Dwuwymiarowy sposób na podróbki > 34

Problematyka hurtowni danych

Usługa: Audyt kodu źródłowego

Hurtownia danych. Załącznik Nr 1 do SIWZ. Opis przedmiotu zamówienia. Lp. FUNKCJONALNOŚĆ/PARAMETRY WYMAGANE

Projekty wdrożenia ITS CASE STUDIES

Jakość w procesie wytwarzania oprogramowania

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Security Master Class

Maciej Kiewra Quality Business Intelligence Consulting

JPK INSIGHT AUTOMATYCZNE (JPK_VAT 2) BADANIE EWIDENCJI VAT W FORMACIE JEDNOLITYCH PLIKÓW KONTROLNYCH

REFERAT PRACY DYPLOMOWEJ

Integracja danych ubezpieczeniowych w czasie rzeczywistym. Łukasz Szewczyk Solution Architect

Bazy danych TERMINOLOGIA

Konwerter Plan testów. Jakub Rauch Tomasz Gołębiowski Adam Busch Bartosz Franaszek 1 czerwca 2008

ARKUSZ KALKULACYJNY komórka

Zarządzanie informacją i wiedzą w usługach o podwyŝszonym poziomie bezpieczeństwa. Maciej Stroiński stroins@man.poznan.pl

Analityka danych & big data

Wykład 8. Testowanie w JEE 5.0 (1) Autor: Zofia Kruczkiewicz. Zofia Kruczkiewicz

Zawód tester, czyli na czym polega testowanie. Katarzyna Łabinska Justyna Sacha - Gawlik

Dokumentacja SMS przez FTP

Przewodnik użytkownika (instrukcja) AutoMagicTest Spis treści

ETL - wykład III. Zagadnienia do omówienia. Identyfikacja wymagań

RÓWNOWAŻNOŚĆ ZAOFEROWANCH PAKIETÓW PROGRAMÓW BIUROWYCH

Fuzzing OWASP The OWASP Foundation Piotr Łaskawiec J2EE Developer/Pentester

Projekt i implementacja narzędzia do analizy modeli spójności F R Y D E R Y K R A C Z Y K K O N R A D S Z A Ł K O W S K I

Wysyłka plików JPK - instrukcja za pomocą profilu zaufanego (epuap)

I. Interfejs użytkownika.

Załącznik nr 1e do Formularza Ofertowego

OPIS PRZEDMIOTU ZAMÓWIENIA

System zarządzania zleceniami

BUSINESS INTELLIGENCE for PROGRESS BI4PROGRESS

Instrukcja obsługi. Generatora CSV

Bartosz Kulawik Koordynator Projektu Centrum Badań Kosmicznych PAN Zespół Obserwacji Ziemi

Opis metody pracy Komisji podczas Kwalifikacji TestingCup 2017

Galileo - encyklopedia internetowa Plan testów

Moduł mapowania danych

Przedmiotem zamówienia jest dostawa:

Automatyczne decyzje kredytowe, siła szybkiego reagowania i optymalizacji kosztów. Roman Tyszkowski ING Bank Śląski S.A. roman.tyszkowski@ingbank.

Krzysztof Kadowski. PL-E3579, PL-EA0312,

Kod doskonały : jak tworzyć oprogramowanie pozbawione błędów / Steve McConnell. Gliwice, cop Spis treści. Wstęp 15.

Zakres wymagań dotyczących Dokumentacji Systemu

wspiera w swojej specyfikacji podpis elektroniczny zgodnie z Tabelą A.1.1 załącznika 2 Rozporządzenia w sprawie minimalnych Strona 1 z 6

Paweł Gołębiewski. Softmaks.pl Sp. z o.o. ul. Kraszewskiego Bydgoszcz kontakt@softmaks.pl

Efektywność wyszukiwania informacji w publicznie dostępnych katalogach bibliotek wykorzystujących polskie programy biblioteczne

Kompleksowe zarządzanie jakością informacji Warunek konieczny efektywności wdrożenia systemów informacyjnych

Bydgoskie Centrum Archiwizacji Cyfrowej sp. z o.o.

osobowe pracowników laboratorium SecLab EMAG w rozumieniu przepisów Kodeksu Pracy, konsultantów, stażystów oraz inne osoby i instytucje mające dostęp

1. Menadżer raportów 2 2. Edytor parametrów 3 3. Parametr główny 4 4. Parametr zależny 5 5. Zestawienie atrybutów 6 6.

nr sprawy: BZP ML Wrocław, dn. 29 stycznia 2014 r. INFORMACJA DLA WYKONAWCÓW NR 6

I PODZIAŁ TREŚCI. 3. Studium przypadku*

Aplikacja do walidacji plików XML i GML

ROZSZERZANIE MOŻLIWOŚCI...

Metody automatyzacji sprawozdawczości w systemie asist. Agnieszka Hołownia-Niedzielska

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

kompleksowe oprogramowanie do zarządzania procesem spawania

Transkrypt:

Procesy 10maja2009 Paweł Szołtysek 1/12

w praktyce w praktyce 2/12

Zagadnienie Business Inteligence w praktyce 3/12

Czym jest proces? w praktyce Dane: dowolny zbiór danych ze źródeł zewnętrznych. Szukane: hurtownia danych bazująca na wskazanych danych. Rozwiązanie: przekształcenie danych. = Extract, Transform, Load 4/12

: transformacja danych w praktyce Transformacja danych to zbiór funkcji które przekształcają przygotowane dane źródłowe do formy akceptowalnej przez hurtownię danych. Zależnieodformywjakiejdaneznajdująsięnawejściutejczęści procesu, mogą zostać poddane różnym funkcjom które dostosują je do wymaganego formatu. W szczególności można wyróżnić np: Tłumaczenie kodowanych wartości Obliczanie wartości Filtrowanie, sortowanie, agregacje Selekcja, łączenie W tym przypadku także przewiduje się sprawdzenie poprawności przetworzonych danych. 5/12

: transformacja danych w praktyce Transformacja danych to zbiór funkcji które przekształcają przygotowane dane źródłowe do formy akceptowalnej przez hurtownię danych. Zależnieodformywjakiejdaneznajdująsięnawejściutejczęści procesu, mogą zostać poddane różnym funkcjom które dostosują je do wymaganego formatu. W szczególności można wyróżnić np: Tłumaczenie kodowanych wartości Obliczanie wartości Filtrowanie, sortowanie, agregacje Selekcja, łączenie W tym przypadku także przewiduje się sprawdzenie poprawności przetworzonych danych. 5/12

: transformacja danych w praktyce Transformacja danych to zbiór funkcji które przekształcają przygotowane dane źródłowe do formy akceptowalnej przez hurtownię danych. Zależnieodformywjakiejdaneznajdująsięnawejściutejczęści procesu, mogą zostać poddane różnym funkcjom które dostosują je do wymaganego formatu. W szczególności można wyróżnić np: Tłumaczenie kodowanych wartości Obliczanie wartości Filtrowanie, sortowanie, agregacje Selekcja, łączenie W tym przypadku także przewiduje się sprawdzenie poprawności przetworzonych danych. 5/12

: transformacja danych w praktyce Transformacja danych to zbiór funkcji które przekształcają przygotowane dane źródłowe do formy akceptowalnej przez hurtownię danych. Zależnieodformywjakiejdaneznajdująsięnawejściutejczęści procesu, mogą zostać poddane różnym funkcjom które dostosują je do wymaganego formatu. W szczególności można wyróżnić np: Tłumaczenie kodowanych wartości Obliczanie wartości Filtrowanie, sortowanie, agregacje Selekcja, łączenie W tym przypadku także przewiduje się sprawdzenie poprawności przetworzonych danych. 5/12

: ekstrakcja danych w praktyce Problemy związane z ekstrakcją danych: Lokalizacja. Dostępność. Problem konsolidacji. Różnorodność organizacji zbiorów danych. Różnorodność formatów. Proces ekstrakcji kończy się przygotowanym dla etapu transformacji zbiorem danych, w dobrze określonym formacie. Przewiduje się sprawdzenie poprawności formatu przygotowanych danych. 6/12

: ekstrakcja danych w praktyce Problemy związane z ekstrakcją danych: Lokalizacja. Dostępność. Problem konsolidacji. Różnorodność organizacji zbiorów danych. Różnorodność formatów. Proces ekstrakcji kończy się przygotowanym dla etapu transformacji zbiorem danych, w dobrze określonym formacie. Przewiduje się sprawdzenie poprawności formatu przygotowanych danych. 6/12

: ekstrakcja danych w praktyce Problemy związane z ekstrakcją danych: Lokalizacja. Dostępność. Problem konsolidacji. Różnorodność organizacji zbiorów danych. Różnorodność formatów. Proces ekstrakcji kończy się przygotowanym dla etapu transformacji zbiorem danych, w dobrze określonym formacie. Przewiduje się sprawdzenie poprawności formatu przygotowanych danych. 6/12

: ekstrakcja danych w praktyce Problemy związane z ekstrakcją danych: Lokalizacja. Dostępność. Problem konsolidacji. Różnorodność organizacji zbiorów danych. Różnorodność formatów. Proces ekstrakcji kończy się przygotowanym dla etapu transformacji zbiorem danych, w dobrze określonym formacie. Przewiduje się sprawdzenie poprawności formatu przygotowanych danych. 6/12

: ekstrakcja danych w praktyce Problemy związane z ekstrakcją danych: Lokalizacja. Dostępność. Problem konsolidacji. Różnorodność organizacji zbiorów danych. Różnorodność formatów. Proces ekstrakcji kończy się przygotowanym dla etapu transformacji zbiorem danych, w dobrze określonym formacie. Przewiduje się sprawdzenie poprawności formatu przygotowanych danych. 6/12

: ekstrakcja danych w praktyce Problemy związane z ekstrakcją danych: Lokalizacja. Dostępność. Problem konsolidacji. Różnorodność organizacji zbiorów danych. Różnorodność formatów. Proces ekstrakcji kończy się przygotowanym dla etapu transformacji zbiorem danych, w dobrze określonym formacie. Przewiduje się sprawdzenie poprawności formatu przygotowanych danych. 6/12

w praktyce : ładowanie danych Przetworzone dane trafiają do hurtowni danych. Zależnie od potrzeb, mogą one napisywać aktualnie znajdującesiędane,lubteżdodawaćjewcelach udostępniania danych historycznych. Etap ten ma powiązanie z implementacją hurtowni danych, zarówno jeśli chodzi o typy użytych silników, jak i wygląd logiczny poszczególnych tabel(unikalność, integracja, wymagane atrybuty itp). 7/12

w praktyce : ładowanie danych Przetworzone dane trafiają do hurtowni danych. Zależnie od potrzeb, mogą one napisywać aktualnie znajdującesiędane,lubteżdodawaćjewcelach udostępniania danych historycznych. Etap ten ma powiązanie z implementacją hurtowni danych, zarówno jeśli chodzi o typy użytych silników, jak i wygląd logiczny poszczególnych tabel(unikalność, integracja, wymagane atrybuty itp). 7/12

w praktyce : ładowanie danych Przetworzone dane trafiają do hurtowni danych. Zależnie od potrzeb, mogą one napisywać aktualnie znajdującesiędane,lubteżdodawaćjewcelach udostępniania danych historycznych. Etap ten ma powiązanie z implementacją hurtowni danych, zarówno jeśli chodzi o typy użytych silników, jak i wygląd logiczny poszczególnych tabel(unikalność, integracja, wymagane atrybuty itp). 7/12

Wykorzystanie procesów w praktyce Procesy mogą powstawać w różnych, niekiedy mało intuicyjnych celach. Przykład: Badanie jakości danych za pomocą procesu. Cel: Implementacja procesu przeprowadzającego testy jakości i spójności danych, generującego raporty z rekordami które nie spełniają reguł walidacji. Sytuacja: Hurtownia danych jest zasilana niskiej jakości danymi. Przeprowadza się testy znakowe(wzorce znakowe, niedozwolonych liter, wystąpienia myślników, kropek itp.) i referencyjne(spójność z architekturą i modelem danych). 8/12

Wykorzystanie procesów w praktyce Procesy mogą powstawać w różnych, niekiedy mało intuicyjnych celach. Przykład: Badanie jakości danych za pomocą procesu. Cel: Implementacja procesu przeprowadzającego testy jakości i spójności danych, generującego raporty z rekordami które nie spełniają reguł walidacji. Sytuacja: Hurtownia danych jest zasilana niskiej jakości danymi. Przeprowadza się testy znakowe(wzorce znakowe, niedozwolonych liter, wystąpienia myślników, kropek itp.) i referencyjne(spójność z architekturą i modelem danych). 8/12

Wykorzystanie procesów w praktyce Procesy mogą powstawać w różnych, niekiedy mało intuicyjnych celach. Przykład: Badanie jakości danych za pomocą procesu. Cel: Implementacja procesu przeprowadzającego testy jakości i spójności danych, generującego raporty z rekordami które nie spełniają reguł walidacji. Sytuacja: Hurtownia danych jest zasilana niskiej jakości danymi. Przeprowadza się testy znakowe(wzorce znakowe, niedozwolonych liter, wystąpienia myślników, kropek itp.) i referencyjne(spójność z architekturą i modelem danych). 8/12

Wykorzystanie procesów w praktyce Przykładowe problemy jakości danych: Data realizacji zamówienia wcześniejsza od daty wprowadzania zamówienia Niepoprawny numer faktury, np. zawierający niedozwolone znaki lub niepoprawną ilość znaków Złyadres,np.kombinacjakodpocztowyinazwaulicy niezgodny ze słownikiem adresowym Numer telefonu niezgodny ze wzorcem gdy przykładowo zawiera spacje lub myślniki a w hurtowni danych zdefiniowano go jako tylko liczby 9/12

w praktyce To nie było zamierzone: na 7 slajdów dwa traktują o możliwych błędach w procesach. Błędy te można podzielić na kilka różnych kategorii(np. ze względu na ich umiejscowienie czy na pojawienie się nieprawidłowych danych) w zależności od których można je wykrywać łatwiej lub trudniej. Z wiedzy na temat testowania wiadomo, że nigdy nie możemy być pewni wyniku działania aplikacji. Trzeba więc nie tylko zapobiegać, ale i przeciwdziałać... 10/12

w praktyce To nie było zamierzone: na 7 slajdów dwa traktują o możliwych błędach w procesach. Błędy te można podzielić na kilka różnych kategorii(np. ze względu na ich umiejscowienie czy na pojawienie się nieprawidłowych danych) w zależności od których można je wykrywać łatwiej lub trudniej. Z wiedzy na temat testowania wiadomo, że nigdy nie możemy być pewni wyniku działania aplikacji. Trzeba więc nie tylko zapobiegać, ale i przeciwdziałać... 10/12

w praktyce To nie było zamierzone: na 7 slajdów dwa traktują o możliwych błędach w procesach. Błędy te można podzielić na kilka różnych kategorii(np. ze względu na ich umiejscowienie czy na pojawienie się nieprawidłowych danych) w zależności od których można je wykrywać łatwiej lub trudniej. Z wiedzy na temat testowania wiadomo, że nigdy nie możemy być pewni wyniku działania aplikacji. Trzeba więc nie tylko zapobiegać, ale i przeciwdziałać... 10/12

w praktyce To nie było zamierzone: na 7 slajdów dwa traktują o możliwych błędach w procesach. Błędy te można podzielić na kilka różnych kategorii(np. ze względu na ich umiejscowienie czy na pojawienie się nieprawidłowych danych) w zależności od których można je wykrywać łatwiej lub trudniej. Z wiedzy na temat testowania wiadomo, że nigdy nie możemy być pewni wyniku działania aplikacji. Trzeba więc nie tylko zapobiegać, ale i przeciwdziałać... 10/12

w praktyce To nie było zamierzone: na 7 slajdów dwa traktują o możliwych błędach w procesach. Błędy te można podzielić na kilka różnych kategorii(np. ze względu na ich umiejscowienie czy na pojawienie się nieprawidłowych danych) w zależności od których można je wykrywać łatwiej lub trudniej. Z wiedzy na temat testowania wiadomo, że nigdy nie możemy być pewni wyniku działania aplikacji. Trzeba więc nie tylko zapobiegać, ale i przeciwdziałać... a aby przeciwdziałać, należy wykrywać. 10/12

Opracy w praktyce Temat pracy: Automatyczne wykrywanie błędów w procesach. Plan pracy: Opis przebiegu procesu wraz z występującymi w poszczególnych etapach błędami. Klasyfikacja opisanych błędów w procesach. Opis dostępnych metod detekcji błędów każdej klasy. Implementacja wybranej metody detekcji błędów. Weryfikacja skuteczności zaimplementowanej metody na podstawie badań. Przedstawienie wniosków. 11/12

w praktyce Opracy Przewidywany termin realizacji pracy:(prawdopodobnie) wakacje 2009. Problem: o ile każde narzędzie posiada algorytmy wykrywania błędów, o tyle firmy je produkujące nie chcą dzielić się autorskimi sposobami radzenia sobie z nimi. 12/12