Zarządzanie jakością danych z wykorzystaniem SAS Data Quality WEBINAR, Patryk ChoroŚ, SAS Institute Zbigniew Wyszomierski, SAS Institute

Podobne dokumenty
SAS Data Quality. Technologia i wykorzystanie

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych

Cena netto (PLN) IV kwartał. Cena netto (PLN) Podstawy SAS INTRO

Szkolenia SAS Cennik i kalendarz 2017

Wdrożenie technologii procesowej IBM BPM w EFL

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

SAS Lineage. zależności między obiektami w środowisku SAS, perspektywa techniczna i biznesowa

Usługi analityczne budowa kostki analitycznej Część pierwsza.

WIZUALNA EKSPLORACJA DANYCH I RAPORTOWANIE W SAS VISUAL ANALYTICS ORAZ WSTĘP DO SAS VISUAL STATISTICS

Korzyści z integracji danych klienta. Seminarium PIU Jakość danych w systemach informatycznych ZU Warszawa Przygotowała Ewa Galas

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

IBM DATASTAGE COMPETENCE CENTER

Projekty BPM z perspektywy analityka biznesowego. Wrocław, 20 stycznia 2011

Wielowymiarowość zapewnienia bezpieczeństwa danych rynku ubezpieczeń

Automatyczne decyzje kredytowe, siła szybkiego reagowania i optymalizacji kosztów. Roman Tyszkowski ING Bank Śląski S.A. roman.tyszkowski@ingbank.

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Baza Danych Ubezpieczeniowych UFG zastosowanie w przeciwdziałaniu przestępczości ubezpieczeniowej

Portale raportowe, a narzędzia raportowe typu self- service

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

Nowe podejście do składowania danych

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Błędy procesu tworzenia oprogramowania (Badania firmy Rational Software Corporation)

EXPERIENCE IS THE KING

Założenia i stan realizacji projektu epuap2

EXSO-CORE - specyfikacja

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Jarosław Żeliński analityk biznesowy, projektant systemów

Paweł Gołębiewski. Softmaks.pl Sp. z o.o. ul. Kraszewskiego Bydgoszcz kontakt@softmaks.pl

One Size Doesn t Fit All, czyli case study stworzenia BI dostosowanego do strategicznych, operacyjnych oraz analitycznych potrzeb

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

ERDAS TITAN środowisko 3D udostępniania danych przestrzennych

Szybkość instynktu i rozsądek rozumu$

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

CUSTOMER SUCCESS STORY

Procesy ETL. 10maja2009. Paweł Szołtysek

DOTACJE NA INNOWACJE

Aurea BPM. Unikalna platforma dla zarządzania ryzykiem Warszawa, 25 lipca 2013

Integracja danych ubezpieczeniowych w czasie rzeczywistym. Łukasz Szewczyk Solution Architect

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Aurea BPM. Lepsze procesy, lepsze wyniki Warszawa, 24 lipca 2013

CENTRALNA EWIDENCJA POJAZDÓW i KIEROWCÓW

Security Master Class

Praktyczne aspekty pozyskiwania wiedzy z danych z perspektywy matematyka w bankowości (VI zajęcia) Jakub Jurdziak

Kluczowe zasoby do realizacji e-usługi Warszawa, 16 października Maciej Nikiel

Narzędzia IT we współczesnych strategiach utrzymaniowych

Innowacyjne rozwiązania odpowiedzą na RODO

Hurtownie danych - przegląd technologii

The Binder Consulting

Obywatel 360 Narzędzia do zarządzania danymi

JIRA, jako narzędzie wspierające zarządzanie projektami w dużej organizacji

HP Service Anywhere Uproszczenie zarządzania usługami IT

Migracja Business Intelligence do wersji

ZARZĄDZANIE WYMAGANIAMI ARCHITEKTONICZNYMI

Architektura bezpieczeństwa informacji w ochronie zdrowia. Warszawa, 29 listopada 2011

Rola analityki danych w transformacji cyfrowej firmy

Zarządzanie wieloserwerowym środowiskiem SAS z wykorzystaniem SAS Grid Managera. Katarzyna Wyszomierska

Efektywne procesy zaopatrzenia dla służb remontowych studium przypadku CMC Poland

VII Kongres BOUG 03 października 2012

PureSystems zautomatyzowane środowisko aplikacyjne. Emilia Smółko Software IT Architect

System Nadzoru Ubezpieczeń (SNU) nowy system sprawozdawczy dla zakładów ubezpieczeń i organu nadzoru

Czyszczenie i standaryzacja danych adresowych. Michał Słoniewicz, Biuro Informacji Kredytowej Warszawa, 19 kwietnia 2012 r.

Sekcja I: Instytucja zamawiająca/podmiot zamawiający

Pakiet dla Efektywności Energetycznej

Jak skutecznie budować i wdrażać zabezpieczenia do walki z wyłudzeniami?

Aurea BPM Dokumenty pod kontrolą

ZAŁĄCZNIK NR 3 OPIS PRZEDMIOTU ZAMÓWIENIA DOTYCZĄCY WDROŻENIA PLATFORMY ZAKUPOWEJ

DOTACJE NA INNOWACJE

Warsztaty FRAME. Sygnatura warsztatu: W1 (W3) Czas trwania: 3 dni

Dokumentacja techniczna. Młodzieżowe Pośrednictwo Pracy

Projekty wdrożenia ITS CASE STUDIES

Szczegółowy opis przedmiotu umowy. 1. Środowisko SharePoint UWMD (wewnętrzne) składa się z następujących grup serwerów:

Modelowanie i analiza systemów informatycznych

Splunk w akcji. Radosław Żak-Brodalko Solutions Architect Linux Polska Sp. z o.o.

StatSoft profesjonalny partner w zakresie analizy danych

Informacja o firmie i oferowanych rozwiązaniach

DYNAMICZNE ASPEKTY PROCESÓW BIZNESOWYCH. Wszystkie prawa zastrzeżone

Waste Management System

TECHNOLOGIE BIG DATA A BEZPIECZEŃSTWO INFORMATYCZNE WE KNOW YOU KNOW. silmine.com

SiR_13 Systemy SCADA: sterowanie nadrzędne; wizualizacja procesów. MES - Manufacturing Execution System System Realizacji Produkcji

Relacyjne, a obiektowe bazy danych. Bazy rozproszone

Istnieje możliwość prezentacji systemu informatycznego MonZa w siedzibie Państwa firmy.

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Od papierowych procedur do automatycznych procesów biznesowych w urzędzie dobre praktyki Michał Prusaczyk

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Luki w bezpieczeństwie aplikacji istotnym zagrożeniem dla infrastruktury krytycznej

Szczególne problemy projektowania aplikacji internetowych. Jarosław Kuchta Projektowanie Aplikacji Internetowych

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

ZAŁĄCZNIK NR 5 - GRUPA PRODUKTÓW 5: OPROGRAMOWANIE BAZODANOWE

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

MONITOROWANIE DOSTĘPNOŚCI USŁUG IT

Migracja Business Intelligence do wersji

Hurtownie danych - przegląd technologii

Procesowa specyfikacja systemów IT

Co to jest Business Intelligence?

Opis spełnienia wymagań (PSBD)

III Edycja ITPro 16 maja 2011

IMPLEMENTATION OF WDROŻENIE COMARCHW MINISTERSTWIE FINANSÓW SINDBAD RAPORTY ANALIZY BADANIA PROGNOZY CASE STUDY 1

Transkrypt:

Zarządzanie jakością danych z wykorzystaniem SAS Data Quality WEBINAR, 2016.03.01 Patryk ChoroŚ, SAS Institute Zbigniew Wyszomierski, SAS Institute

WEBINAR ZARZĄDZANIE JAKOŚCIĄ DANYCH W ORGANIZACJI Patryk Choroś Principal Business Solutions Manager Zbigniew Wyszomierski Product Management, obszar: Data Management Dzisiejsze spotkanie jest pierwszym z cyklu webinarów poświęconych technologii SAS Na stronie www.sas.com/poland dostępne jest agenda pozostałych spotkań oraz nagrania z zakończonych webinarów Zapraszamy do zadawania pytań z wykorzystaniem funkcji czatu Company Confidential - For Internal Use Only Copyright 2013, SAS Institute Inc. All rights reserved.

SAS POSITIONED IN THE LEADERS QUADRANT IN MAGIC QUADRANT REPORTS Data Integration Tools July 29, 2015 Data Quality Tools November 18, 2015 Source: Magic Quadrant for Data Integration Tools, July 29, 2015, Eric Thoo, Lakshmi Randall. Gartner RAS Core Research Note G00269320 Source: Gartner Magic Quadrant for Data Quality Tools by Saul Judah and Ted Friedman, November 18, 2015 Gartner RAS Core Research Note: G00272508

SAS POSITIONED IN THE LEADERS QUADRANT IN MAGIC QUADRANT REPORTS Advanced Analytics Platforms February 9, 2016 Source: Magic Quadrant for Advanced Analytics Platforms, 9 February 2015, Lisa Kart, Gareth Herschel, Alexander Linden, Jim Hare Gartner RAS Core Research Note G00275788 Source: Magic Quadrant for Data Integration Tools, July 29, 2015, Eric Thoo, Lakshmi Randall. Source: Gartner Magic Quadrant for Data Quality Tools by Saul Judah and Ted Friedman, November 18, 2015

ZARZĄDZANIE JAKOŚCIĄ DANYCH DEFINICJA JAKOŚCI DANYCH Data are of high quality "if they are fit for their intended uses in operations, decision making and planning" (J. M. Juran) http://en.wikipedia.org/wiki/data_quality Company Confidential - For Internal Use Only Copyright 2013, SAS Institute Inc. All rights reserved.

Perspektywy zarządzania jakością danych Ze względu na zakres tematyczny: Analizowane dane nie ulegają modyfikacji Proces określany terminem: profilowania danych Ocena jakości danych za pomocą zestawu miar\statystyk Możliwe podejście ad-hoc lub ujęcie systemowe Analizowane dane ulegają przekształceniu Proces określany terminem: standaryzacji danych Wymagana definicja wzorca \ standardu rozumiejącego rodzaj przetwarzanej informacji Standaryzacja wymagany krok dla obszarów identyfikacji i deduplikacji danych

Profilowanie danych Identyfikacja rodzajów występujących błędów Błędy systemowe vs zdarzenia incydentalne Identyfikacja luk w przepływie danych w organizacji

Profilowanie danych Rejestracja wyników na osi czasu Budowa własnych miar oceniających parametry jakościowe w danych Rozbudowane mechanizmy alertów

Profilowanie danych Repozytorium reguł walidacyjnych Dowolność formuł walidacyjnych Hierarchia pomiędzy regułami Warstwa prezentacyjna, umożliwiająca identyfikację źródeł powstawania błędów

Profilowanie danych Repozytorium reguł walidacyjnych

Profilowanie danych Repozytorium reguł walidacyjnych

Profilowanie danych Analiza zależności w modelu danych

Profilowanie danych Analiza zależności pomiędzy modelami danych

Profilowanie danych Jak wykorzystać proces profilowania Elastyczna sonda pomiarowa

Profilowanie danych Assessment w projektach (w obszarze jakości danych)

Standaryzacja danych Wymagany wzorzec SAS Quality Knowledge Base (QKB) Framework pozwalający na opis dowolnego języka: Reguły fonetyczne Konstrukcja gramatyczna Ortografia i interpunkcja Dodatkowe elementy: wielkość znaków, etc. Słowniki z prawdopodobieństwami Polska wersja Elastyczność QKB: Własne typy danych

Standaryzacja danych - QKB

Standaryzacja danych - QKB

Standaryzacja danych Wymagany wzorzec SAS Quality Knowledge Base (QKB) Polska wersja Adres Data Urodzenia Dowód osobisty E-mail Numer Karty Numer konta Numer NIP Numer PESEL Płeć Numer REGON Numer telefonu

Standaryzacja danych Schematy standaryzacyjne

Standaryzacja danych Schematy standaryzacyjne

Czyszczenie danych w praktyce

Match codes i deduplikacja Identyfikacja\deduplikacja obiektów System A PersonalID ABC079675 FirstName Zbigniew Middle Michał LastName Wyszomierski PESEL 99082301232 Address ul. A. Mickiewicza 64/4 Updated 2006-09-05 System B PersonalID ABC079675 FirstName Zbigniew M Middle LastName Wyszomierski PESEL 99082301232 Address ul. Skoczna 6 Updated 2012-04-17 System C PersonalID DB8881901 FirstName Zbigniew Middle Michal LastName Wyszomierski PESEL 99082301232 Address ul. Górna 53 Updated 2003/06/27 System D PersonalID ABC079675 FirstName Zbigniw Middle Michał LastName Wyszomierski PESEL 99082301232 Address ul. Gwiaździsta 6 m.10 Updated 2010\02\14 System E PersonalID AVU123456 FirstName Zbigniew Middle LastName Wyszomirski PESEL 99082301232 Address ul. Mickiewicza 64/4 Updated 2012.09.11

Master record System A PersonalID ABC079675 FirstName Zbigniew Middle Michał LastName Wyszomierski PESEL 99082301232 Address ul. A. Mickiewicza 64/4 Updated 2006-09-05 System B PersonalID ABC079675 FirstName Zbigniew M Middle LastName Wyszomierski PESEL 99082301232 Address ul. Skoczna 6 Updated 2012-04-17 System C PersonalID DB8881901 FirstName Zbigniew Middle Michal LastName Wyszomierski PESEL 99082301232 Address ul. Górna 53 Updated 2003/06/27 System D PersonalID ABC079675 FirstName Zbigniw Middle Michał LastName Wyszomierski PESEL 99082301232 Address ul. Gwiaździsta 6 m.10 Updated 2010\02\14 System E PersonalID AVU123456 FirstName Zbigniew Middle LastName Wyszomirski PESEL 99082301232 Address ul. Mickiewicza 64/4 Updated 2012.09.11 EID Source Keys Survived Fields 1001 30391-244 30391244 14239 3721B 30391-244Zbigniew Michał Wyszomierski 99082301232 AVU070707 Skoczna 6 Warszawa PL 05-077

Perspektywy zarządzania jakością danych Ze względu na tryb pracy: Ad-hoc Wymagana funkcjonalność uruchamiana jest w trybie interaktywnym Procesowy Zestaw wymaganych kroków definiowany jest w postaci diagramu Diagram analizy może być uruchamiany wg zadanego harmonogramu

Perspektywy zarządzania jakością danych Ze względu na tryb pracy: ad-hoc vs proces

Perspektywy zarządzania jakością danych Ze względu na tryb przetwarzania: Batch Analiza wykonywana jest wg zadanych reguł np.: czasowych, na określonych repozytoriach danych Real-time Analiza danych może nastąpić już na etapie ich powstawania Aplikacja dziedzinowa wywołuje dodatkowe procesy\usługi DQ

Perspektywy zarządzania jakością danych Batch Real-time

Perspektywy zarządzania jakością danych Ze względu na wybraną architekturę rozwiązania: Desktop Schemat\algorytm analizy i przetwarzanie odbywa się na stacji roboczej Serwer Projekt przetwarzania tworzony jest na desktopie Przetwarzanie odbywa się z wykorzystaniem serwera In-database Komponenty DQ instalowane są w środowisku bazodanowym Minimalizacja transferu danych

Serwer Transformacja(e) DQ jako element procesu(ów) ETL/ELT Perspektywy zarządzania jakością danych DQ In-database Transformacje DQ instalowane w środowiskach bazy danych SAS DataQuality Accelerator for Hadoop Teradata DQ DQ

SAS DQ on Hadoop (SAS Data Loader) live

SAS DQ on Hadoop (SAS Data Loader) live

SAS DQ on Hadoop (SAS Data Loader) live

SAS DQ on Hadoop (SAS Data Loader) live

SAS DQ on Hadoop (SAS Data Loader) live 1

SAS DQ on Hadoop (SAS Data Loader) live 1 2

SAS DQ on Hadoop (SAS Data Loader) live 1 2 3

SAS DQ on Hadoop (SAS Data Loader) live 1 2 3 4

SAS DQ on Hadoop (SAS Data Loader) live 1 2 3 4

SAS DQ on Hadoop (SAS Data Loader) live 1 2 3 4 5

SAS DQ on Hadoop (SAS Data Loader) live 1 2 3 4 5

SAS DQ on Hadoop (SAS Data Loader) live

Perspektywy zarządzania jakością danych Ze względu na kontekst: Projekt niezależny Procesy DQ służą ogólnej poprawie danych w określonych repozytoriach Komponent tzw. SAS Business Solutions Procesy\funkcjonalność DQ są integralną częścią innych rozwiązań: zarówno technicznych jak i biznesowych Jakość przygotowanych danych determinuje skuteczność określonych procesów biznesowych

Jakość danych w SAS Business Solutions Predictive modeling & business intelligence: Nowe podmioty dla modeli predykcyjnych Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze jakościowo wypełnienie atrybutów dla wejściowych tabel analitycznych Pełniejsze dane w warstwie raportowej

Jakość danych w SAS Business Solutions Predictive modeling

Jakość danych w SAS Business Solutions Risk management & fraud detection: Poprawa identyfikowalności podmiotów Skuteczniejsze wykrywanie powiązań pomiędzy podmiotami Skuteczniejsza agregacja danych ze względu na atrybuty podmiotów Poprawa skuteczności modeli wspierających zarządzanie ryzykiem, np.: ryzyko kredytowe

Jakość danych w SAS Business Solutions Customer Intelligence: Wsparcie działań sprzedażowych: lepsza identyfikowalność podmiotów i powiązań pomiędzy nimi Realizacja rozwiązań typu: widok 360 0 Master Data Management Budowa repozytoriów danych referencyjnych Zależności pomiędzy obiektami Automatyzacja działań marketingowych, np.: automatyczna generacja ofert, opisów produktów etc.

CIEKAWE DOŚWIADCZENIA WDROŻENIOWE REFERENCJE SAS INSTITUTE POLSKA

REFERENCJE UFG Rozmiar danych: 100 milionów wierszy (inicjalnie 72 mln) Źródła danych: 4 systemy Zakres danych: Dane o pojazdach, dane o ubezpieczonych, dane o kontrahentach Opis wdrożenia: Zaprojektowanie algorytmów czyszczenia i uzupełniania danych: profilowanie, parsowanie, standaryzacja, walidacja, uzupełnianie słownikowe Udostępnianie danych za pośrednictwem usług sieciowych Pełne wdrożenie obejmujące wszystkie etapy projektu od prac analitycznych do uruchomienia produkcyjnego Wyniki otrzymane po implementacji systemu: Stworzenie dedykowanej hurtowni danych ubezpieczeniowych wraz z ergonomicznym interfejsem składania zapytań do centralnej, ogólnopolskiej bazy danych o ubezpieczeniach komunikacyjnych. UFG może realizować swoje obowiązki ustawowe i spełniać oczekiwania rynku jako ośrodek informacji dla ubezpieczeń komunikacyjnych Nowe narzędzie pozwala firmom ubezpieczeniowym na szybkie sprawdzenie w ilu wypadkach uczestniczył właściciel pojazdu i uwzględnienie tych informacji przy kalkulacji jego nowej składki za OC czy AC Przed wdrożeniem systemu liczba zapytań kierowanych do Ośrodka Informacji UFG przez zakłady ubezpieczeń wynosiła ok. 17 tys. rocznie, natomiast w trakcie programu pilotażowego, który trwał od lutego do listopada ubiegłego roku, ubezpieczyciele zadali łącznie 2,5 mln zapytań

REFERENCJE GŁÓWNY URZĄD STATYSTYCZNY Rozmiar danych: około 5 TB Źródła danych: narodowe rejestry spisowe (około 20 różnych źródeł danych) Zakres danych: dane adresowe i kontaktowe, finansowe, ubezpieczeniowe, telekomunikacyjne, demograficzne i energetyczne Opis wdrożenia: Zakres procesu jakości danych: integracja i standaryzacja wszystkich głównych, narodowych rejestrów dla spisu powszechnego i rolnego Główne techniki czyszczenia danych: Kody dopasowania, Dystans Levenshtein-a, Nakładanie schematów. Polepszenie jakości danych zmierzone po zaimplementowaniu Data Quality: Np. rejestr PESEL: miasta 70,29%, ulice 85,67%

WEBINAR ZARZĄDZANIE JAKOŚCIĄ DANYCH W ORGANIZACJI Patryk Choroś patryk.choros@sas.com Zbigniew Wyszomierski zbigniew.wyszomierski@sas.com Zapraszamy na kolejne webinary o technologii SAS na www.sas.com/poland Company Confidential - For Internal Use Only Copyright 2013, SAS Institute Inc. All rights reserved.

DZIĘKUJEMY ZA UDZIAŁ PROSIMY O WYPEŁNIENIE ANKIETY www.sas.com