Zarządzanie jakością danych z wykorzystaniem SAS Data Quality WEBINAR, 2016.03.01 Patryk ChoroŚ, SAS Institute Zbigniew Wyszomierski, SAS Institute
WEBINAR ZARZĄDZANIE JAKOŚCIĄ DANYCH W ORGANIZACJI Patryk Choroś Principal Business Solutions Manager Zbigniew Wyszomierski Product Management, obszar: Data Management Dzisiejsze spotkanie jest pierwszym z cyklu webinarów poświęconych technologii SAS Na stronie www.sas.com/poland dostępne jest agenda pozostałych spotkań oraz nagrania z zakończonych webinarów Zapraszamy do zadawania pytań z wykorzystaniem funkcji czatu Company Confidential - For Internal Use Only Copyright 2013, SAS Institute Inc. All rights reserved.
SAS POSITIONED IN THE LEADERS QUADRANT IN MAGIC QUADRANT REPORTS Data Integration Tools July 29, 2015 Data Quality Tools November 18, 2015 Source: Magic Quadrant for Data Integration Tools, July 29, 2015, Eric Thoo, Lakshmi Randall. Gartner RAS Core Research Note G00269320 Source: Gartner Magic Quadrant for Data Quality Tools by Saul Judah and Ted Friedman, November 18, 2015 Gartner RAS Core Research Note: G00272508
SAS POSITIONED IN THE LEADERS QUADRANT IN MAGIC QUADRANT REPORTS Advanced Analytics Platforms February 9, 2016 Source: Magic Quadrant for Advanced Analytics Platforms, 9 February 2015, Lisa Kart, Gareth Herschel, Alexander Linden, Jim Hare Gartner RAS Core Research Note G00275788 Source: Magic Quadrant for Data Integration Tools, July 29, 2015, Eric Thoo, Lakshmi Randall. Source: Gartner Magic Quadrant for Data Quality Tools by Saul Judah and Ted Friedman, November 18, 2015
ZARZĄDZANIE JAKOŚCIĄ DANYCH DEFINICJA JAKOŚCI DANYCH Data are of high quality "if they are fit for their intended uses in operations, decision making and planning" (J. M. Juran) http://en.wikipedia.org/wiki/data_quality Company Confidential - For Internal Use Only Copyright 2013, SAS Institute Inc. All rights reserved.
Perspektywy zarządzania jakością danych Ze względu na zakres tematyczny: Analizowane dane nie ulegają modyfikacji Proces określany terminem: profilowania danych Ocena jakości danych za pomocą zestawu miar\statystyk Możliwe podejście ad-hoc lub ujęcie systemowe Analizowane dane ulegają przekształceniu Proces określany terminem: standaryzacji danych Wymagana definicja wzorca \ standardu rozumiejącego rodzaj przetwarzanej informacji Standaryzacja wymagany krok dla obszarów identyfikacji i deduplikacji danych
Profilowanie danych Identyfikacja rodzajów występujących błędów Błędy systemowe vs zdarzenia incydentalne Identyfikacja luk w przepływie danych w organizacji
Profilowanie danych Rejestracja wyników na osi czasu Budowa własnych miar oceniających parametry jakościowe w danych Rozbudowane mechanizmy alertów
Profilowanie danych Repozytorium reguł walidacyjnych Dowolność formuł walidacyjnych Hierarchia pomiędzy regułami Warstwa prezentacyjna, umożliwiająca identyfikację źródeł powstawania błędów
Profilowanie danych Repozytorium reguł walidacyjnych
Profilowanie danych Repozytorium reguł walidacyjnych
Profilowanie danych Analiza zależności w modelu danych
Profilowanie danych Analiza zależności pomiędzy modelami danych
Profilowanie danych Jak wykorzystać proces profilowania Elastyczna sonda pomiarowa
Profilowanie danych Assessment w projektach (w obszarze jakości danych)
Standaryzacja danych Wymagany wzorzec SAS Quality Knowledge Base (QKB) Framework pozwalający na opis dowolnego języka: Reguły fonetyczne Konstrukcja gramatyczna Ortografia i interpunkcja Dodatkowe elementy: wielkość znaków, etc. Słowniki z prawdopodobieństwami Polska wersja Elastyczność QKB: Własne typy danych
Standaryzacja danych - QKB
Standaryzacja danych - QKB
Standaryzacja danych Wymagany wzorzec SAS Quality Knowledge Base (QKB) Polska wersja Adres Data Urodzenia Dowód osobisty E-mail Numer Karty Numer konta Numer NIP Numer PESEL Płeć Numer REGON Numer telefonu
Standaryzacja danych Schematy standaryzacyjne
Standaryzacja danych Schematy standaryzacyjne
Czyszczenie danych w praktyce
Match codes i deduplikacja Identyfikacja\deduplikacja obiektów System A PersonalID ABC079675 FirstName Zbigniew Middle Michał LastName Wyszomierski PESEL 99082301232 Address ul. A. Mickiewicza 64/4 Updated 2006-09-05 System B PersonalID ABC079675 FirstName Zbigniew M Middle LastName Wyszomierski PESEL 99082301232 Address ul. Skoczna 6 Updated 2012-04-17 System C PersonalID DB8881901 FirstName Zbigniew Middle Michal LastName Wyszomierski PESEL 99082301232 Address ul. Górna 53 Updated 2003/06/27 System D PersonalID ABC079675 FirstName Zbigniw Middle Michał LastName Wyszomierski PESEL 99082301232 Address ul. Gwiaździsta 6 m.10 Updated 2010\02\14 System E PersonalID AVU123456 FirstName Zbigniew Middle LastName Wyszomirski PESEL 99082301232 Address ul. Mickiewicza 64/4 Updated 2012.09.11
Master record System A PersonalID ABC079675 FirstName Zbigniew Middle Michał LastName Wyszomierski PESEL 99082301232 Address ul. A. Mickiewicza 64/4 Updated 2006-09-05 System B PersonalID ABC079675 FirstName Zbigniew M Middle LastName Wyszomierski PESEL 99082301232 Address ul. Skoczna 6 Updated 2012-04-17 System C PersonalID DB8881901 FirstName Zbigniew Middle Michal LastName Wyszomierski PESEL 99082301232 Address ul. Górna 53 Updated 2003/06/27 System D PersonalID ABC079675 FirstName Zbigniw Middle Michał LastName Wyszomierski PESEL 99082301232 Address ul. Gwiaździsta 6 m.10 Updated 2010\02\14 System E PersonalID AVU123456 FirstName Zbigniew Middle LastName Wyszomirski PESEL 99082301232 Address ul. Mickiewicza 64/4 Updated 2012.09.11 EID Source Keys Survived Fields 1001 30391-244 30391244 14239 3721B 30391-244Zbigniew Michał Wyszomierski 99082301232 AVU070707 Skoczna 6 Warszawa PL 05-077
Perspektywy zarządzania jakością danych Ze względu na tryb pracy: Ad-hoc Wymagana funkcjonalność uruchamiana jest w trybie interaktywnym Procesowy Zestaw wymaganych kroków definiowany jest w postaci diagramu Diagram analizy może być uruchamiany wg zadanego harmonogramu
Perspektywy zarządzania jakością danych Ze względu na tryb pracy: ad-hoc vs proces
Perspektywy zarządzania jakością danych Ze względu na tryb przetwarzania: Batch Analiza wykonywana jest wg zadanych reguł np.: czasowych, na określonych repozytoriach danych Real-time Analiza danych może nastąpić już na etapie ich powstawania Aplikacja dziedzinowa wywołuje dodatkowe procesy\usługi DQ
Perspektywy zarządzania jakością danych Batch Real-time
Perspektywy zarządzania jakością danych Ze względu na wybraną architekturę rozwiązania: Desktop Schemat\algorytm analizy i przetwarzanie odbywa się na stacji roboczej Serwer Projekt przetwarzania tworzony jest na desktopie Przetwarzanie odbywa się z wykorzystaniem serwera In-database Komponenty DQ instalowane są w środowisku bazodanowym Minimalizacja transferu danych
Serwer Transformacja(e) DQ jako element procesu(ów) ETL/ELT Perspektywy zarządzania jakością danych DQ In-database Transformacje DQ instalowane w środowiskach bazy danych SAS DataQuality Accelerator for Hadoop Teradata DQ DQ
SAS DQ on Hadoop (SAS Data Loader) live
SAS DQ on Hadoop (SAS Data Loader) live
SAS DQ on Hadoop (SAS Data Loader) live
SAS DQ on Hadoop (SAS Data Loader) live
SAS DQ on Hadoop (SAS Data Loader) live 1
SAS DQ on Hadoop (SAS Data Loader) live 1 2
SAS DQ on Hadoop (SAS Data Loader) live 1 2 3
SAS DQ on Hadoop (SAS Data Loader) live 1 2 3 4
SAS DQ on Hadoop (SAS Data Loader) live 1 2 3 4
SAS DQ on Hadoop (SAS Data Loader) live 1 2 3 4 5
SAS DQ on Hadoop (SAS Data Loader) live 1 2 3 4 5
SAS DQ on Hadoop (SAS Data Loader) live
Perspektywy zarządzania jakością danych Ze względu na kontekst: Projekt niezależny Procesy DQ służą ogólnej poprawie danych w określonych repozytoriach Komponent tzw. SAS Business Solutions Procesy\funkcjonalność DQ są integralną częścią innych rozwiązań: zarówno technicznych jak i biznesowych Jakość przygotowanych danych determinuje skuteczność określonych procesów biznesowych
Jakość danych w SAS Business Solutions Predictive modeling & business intelligence: Nowe podmioty dla modeli predykcyjnych Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze jakościowo wypełnienie atrybutów dla wejściowych tabel analitycznych Pełniejsze dane w warstwie raportowej
Jakość danych w SAS Business Solutions Predictive modeling
Jakość danych w SAS Business Solutions Risk management & fraud detection: Poprawa identyfikowalności podmiotów Skuteczniejsze wykrywanie powiązań pomiędzy podmiotami Skuteczniejsza agregacja danych ze względu na atrybuty podmiotów Poprawa skuteczności modeli wspierających zarządzanie ryzykiem, np.: ryzyko kredytowe
Jakość danych w SAS Business Solutions Customer Intelligence: Wsparcie działań sprzedażowych: lepsza identyfikowalność podmiotów i powiązań pomiędzy nimi Realizacja rozwiązań typu: widok 360 0 Master Data Management Budowa repozytoriów danych referencyjnych Zależności pomiędzy obiektami Automatyzacja działań marketingowych, np.: automatyczna generacja ofert, opisów produktów etc.
CIEKAWE DOŚWIADCZENIA WDROŻENIOWE REFERENCJE SAS INSTITUTE POLSKA
REFERENCJE UFG Rozmiar danych: 100 milionów wierszy (inicjalnie 72 mln) Źródła danych: 4 systemy Zakres danych: Dane o pojazdach, dane o ubezpieczonych, dane o kontrahentach Opis wdrożenia: Zaprojektowanie algorytmów czyszczenia i uzupełniania danych: profilowanie, parsowanie, standaryzacja, walidacja, uzupełnianie słownikowe Udostępnianie danych za pośrednictwem usług sieciowych Pełne wdrożenie obejmujące wszystkie etapy projektu od prac analitycznych do uruchomienia produkcyjnego Wyniki otrzymane po implementacji systemu: Stworzenie dedykowanej hurtowni danych ubezpieczeniowych wraz z ergonomicznym interfejsem składania zapytań do centralnej, ogólnopolskiej bazy danych o ubezpieczeniach komunikacyjnych. UFG może realizować swoje obowiązki ustawowe i spełniać oczekiwania rynku jako ośrodek informacji dla ubezpieczeń komunikacyjnych Nowe narzędzie pozwala firmom ubezpieczeniowym na szybkie sprawdzenie w ilu wypadkach uczestniczył właściciel pojazdu i uwzględnienie tych informacji przy kalkulacji jego nowej składki za OC czy AC Przed wdrożeniem systemu liczba zapytań kierowanych do Ośrodka Informacji UFG przez zakłady ubezpieczeń wynosiła ok. 17 tys. rocznie, natomiast w trakcie programu pilotażowego, który trwał od lutego do listopada ubiegłego roku, ubezpieczyciele zadali łącznie 2,5 mln zapytań
REFERENCJE GŁÓWNY URZĄD STATYSTYCZNY Rozmiar danych: około 5 TB Źródła danych: narodowe rejestry spisowe (około 20 różnych źródeł danych) Zakres danych: dane adresowe i kontaktowe, finansowe, ubezpieczeniowe, telekomunikacyjne, demograficzne i energetyczne Opis wdrożenia: Zakres procesu jakości danych: integracja i standaryzacja wszystkich głównych, narodowych rejestrów dla spisu powszechnego i rolnego Główne techniki czyszczenia danych: Kody dopasowania, Dystans Levenshtein-a, Nakładanie schematów. Polepszenie jakości danych zmierzone po zaimplementowaniu Data Quality: Np. rejestr PESEL: miasta 70,29%, ulice 85,67%
WEBINAR ZARZĄDZANIE JAKOŚCIĄ DANYCH W ORGANIZACJI Patryk Choroś patryk.choros@sas.com Zbigniew Wyszomierski zbigniew.wyszomierski@sas.com Zapraszamy na kolejne webinary o technologii SAS na www.sas.com/poland Company Confidential - For Internal Use Only Copyright 2013, SAS Institute Inc. All rights reserved.
DZIĘKUJEMY ZA UDZIAŁ PROSIMY O WYPEŁNIENIE ANKIETY www.sas.com