SAS Data Quality. Technologia i wykorzystanie

Podobne dokumenty
SAS Lineage. zależności między obiektami w środowisku SAS, perspektywa techniczna i biznesowa

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

Zakup oprogramowania SAS

Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych

Cena netto (PLN) IV kwartał. Cena netto (PLN) Podstawy SAS INTRO

Szkolenia SAS Cennik i kalendarz 2017

Czyszczenie i standaryzacja danych adresowych. Michał Słoniewicz, Biuro Informacji Kredytowej Warszawa, 19 kwietnia 2012 r.

Zakup oprogramowania SAS CIS-10/2014 ZAŁĄCZNIK NR 1 DO SIWZ. str. 1. Załącznik nr 1 do SIWZ

Zarządzanie jakością danych z wykorzystaniem SAS Data Quality WEBINAR, Patryk ChoroŚ, SAS Institute Zbigniew Wyszomierski, SAS Institute

System DiLO. Opis interfejsu dostępowego v. 2.0

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

Procedura Walidacyjna Interfejs

Zarządzanie wieloserwerowym środowiskiem SAS z wykorzystaniem SAS Grid Managera. Katarzyna Wyszomierska

Integracja sklepu internetowego z serwisem aukcyjnym Swistak.pl

serwisy W*S ERDAS APOLLO 2009

Tomasz Grześ. Systemy zarządzania treścią

Deduplikacja danych. Zarządzanie jakością danych podstawowych

SYSTEM ZARZĄDZANIA DANYMI OSOBOWYMI - INSTRUKCJA UŻYTKOWNIKA

Higiena Danych Adresowych

Specyfikacja API Runtime BAS 3.0

Relacyjne bazy danych a XML

Przewodnik technologii ActivCard

Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0

Wykaz zmian w programie SysLoger

Korzyści z integracji danych klienta. Seminarium PIU Jakość danych w systemach informatycznych ZU Warszawa Przygotowała Ewa Galas

Procesy ETL - wykład V. Struktura. Wprowadzenie. 1. Wprowadzenie. 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków.

POLITYKA PRYWATNOŚCI

Wprowadzenie do hurtowni danych

Lista błędów walidacji dokumentów

Instrukcja importu przesyłek. z Menedżera Sprzedaży do aplikacji Webklient

Załącznik nr 1 do Instrukcji użytkownika minisiis, SIIS 5.x. Spis kodów błędów

Automatyczne decyzje kredytowe, siła szybkiego reagowania i optymalizacji kosztów. Roman Tyszkowski ING Bank Śląski S.A. roman.tyszkowski@ingbank.

Wprowadzenie do SAS 4GL Zapoznanie ze środowiskiem SAS University Edition oraz SAS Studio. Podstawowe pojęcia środowiska SAS.

The Binder Consulting

Licencjonowanie serwerów do zarządzania wydajnością. Office Web Apps Server

System magazynowy małego sklepu.

Projektowani Systemów Inf.

SAS Institute TECHNICAL SUPPORT )

1. Opis ogólny. 2. Opis techniczny. 3. Wymagania techniczne

Katalog usług epuap. Michał Bukowski Analityk epuap. Serock, 28 października 2009 r.

ZESTAW 1 SAS 4GL. Język stworzony na potrzeby przetwarzania dużych zbiorów danych. Składają się nań:

Projektowanie architektury systemu rozproszonego. Jarosław Kuchta Projektowanie Aplikacji Internetowych

Szczegółowa specyfikacja funkcjonalności zamawianego oprogramowania.

Prezentacja portalu INTEGRACJA APLIKACJI E-COMMERCE AUTOMATYZACJA PROCESÓW

ANALIZA DANYCH ZE ŹRÓDEŁ OTWARTYCH CENNE ŹRÓDŁO INFORMACJI DR INŻ. MARIUSZ DZIECIĄTKO

System Wniosków DWZ AGH

Wybrane zmiany wprowadzone w pakiecie Oprogramowanie: SyriuszStd

ShopGold Integrator by CTI. Instrukcja

Word. Korespondencja seryjna

Program szkolenia VBA (VISUAL BASIC FOR APPLICATIONS) W EXCELU PRZEKROJOWY.

DOKUMENTACJA TECHNICZNA KurJerzyAPI wersja 1.0

Obywatel 360 Narzędzia do zarządzania danymi

Prezentacja portalu INTEGRACJA APLIKACJI E-COMMERCE AUTOMATYZACJA PROCESÓW

Modernizacja bazy danych PUBLIKACJE pracowników IZTW - od bazy bibliograficznej do bazy pełnotekstowej

Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012

Learn SAS. Training Certification Coaching. Grow With Us. Szkolenia Certyfikaty Mentoring Analiza potrzeb szkoleniowych

System automatycznego rozsyłania wiadomości

Wykaz zmian w programie WinAdmin Replikator

Portale raportowe, a narzędzia raportowe typu self- service

Diagramy związków encji. Laboratorium. Akademia Morska w Gdyni

Moduł mapowania danych

PAKIETY STATYSTYCZNE

Struktura pliku wejściowego ippk Plik Rejestracyjny

Specyfika zarządzania jakością danych ze względu na przeciwdziałanie wyłudzeniom

Zarządzaj projektami efektywnie i na wysokim poziomie. Enovatio Projects SYSTEM ZARZĄDZANIA PROJEKTAMI

Architektury Usług Internetowych. Laboratorium 2. Usługi sieciowe

System IVR. Opis elementów systemu

MODUŁ AM3: PRZETWARZANIE TEKSTU

Procesy ETL. 10maja2009. Paweł Szołtysek

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Wstęp. Opis ten dotyczy wydziałów orzeczniczych.

Symfonia Start Mała Księgowość

ANALIZA I RAPORTOWANIE CZASU PRACY ZA POMOCĄ PROGRAMU RCP MASTER v1.x

Aplikacje webowe w obliczu ataków internetowych na przykładzie CodeIgniter Framework

Procesowa specyfikacja systemów IT

ZAPYTANIE OFERTOWE. Wsparcie projektów celowych

WOJSKOWA AKADEMIA TECHNICZNA

INTERNETOWE BAZY DANYCH materiały pomocnicze - wykład X

XTrack SKOG: Nowoczesny system kontroli Operatorów w ramach wykonywanych zadań związanych z odbiorami odpadów na rzecz miasta i gminy..

DEBT COLLECTION OPTIMIZATION

Jak zaimportować bazę do system SARE

Co to jest Business Intelligence?

Microsoft Exchange Server 2013

WIZUALNA EKSPLORACJA DANYCH I RAPORTOWANIE W SAS VISUAL ANALYTICS ORAZ WSTĘP DO SAS VISUAL STATISTICS

System zarządzania bazą danych lecznicy dla zwierząt

Jak efektywnie wykrywać podatności bezpieczeństwa w aplikacjach? OWASP The OWASP Foundation

INSTRUKCJA. rejestrowania się na szkolenie/cykl szkoleniowy oraz uzupełniania niezbędnej unijnej dokumentacji uczestnictwa w projekcie (PEFS)

1 Wprowadzenie do koncepcji Microsoft Office BI 1 Zakres ksiąŝki 2 Cel ksiąŝki 3 Wprowadzenie do tematu 3 Zawartość rozdziałów 4

PLAN WYNIKOWY PROGRAMOWANIE APLIKACJI INTERNETOWYCH. KL IV TI 6 godziny tygodniowo (6x15 tygodni =90 godzin ),

Instrukcja tworzenia aplikacji bazodanowej opartej o technologię Oracle i platformę.net

PRACA INŻYNIERSKA IMPLEMENTACJA MOBILNEGO KLIENTA BANKU ZABEZPIECZONEGO TOKENEM

Proces tworzenia wartości w łańcuchu logistycznym. prof. PŁ dr hab. inż. Andrzej Szymonik 2014/2015


PRÓBNY EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE W ZAWODZIE CZĘŚĆ PRAKTYCZNA

Serwery Statefull i Stateless

Analiza leksykalna 1. Języki formalne i automaty. Dr inż. Janusz Majewski Katedra Informatyki

Procesy integracji modeli danych do jednolitej struktury WBD. Tadeusz Chrobak, Krystian Kozioł, Artur Krawczyk, Michał Lupa

Symfonia Faktura. Rejestracja i aktywacja. Wersja 2013

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

Transkrypt:

SAS Data Quality Technologia i wykorzystanie

Problemy rozwiązywane przez użycie narzędzi SAS Data Quality Zduplikowani klienci - nieodpowiednie propozycje warunków handlowych, nieadekwatna oferta Błędne numery NIP, PESEL Błędy w telefonach (niepełny numer, numery połączone) - brak komunikacji z klientem Błędy w adresach mailowych (np. brak @) - brak komunikacji z klientem Błędne kody pocztowe klientów (np. wpisy 00-000, kod pocztowy niezgodny z ulicą w adresie klienta) Błędy w adresach klientów (np. nazwach ulic) Błędy w datach związanych z odejściem klienta (umowa już została rozwiązana a w systemie późniejsza data wypowiedzenia). Błędy w danych pomiarowych - problemy z połączeniem danych pomiarowych z danymi bilingowymi

Proces zarządzania jakością 1. Profilowanie danych 2. Podniesienie jakości danych 3. Integracja danych 4. Wzbogacenie danych 5. Monitoring jakości danych

DataFlux Data Management Studio Aplikacja kliencka z możliwością przetwarzania (tzw. gruby klient) Interfejs pozwala na: Dostęp do danych (ODBC, Federation Server, SAS, pliki tekstowe) Profilowanie i eksploracja danych Tworzenie reguł biznesowych, statystyk oraz alertów Tworzenie procesów zwiększających jakość danych Wzbogacanie danych (Loqate) Budowa i edycja QKB

DataFlux Data Management Server Serwer przetwarzający (na żądanie lub harmonogram) Wywoływanie zadań zaimportowanych z Data Management Studio Windows / UNIX

SAS Quality Knowledge Base Jądro SAS Data Quality Definicje zwiększające jakość danych Możliwość rozwijania we własnym zakresie Możliwość wykorzystania w środowisku rozproszonym SAS Data Loader for Hadoop SAS Data Quality Accelereator

Profilowanie danych Analiza danych pod kątem jakości Wyliczanie statystyk dla wybranych pól w bazie danych Selekcja pól do przeprowadzenia procesu podniesienia jakości

Tworzenie zadania Źródła wejściowe Źródła wyjściowe Transformacje DataFlux Expression Language

Reguły biznesowe Czarna skrzynka dla osób z nich korzystających Raz stworzona może być wykorzystywana wiele razy

SAS Quality Knowledge Base Typy definicji: Parsowanie Standaryzacja Identyfikacja Analiza płci Wyliczanie matchcode ów Analiza wzorca Ekstrakcja

Parsowanie Rozbicie ciągu znaków na tokeny Adres Cecha (ulica, aleja, plac, skwer itp.) Nazwa (Gdańska, Mickiewicza, Marszałkowska itp.) Numer budynku Numer mieszkania

Standaryzacja Ujednolicenie wielu różnych metod zapisu informacji na jedną najbardziej odpowiednią Definicja Przed standaryzacją Po standaryzacji Numer telefonu 0048612-345-678 +48 612 345 678 Imię asia Joanna Kod pocztowy 01633 01-633 Ulica UL GDANSKA 27/31 ul. Gdańska 27/31 Miasto Wawa Warszawa

Identyfikacja Stwierdzenie do jakiej grupy najlepiej pasuje dany rekord Szczególnym przypadkiem identyfikacji jest analiza płci Definicja Płeć Typ klienta Numer telefonu Numer rejestracyjny Adres email Możliwe wartości M / K Osoba / Firma Stacjonarny / Komórkowy Zwykły / Zabytkowy / Dyplomatyczny Poprawny / Niepoprawny

Wyliczanie matchcode ów Sposób reprezentacji danych wykorzystywany do porównywanie wartości wykorzystywany np. w klasteryzacji Eliminacja błędów powstałych w skutek błędu ludzkiego Błędy ortograficzne Literówki Dyslekcja osoby wprowadzającej dane Wartość źródłowa Jan Kowalski Janek Kowalski jan kkowalski JANEK KOWLSKI Wartość źródłowa Gdańska 27/31 Gdanska 27-31 ulica Gdańska 27/31 Match Code 3LW43$$$$$$CP$$$$$$$$$ Match Code F8P43$$$$HIKZ$$$

Schemat standaryzacyjny Tabela złożona z dwóch kolumn Data Wartość źródłowa Standard Wartość po zastosowaniu schematu

Wyrażenia normalizacyjne Zastosowanie reguł do zmiany reprezentacji ciągu znaków» Wycięcie zbędnych znaków» Zamiana ciągu znaków innym ciągiem» Zmiana kolejności tokenów Wyrażenia kategoryzujące Wyrażenia regularne Zastosowanie reguł do przyporządkowania ciągu znaków do konkretnej grupy Przed wyrażeniem L.O. nr 5 DĄB Po wyrażeniu V LO DAB 01633 01-633 19OCT15 19/10/2015

Słownictwo Przyporządkowanie wartościom odpowiednich kategorii Dla każdej wartości można przypisać wiele kategorii o różnych prawdopodobieństwach wystąpienia Kategorie wykorzystywane są w składaniu całego ciągu znaków za pomocą gramatyki Definicja parsująca Robert Soszyński Słownictwo FNW (Low) GNW (High) FNW (Medium)

Gramatyka Złożenie tokenów w logiczną całość Każdy token może być częścią innego tokenu (Derrived Categories)

Fonetyka Ma na celu wyeliminować błędy powstałe w skutek niewłaściwego wprowadzenia wartości Błędy ortograficzne Literówki Pisanie ze słuchu Sprowadzanie podobnie brzmiących wartości do tej samej reprezentacji za pomocą znaków Fonetyka wykorzystywana jest głównie przy wyliczaniu matchcode ów

Wzbogacanie danych - Loqate http://loqate.com/demo/verify.htm https://www.everythinglocation.com/accuracy-codes/ Proces polegający na wyodrębnieniu dodatkowych informacji Powiązanie danych z źródłami referencyjnymi

Uruchomienie zadań stworzonych w Data Management Studio DataFlux Data Management Server

DataFlux Web Studio Monitorowanie skuteczności zadań poprawiających jakość danych Reguły biznesowe Statystyki

SAS Data Integration Studio Predefiniowane transformacje dla procesów jakości danych Zastosowanie schematu standaryzacji Standaryzacja Klasteryzacja Wywoływanie procesów oraz usług z DM Server

Uruchamianie zadań oraz usług z DM Server a za pomocą predefiniowanej transformacji SAS Data Integration Studio

SAS 4GL Nazwa funkcji DMSRVBATCHJOB DQCASE DQGENDER / DQGENDERPARSED DQIDENTIFY DQMATCH / DQMATCHPARSED DQPARSE DQPARSETOKENGET / DQTOKEN DQPARSETOKENPUT DQPATTERN DQSCHEMEAPPLY DQSTANDARDIZE Opis funkcji Wywołanie procesu z DM Servera Zmiana wielkości liter Analiza płci Identyfikacja Wyliczanie matchcode u Parsowanie Pobieranie tokenu Dołączanie tokenu Analiza wzorca Zastosowanie schematu standaryzacji Standaryzacja

SAS 4GL %dqload(dqlocale=(plpol), sqsetuploc='c:\sas\qkb\dqsetup.txt'); data result; fullname = 'Robert Soszyński'; fullname_mc = dqmatch(fullname, 'NAME', 85); fullname_parsed = dqparse(fullname, 'NAME'); fullname_parsed = dqparsetokenput(fullname_parsed, "Marek", "MIDDLE NAME", "NAME"); fullname_parsed_mc = dqmatch(fullname_parsed, 'NAME', 85); run;

SAS Data Loader for Hadoop SAS Data Loader for Hadoop 16:30 17:00

Licencjonowanie SAS Data Management Studio Ścieżka Technologiczna Ścieżka Rozwiązań Biznesowych SAS Data Quality SAS Data Governance SAS Data Management Advanced SAS Master Data Management SAS Data Management Standard

Agenda Informacje o prezentacjach i prelegentach Możliwość oceny prezentacji Copyright 2015, SAS Institute Inc. All rights reserved.

Dziękuję robert.soszynski@sas.com