Deduplikacja danych. Zarządzanie jakością danych podstawowych



Podobne dokumenty
Higiena Danych Adresowych

Plan. Wprowadzenie. Co to jest APEX? Wprowadzenie. Administracja obszarem roboczym

PROGRAM NAUCZANIA DLA ZAWODU TECHNIK INFORMATYK, O STRUKTURZE PRZEDMIOTOWEJ

Cechy systemu X Window: otwartość niezależność od producentów i od sprzętu, dostępny kod źródłowy; architektura klient-serwer;

Interfejs do potwierdzania produkcji w SAP ze skanerem ELZAB

Do wersji Warszawa,

GS2TelCOMM. Rozszerzenie do TelCOMM 2.0. Opracował: Michał Siatkowski Zatwierdził: IMIĘ I NAZWISKO

Zamawiający dysponuje szerokim spektrum rozwiązań infrastrukturalnych. Wykonawca uzyska dostęp do infrastruktury w niezbędnym zakresie.

TOPWEB SPSall Budowanie portalu intranetowego

PLAN WYNIKOWY PROGRAMOWANIE APLIKACJI INTERNETOWYCH. KL IV TI 6 godziny tygodniowo (6x15 tygodni =90 godzin ),

EXSO-CORE - specyfikacja

Płatności CashBill dla Presta Shop

Zarządzanie bazą danych

ActiveXperts SMS Messaging Server

Systemy obiegu informacji i Protokół SWAP "CC"

Zarządzaj projektami efektywnie i na wysokim poziomie. Enovatio Projects SYSTEM ZARZĄDZANIA PROJEKTAMI

Books. by HansaWorld. Przewodnik instalacji. Wersji 6.2

Bazodanowe usługi sieciowe w technologii ASP.NET. dr inż. Tomasz Tatoń

WINDOWS Instalacja serwera WWW na systemie Windows XP, 7, 8.

Płatności CashBill dla QuickCart

OPIS PRZEDMIOTU ZAMÓWIENIA

SERWER AKTUALIZACJI UpServ

Makra programu Microsoft Access.

Szczegółowy opis przedmiotu zamówienia

Instrukcja użytkownika ARSoft-WZ3

INFRA. System Connector. Opis wdrożenia systemu

4 Web Forms i ASP.NET Web Forms Programowanie Web Forms Możliwości Web Forms Przetwarzanie Web Forms...152

System Obsługi Wniosków

Instrukcja aktualizacji programu Integra 7

Books. by HansaWorld. Przewodnik instalacji. wersji 6.2

Komunikacja i wymiana danych

INFRA. System Connector. Opis systemu

Nr: 12. Tytuł: UDOSTĘPNIANIE DANYCH O SPRAWACH KLIENTOM KANCELARII NA ZEWNĘTRZNYCH SERWERACH WWW. Data modyfikacji:

Do wersji Warszawa,

METADANE GEOINFORMACYJNE PODLASIA

OMNITRACKER Wersja testowa. Szybki przewodnik instalacji

Kurs OPC S7. Spis treści. Dzień 1. I OPC motywacja, zakres zastosowań, podstawowe pojęcia dostępne specyfikacje (wersja 1501)

OMNITRACKER Wersja testowa. Szybki przewodnik instalacji

76.Struktura oprogramowania rozproszonego.

Kampania FAX. Wybrane funkcjonalności: Definiowanie nagłówka. Personalizacja. Formaty PDF, Office i graficzne. Zapowiedź. Indywidualny numer telefonu

OPROGRAMOWANIE KEMAS zbudowane jest na platformie KEMAS NET

Liczba godzin 1,2 Organizacja zajęć Omówienie programu nauczania 2. Tematyka zajęć

Instrukcja użytkownika Platforma transakcyjna mforex Trader dla systemu MacOS

Currenda EPO Instrukcja Konfiguracji. Wersja dokumentu: 1.3

Świadczenie usługi hurtowej wysyłki wiadomości SMS dla Urzędu Miasta Torunia w latach

Przewodnik użytkownika (instrukcja) AutoMagicTest

UNIWERSYTET RZESZOWSKI KATEDRA INFORMATYKI

Spis treści. Dzień 1. I Wprowadzenie (wersja 0906) II Dostęp do danych bieżących specyfikacja OPC Data Access (wersja 0906) Kurs OPC S7

Kraków, 2 kwietnia 2004 r.

WYKONANIE OPROGRAMOWANIA DEDYKOWANEGO

Gemini Cloud Project Case Study

Kampania . Wybrane funkcjonalności: Definiowanie danych nadawcy. Personalizacja. Szablony. Profesjonalne kreacje graficzne

Wymagane jest podłączenie serwera do Internetu (konieczne do zdalnego dostępu).

R o g e r A c c e s s C o n t r o l S y s t e m 5

System generacji raportów

TECHNOLOGIA OBSŁUGI KONTRAKTÓW INFORMACJA O AKTUALIZACJI SYSTEMU ISO 9001:2000 Dokument: Raport Numer: 22/2012 Wydanie: Waga: 90

Forte Zarządzanie Produkcją Instalacja i konfiguracja. Wersja B

Korzyści z integracji danych klienta. Seminarium PIU Jakość danych w systemach informatycznych ZU Warszawa Przygotowała Ewa Galas

KOMISJE WYBORCZE PIT EKSPORT E-PITY

LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS

Programowanie Komponentowe WebAPI

Frogfoot CMS.

SERWER AKTUALIZACJI UpServ

Biuletyn techniczny. Eksport i import przelewów za pomocą usługi sieciowej

Joyce Cox Joan Lambert. Microsoft Access Krok po kroku. Przekład: Jakub Niedźwiedź

Arkusz Optivum. Praca z repozytorium wymaga połączenia z Internetem i zalogowania się do Sigmy.

Firma Informatyczna ASDER. Prezentacja. Serwer danych lokalnych. Przemysław Kroczak ASDER

Architektura systemu e-schola

Podręcznik użytkownika

Technologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15 Artur.Kalinowski@fuw.edu.

Rozwiązanie Compuware Data Center - Real User Monitoring

Przedmiotem zamówienia jest dostawa:

INSTRUKCJA OBSŁUGI wersja 1.0.2

Technologie Internetowe Raport z wykonanego projektu Temat: Internetowy sklep elektroniczny

Systemy GIS Systemy baz danych

LK1: Wprowadzenie do MS Access Zakładanie bazy danych i tworzenie interfejsu użytkownika

Dokumentacja programu. Terminarz zadań. Serwis systemu Windows. Zielona Góra

Ekspert MS SQL Server Oferta nr 00/08

Lp. Parametry Wymagane Warunek Opisać 1 Serwer 1.1 Producent oprogramowania Podać 1.2 Kraj pochodzenia Podać 1.3. Wymóg.

GanttProject /Microsoft Project. Danuta Golec

Microsoft Access. Prezentacja

Budowa aplikacji ASP.NET współpracującej z bazą dany do obsługi przesyłania wiadomości

Typy przetwarzania. Przetwarzanie zcentralizowane. Przetwarzanie rozproszone

WPROWADZENIE DO BAZ DANYCH

Podręcznik użytkownika

5-6. Struktura dokumentu html. 2 Określenie charakteru i tematyki strony. Rodzaje witryn. Projekt graficzny witryny. Opracowanie skryptów

Zakres treści Czas. 2 Określenie charakteru i tematyki strony. Rodzaje witryn. Projekt graficzny witryny. Opracowanie skryptów

OKAY CRM 2.0 nowy program!

nr sprawy: BZP ML Wrocław, dn. 20 lutego 2014 r. SPROSTOWANIE DO INFORMACJI DLA WYKONAWCÓW NR 13

R o g e r A c c e s s C o n t r o l S y s t e m 5

Tworzenie bazy danych na przykładzie Access

Pytania SO Oprogramowanie Biurowe. Pytania: Egzamin Zawodowy

Przewodnik Szybki start

Zapytanie ofertowe na opracowanie programu komputerowego i aplikacji internetowej z zakresu badań ewaluacyjnych w szkole

Instrukcja konfigurowania poczty Exchange dla klienta pocztowego użytkowanego poza siecią uczelnianą SGH.

Nowoczesne zarządzanie pracą serwisu w terenie

1. Opis. 2. Wymagania sprzętowe:

Prezentacja programu. Parentis Sp. z o.o. Dział Informatyki. Kartoszyno, ul. Przemysłowa 5, Krokowa

Instrukcja konfiguracji programu KS-ASW do pracy w trybie wielopodmiotowym

System Wniosków DWZ AGH

Transkrypt:

Deduplikacja danych Zarządzanie jakością danych podstawowych normalizacja i standaryzacja adresów standaryzacja i walidacja identyfikatorów podstawowa standaryzacja nazw firm deduplikacja danych

Deduplication Center DataWise udostępnia własne rozwiązanie do deduplikacji danych. Rozwiązanie to ma postać powiązanych ze sobą usług sieciowych (tzw. web services). Poszczególne usługi mogą być wykorzystywane samodzielnie z poziomu własnych aplikacji, a także poprzez interfejs aplikacji webowej. Web service to standardowa technologia komunikowania się komputerów przez sieć z wykorzystaniem protokołu HTTP do transportu danych oraz składni XML do opisu danych: jest niezależna od systemu operacyjnego, dzięki temu ten sam web service jest widziany i tak samo rozumiany przez różne maszyny (Windows, Linuks czy UNIX) jest niezależna od języka programowania, dzięki temu może być wykorzystywany w różnych aplikacjach, np. napisanych w PHP, VisualBasic, C++ Podstawowe korzyści dla firmy: jedno rozwiązanie, które może mieć wiele jednoczesnych zastosowań w różnych miejscach (system CRM, serwis WWW, sklep internetowy, call center, hurtownia danych) każdy z web service może być wykorzystywany indywidualnie (np. web service higieny danych adresowych przy zgłoszeniach od klientów na stronie www, a web service deduplikacji w systemie CRM) wykorzystanie tego samego web service w różnych obszarach de facto wprowadza ten sam standard w tych obszarach, co zapewnia spójność danych web service są idealnym narzędziem do automatyzacji zadań, co wydatnie oszczędza zasoby firmy Strona 2 z 8

Web services zarządzania jakością danych Nasze rozwiązanie pozwala na wykonywanie deduplikacji w następujących wariantach: web service higieny danych adresowych normalizuje, standaryzuje, uzupełnia i waliduje adresy web service identyfikatorów NIP, REGON, PESEL standaryzuje i waliduje oficjalne identyfikatory web service nazw firm dokonuje podstawowej standaryzacji nazw firm web service deduplikacji sprawdza w bazie danych, czy dany rekord już istnieje Sposoby wykonywania deduplikacji Nasze rozwiązanie pozwala na wykonywanie deduplikacji w następujących wariantach: tryb czasu rzeczywistego, co pozwala na bieżąco kontrolować, czy pojedynczy rekord już istnieje w bazie danych tryb wsadowy, pozwalający na wykonanie deduplikacji już istniejącej bazy danych. W trybie wsadowym rozróżniamy deduplikację pierwotną (deduplikowana jest cała baza) oraz deduplikację przyrostową (deduplikowane są tylko nowe rekordy danych) element deduplikacja w trybie czasu rzeczywistego deduplikacja w trybie wsadowym zastosowanie zwracane wyniki deduplikacja pojedynczego rekordu danych z istniejącą bazą (sprawdzanie, czy rekord już istnieje w bazie na etapie wprowadzania danych do bazy / rejestracji) w czasie ułamka sekundy jeżeli dla zadanego rekordu znaleziono duplikaty, zwracana jest lista identyfikatorów najbardziej prawdopodobnych duplikatów (co pozwala dalej wyświetlić rzeczywiste dane poszczególnych rekordów i dać możliwość podjęcia decyzji przez operatora czy jest to rzeczywiście duplikat) deduplikacja całej istniejącej bazy danych (deduplikacja pierwotna) deduplikacja nowych rekordów względem już istniejącej bazy (deduplikacja przyrostowa) do bazy danych zapisywany jest tzw. identyfikator klastera duplikatów (rekordy mające tę samą wartość na klasterze duplikatów uznawane są za duplikaty) Strona 3 z 8

Interfejs aplikacji Nasze rozwiązanie udostępnia także interfejs aplikacji webowej, pozwalającej użytkownikowi na wykonywanie deduplikacji w trybie wsadowym. Po zalogowaniu się, użytkownik zobaczy główne menu z poszczególnymi funkcjonalnościami. Korzystanie z aplikacji jest proste polega na korzystaniu z systemu hiperłącz (linków) oraz formularzy do edycji danych i do selekcji danych. Moduły do wsadowego (batchowego) procesowania danych są uruchamiane przez kliknięcie odpowiedniego hiperłącza. Po uruchomieniu wsadowego procesowania danych przeglądarka www może zostać zamknięta a procesowanie będzie kontynuowane na serwerze aplikacji (procesowanie będzie kontynuowane nawet po zamknięciu komputera użytkownika). W każdej chwili użytkownik może przerwać procesowanie danych. Strona 4 z 8

Aplikacja zawiera także funkcje pozwalające zarządzać wynikami deduplikacji: wyświetlanie wszystkie rekordów z danego klastera duplikatów zmienianie przypisania indywidualnych rekordów do innego klastera duplikatów tworzenie nowego klastera duplikatów wyświetlanie logu historii zmian oraz wycofywanie zapisanych zmian tworzenie własnych definicji grup klasterów do dodatkowego sprawdzania tworzenie indywidualnych raportów i zestawień wyświetlanie danych z innych źródeł Strona 5 z 8

Co jest potrzebne, aby móc korzystać z serwera do zarządzania jakością danych Usługi składowe procesu deduplikacji działają jako web service, jest to powszechna technologia wymiany danych pomiędzy komputerami, nawet z różnych platform i systemów operacyjnych. Usługi web service są dostępne w dwóch najpopularniejszych implementacjach: XMLRPC SOAP Korzystanie z usług jest możliwe wszędzie tam, gdzie technologia (oprogramowanie) umożliwia łączenie się z web service. W praktyce możliwe jest nawet udostępnienie usługi dla baz danych napisanych w MS Access czy arkuszach kalkulacyjnych MS Excel, i oczywiście w językach programowania (PHP,.NET, VisualStudio, C, itp.); Interfejs aplikacji webowej pozwala ponadto na wykonywanie podstawowych operacji importu i eksportu danych w prekonfigurowanych procesach. Do importu i eksportu danych można także wykorzystywać standardowe rozwiązania ETL z wykorzystywanego systemu bazodanowego. Strona 6 z 8

Kiedy i dlaczego stosować Zastosowania Nasze web service mają zastosowania w następujących obszarach: wprowadzanie nowych rekordów do bazy (różnego rodzaju procesy i formularze rejestracyjne) przy projektach, w których istnieje konieczność deduplikacji baz danych o deduplikacja baz z różnych źródeł (np. różnych oddziałów firm) o poprawa jakości istniejącej bazy, która wcześniej nie była odpowiednio zarządzana od strony deduplikacji o pozyskiwanie nowych rekordów z zewnętrznych baz danych o łączenie baz z różnych systemów (np. księgowości i CRM) w ramach jednej firmy Korzyści istotne podniesienie jakości bazy danych, co przekłada się wprost na szerszy zakres możliwości wykorzystywania bazy umożliwia łączenie informacji z różnych systemów bazodanowych, co daje bardziej kompletny obraz o podmiocie (tzw. ogląd 360 o ) pozwala na rzeczywistą integrację danych do jednego spójnego systemu bazodanowego Modele wykorzystywania usługi Ze względu na fakt, że deduplikacja danych z definicji odnosi się do własnych zasobów bazodanowych w firmie, możliwe są w praktyce dwa modele wykorzystywania usługi: wdrożenie kompletnego rozwiązania na serwerze firmy. DataWise dostarcza firmie gotowy serwer, szkoli pracowników, zapewnia usługę pomocy i opieki technicznej. wykonanie usługi w trybie projektowym. DataWise wykonuje usługę deduplikacji na przekazanych przez firmę danych (zwykle w postaci plików tekstowych). Po wykonaniu deduplikacji dane są zwracane w ustalonym formacie (zwykle w postaci plików tekstowych). Strona 7 z 8

Dodatkowe informacje w Internecie Dodatkowe informacje o rozwiązaniach DataWise do zarządzania jakością danych można znaleźć na stronie http://datawise.pl Na stronie można skorzystać z formularza pozwalającego na testowanie usługi online http://datawise.pl/demo/deduplikacja-danych Kontakt Krzysztof Pędzich GSM 0-501-725-574 email k.pedzich@datawise.pl Marek Turlejski GSM 0-501-099-698 email m.turlejski@datawise.pl Strona 8 z 8