Higiena Danych Adresowych



Podobne dokumenty
Deduplikacja danych. Zarządzanie jakością danych podstawowych

Prezentacja portalu INTEGRACJA APLIKACJI E-COMMERCE AUTOMATYZACJA PROCESÓW

Prezentacja portalu INTEGRACJA APLIKACJI E-COMMERCE AUTOMATYZACJA PROCESÓW

BIK TRACING nowa usługa Biura Informacji Kredytowej. Tomasz Wituszyński Warszawa, 8 kwietnia 2014

JAK PRAWIDŁOWO SPRAWOZDAWAĆ ZASIĘGI SIECI

JMK-CRM. System zarządzania przedsiębiorstwem.

System Kancelaris. Zdalny dostęp do danych

Kryteria ocen zajęcia komputerowe klasa 4

Czyszczenie i standaryzacja danych adresowych. Michał Słoniewicz, Biuro Informacji Kredytowej Warszawa, 19 kwietnia 2012 r.

System komputerowy. Sprzęt. System komputerowy. Oprogramowanie

Usługa archiwizacji danych w systemie Eureca. Marek Jelenik CONTROLLING SYSTEMS sp. z o.o.

Procedura Walidacyjna Interfejs

kompleksowe oprogramowanie do zarządzania procesem spawania

Emapa GeoMarketing. Opis produktu

Portal Personelu Medycznego Global Services Sp. z o.o.

Currenda EPO Instrukcja Konfiguracji. Wersja dokumentu: 1.3

RELACYJNE BAZY DANYCH

Problemy optymalizacji, rozbudowy i integracji systemu Edu wspomagającego e-nauczanie i e-uczenie się w PJWSTK

LAUREAT RANKINGU FIRM RODZINNYCH ROKU 2012 PROFESJONALNE ROZWIĄZANIA INFORMATYCZNE JMK-CRM. System zarządzania Kancelarią.

Instrukcja do panelu administracyjnego. do zarządzania kontem FTP WebAs.

Samokontrola postępów w nauce z wykorzystaniem Internetu. Wprowadzenie

Interfejs do potwierdzania produkcji w SAP ze skanerem ELZAB

Autorytatywne serwery DNS w technologii Anycast + IPv6 DNS NOVA. Dlaczego DNS jest tak ważny?

Audyt oprogramowania. Artur Sierszeń

Pojęcie systemu baz danych

Kampania FAX. Wybrane funkcjonalności: Definiowanie nagłówka. Personalizacja. Formaty PDF, Office i graficzne. Zapowiedź. Indywidualny numer telefonu

Instytut Technik Innowacyjnych Semantyczna integracja danych - metody, technologie, przykłady, wyzwania

Dotacje na innowacje - Inwestujemy w Waszą przyszłość ZAPYTANIE OFERTOWE

Opis systemu lojalnościowego e-lar bank.

Wykład 5. Cel wykładu. Korespondencja seryjna. WyŜsza Szkoła MenedŜerska w Legnicy. Informatyka w zarządzaniu Zarządzanie, zaoczne, sem.

HP Service Anywhere Uproszczenie zarządzania usługami IT

Propozycja standaryzacji usługi lokalizacji adresu

Integracja sklepu internetowego z serwisem aukcyjnym Swistak.pl

World Wide Web? rkijanka

Praca klienta biura rachunkowego na wspólnej bazie

Xpress Sp. z o.o. jako wieloletni Premium Partner firmy Xerox ma w swojej ofercie rozwiązanie

Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych

POLITYKA PRYWATNOŚCI

System automatycznego rozsyłania wiadomości

JMK-CRM. System zarządzania Kancelarią. Doskonały dla małych i średnich Kancelarii

Instrukcja szyfrowania poczty do ESKOM. na przykładzie wykorzystania narzędzia MS Outlook

Elektroniczny Urząd Podawczy

Początek formularza Dół formularza

POLITYKA PRYWATNOŚCI

Świadczenie usługi hurtowej wysyłki wiadomości SMS dla Urzędu Miasta Torunia w latach

Dokumentacja wstępna TIN. Rozproszone repozytorium oparte o WebDAV

1. Rodzaj przetwarzanych danych / linki do witryn zewnętrznych

Instrukcja do programu DoDPD 1.0

OpenOfficePL. Zestaw szablonów magazynowych. Instrukcja obsługi

Część 3 - Konfiguracja

Szpieg 2.0 Instrukcja użytkownika

WYMAGANIA EDUKACYJNE NA POSZCZEGÓLNE OCENY Z PRZEDMIOTU INFORMATYKA

REFERAT PRACY DYPLOMOWEJ Temat pracy: Projekt i realizacja serwisu ogłoszeń z inteligentną wyszukiwarką

Dokument opisuje sposób postępowania prowadzący do wysłania deklaracji VAT, PIT lub CIT drogą elektroniczną za pomocą funkcji systemu ADA modułu FK.

Android poradnik programisty

POLITYKA PRYWATNOŚCI

PLAN WYNIKOWY PROGRAMOWANIE APLIKACJI INTERNETOWYCH. KL IV TI 6 godziny tygodniowo (6x15 tygodni =90 godzin ),

POLITYKA PRYWATNOŚCI

System Wniosków DWZ AGH

Rejestracja bazy danych w GIODO. Poradnik dla administratorów sklepów w Chmurze Comarch

Spis treści. Dzień 1. I Wprowadzenie (wersja 0906) II Dostęp do danych bieżących specyfikacja OPC Data Access (wersja 0906) Kurs OPC S7

sms-api.pl Zastosowania SMS w rozwiązaniach biznesowych niezawodna bramka SMS

Systemy baz danych. mgr inż. Sylwia Glińska

Architektura TERYT GUS. EMUiA. EGiB. Pozostałe systemy ZSIN SZYNA USŁUG. EMUiA

Podstawowe zagadnienia z zakresu baz danych

EXSO-CORE - specyfikacja

AUTO- SYSTEM. Ted-Electronics, Skoczów,

Przedmiotem zamówienia jest dostawa:

INFRA. System Connector. Opis systemu

POLITYKA PRYWATNOŚCI

[1/15] Chmury w Internecie. Wady i zalety przechowywania plików w chmurze

Dotacje na innowacje - Inwestujemy w Waszą przyszłość ZAPYTANIE OFERTOWE

Założenia i zasada działania programów z rodziny ICHEM

Geoportal.gov.pl Przewodnik użytkownika Załącznik 1 Dokumentacja profilu GUGIK usługi OpenLS

TransKasa. Sieć Elektronicznych Terminali Płatniczych Banku BPH

Firmowe rachunki w Banku BPH można już integrować z systemami SAP w trybie On-Line!

POLITYKA PRYWATNOŚCI

Opis Potencjału Lokalizacji

Zarządzanie bazą danych

Instrukcja obsługi Zaplecza epk dla Pracowników Instytucji w zakresie administracji danymi instytucji

1. Proszę wejść na stronę: poczta.home.pl i zalogować się do nowej skrzynki za pomocą otrzymanych danych.

PROCEDURA ADMINISTROWANIA ORAZ USUWANIA AWARII I BŁĘDÓW W CSIZS

Śląski Urząd Wojewódzki w Katowicach. Podręcznik rejestracji użytkownika w systemie ISSM dla jednostek z województwa śląskiego

Hosting aplikacji on-line

Wybrane projekty Urzędu Marszałkowskiego Województwa Mazowieckiego w Warszawie Przedsięwzięcia zmierzające do harmonizacji baz danych przestrzennych

Instrukcja dodawania danych pojedynczej osoby, dla której ośrodek egzaminacyjny jest organizatorem egzaminu potwierdzającego kwalifikacje w zawodzie

produkować, promować i sprzedawać produkty, zarządzać i rozliczać przedsięwzięcia, oraz komunikować się wewnątrz organizacji.

ShopGold Integrator by CTI. Instrukcja

Komunikacja i wymiana danych

Internetowa Wymiana Dokumentów - aktywacja wymiany

OPIEKUN DORADCY: KONTO FIRMY - PIERWSZE KROKI

KLOS.NET.PL Ul. Odrowąża 29a Bielsko-Biała Tel: Auto System

Instrukcja sprawdzenia danych konta dyrektora ośrodka egzaminacyjnego (OE) oraz wyboru metod komunikacji

System Obsługi Wniosków

Oferta produktów i usług w zakresie monitorowania pojazdów firmy Monitoring Wielkopolski. Oferta handlowa.

Praca w programie dodawanie pisma.

Dlaczego outsourcing informatyczny? Jakie korzyści zapewnia outsourcing informatyczny? Pełny czy częściowy?

SEO.341-4/06 Gryfino, dnia 27 czerwca 2006r.

14 LISTOPADA Analizy GIS w biznesie Imagis S.A.

Transkrypt:

Higiena Danych Adresowych Rozwiązanie do poprawiania jakości adresowych baz danych normalizacja standaryzacja walidacja wzbogacanie

Higiena Danych Adresowych to podnoszenie jakości adresów w bazie danych Normalizacja Normalizacja adresu oznacza jego podział na pola składowe i obejmuje takie operacje jak: oddzielenie kodu pocztowego od nazwy miasta oddzielenie numeru ulicy od nazwy ulicy oddzielenie numeru lokalu od numeru budynku rozdzielenie ulic opisujących róg/skrzyżowanie oddzielenie dodatkowych informacji opisujących położenie Walidacja Walidacja to sprawdzenie poprawności i logicznej spójności całego adresu. Poszczególne części adresu mogą być poprawne, ale całość nie jest logicznie spójna. Przykład: 28-133 Stary Bógpomóż, ul. Gruszek i Jabłuszek 2 Kod pocztowy dla Pacanowa, miejscowość Stary Bógpomóż, ulica Gruszek i Jabłuszek występuję wyłącznie w miejscowości Wólka Kozodawska. Każdy z elementów oddzielnie jest prawidłowy, natomiast złączone w całość tworzą może przyjemny, ale na pewno nie poprawny adres. Standaryzacja Standaryzacja oznacza sprowadzenie różnych zapisów tej samej wartości do jednej postaci, zgodnej ze słownikiem. W przypadku adresów standaryzacja obejmuje: kody pocztowe nazwy miejscowości nazwy ulic (w oparciu o słownik ulic dla danej miejscowości) numer ulicy (np. 28B zamiast 28 b) Uzupełnianie braków i wzbogacanie Uzupełnianie braków najczęściej dotyczy tych danych, które mogą być odtworzone na podstawie pozostałych elementów: kodu pocztowego nazwy miejscowości Wzbogacanie to przypisywanie do adresu dodatkowych danych, które w adresie nie są niezbędne lub są danymi pochodnymi od adresu. Najczęściej adres jest wzbogacany o następujące dane: kod gminy wg rejestru TERYT symbol nazwy miejscowości wg rejestru TERYT symbol nazwy ulicy wg rejestru TERTYT współrzędne geograficzne (długość i szerokość geograficzna) adresu typ adresu (mieszkalny, biznesowy, mieszkalno-biznesowy) Strona 2 z 8

Web service Higiena Danych Adresowych Opracowaliśmy własne rozwiązanie do Higieny Danych Adresowych w trybie całkowicie automatycznym przy wykorzystaniu web services. oznaka niskiej jakości danych co robi usługa Higieny Danych przykład brak istotnych informacji (np. kodu pocztowego) błędy w zapisie nazw miejscowości lub/i nazw ulic wielowariantowość zapisu tego samego adresu niespójne kawałki informacji (kod pocztowy odnoszący się do innej miejscowości) zapisywanie kilku części adresu do jednego pola (braku normalizacji danych) brak dodatkowych informacji, które można uzyskać na podstawie adresu (np. brak nazwy gminy, w której leży dany adres) brak wykorzystywania ustalonego standardu zapisu adresu uzupełnia kod pocztowy koryguje błędy w nazwach miejscowości lub/i ulic sprowadza różne wersje zapisu do jednej postaci, zgodnej z ustalonym standardem usuwa niespójność poprzez zmianę niepoprawnej wartości dzieli adres na elementy składowe i pozwala je zapisać do osobnych pól dopisuje dodatkowe informacje związane z adresem, np. województwo, powiat, gminę czy współrzędne geograficzne wprowadza standard zapisu adresu. Standard w usłudze został opracowany przez DataWise. Elastyczność usługi pozwala na zwracanie nazw zarówno wg zapisu DataWise jak również wg zapisu wynikającego z bazy TERYT prowadzonej przez GUS kod miejscowość GTYNIA 81117 ulica UL. PLK DABKA 21 LOK. 27 (DOM KULTURY) kod pocztowy 81-107 miejscowość typ ulicy nazwa ulicy nazwa ulicy GUS Gdynia ul. nr budynku 21 nr lokalu 27 uwagi symbol ulicy wg GUS symbol miejscowości wg GUS Dąbka płk Stanisława Dąbka 03654 0934100 kod gminy wg GUS 2262011 współrzędna X 18.537090 współrzędna Y 54.507210 województwo powiat gmina typ gminy pomorskie Gdynia Gdynia gmina miejska Strona 3 z 8

Proponowane rozwiązanie W pełni automatyczna usługa Higieny Danych Adresowych działająca jako tzw. web service, dostępna na żądanie poprzez sieć informatyczną. Idea działania usługi jest prosta: do serwera wysyłany jest adres (dane wejściowe brudny adres) serwer wykonuje proces higieny danych w odpowiedzi serwer odsyła adres po procesie higieny danych (zwracane wyniki czysty adres) Strona 4 z 8

Co jest potrzebne, aby móc korzystać z serwera higieny danych Usługa działa jako web service, jest to powszechna technologia wymiany danych pomiędzy komputerami, nawet z różnych platform i systemów operacyjnych. Usługa jest dostępna w dwóch najpopularniejszych implementacjach: XMLRPC SOAP Korzystanie z usługi jest możliwe wszędzie tam, gdzie technologia (oprogramowanie) umożliwia łączenie się z web service. W praktyce możliwe jest nawet udostępnienie usługi dla baz danych napisanych w MS Access czy arkuszach kalkulacyjnych MS Excel, i oczywiście w językach programowania (PHP,.NET, VisualStudio, C, itp.); Cechy funkcjonalne rozwiązania działa w czasie rzeczywistym, co oznacza, że wyniki są zwracane w ciągu ułamka sekundy od otrzymania danych wejściowych jest dostępna non-stop, przez 24 godziny na dobę nie wymaga praktycznie żadnych nakładów na sprzęt (hardware) i oprogramowanie (software) możliwe jest zainstalowanie serwera usługi Higieny Danych Adresowych w firmie, co pozwala zwiększyć szybkość i oznacza brak wykorzystywania publicznej sieci Internet do komunikacji klient serwer (istotne np. w przypadku instytucji finansowych). Geokodowanie adresów do współrzędnych XY web service pozwala na opcjonalne geokodowanie adresów do współrzędnych XY Strona 5 z 8

Kiedy i dlaczego stosować Zastosowania Higiena Danych Adresowych znajduje zastosowanie w następujących obszarach: wprowadzanie nowych danych adresowych do bazy (różnego rodzaju formularze rejestracyjne) przy projektach, w których istnieje konieczność integracji różnych baz danych o przed wykonywaniem deduplikacji baz danych, aby zwiększyć skuteczność deduplikacji o przed wdrażaniem systemów ERP/CRM, aby do systemu były ładowane czyste dane, o wysokiej jakości podniesienie jakości adresów w już istniejących bazach danych gdy konieczne jest wykorzystywanie informacji o lokalizacji geograficznej (województwo, powiat, gmina, współrzędne geograficzne położenia adresu) aby pokazywać i analizować dane na mapach cyfrowych gdy konieczne jest wybieranie z bazy rekordów w jakiejś relacji do podanego adresu (np. identyfikacja najbliższych oddziałów banku dla podanego adresu) Korzyści ułatwione wyszukiwanie i identyfikowanie rekordów mniejsze ryzyko powstawania duplikatów w bazie danych ze względu na różne sposoby zapisu adresów może być punktem wyjścia do stworzenia jednolitego standardu zapisu danych adresowych w bazie pozwala na eliminowanie błędów na etapie wprowadzania danych z formularzy uzupełnienie brakujących danych oraz eliminacja błędów, co wprost przekłada się na mniejsze koszty (np. zredukowanie kosztów wysyłania korespondencji pod nieprawidłowe adresy) wzbogacenie adresu o dodatkowe dane (np. kod gminy czy współrzędne geograficzne) pozwala wykorzystać te dane do bardzo użytecznych analiz (np. pokazywanie liczby klientów w poszczególnych gminach) pozwala na łatwiejszą wymianę informacji pomiędzy różnymi bazami danych (pochodzącymi z różnych systemów) zgodność z oficjalnymi rejestrami GUS (TERYT) oraz integracja z kodami pocztowymi Poczty Polskiej Strona 6 z 8

Modele wykorzystywania usługi element dostęp do web service w czasie rzeczywistym usługa w trybie projektowym udostępniania środowiska produkcyjnego sposób dostarczania usługi Klient otrzymuje dostęp do web services. Korzystanie z web services odbywa się w czasie rzeczywistym, w momencie kiedy zaistnieje taka potrzeba po stronie Klienta. Klient przekazuje do DataWise dane w ustalonej postaci (zwykle plików tekstowych). DataWise wykonuje usługę na swoim środowisku produkcyjnym, a następnie zwraca dane w ustalonej postaci (także zwykle plików tekstowych). Procesowanie danych w środowisku produkcyjnym korzysta z tych samych web services. DataWise udostępnia Klientowi środowisko produkcyjne do wykonywania usługi. Środowisko produkcyjne może być umieszczone na serwerze DataWise (tzw. hostowanie środowiska) lub może być odtworzone na serwerach własnych Klienta (instalacja środowiska). DataWise przeprowadza szkolenie jak korzystać ze środowiska produkcyjnego. sposób rozliczania usługi Udostępniane konto ma przydzielony określony limit wywołań web service i określony czas na wykorzystanie limitu (zwykle 12 miesięcy). Rozliczanie jest bardzo podobne do tzw. pre-paid w telefonii komórkowej. Projekt jest indywidualnie wyceniany w zależności od ilości i zakresu danych. Projekt jest indywidualnie wyceniany w zależności od rodzaju udostępniania (hostowania vs instalacja środowiska). zalety wady możliwość integracji z systemami informatycznymi natychmiastowe wyniki (online) potrzeba pewnego nakładu pracy na konfigurację systemów informatycznych umożliwiającą łączenie się z naszymi web service minimalny nakład pracy ze strony klienta bardzo prosty do wykonania możliwość uwzględnienia dodatkowych, niestandardowych operacji do wykonania (np. własny sposób formatowania danych) nie zapewnia natychmiastowych rezultatów najdroższy sposób dostępu do usługi polecany sposób do cyklicznych operacji brak limitów co do liczby procesowanych rekordów wymaga zaangażowania osób ze strony Klienta (pracownik klienta obsługuje środowisko produkcyjne) Strona 7 z 8

Dodatkowe informacje w Internecie Dodatkowe informacje o rozwiązaniach DataWise do zarządzania jakością danych można znaleźć na stronie http://datawise.pl Na stronie można skorzystać z formularza pozwalającego na testowanie usługi online http://datawise.pl/demo/higiena-danych Dla użytkowników potrzebujących informacji technicznych, czy przykładów kodu aplikacji pokazujących jak korzystać z usługi przygotowano stronę internetową http://xmlrpc.higienadanych.pl Kontakt Krzysztof Pędzich GSM 0-501-725-574 email k.pedzich@datawise.pl Marek Turlejski GSM 0-501-099-698 email m.turlejski@datawise.pl Strona 8 z 8