PROBLEM JAKOŚCI DANYCH W HURTOWNIACH. Błaszczyk Katarzyna Knosala Ryszard



Podobne dokumenty
Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych. Metadane i czynniki jakości. BAZA METADANYCH. Centralna hurtownia danych. Metadane

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Hurtownie danych w praktyce

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

Paweł Gołębiewski. Softmaks.pl Sp. z o.o. ul. Kraszewskiego Bydgoszcz kontakt@softmaks.pl

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Technologia informacyjna

Monitoring procesów z wykorzystaniem systemu ADONIS

PROJEKT CZĘŚCIOWO FINANSOWANY PRZEZ UNIĘ EUROPEJSKĄ. Opis działania raportów w ClearQuest

Szczegółowy opis przedmiotu zamówienia

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

Normalizacja baz danych

Architektury i technologie integracji danych

Wprowadzenie do technologii Business Intelligence i hurtowni danych

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Wykład 5. Cel wykładu. Korespondencja seryjna. WyŜsza Szkoła MenedŜerska w Legnicy. Informatyka w zarządzaniu Zarządzanie, zaoczne, sem.

Wprowadzenie do metodologii modelowania systemów informacyjnych. Strategia (1) Strategia (2) Etapy Ŝycia systemu informacyjnego

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

PLAN ZARZĄDZANIA KONFIGURACJĄ OPROGRAMOWANIA PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

Systemy baz danych i hurtowni danych

Oprogramowanie dla biznesu Numer 11 (69) Listopad 2009 JAK SZYBKO I SKUTECZNIE ZAMKNĄĆ ROK?

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Procesy ETL. 10maja2009. Paweł Szołtysek

Hurtownie danych - przegląd technologii

Wykład I. Wprowadzenie do baz danych

EKSPLOATACJA SYSTEMÓW TECHNICZNYCH - LAB. Wprowadzenie do zajęć

Integracja systemów transakcyjnych

ANALIZA HIERARCHICZNA PROBLEMU W SZACOWANIU RYZYKA PROJEKTU INFORMATYCZNEGO METODĄ PUNKTOWĄ. Joanna Bryndza

ETL - wykład III. Zagadnienia do omówienia. Identyfikacja wymagań

OLAP i hurtownie danych c.d.

Rola analityki danych w transformacji cyfrowej firmy

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Bazy danych Access KWERENDY

Proces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,

Hurtownie danych. 31 stycznia 2017

Proces zarządzania danymi

Monitoring procesów z wykorzystaniem systemu ADONIS. Krok po kroku

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

WYDZIAŁ INFORMATYKI. Warszawa, Do wszystkich Wykonawców

bo od managera wymaga się perfekcji

Stawiamy na specjalizację. by CSB-System AG, Geilenkirchen Version 1.1

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012

Opis przedmiotu zamówienia

Platforma Cognos. Agata Tyma CMMS Department Marketing & Sales Specialist atyma@aiut.com.pl AIUT Sp. z o. o.

BIURO RACHUNKOWE FALCON

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania

POLITYKA BEZPIECZEŃSTWA w zakresie ochrony danych osobowych w ramach serwisu zgloszenia24.pl

Migracja XL Business Intelligence do wersji

Moduł mapowania danych

Pierwsze wdrożenie SAP BW w firmie

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

IMPLEMENTATION OF WDROŻENIE COMARCHW MINISTERSTWIE FINANSÓW SINDBAD RAPORTY ANALIZY BADANIA PROGNOZY CASE STUDY 1

Ewolucja technik modelowania hurtowni danych

Krajowy System Informatyczny SIMIK Tymczasowe procedury zgłaszania problemów/zmian/incydentów dot. naruszenia bezpieczeństwa informacyjnego.

Bazy danych. wprowadzenie teoretyczne. Piotr Prekurat 1

Kompleksowe zarządzanie jakością informacji Warunek konieczny efektywności wdrożenia systemów informacyjnych

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Część I Istota analizy biznesowej a Analysis Services

Tabele przestawne jako narzędzie analizy biznesowej

Fakty i mity procesu oceny oddziaływania na środowisko w projektach drogowych. Analiza wybranych zagadnień prowadząca do wypracowania dobrych praktyk

Na podstawie posiadanych przez Inspektorat dokumentów w odniesieniu do okresu październik 2008 do październik 2009, prosimy o odpowiedzi:

SZCZEGÓŁOWE OKREŚLENIE System zarządzania urządzeniami sieciowymi

Pojęcie bazy danych. Funkcje i możliwości.

Specjalizacja magisterska Bazy danych

Hurtownie danych a transakcyjne bazy danych

Acusera zarządzanie wynikami kontroli wewnątrzlaboratoryjnej

Instrukcja zmian w wersji Vincent Office

Deduplikacja danych. Zarządzanie jakością danych podstawowych

CRM VISION Instalacja i uŝytkowanie rozszerzenia do programu Mozilla Thunderbird

GEO-SYSTEM Sp. z o.o. GEO-RCiWN Rejestr Cen i Wartości Nieruchomości Podręcznik dla administratora systemu Warszawa 2007

Nadzór nad dostawcami wymagania standardu IRIS. Łukasz Paluch Warszawa 26 listopada 2009

Realizacja zasady integralności danych w zatrudnieniu zgodnie z podejściem PbD

PRZESTRZENNE BAZY DANYCH WYKŁAD 2

Modele bezpieczeństwa logicznego i ich implementacje w systemach informatycznych / Aneta Poniszewska-Marańda. Warszawa, 2013.

Rady i porady użytkowe

Spółdzielcza Baza Nieruchomości. Realizacja postanowień Rekomendacji J

PLAN ZARZĄDZANIA WYMAGANIAMI PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

Narzędzie informatyczne do modelowania, zarządzania i dokumentowania procesów systemu zarządzania jakością

Skuteczna Strategia CRM - wyzwanie dla organizacji. Artur Kowalski Prometriq

Program do obsługi ubezpieczeń minifort

Procesowa specyfikacja systemów IT

Asseco CCR Comprehensive Consolidated Reporting. asseco.pl

Rozumie istotę i znacznie procesów ekstrakcji, transformacji i ładowania danych (ETL), zna wybrany język ETL oraz odpowiednie narzędzia.

Procesy ETL - wykład V. Struktura. Wprowadzenie. 1. Wprowadzenie. 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków.

OPIS PRZEDMIOTU ZAMÓWIENIA

Transkrypt:

PROBLEM JAKOŚCI DANYCH W HURTOWNIACH Błaszczyk Katarzyna Knosala Ryszard Wprowadzenie WdraŜanie systemu hurtowni danych jest przedsięwzięciem długofalowym o strategicznym znaczeniu dla przedsiębiorstwa. Praktyka współczesnego zarządzania wskazuje na istnienie wielu problemów związanych z tym procesem. Jak wynika z badań projektu wraŝania hurtowni danych, przyczyną takiego stanu jest szereg elementów począwszy od błędnego zrozumienia potrzeb przedsiębiorstwa, zły dobór narzędzi i technologii, małą wydajność, po brak procedur uwzględnienia zmian i zagroŝeń systemu [Adel99, Wojt05]. Analitycy zidentyfikowali takŝe inny problem, który ma ogromny wpływ na jakość finalnego produktu - problem jakości gromadzonych i analizowanych w systemie danych. Czynnik ten, zarówno jak poprzednie, ujawnia ryzyko na etapie definicji potrzeb uŝytkowników, planowania oraz kontroli zmian, jednak jest często bagatelizowany. Jak sugeruje artykuł [Wang95] ilość błędów w bazach danych sięga 10 % wszystkich gromadzonych informacji. Przedsiębiorstwa rzadko kontrolują i prowadzą analizy jakości danych, wobec tego nawet nie zdają sobie sprawy z wagi problemu oraz z finansowych i społecznych strat z tym związanych. Przykładowo amerykańska firma pocztowa U.S. Postal Service (USPS) odnotowała w 2001 roku stratę 1,8 bilionów dolarów z powodu źle zaadresowanej

korespondencji błędnych lub przestarzałych danych [Smal06]. Inne doniesienia mówią o tym, Ŝe firmy produkcyjne tracą ponad 25% obrotu z powodu niedbałości tych praktyk - odsetek ten wzrasta do 40% w przypadku firm usługowych [Jark03]. Nieprawidłowe informacje powodują, iŝ tysiące reklam i korespondencji nie trafia do potencjalnych klientów. Zduplikowane rekordy, brakujące pola, niezrozumiałe dane czy błędnie wpisane informacje przyczyniają się do tego, iŝ decyzje podejmowane na podstawie zawartości hurtowni danych są często kwestionowane i muszą być weryfikowane przez praktykę gospodarczą. W ostatnim raporcie Gartner Group przepowiada, Ŝe około 50 % projektów hurtowni danych w 2007 roku skończą się niepowodzeniem właśnie z powodu braku staranności w tworzeniu standardów jakości danych [Beal05]. Definicja jakości danych w hurtowni Poszukując przyczyn oraz moŝliwości projektowania i budowy hurtowni danych spełniającej kryteria jakości, naleŝałoby najpierw sprecyzować to pojęcie. Według [Stec05] jakość danych naleŝy rozumieć jako kwalifikację poprawności danych, ale takŝe ich przydatności. Jakość wobec tego powoduje, iŝ dane dla uŝytkownika zaczynają nabierać pewniej wartości utylitarnej. Jak moŝna więc zauwaŝyć, pojęcie to jest subiektywne, zaleŝne od punktu widzenia zainteresowanych grup. Dlatego teŝ definiując cechy jakości danych nie naleŝy zapomnieć o ich przeznaczeniu.

PoniŜej zostaną określone wymiary jakości danych dla trzech kluczowych uŝytkowników systemu: programisty, administratora i końcowego uŝytkownika - decydenta. KaŜdy z tych osób odgrywa inną rolę w procesie projektowania i uŝytkowania systemu, wobec tego ich wymagania odnośnie kryteriów jakości będą się nieco róŝniły między sobą. JAKOŚĆ W ŚWIETLE PROJEKTOWANIA I ADMINISTRACJI Jakość schematu Dostępność Poprawność Kompletność Bezpieczeństwo Dyspozycyjność transakcyjna Spójność Brak redundancji Weryfikowalność Dyspozycyjność systemowa Uwzględnienie zmian metadanych Interpretowalność Interaktywność Wiarygodność Aktualność Ulotność Dokładność Interpretowalność Zgodność czasowa UŜyteczność JAKOŚĆ W ŚWIETLE UśYTKOWANIA DANYCH Rys 1. Model jakości danych z uwzględnieniem grup uŝytkowników Źródło: opracowanie własne na podstawie [Jark03]

Jakość w świetle projektowania i administracji Jakość w świetle projektowania i administracji jest związana z rolą projektanta, programisty i administratora hurtowni danych. Projektant systemu, jak i programista są zainteresowani mierzeniem jakości schematów hurtowni danych (nowo tworzonych lub juŝ istniejących) oraz jakości metadanych. Etap tworzenia systemu ze względu na konieczność zaprojektowania i wdroŝenia elementów procesu ETL jest stosunkowo trudny, jednakŝe ma jednak największy wpływ na jakość końcową danych systemu. Administrator hurtowi danych jest natomiast zainteresowany raportowaniem błędów, dostępem do metadanych oraz sprawdzaniem ich aktualności. Wysoka jakość schematów danych i metadanych umieszczonych w tej strukturze jest zatem celem działania tego uŝytkownika systemu. Na jakość w świetle projektowania i administracji składają się dwa główne wymiary: jakość schematu i uwzględnienie zmian metadanych [Jark03]. Jakość schematu określa zdolność modelu (struktury) do przechowywania informacji pozwalającej na dokładne opisanie istniejącej sytuacji rzeczywistej. Składa się ona z szeregu wymiarów odzwierciedlających jej pełną funkcjonalność [Wojt05, Jark03]: poprawność (validation) stanowi właściwe zrozumienie obiektów świata rzeczywistego, właściwe zrozumienie wymagań uŝytkowników, poprawne schematy źródeł oraz uzasadnione obliczenia i agregacje w systemie,

kompletność (completeness) stopień kompleksowego ujęcia niezbędnej wiedzy w strukturach hurtowni danych oraz systemach źródłowych, uzupełnienie brakujących rekordów i pól, spójność (consistency) oznacza ujednolicenie i integrację przechowywanych w systemie informacji - zgodność czasową oraz zgodność danych na poziomie atomowym, brak redundancji (reduction of recurrence) stopień usunięcia pokrywających się informacji gromadzonych w systemie, weryfikowalność (traceability) oznacza iŝ, wszelkie wymagania uŝytkowników końcowych, projektantów i administratorów powinny być moŝliwe do wyśledzenia w schemacie hurtowni danych, interpretowalność (interpretability) stanowi właściwe opisanie składników struktury, co pozytywnie wpływa na łatwość administrowania i uŝywania systemu. Kolejnym elementem oddziaływującym na jakość projektowania i administracji hurtownią danych jest uwzględnienie zmian metadanych. Jak wiadomo, zarówno źródła danych jak i wymagania w stosunku do systemu ulegają ewolucji w czasie. Niezbędne jest wobec tego odzwierciedlenie tych zmian w strukturze metadanych systemu [Jark03]. Jakość w świetle uŝytkowania danych Celem tworzenia hurtowni danych jest umoŝliwienie złoŝonej analizy danych, w taki sposób, aby moŝna było najefektywniej wydobyć, interesujące z punktu widzenia uŝytkownika, informacje. ToteŜ podstawą funkcją systemu jest wykorzystywanie danych w procesie przetwarzania zapy-

tań oraz ukazywanie wyników. UŜytkownik końcowy natomiast wymaga od systemu, aby informacje jakie uzyskał były jak najlepszej jakości tj. uŝyteczne i zgodne czasowo a wyniki analiz, tworzone za pomocą narzędzi OLAP, były generowane szybko, w postaci czytelnej i zrozumiałej. Jednym z głównych wymiarów jakości w świetle uŝytkowania danych jest dostępność (accessibility). Oznacza ona moŝliwość dostępu do danych za pomocą kierowanych do bazy zapytań. Następujące kryteria pozwolą dokładniej opisać ten składnik jakości [Jark03]: bezpieczeństwo (security) ograniczenie dostępu do informacji (autoryzacja) z uwagi na rolę i wymagania uŝytkowników, dyspozycyjność transakcyjna (transactional availaibility) procent czasu w jakim zgromadzone dane w systemie są dostępne dla uŝytkownika, dyspozycyjność systemu (system availability) procent czasu w jakim system hurtowni danych jest dostępny dla uŝytkownika. Innym, waŝnym dla decydenta, wymiarem jakości jest uŝyteczność (usefulness) - stopień poŝyteczności i funkcjonalności uzyskiwanych informacji. Kryteriami związanymi z tym wymiarem są: interaktywność (interactivity) moŝliwość nawiązania łatwej komunikacji między systemem a uŝytkownikiem, uzyskiwanie dodatkowych informacji np. o czasie odpowiedzi na zapytania, interpretowalność (interpretability) stopień zrozumienia informacji będących wynikami oraz moŝliwość ich analizy pod kątem odzwierciedlenia w rzeczywistości,

wiarygodność (credibility) przekonanie o prawidłowości otrzymanych wyników, dokładność (accurancy) zgodność wartości przechowywanych z wartościami rzeczywistymi. Ostatnim wymiarem jakości w świetle uŝytkowania danych jest ich zgodność czasowa (timelines). Wymiar czasu jest podstawowym elementem w hurtowni danych. Dzięki niemu jest moŝliwe otrzymanie historii podmiotu oraz analiz z uwzględnieniem róŝnych przedziałów czasowych. JednakŜe, aby otrzymywane dane były wiarygodne, niezbędne staje się restrykcyjne przestrzeganie aktualności (currency) gromadzonych w systemie informacji. Za aktualność w tym wypadku określa się róŝnicę pomiędzy datą zmiany stanu rzeczywistego a datą odnotowaną w źródle danych, bądź hurtowni danych. Wobec tego dane w hurtowni nie są moŝe najświeŝsze, ale aktualne na dany moment czasu. W stosunku do specyficznych przeznaczeń systemu (bank, giełda papierów wartościowych) wyznacznikiem jakości moŝe takŝe stać się aktualność zrozumiana jako stopień świeŝości danych - róŝnica pomiędzy czasem zmiany stanu rzeczywistego a czasem odnotowania tej zmiany w systemie. Wymiar ulotność (volatility) natomiast oznacza okres, w jakim dane pozostają aktualne w świecie rzeczywistym (rocznie dezaktualizuje się ok. 36 % danych) [Jark03]. Omówiony powyŝej model jakości danych w hurtowni jest zamieszczony na rysunku 1. Jak moŝna zauwaŝyć, kaŝdy z wymiarów jakości stanowi pojedynczą cząstkę (puzzel) całości modelu. Dopiero zapewnienie przez system, w sposób spójny i konsekwentny, jakości wszystkich wymiarów wpływa na końcową jakość danych produktu.

Rozwiązania w dziedzinie jakości danych w hurtowniach Analizując sposoby rozwiązania problemu jakości danych w hurtowni, naleŝy wziąć pod uwagę poszczególne etapy tworzenia i uŝytkowania systemu. Niektóre z nich mają bowiem wyjątkowy wpływ na efekt końcowy produktu. Jak juŝ zostało wspomniane, takimi etapami są (por. [Jark03]): budowa schematu logicznego hurtowni danych, ekstrakcja, transformacja i ładowanie danych do hurtowni. Właściwe zaprojektowanie schematu logicznego hurtowni danych decyduje o poprawności, kompletności oraz znacznej spójności i integracji danych pochodzących z wielu źródeł. Jeśli podczas opracowania struktury modelu nie uwzględniono wszystkich wymaganych zasad integralności, dane gromadzone będą niepełne, błędne, bądź teŝ nadmiarowe. Projektant, w celu uskutecznienia swojej pracy, moŝe wykorzystać narzędzia dotyczące modelowania danych, projektowania baz danych, integracji schematów, zarządzania metadanymi, inŝynierii odwrotnej danych oraz narzędzia CASE [Jark03]. Ponadto na jakość danych w hurtowni wpływa w głównej mierze jakość danych pochodzących ze źródeł. Błędne informacje w bazach transakcyjnych mogą spowodować brak poprawności danych w systemie, a co za tym idzie niewiarygodne analizy. Dlatego teŝ, tak waŝnym elementem w procesie tworzenia i uŝytkowania systemu jest mechanizm ładowania i aktualizacji danych (ETL). Na tym etapie naleŝy zaprojektować i wdrąŝyć szereg procesów usprawniających poprawianie i utrzymanie jakości danych (rys. 2).

MONITOROWANIE EKSTRAKCJA TRANSFORMACJA I ŁADOWANIE Konsolidacja Łączenie przygotowanych danych w celu otrzymania unikalnych informacji Dostosowanie Identyfikacja powtórzeń rekordów z wielu źródłach danych, tworzenie unikalnych kluczy integracyjności Łączenie danych Uzupełnianie Raport Dostarczanie raportów z procesu poprawiania jakości danych Dopisywanie dodatkowych informacji do danych w celu podniesienia ich wartości DANE Pomiar Korekta Ocena danych Pomiar ilości i identyfikacja typów danych Analiza Ocena natury danych, analiza błędów i ich przyczyn Strukturyzacja Identyfikacja danych i odzwierciedlenie informacji w postaci struktur Standaryzacja Normalizacja wartości i formatu danych Weryfikacja, kasowanie lub uzupełnianie danych według określonego algorytmu Uszlachetnianie danych Czyszczenie danych TRANSFORMACJA Rys 2. Etapy poprawiania jakości danych w mechanizmach ETL Źródło: opracowanie własne na podstawie [Busi06, Data06] Dla dokładnej analizy (czyszczenia) danych źródłowych, w przypadku małej liczby informacji, często wystarcza znajomość filtrowania danych (np. język SQL) i ich przetwarzania (np. przy pomocy programów analitycznych, statystycznych, czy nawet arkuszy kalkulacyjnych) [Stec05]. Przykładowo rysunek 3 przedstawia prostą aplikację napisaną dla Energii Pro przy pomocy języka VBA (makro programu Excel), który umoŝliwia

oczyszczenie, zebranie i integracje danych dotyczących stanów licznikowych oraz zapisanie ich w postaci wynikowych plików tekstowych. Pliki te mogą być juŝ bezpośrednio załadowane do bazy hurtowni danych. Rys 3. Program VBA oczyszczający i integrujący dane stanów licznikowych Źródło: opracowanie własne W przypadku wielkich przedsiębiorstw wymagane będzie zastosowanie specjalnych narzędzi. Na tym etapie rozwiązaniem problemu moŝe być zapora jakości danych (data quality firewall) [Beal05]. Zapora jakości danych działa podobnie jak zapora sieciowa (firewall): potrafi filtrować pakiety przesyłanych przez nią danych a takŝe w ramach moŝliwości

potrafi je czyścić. Narzędzie to jest umiejscowione pomiędzy źródłami danych i strukturą hurtowni współpracując z procesami ekstrakcji, transformacji i ładowania. Problemem pojawiającym się tutaj jest sprzęŝenie zwrotne. Jak juŝ zostało podkreślone, często problem jakości danych wynika bezpośrednio ze błędnych danych gromadzonych w bazach transakcyjnych. Wobec tego, jednym z rozwiązań problemu byłoby, po zidentyfikowaniu błędów przez zaporę, poinformowanie baz transakcyjnych i poprawienie informacji u samych źródeł. JednakŜe administratorzy baz danych są często nie zainteresowani tymi praktykami, z uwagi na brak potrzeby na precyzyjne dane i tworzenie historii [Stec05]. Obecnie dostępne na rynku narzędzia pozwalające na ocenę, czyszczenie i uzupełnianie danych to m.in. QualityStage (Ascential Software), Trillium Software i First Logic. Te programy pomogą w wykryciu i automatycznej naprawie wielu głównych formatów danych, np. słownictwa, typowych imion i adresów (uŝywając wielojęzykowego słownika imion i adresów), formatu daty, kodów pocztowych, adresów mailowych, telefonów. Pozwalają na usunięcie powtarzających się danych, błędów oraz niedokładności [Tril06]. Dla pewnego rodzaju brudnych danych automatyczne sprawdzanie jest dobrym rozwiązaniem, ale pełne naprawianie danych jest niemoŝliwe. Dla przykładu, aby automatycznie sprawdzić wiek osoby moŝna ustawić, Ŝe wiek musi zawierać się w przedziale od 18 do 65. Gwarantuje to tylko naprawianie nietypowych wartości. JednakŜe, jeŝeli ktoś pomyli się i wpisze do systemu 45 (zamiast 54 lat), tego program juŝ nie jest w stanie wychwycić.

Podsumowanie KaŜdego roku, przedsiębiorstwa wydają biliony dolarów wdraŝając systemy oparte na hurtowniach danych (CRM, ERP). Raporty donoszą, iŝ duŝy odsetek projektów kończy się fiaskiem albo przekracza swoje budŝety o 65-75% właśnie z powodu nie wystarczającej jakości gromadzonych danych. W obecnym wieku informacji problem ten będzie miał coraz większe znaczenie. Im szybciej przedsiębiorstwa włączą procesy słuŝące zapewnieniu dobrej jakości informacji do operacyjnych i strategicznych działań biznesowych firmy, tym będą miały większą moŝliwość konkurencyjnego działania poprzez zwiększenie swojej efektywności. NaleŜy jednakŝe podkreślić, iŝ jakość danych powinna być postrzegana całościowo, jako zespół wszystkich wymiarów jakości informacji i metadanych. Natomiast mechanizmy kontroli jakości winny obejmować kompleksowe działania, zarówno w sferze projektowania jak i pierwszego zasilania i kaŝdorazowej aktualizacji hurtowni danych. Nie naleŝy takŝe zapominać o jakości danych gromadzonych w bazach transakcyjnych i innych źródłach informacji. Literatura [Adel99] [Wojt05] [Smal06] Adelman S., Moss L.: Indicators for Success: Data Warehouse Critical Success Factors and Measuring Results, Part 2, DM Direct Newsletter, 1999. Wojtachnik R.: Problemy we wdraŝaniu hurtowni danych, Gazeta IT nr 9 (39), 19 październik 2005. Smalltree H.: Postal service delivers data quality, SearchDataManagement.com, 25 styczeń 2006.

[Beal05] [Wang95] Beal B.: Half of data warehouse projects to fail, SearchCRM.com, 09 marzec 2005. Wang R. Y., Reddy M. P., Kon H. B. : Towards quality data: An attribute-based approach, Decision Support Systems, 13 (3/4), 1995. [Jark03] Jarke M., Lenzerini M., Vassiliou Y.,Vassiliadis [Stec05] [Busi06] [Data06] [Tril06] P.:Hurtownie danych. Podstawy organizacji i funkcjonowania, WSiP, Warszawa, 2003. Stecyk A.: Jakość i integralność informacji w hurtowniach danych, Gazeta IT nr 9 (39), 19 październik 2005. Business Objects: http://www.firstlogic.com/dataquality/default.asp. DataFlux, a SAS Company: http://www.dataflux.com/data-management/index.asp. Harte Hanks Trillium Software: http://www.trilliumsoftware.com/site/content/index.asp. Mgr inŝ. Katarzyna Błaszczyk Prof. dr hab. iŝ. Ryszard Knosala Instytut InŜynierii Produkcji Politechnika Opolska 45-370 Opole, ul. Ozimska 75 tel.: (0-77) 423-40-35 e-mail: blaszczyk@po.opole.pl knosala@po.opole.pl