Ekonomia danych o ich ciągłym przyroście i malejącej wartości$ Waldemar Jackiewicz!
Obserwacje rynku wskazują, że przyrost danych składowanych w sytemach jest praktycznie poza kontrolą, zmienia się też forma składowanych danych, największy wzrost wolumenu to dane składowane poza bazami danych.$
Warość informacji maleje wraz z upływem czasu jednak koszty utrzymywania danych i ryzyka z nim związane pozostają na zbliżonym poziomie.$ Zachować 25 % - wartość biznesowa Risk Cost Risk- to- Value Gap Zachować 1% - wymogi prawne 5% - wymogi regulatora Value Cost- to- Value Gap Pozostałe 69% %s based on CGOC Summit 2012 Survey 1 Source: Big data: The next frontier for innovation, competition, and productivity McKinsey & Company, 2011 Study 2 CGOC 2012 Summit Survey 3 Gartner e-discovery Report Około 70% danych w produkcyjnych bazach danych jest bardzo rzadko lub w ogóle nie wykorzystywanych Gartner
W przypadku relacyjnych baz wraz ze wzrostem wolumenu danych obserwujemy symptomy świądczące o problemach wydajnościowych.$ Zbyt wolne działanie aplikacji:# Problemy z dotrzymaniem umów SLA! Rosnące niezadowolenie użytkowników i klientów! Wydajność Tworzenie kopii zapasowych (backup) trwa bardzo długo# Przetwarzanie wsadowe wykracza poza wydzielone okna czasowe# Coraz trudniejsze utrzymanie systemu# Rosną koszty - ciągłe inwestycje w dyski i procesory# Możliwości sprzętowe Rozmiar bazy danych
Obawy przed archiwizacją są odzwierciedleniem tego jak technologiczną złożoność zagadnienia postrzega zespół IT.$ Cztery perspektywy archiwizacji Wymagany czas $ przechowywania$ Technologia dostępu $ oprogramowanie$ Technologia składowania $ sprzęt i oprogramowanie$ Różne rodzaje danych$ Relacyjne i pozostałe$
Wymagania prawne regulują w Polsce czas przechowywania dokumentacji dla poszczególnych rodzajów dokumentacji i branż.$ Księgowość - księgi rachunkowe # karty wynagrodzeń pracowników [...] wynikający z przepisów emerytalnych, rentowych i podatkowych# dowody księgowe dotyczące środków trwałych w budowie, pożyczek, kredytów oraz umów handlowych, roszczeń dochodzonych w postępowaniu cywilnym lub objętych postępowaniem karnym albo podatkowym # [...] których wartość początkowa przekracza 15.000 zł - w przypadku gdy podatnik rozlicza VAT według ustalonej struktury - # Przechowywanie dokumentacji medycznej$ dokumentacji medycznej w przypadku zgonu pacjenta na skutek uszkodzenia ciała lub zatrucia, która jest przechowywana # dokumentacji medycznej dotyczącej dzieci do ukończenia drugiego roku życia, która jest przechowywana # Dokumentacja bankowa$ $ - Dokumentację pracowniczą, w tym dotyczącą okresów zatrudnienia i wynagrodzenia za pracę [...]# Dokumenty rozliczeniowe ZUS$ 5 lat$ nie krócej jednak niż 5 lat$ przez 5 lat od początku roku następującego po roku obrotowym, w którym operacje, transakcje i postępowanie zostały ostatecznie zakończone, spłacone, rozliczone lub przedawnione...czyli nawet ponad 40 lat$ przez 10 lat # przez okres 20 lat licząc od końca roku kalendarzowego, w którym dokonano ostatniego wpisu# przez okres 30 lat # # przez okres 22 lat$ [...] zobowiązania, a w przypadku, o którym mowa w ust. 4, przez okres 12 lat od dnia wygaśnięcia zobowiązania.# przechowuje się przez 50 lat od zakończenia przez ubezpieczonego pracy u danego płatnika. # deklaracje i raporty przez 10 lat od daty przesłania ich do ZUS# http://www.nfz-lodz.pl/index.php/dlapacjentow/jak-sie-leczyc/1423-dokumentacja-medyczna http://www.gofin.pl/17,1,85,159214,terminy-przechowywania-dokumentacji-rachunkowej.html http://poradnik.wfirma.pl/-obowiazek-przechowywania-dokumentacji-firmowej0 http://www.nbp.pl/akty_prawne/prawo_bankowe/prawo_bankowe.pdf
Technologia się zmienia w sposób ciągły, czy będziemy w stanie w przyszłości uzyskać dostęp do informacji zapisanych w przeszłości?$ Napędy taśm Przeglądarka Server aplikacyjny / java Wersja javy Baza danych Wiedza o aplikacji i procesach Sterowniki Sterowniki Uprawnienia / hasła / licencje System operacyjny System operacyjny Konfiguracja ESB / adresacja IP - 5? - 10 lat? - 20 lat później?
Przykład - jak zieniały się nośniki i mechanizmy odczytu$ źródło: http://www.disc-group.com/technology/blu-ray-technology/
Przykład - jak zmieniały się systemy operacyjne$ Windows 1 (1985) CGA/ EGA Nakładka na DOS RAM do 640 KB Windows 3.0 (1990) VGA Pamięć wirtualna Windows 3.1 XVGA RAM do 16MB CD-ROM Windows NT (1990) 32-bity Wielozadaniowość System NTFS Windows 95 Rejestr systemowy Windows 98 USB System FAT32 Windows 2000 Zdalny pulpit Windows XP Nowy kod Wi-fi 64 bity źródło: http://commons.wikimedia.org/wiki/file:windows_family.png
Archiwizacja kontra Kopie zapasowe (backup)$ cel! Kopie zapasowe (backup)$ Wykorzystywane w celu operacyjnego przywracania systemów# Archiwa$ Tworzone zgodnie z korporacyjną polityką zachowywania danych i obowiązującymi regulacjami prawnymi. Wykorzystywane do raportowania, analizy, porównań.# czas! Przechowywane przez kilka kilkanaście tygodni# Przechowywane przez kilka kilkanaście i więcej lat# zakres! dostęp!!! Obejmuje całość struktury bazy danych (dane podstawowe, dane pomocnicze, metadane - tabele, agregaty, widoki, procedury). Większe pliki.# Dostęp do danych po przywróceniu / odtworzeniu całości kopii. Dostęp do struktur logicznych poprzez aplikację źródłową. Uzależniony od wersji bazy / aplikacji. # Obejmuje całość lub zdefiniowany fragment danych dane podstawowe odzwierciedlające obiekty informacyjne, bez struktur pomocniczych, obliczeniowych. Mniejsze pliki.# Dostęp do wybranych lub wszystkich danych w archiwum (wyszukiwanie, raportowanie), odtwarzanie całości archiwum lub wybranych danych. Dostęp do struktur logicznych z dowolnej aplikacji. Niezależny od wersji bazy / aplikacji.# #
Obiekty biznesowe często wykraczają poza zakres jednego systemu transakcyjnego obejmując zasięgiem dane w środowisku heterogenicznym baz danych i aplikacji$ Transakcja Klienta Widok biznesowy Kompletny obiekt obejmujący informacje z całego procesu biznesowego Widok DBA Podzbiór danych połączonych referencjami w różnych tabelach i aplikacjach z uwzględnieniem metadanych i słowników. CRM lub baza Oracle Custom Inventory Mgmt na DB2 ERP ERP / / Finanse na na DB2 DB2 Federacyjny dostęp do obiektów biznesowych w ramach całej organizacji
Archiwizacja pełnego obiektu biznesowego zachowuje relacje między danymi i przechowuje struktury modelu danych umożliwiające elastyczny dostęp do danych$ Bazy produkcyjne Pliki archiwalne Customer Number Customer Name 8675309 John Smith 5025202 Jane Jones Order Number Product Customer Number Customer Name Customer Number Order Amount CRM / Oracle Unix 50505 Product A 306959 Product B Customer Number Order Amount Zamówienia POS / DB2 na z/ OS Archiwizacja Order Number Product 8675309 $1,056 5025202 $5,690 Konta ksiegowe / DB2 Linux
Metody dostępu do danych w archiwum powinny być tak dobrane, aby jak najbardziej uniezależnić się od ograniczeń technologiczych w przyszłości. $ Dostęp do archiwum poprzez ODBC\JDBC z obecnej aplikacji Typowe formy zapytań w SQL do archiwum Poprzez narzędzia raportujące jak IBM Cognos..nawet aplikacje takie jak Microsoft Excel lub OpenOffice
IBM Optim - jedno, skalowalne, wieloplatformowe rozwiązanie do zautomatyzowanego zarządzania danymi przedsiębiorstwa w oparciu o zestawy reguł, klasyfikacje i wartość danych. Przykłady poprawy wydajności dzięki archiwizacji* 50% redukcja niedostępności systemu w wyniku przedłużonego przetwarzania Skrócenie o 43% czasu potrzebnego na przywrócenie kopii zapasowej 48% redukcja czasu potrzebnego na konwersję bazy danych podczas uaktualniania aplikacji 62% wzrostu wydajności przetwarzania aplikacji mierzonego poprzez zdefiniowany KPI (ilość transakcji / jednostka czasu) * typowe korzyści przy zastosowaniu IBM Optim
Dane wymagających archiwizacji i składowane poza bazami danych mogą być archiwizowane za pomocą narzędzi IBM ediscovery Identification and Collection Konsole operatora Zawartość konsoli dostosowana do Przypadków Użycia Pakiet rozwiązań Ekspert branżowy DATA MIGRATION INTELLIGENT EDISCOVERY DATA CLEAN-UP COMPLIANCE AUDIT RECORDS RETENTION Mapowanie danych Redukcja ryzyka Migracja do chmury Optymalizacja dysków Litigant Data Profiling Early Data Assessment Custodian Collections Review App Integration Data Topology Map ROT Analysis Defensible Deletion Timed Destruction Corporate & Regulatory Audit Status Compliance Enforcement Data Retention Data Topology Map Record Categorization Retention Platform Integration Filtry dla Przypadków Użycia, Definicja akcji, Praca na zbiorach obiektów Analityk danych DATAIQ Identyfikacja, Analiza i Wykonanie INTELIGENTNE WSPARCIE Ekspert IT PLATFORMA BIG DATA Archiwa EC Taśmy Serwery M plików Serwery Email Stacje robocze SharePoint i środowiska do współpracy Cloud Sieci społeczno ścio-we Media 16
Przykład typowego procesu porządkowania danych nie relacyjnych z wykorzystaniem narzędzia ediscovery Identyfikacja Filtrowanie Przenoszenie Źródła Danych 200 TB Odszukanie danych, zrozumienie i określenie wartości biznesowej ECM Email SharePoint Desktop/Laptop Cloud Archiwum NAS/SAN.. Kategoryzacja danych zależnie od celu i czasu składowania Utrzymać względy prawne Do archiwizacji Dane nieistotne biznesowo Do celów raportowych Automatyczne lub kontrolowane akcje Kasowania przenoszenia Archiwum Usunięte Dane około 69% ------------- Pozostało 62 TB Proces porządkowania danych Wynik Kompletny log z procesu porządkowania danych, plików, nagrań Osiągnięty poziom redukcji danych 69%
Faza identyfikacji danych w sieci korporacyjnej może zostać zautomatyzowany i dostosowany do specyficznych potrzeb organizacji$
Faza klasyfikacji danych wspierany jest narzędziami umożliwiającymi lepsze zrozumienie aspektów ilościowych i jakościowych$
Faza przenoszenia danych kończy proces porządkowania informacji niestrukturalnych w organizacji$
Budować taki system od podstaw, czy wykorzystać gotowy? $ Co należy brać pod uwagę pisząc autorski system archiwizacji: Narzędzie o śladowej (jedynie podstawowej) użyteczności jeśli wytworzone od podstaw:$ Czy jest dość elastyczne aby zrealizować wszystkie oczekiwane i wymagane scenariusze?# Czy jest re-używalne w przypadku innych źródeł danych?# Czy jest skalowalne dla różnych rodzajów baz danych i systemów operacyjnych?# Czy można zastosować dla różnych departamentów, aplikacji i baz danych?# Koszt prac związanych w wytworzenia produktu$ Wykonanie oprogramowania nie związanego z rzeczywistą działalnością biznesową# Pionierskie prace od podstaw bez doświadczeń w tym zakresie# Koszt utrzymania i modyfikacji oprogramowania$ Dodawanie funkcji, których zabrakło we wcześniejszych wersjach# Szkolenie osób z zakresu autorskich skryptów i metod kodowania# Zarządzanie zmieniającym się modelem danych# # Czas potrzebny do uruchomienia produkcyjnego stabilnej wersji$ Skrypty i programy pisane od podstaw# Konieczność nadania priorytetów funkcjom do wdrożenia w kolejnych wersjach# Zagrożenie, że projekt stanie się Czarną dziurą w zakresie kosztów utrzymania i rozwoju#