Oracle Universal Content Management jako środowisko do przechowywania i metaopisu surogatów



Podobne dokumenty
METADANE DLA OBIEKTÓW KULTURY [METADATA FOR CULTURAL OBJECTS]

Katalog dobrych praktyk digitalizacyjnych dla obiektów bibliotecznych

Biblioteki cyfrowe i ich kolekcje

Wykorzystanie regionalnej biblioteki cyfrowej do tworzenia repozytorium instytucjonalnego

Tomasz Grześ. Systemy zarządzania treścią

Wykład I. Wprowadzenie do baz danych

Warunki przekazywania obiektów cyfrowych do Biblioteki Narodowej. Zawartość cyfrowa

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi

Raportów o Stanie Kultury

Standardy digitalizacji i repozytoria cyfrowe

Projekt współfinansowany ze środków Europejskiego Funduszu Rozwoju Regionalnego w ramach Programu Operacyjnego Innowacyjna Gospodarka

Długoterminowe przechowywanie danych cyfrowych

Projekt dotyczy stworzenia zintegrowanego, modularnego systemu informatycznego wspomagającego zarządzanie pracownikami i projektami w firmie

EXSO-CORE - specyfikacja

Kartografia multimedialna krótki opis projektu. Paweł J. Kowalski

Opis standardów przekazywania obiektów zdigitalizowanych oraz informacji towarzyszących.

OfficeObjects e-forms

zeskanowania publikacji artykułów cyfrowej

Czy (centralne) katalogi biblioteczne są jeszcze potrzebne? OPAC w infotopii. Dr hab. Marek Nahotko, ISI UJ

PDM wbudowany w Solid Edge

UDOSTĘPNIENIE ZBIORÓW MUZEALNYCH ZAMKU KRÓLEWSKIEGO W WARSZAWIE MUZEUM

3.1. Na dobry początek

Rozwój polskich bibliotek cyfrowych. Tomasz Parkoła Poznańskie Centrum Superkomputerowo-Sieciowe

Iv. Kreatywne. z mediów

OPIS PRZEDMIOTU ZAMÓWIENIA

KOPAL SYSTEM DŁUGOTERMINOWEJ ARCHIWIZACJI CYFROWEGO DZIEDZICTWA NAUKI I KULTURY. VI Warsztaty Biblioteki Cyfrowe Poznań 2009 r.

TWÓJ BIZNES. Nasz Obieg Dokumentów

Wyzwania techniczne związane z prezentacją dziedzictwa kulturowego w Internecie

Narzędzia umożliwiające tworzenie scentralizowanej polityki prowadzenia backupów. Paweł Płoskonka IS2, P2

Dokumenty online model opracowania, udostępniania, archiwizacji. egzemplarza obowiązkowego w Jagiellońskiej Bibliotece Cyfrowej

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

Podstawowe zagadnienia z zakresu baz danych

STRATEGIA DIGITALIZACJI RAZEM CZY OSOBNO?

Internetowa sieć laboratoriów fotograficznych

Projekt Cyfrowe Repozytorium Dokumentów CREDO

Instrukcja użytkownika

ABC archiwum cyfrowego Czyli jak zapanować nad dokumentami w firmie. Dawid Żądłowski 2017

Comarch EDM System zarządzania elektroniczną dokumentacją medyczną.

PLAN REALIZACJI MATERIAŁU NAUCZANIA Z INFORMATYKI II. Uczeń umie: Świadomie stosować się do zasad regulaminów (P).

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

Divar - Archive Player. Instrukcja obsługi

epuap Opis standardowych elementów epuap

System generacji raportów

prezentacja publiczna założeń projektu 25 lipca 2018 godzina 10:00, Muzeum Historii Żydów Polskich POLIN sala konferencyjna A

Opis znaczenia kryterium. Lp. Nazwa kryterium Opis kryterium

Podlaska Pracownia Digitalizacji

Udostępnianie i przechowywanie obiektów cyfrowych w kontekście biblioteki akademickiej

Pojęcie bazy danych. Funkcje i możliwości.

System komputerowy. Sprzęt. System komputerowy. Oprogramowanie

Przedmiotem zamówienia jest dostawa:

CALIFORNIA DIGITAL LIBRARY CYFROWA BIBLIOTEKA KALIFORNIJSKA

ang. file) Pojęcie pliku (ang( Typy plików Atrybuty pliku Fragmentacja wewnętrzna w systemie plików Struktura pliku

Opis znaczenia kryterium. Lp. Nazwa kryterium Opis kryterium. 1. Wnioskodawca przeprowadził inwentaryzację zasobów nauki objętych projektem.

System zarządzający grami programistycznymi Meridius

Wybrane problemy z dziedziny modelowania i wdrażania baz danych przestrzennych w aspekcie dydaktyki. Artur Krawczyk AGH Akademia Górniczo Hutnicza

Narzędzia umożliwiające tworzenie scentralizowanej polityki prowadzenia backupów. Adrian Marczyk

Krzysztof Kadowski. PL-E3579, PL-EA0312,

POLITYKA BEZPIECZEŃSTWA w zakresie ochrony danych osobowych w ramach serwisu zgloszenia24.pl

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Memeo Instant Backup Podręcznik Szybkiego Startu

Czytelnik w bibliotece cyfrowej

Dotacje na innowacje Inwestujemy w waszą przyszłość

METADANE GEOINFORMACYJNE PODLASIA

Przygotowała Elżbieta Pastucha na podstawie CityGML OGC Standard for Photogrammetry by Thomas H. Kolbe, Claus Nagel, Alexandra Stadler

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Bazy Danych. C. J. Date, Wprowadzenie do systemów baz danych, WNT - W-wa, (seria: Klasyka Informatyki), 2000

Usługi analityczne budowa kostki analitycznej Część pierwsza.

REFERAT PRACY DYPLOMOWEJ Temat pracy: Projekt i realizacja serwisu ogłoszeń z inteligentną wyszukiwarką

Gdzieś w bibliotece jeleniogórskiej, 14 grudnia Wirtualna biblioteka e-pogranicze

Marcin Werla Poznańskie Centrum Superkomputerowo-Sieciowe

Opis przedmiotu zamówienia

Liczba godzin 1,2 Organizacja zajęć Omówienie programu nauczania 2. Tematyka zajęć

Systemy baz danych. mgr inż. Sylwia Glińska

Aplikacja serwerowa Platformy Prezentacyjnej Opis produktu

ActiveXperts SMS Messaging Server

WYKONANIE OPROGRAMOWANIA DEDYKOWANEGO

Posiada (TAK / NIE. Zrzut ekranu. Opis funkcji

projekt Zachodniopomorskiego Systemu Informacji i N@ukowej

Systemy obiegu informacji i Protokół SWAP "CC"

Elżbieta Wysocka Filmoteka Narodowa

WPROWADZENIE DO BAZ DANYCH

Platforma Cognos. Agata Tyma CMMS Department Marketing & Sales Specialist atyma@aiut.com.pl AIUT Sp. z o. o.

Jeleniogórska Biblioteka Cyfrowa od kuchni

Koncepcja wirtualnej pracowni GIS w oparciu o oprogramowanie open source

Robocza baza danych obiektów przestrzennych

AE/ZP-27-16/14. Oprogramowanie do wykonywania kopii zapasowych oraz zarządzania maszynami wirtualnymi

Analiza i projektowanie aplikacji Java

Planowanie przestrzenne

Inżynieria oprogramowania- Grupa dra inż. Leszka Grocholskiego II UWr 2009/2010. Aleksandra Kloc, Adam Grycner, Mateusz Łyczek. Wasza-fota.

WARUNKI TECHNICZNE. Załącznik nr 1

Video Recording Manager 2.0. Przegląd systemu

Projektowanie oprogramowania cd. Projektowanie oprogramowania cd. 1/34

edziennik Ustaw Opis architektury

Konspekt pracy inżynierskiej

The Binder Consulting

z dnia r. w sprawie bazy danych obiektów topograficznych oraz mapy zasadniczej

System INTEGRYB jako zintegrowane repozytorium danych umożliwiające zaawansowaną analitykę badawczą

Archiwizacja LTO i duplikatory. Razem budujemy jakość w radiologii

Laboratorium Technologii Informacyjnych. Projektowanie Baz Danych

KOŁO NAUKOWE GEODETÓW Dahlta

Transkrypt:

XVII Konferencja PLOUG Kościelisko Październik 2011 Oracle Universal Content Management jako środowisko do przechowywania i metaopisu surogatów Paweł Chomicz BizTech S.A. Abstrakt. Celem cyfryzacji jest przede wszystkim zabezpieczanie oraz udostępnienie dorobku kulturalnego w przestrzeni publicznej jaką jest Internet. Duża część naszego dziedzictwa narodowego tylko w cyfrowym formacie ma szanse dotrwać do przyszłych wieków. Na przykład w tej chwili kilkadziesiąt archiwalnych filmów właśnie wyparowuje z celofanu. Proces cyfryzacji ma kilka istotnych podprocesów: digitalizacja czyli stworzenie kopii cyfrowej filmu, obrazu itd. czyli uzyskanie tak zwanego obiektu cyfrowego czyli surogatu, meta opis, przechowywanie tymczasowe i głębokie lub wieczyste, przeszukiwanie i prezentacja. W referacie skupimy się na dwóch zagadnieniach w kontekście Oracle Universal Content Management: meta danych i problemach z nośnikami oraz zmianami technologii przy wieczystym składowaniu. Metadane służą do przechowywania opisów magazynowanych w archiwum elektronicznym obiektów oraz umożliwiają łatwe i szybkie wyszukiwanie potrzebnych danych. Metadane pozwalają również grupować kilka obiektów w jedną funkcjonalną całość (np. kilka zdjęć płaskich rzeźby wykonanych pod różnymi kontami pozwoli zbudować jej przestrzenny obraz). Metadane tworzone na różnych poziomach szczegółowości mogą być ze sobą powiązane, umożliwiając użytkownikowi nawigacje na różnych poziomach opisu. Metadane mogą być przechowywane oddzielnie od obiektu informacyjnego, lub mogą być włączone do obiektu (dotyczy to oczywiście tylko obiektów cyfrowych). Wieczyste składowanie staje się problemem wtedy kiedy dane liczone są w petabajtach. Na przykład taśmy należy przepisać przynajmniej raz do roku aby mieć pewność co do ich zawartości. A zmiana technologii? Czy za 20 lat przeczytamy dane umieszczone na dyskietkach 1,44? Oracle Universal Content Management (UCM) jest jednolitą platformą zarządzania treścią, umożliwiającą scentralizowane zarządzanie dokumentami, treścią WWW, zasobami cyfrowymi. Wraz z innymi produktami Oracle oraz sprzętem umożliwia stworzenie środowiska do przechowywania, przeszukiwania i prezentacji surogatów wraz z ich meta opisem.

Oracle Universal Content Management jako środowisko do przechowywania i metaopisu surogatów 27 1. Cel procesu Celem procesu digitalizacji zbiorów muzealnych jest przygotowanie cyfrowych wersji wybranych eksponatów do prezentacji za pośrednictwem mediów elektronicznych. Proces ten pozwoli zachować dla przyszłych pokoleń ważne skarby dorobku kulturalnego narodu. Zbiory muzealne są narażone na szereg zagrożeń: Zdarzenia losowe pożar, kradzież, zalanie; Zagrożenia chemiczne, biologiczne, fizyczne; Nietrwałość nośników (stare pergaminy, stare taśmy filmowe). Ponadto muzea ze względów lokalowych i organizacyjnych prezentują jedynie kilka procent posiadanych zbiorów. Digitalizacja tworząca cyfrową kopię zbiorów muzealnych jest w stanie w znacznym stopniu zniwelować powyższe zagrożenia. Dane w postaci elektronicznej mają szereg zalet. Najważniejsze z nich to: Możliwość wykonywania badań obiektu muzealnego bez fizycznego dostępu do niego; Ochrona zabytków poprzez eliminację lub znaczącą redukcję konieczności fizycznego kontaktu z obiektem; Łatwa archiwizacja; Łatwość publikacji za pośrednictwem mediów elektronicznych. 2. Składniki pracowni Pracownia digitalizacyjna powinna składać się z następujących komponentów: 1. Sprzętu do digitalizacji zbiorów (zarówno płaskich jak i przestrzennych) 2. Podręcznego archiwum do długoterminowego przechowywania zdigitalizowanych zbiorów 3. Aplikacji umożliwiającej: o załadunek plików z danymi cyfrowymi o mechanizm prezentacji i wyszukiwania danych oparty na metadanych o przekazanie danych do aplikacji zewnętrznych (np. portali internetowych) o wymiana danych z wieczystym archiwum zewnętrznym. 3. Rodzaje składowanych obiektów w archiwum Pracownia digitalizacyjna przygotuje następujące rodzaje obiektów cyfrowych. Dla każdego z tych typów obiektów konieczne jest określenie wymaganych parametrów jakościowych: 1. Obrazy nieruchome płaskie: czarno białe, kolorowe, w skali szarości o Rozdzielczość (np. 300 dpi) o Przestrzeń barwna (np. RGB) o Liczba bitów (np. 8, 10, 16 na kolor) o Skala liniowa lub logarytmiczna o Korekcja gamma (np. 2.2) o Profil barwny ICC (np. AdobeRGB1998) o Format (np. TIFF 6.0)

28 Paweł Chomicz 2. Teksty (pliki tekstowe) o Strona kodowa (np. ISO 8859-P2) o Format pliku (np. ASCII) 3. Dźwięk (cyfrowy) o Rodzaj digitalizacji (np. LPCM -Linear Pulse Code Modulation) o Częstotliwość próbkowania (np. 48 khz ) o Jakość próbkowania (np. 24 bity na próbkę) o Format zapisu danych (np. WAV) 4. Obrazy ruchome o Rozdzielczość (np. 2048 x 1080 dpi) o Przestrzeń barwna (np. RGB) o Liczba bitów (np. 10 na kolor w skali logarytmicznej lub 16 w skali liniowej) o Korekcja gamma (np. 2.6) o Format zapisu (np. DPX) 5. Obiekty złożone (obraz z dźwiękiem) o Rozdzielczość (np. 720 x 576 PAL) o Przestrzeń barwna (np. model YCbCr) o Bity na kolor (np. 8 w skali liniowej) o Próbkowanie sygnału chrominancji (np. 4:4:4, 4:2:2, zależnie od materiału digitalizowanego) o Format plikowy (np. AVI) lub zapis strumieniowy (np. Beta Digital) o Format zapisu kodowanie (np. RAW, MPEG4 itd.) Każdy z przechowywanych rodzajów obiektów powinien być przygotowany w co najmniej trzech kopiach różniących się poziomem jakości: bazowej, konserwatorskiej, multimedialnej. Dane pomiarowe zapisywane będą jako dokumentacja bazowa. Odpowiednio przetworzone, ale z zachowaniem bardzo wysokiej jakości, jako dokumentacja konserwatorska. Natomiast dane na użytek marketingowy i multimedialny zostaną w znaczny sposób uproszczone i przygotowane do prezentacji w środowiskach rzeczywistości wirtualnej. Przez dokumentację bazową należy rozumieć wynik pomiaru w wystarczająco dokładnej formie geometrycznej pozwalającej na stosowanie jej we wszystkich możliwych zastosowaniach w postaci uproszczonej lub oryginalnej. Ta forma danych może służyć jako baza do wszelkich zastosowań wymagająca odpowiedniego przetworzenia cyfrowego. Te informacje najczęściej są zapisywane w formie nieprzetworzonej (RAW) otrzymywanej bezpośrednio z urządzeń digitalizujących. Dokumentacja konserwatorska pełni rolę opisu stanu zachowania obiektu w konkretnym czasie i powinna być wykonana z dokładnością niezbędną do przeprowadzenia wnioskowania o niezbędnych do przeprowadzenia czynnościach konserwatorskich. Dokumentacja w zastosowaniach multimedialnych jest najszerzej rozumianym pojęciem i ma pozwalać na prezentację obiektu w środowiskach rzeczywistości wirtualnej takich, jak wirtualne muzeum w sposób uproszczony w różnych kontekstach.

Oracle Universal Content Management jako środowisko do przechowywania i metaopisu surogatów 29 Przykład typów kopii obiektu złożonego: 1. Bazowa Rozdzielczość 1920 1080 FullHD Przestrzeń barwna model YCbCr Bity na kolor 32 w skali liniowej Próbkowanie sygnału chrominancji 4:4:4 Format plikowy Format zapisu RAW 2. Konserwatorska Rozdzielczość 1280 720 HD Ready Przestrzeń barwna model YCbCr Bity na kolor 24 w skali liniowej Próbkowanie sygnału chrominancji 4:4:4 Format plikowy Format zapisu MPEG4 3. Multimedialna Rozdzielczość 320x200 Przestrzeń barwna model YCbCr Bity na kolor 8 w skali liniowej Próbkowanie sygnału chrominancji 4:2:2 Format plikowy Format zapisu WMP (Windows Media Player) 4. Metadane Metadane służą do przechowywania opisów magazynowanych w archiwum elektronicznym obiektów oraz umożliwiają łatwe i szybkie wyszukiwanie potrzebnych danych. Metadane pozwalają również grupować kilka obiektów w jedną funkcjonalną całość (np. kilka zdjęć płaskich rzeźby wykonanych pod różnymi kontami pozwoli zbudować jej przestrzenny obraz) Standardy dotyczące struktur danych, ich wartości i zawartości tworzą podstawę tworzenia zestawu narzędzi, pozwalających na realizacje odpowiedniego katalogowania formalnego, spójnych zasobów dokumentacyjnych, wymianę rekordów i poprawę ich dostępności z punktu widzenia użytkownika końcowego. W dziedzinie dziedzictwa kulturowego najlepiej rozwinięte standardy metadanych wyliczają zestaw kategorii lub elementów danych, służących do tworzenia struktury pól danych w bazie danych; te standardy struktur metadanych nazywane są zestawami elementów metadanych. Ich przykładami mogą być Categories for the Description of Works of Art (CDWA) oraz VRA Core Categories (VRA Core). Kolejnymi rodzajami standardów, niezbędnymi w związku z tworzeniem uzgodnionych struktur danych (metadanych) jest tworzenie zbiorów terminów (wartości danych) oraz wybór, organizacja i formatowanie tych terminów (treści danych). W odniesieniu do tych dwóch rodzajów standardów znacznie lepiej rozwinięte są prace nad tworzeniem standardów wartości danych, występujących zazwyczaj w formie tezaurusów lub słowników kontrolowanych, takich jak Thesaurus of Graphic Materials, Art. & Architecture Thesaurus, Union List of Artist Names czy Getty Thesaurus of Geographic Names. Wraz z kartotekami autorytarnymi biblioteki, słowniki tego typu stanowią kolejny krok na drodze do powstania standardów i prowadzenia współkatalogowania zbiorów.

30 Paweł Chomicz Trzecim krokiem w kierunku katalogowania obiektów kultury jest przygotowanie standardów w zakresie treści danych. Do tej pory nie ma zbyt wiele publikacji dotyczących standardów treści danych w zastosowaniu do dzieł kultury standardów, które mówiłyby o sposobie wyboru terminów oraz definiowałyby porządek, syntaktykę i formę, w jakiej wartości danych maja być włączane do struktury danych. Muzeum posiadające kolekcje obrazów cyfrowych, przedstawiających zgromadzone w nim obiekty fizyczne może odnosić korzyści z tworzenia metadanych zarówno służących opisowi obiektów cyfrowych, jak i fizycznych. Obrazowi cyfrowemu może towarzyszyć wiele rodzajów metadanych, dzięki którym można: poprawić zarządzanie i administrowanie kolekcja obrazów cyfrowych (metadane dotyczące praw własności itp.), opisywać obrazy umożliwiając ich wyszukiwanie i odróżnienie od innych obrazów (metadane opisujące treść obrazów), poprawić obsługę systemu digitalizacji zbiorów (metadane statusu digitalizacji jej data, format pliku itp.), kontrolować wykorzystanie obiektów lub dokonywane w nich zmiany (metadane dotyczące adjustacji koloru dokonane w obrazie cyfrowym itp.). Informacje o obiektach fizycznych w kolekcji (rekordy katalogowe) także nazywane są metadanymi. Dzięki tym metadanym można: zarządzać zbiorami (metadane o fizycznej lokalizacji obiektu, możliwość wypożyczenia obiektu, warunki konserwacji itp.), opisywać lub identyfikować obiekty muzealne w celu ich wyszukiwania w bazach danych lub dla celów bezpieczeństwa (metadane o twórcy i tytule dzieła, opis fizyczny obiektu itp.), dokumentować wykorzystanie obiektu w muzeum (metadane o wystawach, dla których wykorzystano obiekt itp.) Podczas tworzenia surogatów obiektu informacyjnego zagadnienia związane z metadanymi mogą okazać się bardzo złożone. Niezbędne mogą okazać sie informacje dotyczące np. kolejnych wersji modyfikowanego obrazu, kopii i reprodukcji oryginału, nowych wersji dokumentów itp. Informacje te gromadzone są w metadanych, zawierających liczne, wewnętrzne powiązania. Każda z wersji lub kopii obiektu kultury może być opisywana przez takie elementy danych jak daty, warunki wykorzystywania obiektu, nazwy osób i inne metadane, które musza być właściwie zarządzane. Możemy wyróżnić także metadane o różnym poziomie szczegółowości opisu. Mogą to być np. metadane: poszczególnych obiektach kolekcji muzealnej (np. rekord w bazie danych dotyczącej kolekcji), opisujące kolekcje muzealne na bardziej ogólnym poziomie (np. opis kolekcji w internetowym przewodniku o muzeach), wystawie wirtualnej, poszczególnych obrazach przedstawianych na tej wystawie. Metadane tworzone na różnych poziomach szczegółowości mogą być ze sobą powiązane, umożliwiając użytkownikowi nawigacje na różnych poziomach opisu. Metadane mogą być przechowywane oddzielnie od obiektu informacyjnego, lub mogą być włączone do obiektu (dotyczy to oczywiście tylko obiektów cyfrowych). Można wyróżnić następujące sytuacje:

Oracle Universal Content Management jako środowisko do przechowywania i metaopisu surogatów 31 w przypadku obiektów fizycznych metadane są przechowywane odrębnie w bazie danych, dla obrazów zdigitalizowanych część metadanych może być przechowywanych w bazie danych, a część w specjalnym nagłówku, będącym częścią pliku obrazu, tworzonym podczas digitalizacji obrazu, dla stron Web metadane są często umieszczane w nagłówku HTML, dzięki czemu mogą być indeksowane przez wyszukiwarki. Czasem w nagłówku HTML zapisany jest tylko odnośnik do odrębnego pliku, w którym zapisane są metadane. Metadane dotyczące obiektów w Web mogą być także przechowywane w bazach danych. Istnieje kilka standardów metadanych przygotowanych specjalnie dla zarządzania zbiorami muzealnymi. Można wyróżnić następujące powody, dla których są stosowane: poprawa jakości wyszukiwania informacji (w szczególności wyszukiwania zautomatyzowanego), ujednolicenie struktur danych w obrębie baz danych i pomiędzy nimi, zapewnienie posiadania ważnych danych, wzrost bezpieczeństwa zasobów muzealnych, ułatwienie muzeom oszacowanie wartości swoich zbiorów, umożliwienie właściwego i szerokiego wykorzystania wiedzy o kolekcjach i samych kolekcji, ułatwienie wymiany informacji pomiędzy bazami danych, ułatwienie migracji danych do nowych systemów. Standardy realizują te zadania przez: wyróżnienie elementów danych niezbędnych do tworzenia rekordów w celu poprawnego dokumentowania kolekcji, tworzenie przepisów stosowania formatu (katalogowania) i wprowadzania danych, wskazywanie na źródła terminologii (wartości danych lub standardy słowników). Metadane można przechowywać w następujących standardach (przykłady): PREMIS CHIN SPECTRUM METS Standard PREMIS precyzuje część modelu danych stworzonego przez OAIS (jedyny standard ISO dotyczący budowy archiwum), który dotyczy metadanych związanych z przechowywaniem danych w archiwum elektronicznym. Opisuje jakie informacje trzeba archiwizować z dokumentami tak aby dało się je odczytać po wielu latach. Jest w stu procentach zgodny z OAIS. Kanadyjski CHIN Data Dictionaires zawiera opisy elementów danych dla dokumentowania i zarządzania kolekcjami muzealnymi, oraz danymi archeologicznymi. Każde pole danych w CHIN jest opisane przez etykietę, nazwę pola, jego definicje, zasady wprowadzania danych, pola związane, przykłady, dziedzinę i źródło. CHIN nie jest strukturą danych, którą można zastosować w systemie zarządzania kolekcją, ale może być podstawą dla utworzenia takiej struktury. Zawiera pola dla opisu obiektów, okazów i zbiorów archeologicznych, a także pola dla zarządzania zbiorami. Brytyjski SPECTRUM (Standard ProcEdures for CollecTions Recording Used in Museums jest przewodnikiem w zakresie stosowania wzorców pracy dla muzeów. Opisuje procedury dokumentowania obiektów i realizowanych na nich procesów oraz identyfikacji i opisu informacji niezbędnej do wspomagania realizacji procedur. Zawiera on informacje nt. minimalnego opisu stoso-

32 Paweł Chomicz wanego w brytyjskich muzeach. SPECTRUM jest stosowany w skali międzynarodowej do wymiany informacji dzięki zastosowaniu XML DTD. Standard METS zapewnia elastyczny mechanizm kodowania opisów, administracyjnych i strukturalnych metadanych obiektów cyfrowych bibliotek, i wyrażania skomplikowanych powiązań między różnymi formami metadanych. Ponadto METS umożliwia powiązanie obiektów cyfrowych z zachowaniem ich wzajemnych relacji. Istnieją także inne standardy, które dostarczając wskazówek dotyczących opisu lub dokumentowania kolekcji obiektów kultury, nie zawierają przepisów o wymaganiach dla procesów zarządzania kolekcjami. Cześć z tych standardów stosowanych jest dla opisu określonych rodzajów kolekcji (np. dzieł sztuki, rysunków architektonicznych itp.). Niektóre standardy są stosowane do wspomagania opisu kolekcji na ogólnym poziomie (np. RSLP), inne natomiast maja opisywać określone obiekty w obrębie kolekcji (np. CDWA): Brytyjski RSLP (Research Support Libraries Programme utworzył standard umożliwiający jednolity opis kolekcji. Jest on oparty na Dublin Core, ale dodano nowe elementy umożliwiające pełniejszy opis zbiorów obiektów kultury. Możliwe jest też tworzenie meta danych w RDF. Narzędzie to może być stosowane do opisu kolekcji na ogólnym poziomie (nie poszczególnych obiektów). CDWA (Categories for the Description of Works of Art jest produktem Art Information Task Force, finansowany przez Paul Getty Trust. Zawiera on schemat przydatny podczas projektowania baz danych o sztuce przez stworzenie ram konceptualnych dla opisu i udostępniania informacji o obiektach i obrazach. Standard rekomenduje stosowanie słowników kontrolowanych, kartotek autorytarnych i jednolitego formatowania informacji, umożliwiające efektywne wyszukiwanie. VRA Core Categories Jest to rozszerzenie CDWA. Zawiera zasady opisu dzieł kultury wizualnej oraz obrazów, które ją dokumentują. Może być punktem wyjścia do tworzenia własnego, bardziej szczegółowego schematu metadanych. 5. Funkcje pracowni digitalizacji zbiorów Pracownia digitalizacji zbiorów muzealnych ma za zadanie: Przygotowanie cyfrowych obrazów wybranych zbiorów muzealnych Załadunek tych obrazów do aplikacji systemu pracowni Wyszukiwanie i obrazowanie zgromadzonych zbiorów Długoterminowe przechowywanie zbiorów cyfrowych w podręcznym archiwum pracowni. Udostępnianie zgromadzonych danych. 5.1. Przygotowanie cyfrowych obrazów wybranych zbiorów muzealnych Pracownia digitalizacji zbiorów muzealnych będzie pracowała z następującymi typami obiektów: Dokumenty biblioteczne i archiwalne (książki, gazety, dokumenty, mapy, rękopisy, starodruki itd.). Zbiory muzealne (malarstwo, rzeźba, monety, artefakty itd.) Fotografie (negatywy, slajdy, odbitki) Nośniki z zapisem analogowym dźwięku (płyty gramofonowe., wałki, taśmy magnetyczne szpulowe, kasety) Filmy, wideo (taśmy studyjne, np. archiwa TV, kasety do użytku domowego, np. VHS)

Oracle Universal Content Management jako środowisko do przechowywania i metaopisu surogatów 33 Każda z tych grup obiektów wymaga innego sprzętu do digitalizacji. Typ obiektu Dokumenty biblioteczne i archiwalne. Zbiory muzealne. Fotografie. Nośniki z zapisem analogowym dźwięku. Filmy, wideo. Wymagany sprzęt do digitalizacji Skanery i aparaty fotograficzne. Skanery 3D i aparaty fotograficzne. Skanery. Sprzęt do odtwarzania dźwięku z nośników analogowych, przetworniki analogowo-cyfrowe do dźwięku, karty dźwiękowe. Skanery do filmów, telekina. Każdy z powyższych rodzajów sprzętu będzie korzystał również dedykowanego dla niego sprzętu komputerowego i oprogramowania za pomocą którego zostaną przygotowane cyfrowe obrazy digitalizowanych zbiorów. Przykłady sprzętu który może być użyty na potrzeby pracowni digitalizacji znajdują się w rozdziale 6. 5.2. Załadunek zdigitalizowanych obrazów do aplikacji systemu pracowni Przygotowane w procesie digitalizacji pliki muszą zostać załadowane do aplikacji systemu pracowni, by stać się dostępne dla innych procesów biznesowych pracowni. Proces załadunku realizuje następujące funkcje: Przypisanie ładowanych plików do konkretnych typów obiektów składowanych w archiwum opisanych w rozdziale 5.1 Zbudowanie metadanych opisujących tworzony obiekt, wraz z zobrazowaniem przestrzennym dla obiektów trójwymiarowych. Fizyczne umieszczenie plików stworzonych w różnych narzędziach digitalizacyjnych w archiwum. Załadunek plików najlepiej będzie przeprowadzić korzystając z popularnych i powszechnie stosowanych protokołów sieciowych takich jak: ftp (File Transfer Protokol) http/https sieciowe systemy plików (np. CIFS, NFS) 5.3. Wyszukiwanie i obrazowanie zgromadzonych zbiorów Celem procesu wyszukiwania jest odnajdowanie zgromadzonych w podręcznym archiwum obiektów cyfrowych zgodnie z oczekiwaniami użytkownika. Najefektywniejszym rozwiązaniem do wyszukiwania informacji zgromadzonych w archiwum będzie wykorzystanie wyszukiwarki korzystającej z informacji zgromadzonych w metadanych. To pozwoli wykorzystać do wyszukiwania szeroki wachlarz kategorii informacji przechowywanych w metadanych i uczynić ten proces bardzo efektywnym. Obrazowanie zgromadzonych zbiorów jest procesem mającym za zadanie przedstawienie zdigitalizowanego obiektu muzealnego w jest pełnej cyfrowej postaci właściwej dla danego typu obiektu. Wejściem do procesu będą informacje znajdujące się z metadanych opisujące ten obiekt. Na podstawie tych informacji aplikacja obrazująca wykona operację wizualizacji obiektu by przedstawić ten obiekt w sposób właściwy dla jego kategorii. Często są to złożone operacje które mogą być realizowane przez dłuższy przedział czasu. Przykładem może być wizualizacja obiektów muzealnych których obrazy są dostarczane w postaci serii obrazów dostarczanych przez skanery 3D. Zależności pomiędzy tymi obrazami są opisane w plikach z metadanymi. Dopiero proces obrazowania

34 Paweł Chomicz pozwoli zbudować w pełni trójwymiarowy obraz obiektu muzealnego i przedstawić go w całej okazałości w postaci cyfrowej. 5.4. Długoterminowe przechowywanie zbiorów cyfrowych Pracownia digitalizacyjna musi umożliwiać długoterminowe przechowywanie obiektów i metadanych w podręcznym archiwum z gwarancją ich: Trwałości Integralności (pewność, iż dane nie zostały zmodyfikowane) Autentyczności (pewność, iż to właśnie te dane zostały wprowadzone do systemu przez daną osobę, instytucję czy system). Długoterminowe przechowywanie oznacza czas teoretycznie nieskończony, natomiast jak pokazują statystyki już po 15 latach duża część cyfrowych danych nie nadaje się do odczytu. Może to wynikać z nośnika danych, z formatu zapisu czy awarii sprzętu. W związku z tym, aby zapewnić trwałość danych, należy rozwiązać dwa podstawowe problemy długoterminowego przechowywania: czas przechowywania (trwałość nośnika) sposób zapisu (możliwość odczytu danych). Aby zapewnić, że dane będzie można w ogóle odczytać po długim okresie czasu należy rozważyć: Nośniki danych z jak najdłuższą żywotnością; Dywersyfikację nośników; Okresowe weryfikacje nośników w celu monitorowania jakości nośników; Migracje na nowsze nośniki; Przechowywanie danych w kilku kopiach w różnych miejscach fizycznych; Zapewnienie właściwych warunków środowiskowych przechowywanych nośników. W celu zapewnienia, że odczytane dane będzie można zinterpretować (po wielu latach mogą już nie istnieć programy, które będą w stanie je odczytać) należy uwzględnić: Format zapisu format powinien być otwarty oraz powinien zawierać wszystkie niezbędne dane potrzebne do interpretacji (np. osadzone fonty); Przechowywanie danych w różnych formatach (opcjonalnie) oraz okresowe migracje do nowych formatów czy ich aktualnych wersji. Wprowadzenie szczegółowych zasad odnośnie wymaganej formy wprowadzanych danych. Wybór strategii przechowania danych w danym formacie: Emulacja technika polegająca na tworzeniu emulatorów środowiska, w którym dany obiekt był zarchiwizowany. Technika ta sprawdziła się w kilku projektach, ale wymaga dodatkowego nakładu pracy na stworzenie i ciągłe utrzymywanie emulatorów środowiska. W kontekście ciągle napływających nowych zbiorów (stworzonych w nowych technologiach) ta technika staje się zbyt kosztowna. Migracja technika polegająca na przenoszeniu cyfrowych informacji z jednej technologii do drugiej. Jest to obecnie najszerzej stosowana strategia. Integralność danych to zapewnienie, że obiekt nie został w żaden sposób zmodyfikowany. Aby zapewnić integralność należy rozważyć odpowiednie techniki zapewnienia integralności cyfrowej, takie jak sumy kontrolne czy podpisy cyfrowe. Integralność należy rozważać na dwóch poziomach: Pojedynczej publikacji;

Oracle Universal Content Management jako środowisko do przechowywania i metaopisu surogatów 35 Całego repozytorium. Autentyczność danych jest bardzo ważnym aspektem długotrwałego przechowywania. Niestety nie ma żadnego ogólnie przyjętego standardu jak zabezpieczać archiwizowane dane. Jedyną wiarygodną opcją zapewnienia autentyczności w systemach informatycznych są podpisy cyfrowe, które gwarantują też integralność obiektu. W przypadku, gdy niezbędne jest również wiarygodne przechowywanie czasu wprowadzenia obiektu do repozytorium stosuje się podpisy cyfrowe ze stemplem czasowym. Jednakże należy wziąć pod uwagę długi czas przechowywania i potencjalne zagrożenia takie jak skompromitowanie klucza prywatnego czy możliwości techniczne złamania algorytmu. W związku z tym te metody należy połączyć z dodatkowymi zabezpieczeniami takimi jak drzewa haszujące i okresowe migracje w celu zapewnienia wiarygodności zbiorów. Przechowywanie treści zgromadzonych w podręcznym archiwum pracowni digitalizacyjnej można zrealizować na dwa sposoby: Relacyjna baza danych pliki zdigitalizowanych obrazów przechowywane w bazie danych jako obiekty binarne. System plików pliki zdigitalizowanych obrazów przechowywane w systemie plików. W przypadku danych archiwalnych rozwiązanie bazodanowe można od razu odrzucić. Relacyjna baza danych będzie miała problemy wydajnościowe w zarządzaniu dużą ilością plików binarnych. Dodatkowo problemem mogłaby być migracja na nowszą technologię. Jedynym rozwiązaniem jest zastosowanie systemu plików. 5.5. Udostępnianie zgromadzonych danych Główna aplikacja pracowni digitalizacji musi mieć możliwość udostępniania zebranych w niej danych dla użytkowników i aplikacji zewnętrznych. Realizacja tego może nastąpić w kilku płaszczyznach: Dedykowana aplikacja kliencka, Dostęp z poziomu przeglądarki internetowej, Interface API umożliwiający integrację z innymi systemami. Dedykowana aplikacja kliencka jest instalowana na komputerach użytkowników którzy mają mieć dostęp do zasobów pracowni. Zalety: Możliwość wykonania najbogatszego zestawu funkcji Brak ograniczeń w wyglądzie aplikacji i jej interfejsie Możliwa praca z lokalną kopią obiektu bez podłączenia stałego do systemu Wady: Konieczność instalacji aplikacji na każdej stacji roboczej na której ma pracować. Ograniczenie aplikacji do konkretnych systemów operacyjnych dla których została stworzona Korzystanie z aplikacji z poziomu przeglądarki internetowej. Zalety: Brak konieczności instalacji aplikacji Możliwość korzystania z aplikacji z poziomu dowolnego systemu operacyjnego na którym znajdują się obsługujące system przeglądarki Możliwość dostępu do systemu przez Internet

36 Paweł Chomicz Wady: Ograniczenia w funkcjonalności i wyglądzie aplikacji wynikające z ograniczeń przeglądarki internetowej. Konieczność ciągłego podłączenia do serwera aplikacji. Interfejs API (Application Programming Interface) interfejs programowania aplikacji, sposób, w jaki komunikuje się ona z systemem operacyjnym i innymi programami. Ten mechanizm pozwala na podłączenie się do systemu aplikacji pracowni digitalizacji z poziomu systemów zewnętrznych, oraz jeśli zachodzi taka potrzeba podłączyć system pracowni do innych systemów (np. zewnętrznego pojemnego archiwum cyfrowego). Zalety: Najszersze możliwości dostępu do danych ograniczone jedynie zakresem udostępnianych danych przez mechanizmy API Wady: Konieczność tworzenia oprogramowania które będzie korzystało z mechanizmu API. Planując system pracowni digitalizacji warto zwrócić uwagę na wady i zalety tych rozwiązań i zastosować rozsądny kompromis pomiędzy jakością i wygodą pracy wykorzystując wszystkie powyższe metody. 6. ORACLE Universal Content Management Oracle Universal Content Management (UCM) jest jednolitą platformą zarządzania treścią w przedsiębiorstwach, umożliwiającą scentralizowane zarządzanie dokumentami, treścią WWW, zasobami cyfrowymi. Mocne strony: Oracle Universal Content Management (UCM) jest dojrzałym, dobrze zintegrowanym pakietem produktów, który zapewnia dobrą integrację z aplikacjami Oracle. Mocna integracja z dużą ilością uzupełniających się technologii, takich jak BPM, BI, portali i wyszukiwarek dla przedsiębiorstw. Uwagi: Ograniczone wsparcie producenta w Polsce. 7. Technologia przechowywania danych 7.1. LTO (Linear Tape Open) Rozwiązanie oparte o LTO (Linear Tape Open) nie zapewniają okresu 20 lat przechowywania danych. Żywotność taśm należy przyjąć na 5 lat. Po tym okresie dane znajdujące się na taśmach muszą być przepisane na nowe nośniki. Należy liczyć się również z tym że co ok. 10 lat trzeba będzie zmieniać technologię napędów taśmowych (ok. 5 lat wynosi czas życia technologii i ok. 5 lat okres jej serwisowania po zaprzestaniu sprzedaży). Zaproponowana została technologia LTO gwarantująca możliwość zapisu na taśmach poprzedniej generacji i możliwość odczytu taśm dwie generacje wcześniejsze. Przykładowo jeśli zakupione zostaną napędy LTO4 to będą one w stanie zapisywać na taśmach w technologii LTO3 i czytać taśmy zapisane w technologii LTO2. Dzięki temu wymiana napędów taśmowych może odbywać się wolniej. Mocne strony rozwiązania: Wysoka niezawodność. Gwarancja niezmienności archiwizowanych danych.

Oracle Universal Content Management jako środowisko do przechowywania i metaopisu surogatów 37 Szyfrowane nośniki z których nie da się skorzystać bez systemu archiwum. Duża skalowalność. Mała ilość przechowywanych taśm. Słabe strony: Konieczność przepisywania taśm co 5 lat. Wymiana napędów taśmowych co ok. 10 lat. 7.2. UDO2 (Ultra Density Optical) Technologia UDO (Ultra Density Optical) zapewnia czas przechowywania danych 20 lat bez konieczności przepisywania nośników. W przypadku konieczności odtworzenia z archiwum wymaganego pliku konieczne będzie dostarczenie do biblioteki płyty magnetooptycznej zawierającej potrzebne informacje. Możliwe jest tylko sekwencyjne odzyskiwanie danych o stopniu zrównoleglenia równym ilości posiadanych napędów w bibliotece W przypadku wybrania technologii magnetooptycznej trzeba liczyć się z koniecznością wymiany co ok. 10 lat napędów z uwagi na zmiany technologiczne. Nie stanowi to jednak żadnego zagrożenia dla 20 letniego okresu przechowywania nośników. Nowa generacja napędów może bowiem odczytywać nośniki poprzedniej generacji, ale nie może ich zapisywać. Przykładowo zaproponowane napędy UDO2 są w stanie odczytywać nośniki UDO. Mocne strony rozwiązania: Wysoka niezawodność. Gwarancja niezmienności archiwizowanych danych. Nośniki z archiwizowanymi danymi nie możliwe do użycia bez systemu archiwum. Możliwość przechowywania nośników przez 20 lat. Słabe strony: Awaryjność bibliotek i napędów magnetooptycznych. 7.3. Millenniata M-disc Współpraca Hitachi-LG i firmy Millenniata zaowocowała powstaniem technologii umożliwiającej przechowywanie danych na pojedynczym nośniku przez 1000 lat. Nośniki M-disc o podobnej pojemności jak DVD i prędkości zapisu x4, dzięki nieorganicznej warstwie zapisu przypominającej strukturą kamień, przechowają zapis przez nawet 1000 lat. O technologii niezniszczalnych płyt M-disc mówiono już dwa lata temu, teraz jednakże pojawiły się informuje o rozpoczęciu masowej produkcji płyt w rozsądnej cenie. Za ich wyjątkową odporność odpowiada bardzo wytrzymała warstwa, w której zapisywane są dane. Składa się ona z substancji nieorganicznych. Warstwa wraz z zapisanymi danymi wytrzyma zarówno w warunkach pokojowych jak i w temperaturze rzędu 500 stopni Celsjusza. Nie straszne jest także jej działanie światła słonecznego, wilgoci, tlenu, ciekłego azotu, gorącej wody i innych substancji o działaniu destrukcyjnym. Mocne strony rozwiązania: Gwarancja niezmienności archiwizowanych danych. Możliwość przechowywania nośników przez 1 000 lat. Słabe strony: Nie zweryfikowana przez technologia.