Konteksty długoterminowej archiwizacji

Podobne dokumenty
Organizacja i logistyka digitalizacji

Raportów o Stanie Kultury

Rozwój polskich bibliotek cyfrowych. Tomasz Parkoła Poznańskie Centrum Superkomputerowo-Sieciowe

DIGITALIZACJA. Maciej Rynarzewski Oddział Zbiorów Specjalnych

Katalog dobrych praktyk digitalizacyjnych dla obiektów bibliotecznych

STRATEGIA DIGITALIZACJI RAZEM CZY OSOBNO?

Udostępnianie i przechowywanie obiektów cyfrowych w kontekście biblioteki akademickiej

Masowe zabezpieczanie i udostępnianie egzemplarza obowiązkowego w Jagiellońskiej Bibliotece Cyfrowej. Leszek Szafrański Biblioteka Jagiellońska

Dokumenty online model opracowania, udostępniania, archiwizacji. egzemplarza obowiązkowego w Jagiellońskiej Bibliotece Cyfrowej

Agnieszka Koszowska, FRSI Remigiusz Lis, ŚBC-BŚ

Opis znaczenia kryterium. Lp. Nazwa kryterium Opis kryterium

TWÓJ BIZNES. Nasz Obieg Dokumentów

POLITYKA BEZPIECZEŃSTWA w zakresie ochrony danych osobowych w ramach serwisu zgloszenia24.pl

Opis znaczenia kryterium. Lp. Nazwa kryterium Opis kryterium. 1. Wnioskodawca przeprowadził inwentaryzację zasobów nauki objętych projektem.

Archiwum zakładowe w świetle zmian prawnych. Andrzej Klubioski Polska Akademia Nauk Archiwum w Warszawie aklubinski@apan.waw.pl

REGIONALNY PROGRAM OPERACYJNY WOJEWÓDZTWA LUBELSKIEGO NA LATA Priorytet II Cyfrowe Lubelskie Działanie 2.1

ABC archiwum cyfrowego Czyli jak zapanować nad dokumentami w firmie. Dawid Żądłowski 2017

Zintegrowany System Przetwarzania Danych Oceanograficznych jako narzędzie wspomagające Archiwum Instytutu Oceanolohii PAN

Wyzwania techniczne związane z prezentacją dziedzictwa kulturowego w Internecie

Ustawa o ponownym wykorzystywaniu informacji sektora publicznego

MINISTERSTWO ADMINISTRACJI I CYFRYZACJI

Biblioteki cyfrowe i ich kolekcje

Jacek Willecki. Biblioteka Politechniki Poznańskiej. Wrocław, września 2016 roku

udostępnianie zasobów naukowych i dydaktycznych Uniwersytetu Rzeszowskiego

Możliwości pozyskiwania pozabudżetowych środków finansowych na digitalizację zasobów

FISZKA KONKURSU. Centrum Projektów Polska Cyfrowa POPC IP /16. Program Operacyjny Polska Cyfrowa

Wsparcie udzielone przez Islandię, Liechtenstein oraz Norwegię poprzez dofinansowanie ze środków Mechanizmu Finansowego Europejskiego Obszaru

Biblioteka Cyfrowa czy Biblioteka 2.0 czyli co przechowuje biblioteka

Warsztaty dla początkujących czyli o co chodzi w Funduszach Europejskich?

terminu laboratorium wskazanego w pkt 2, określono krąg podmiotów, z pomocy których organ wykonujący kontrolę celno-skarbową może skorzystać dla

W kierunku zwiększania dostępności zasobów udostępnianych przez polskie biblioteki cyfrowe Nowoczesne rozwiązania w systemie dlibra 6

Sprawa nr 17/2010 Warszawa

TWÓJ BIZNES. Nasze rozwiązanie

Nowe usługi w infrastrukturze sieci MAN i PIONIER. Aleksandra Nowak Marcin Werla

Digitalizacja wybranych pozycji księgozbioru w Bibliotece Centralnego Instytutu Ochrony Pracy Państwowego Instytutu Badawczego

Długoterminowe przechowywanie danych cyfrowych

ZARZĄDZANIE DOKUMENTACJĄ. Tomasz Jarmuszczak PCC Polska

Memeo Instant Backup Podręcznik Szybkiego Startu

Zakres działalności Działu Obiegu i Archiwizacji Dokumentów (DOAD) EZD ARCHIWUM DOAD. CYFROWE ARCHIWUM DOKUMENTÓW w ramach POWER 3,5 KANCELARIA

Nowoczesne archiwum dokumentów studium przypadku. Bartosz Kwieciński,

Nic nie zastąpi ciężkiej pracy*

Trwają prace nad skanowaniem analogowym map wydanych pod nadzorem Głównego Geodety Kraju (10, 25, 50,100, 200 topo, hydro, sozo); Włączane są do

KRYTERIA MERYTORYCZNE OGÓLNE (OBLIGATORYJNE) Lp. Nazwa kryterium Definicja kryterium Opis kryterium

Zarządzanie procesowe a skuteczna informatyzacja w administracji publicznej

Kluczowe działania w obszarze ochrony zdrowia podejmowane przez CSIOZ

Wioletta Sołtysiak. Akademia im. Jana Długosza w Czestochowie Wydział Pedagogiczny

Modelowanie Informacji o Budynku (BIM)

Otwarte udostępnianie. danych badawczych

Przetwarzanie i zabezpieczenie danych w zewnętrznym DATA CENTER

LEOPOLDINA online platforma integracji i udostępniania elektronicznych zasobów Uniwersytetu Wrocławskiego dla nauki, edukacji i popularyzacji wiedzy

Warunki przekazywania obiektów cyfrowych do Biblioteki Narodowej. Zawartość cyfrowa

OPIS PRZEDMIOTU. Dygitalizacja i biblioteki cyfrowe MSIW IN23D-SP. Wydział Administracji i Nauk Społecznych Instytut/Katedra

Wykład I. Wprowadzenie do baz danych

WARUNKI TECHNICZNE. Załącznik nr 1

Adwokat Marcin Haśko Kancelaria Adwokacka ul. Św. Mikołaja Wrocław tel/fax 071/

Zamawiający dysponuje szerokim spektrum rozwiązań infrastrukturalnych. Wykonawca uzyska dostęp do infrastruktury w niezbędnym zakresie.

Wielkopolska Biblioteka Cyfrowa

Tworzenie metadanych, proces digitalizacji i publikowanie dokumentów w projekcie Merkuriusz. Katarzyna Araszkiewicz

Zarządzanie wiedzą w opiece zdrowotnej

Charakterystyka zadań budżetowych wyznaczonych do realizacji

Projektowanie systemów informatycznych. Roman Simiński siminskionline.pl. Modelowanie danych Diagramy ERD

INSTRUKCJA ZARZĄDZANIA SYSTEMEM INFORMATYCZNYM W ADCONNECT SP. Z O.O. SP. K.

Rola polskich bibliotek cyfrowych w zapewnianiu otwartego dostępu

Rola bibliotek cyfrowych w budowaniu gospodarki opartej o wiedzę. Cezary Mazurek

STANOWISKO RZĄDU. Data przyjęcia stanowiska przez Komitet do Spraw Europejskich 13 grudnia 2011 r r. Sygnatury

MINISTERSTWO ADMINISTRACJI I CYFRYZACJI

Wykorzystanie regionalnej biblioteki cyfrowej do tworzenia repozytorium instytucjonalnego

Proces informacyjny. Janusz Górczyński

PDM wbudowany w Solid Edge

Popularyzacja podpisu elektronicznego w Polsce

Postulat reformy prawa autorskiego dla domeny publicznej

Infrastruktura bibliotek cyfrowych

Archiwum DG 2016 PL-SOFT

Datacenter - inteligentne bezpieczne przechowywanie dokumentacji medycznej. r. pr. Radosław Kapułka

Uchwała nr 3/2015. z dnia 15 maja 2015 r. w sprawie przyjęcia rekomendacji do kryteriów wyboru projektów z zakresu digitalizacji

Rola CSIOZ w zakresie koordynacji i wspierania Inicjatyw Regionalnych

Polityka bezpieczeństwa przeznaczona dla administratora danych, który nie powołał administratora bezpieczeństwa informacji

Projekt e-repozytorium prac naukowych Uniwersytetu Warszawskiego. dr Aneta Pieniądz, KBSI Ewa Kobierska-Maciuszko, BUW

Bezpieczne miasto. koncepcja i rozwiązania w projekcie Mayday Euro 2012

Uniwersytet Mikołaja Kopernika. Wydział Matematyki i Informatyki Wydział Fizyki, Astronomii i Informatyki Stosowanej

POROZUMIENIE o współtworzeniu MAZOWIECKIEJ BIBLIOTEKI CYFROWEJ

Założenia i planowane efekty Projektu. Rola Projektu w budowaniu infrastruktury informacji przestrzennych na obszarze województwa mazowieckiego

Biocentrum Ochota infrastruktura informatyczna dla rozwoju strategicznych kierunków biologii i medycyny POIG /09

Analiza zgodności z wymogami dotyczącymi elektronicznej dokumentacji medycznej oraz gotowości na w

Publiczna Prezentacja Założeń Projektu. Digitalizacja Regionalnego Dziedzictwa Telewizyjnego i Filmowego z Archiwum TVP S.A.

SIGMA KWADRAT. Wykorzystanie programu MS Excel do opracowań statystycznych CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Propozycja struktury treśći i nawigacji dla strony

Lp. Nazwa kryterium Opis kryterium Punktacja. Zgodnie z RPO WM , w ramach kryterium wnioskodawca zobowiązany jest wykazać,

Agregacja metadanych zbiorów polskich instytucji kultury działania Poznańskiego Centrum Superkomputerowo-Sieciowego

Składowanie i dostęp do danych w rozproszonym systemie ochrony własności intelektualnej ANDRZEJ SOBECKI, POLITECHNIKA GDAŃSKA INFOBAZY 2014

BIBLIOTEKARZ W KOLABORATORIUM

Wykorzystanie programu MS Excel do opracowań statystycznych

Biblioteki pedagogiczne i ich zasoby w kontekście nowych zadań. Anna Krawczuk

POROZUMIENIE o współtworzeniu MAZOWIECKIEJ BIBLIOTEKI CYFROWEJ. Preambuła

Tworzenie i obsługa wirtualnego laboratorium komputerowego

Hurtownia danych. Załącznik Nr 1 do SIWZ. Opis przedmiotu zamówienia. Lp. FUNKCJONALNOŚĆ/PARAMETRY WYMAGANE

Ewidencjonowanie materiałów państwowego zasobu geodezyjnego i kartograficznego

Posiada (TAK / NIE. Zrzut ekranu. Opis funkcji

Narzędzie do pozyskiwania, analizy i prezentowania informacji.

ZARZĄDZENIE Nr 17/2015 PREZYDENTA MIASTA KONINA z dnia 8 października 2015 roku

Transkrypt:

Aleksander Radwański Zakład Narodowy im. Ossolińskich aleksander.radwanski@ebib.pl Konteksty długoterminowej archiwizacji Streszczenie: Autor porusza zagadnienie długotrwałego przechowywania zasobów i jego kontekstów. Dochodzi do wniosku, że długoterminowa archiwizacja powinna być powiązana z innymi zagadnieniami dostępu do zasobów cyfrowych, takimi jak powtórne wykorzystanie i łączenie danych. Sprzyja to racjonalnemu wykorzystaniu środków publicznych. Słowa kluczowe: długoterminowa archiwizacja, ponowne wykorzystanie, łączenie danych, środki publiczne Długoterminowa archiwizacja danych cyfrowych jest coraz lepiej opracowanym zagadnieniem i powstaje coraz więcej narzędzi i usług z nią związanych. Istnieje też wiele nierozwiązanych problemów technicznych, organizacyjnych i finansowych, powodujących, że trudno uznać długotrwałą archiwizację za rutynowe działanie, dla którego istnieje ustalony tok postępowania. Aby nie zginąć w lawinie szczegółów, spróbuję wypunktować najważniejsze aspekty w kolejności wskazującej na logiczne powiązania. Osoby oswojone z tematem uznają być może kolejne definiowanie podstawowych pojęć za niepotrzebne, z tych definicji mają jednak wynikać konsekwencje nie zawsze uznawane za oczywiste. Kto? Po pierwsze interesować nas tu będą biblioteki, archiwa i muzea więc instytucje budżetowe, konsumujące środki publiczne. Nie ma tu znaczenia przynależność resortowa czy forma prawna instytucji jeśli konsumuje ona pieniądze podatników, to rezultaty tej konsumpcji powinny służyć podatnikom. Co? Dane cyfrowe powstają w znakomitej większości jako owoc procesu digitalizacji, czyli przetwarzania obiektów dwuwymiarowych (dokumenty, rysunki, mapy, rękopisy, druki) lub trójwymiarowych (rzeźby, zabytkowe przedmioty, architektura) na ich cyfrową reprezentację (obraz, odwzorowanie). Digitalizacji dokonują najczęściej skanery lub wyspecjalizowane kamery cyfrowe, produkując określone rodzaje plików (w znaczeniu jakiego używamy, mówiąc o plikach w komputerze), nazywane: plikami master, plikami źródłowymi, macierzą pierwotną, surowymi danymi i wieloma innymi określeniami, w zależności od kontekstu i przyjętej terminologii. Ustalmy pliki master jako termin, którym będziemy się posługiwać w tym artykule. Z plików master powstają publikacje i/lub obiekty cyfrowe (ustalmy analogicznie pliki prezentacyjne jako konsekwentną nazwę produktu otrzymanego z przetworzenia plików master, nie wnikając w charakter tych przetworzeń). Pliki prezentacyjne mają najczęściej inną postać niż pliki master, są mniejsze niż odpowiadające im pliki master i mniej liczne (na ogół jeden plik pre- 1

zentacyjny powstaje z wielu plików master). W przypadku kilkusetstronicowej książki plikami master będzie kilkaset obrazków z odwzorowaniem każdej strony (przeważnie w formacie TIFF lub JPEG), które złożą się na jeden plik prezentacyjny (przeważnie w formacie PDF lub DjVu) zawierający cyfrową wersję książki. Nie ma stałej relacji pomiędzy rozmiarem plików master a rozmiarem plików prezentacyjnych, gdyż jest ona pochodną wielu zmiennych parametrów. Opierając się jednak na dotychczasowych doświadczeniach (np. w projektach digitalizacyjnych Ossolineum), przyjmijmy, że statystyczna średnia dla zbiorów bibliotecznych będzie wynosiła 1:100, czyli że pliki master będą wymagały 100 razy więcej miejsca do zapisu niż wersja prezentacyjna. Oczywiście te relacje w poszczególnych przypadkach mogą się wahać w bardzo szerokich granicach, nie chodzi tu jednak o ścisłość, ale o uzmysłowienie faktu, że pliki master generują inną skalę problemu długoterminowego przechowywania i technologie radzące sobie z plikami prezentacyjnymi wcale nie muszą sobie poradzić z plikami master. Za co? O ile finansowanie procesu digitalizacji uzyskało w miarę stabilną postać (projekty resortowe, europejskie/unijne, samorządowe), to finansowanie długoterminowej archiwizacji i udostępniania jest wciąż kwestią przyszłości. Oczywiście łatwiej sfinansować wytworzenie określonej liczby plików w określonej technologii niż zaplanować i wdrożyć infrastrukturę do bezterminowego archiwizowania niewiadomej liczby plików o niewiadomych właściwościach. Jedynym do tej pory projektem, który zawiera dedykowaną temu tematowi część, jest PLATON i jego usługa powszechnej archiwizacji (U4). Czy finansowanie PLATON-a będzie rosło razem z powierzanymi mu zasobami? Kto powinien być gwarantem ciągłości finansowania archiwizacji? Czy koszty archiwizacji nie wrócą rykoszetem do właścicieli plików? Czy uruchomione zostanie finansowanie projektów archiwizacyjnych analogicznych do projektów digitalizacyjnych? Dziś nie znamy odpowiedzi na te pytania. Archiwizacja Generalnie mamy do zarchiwizowania pliki master i pliki prezentacyjne. Może się jednak zdarzyć, że powstają też pliki pośrednie, które warto archiwizować, np. z powodu długotrwałości przetwarzania z plików master na pliki prezentacyjne, co przy setkach tysięcy lub milionach powtórzeń może oznaczać np. rok pracy wielu komputerów oraz obsługujących je ludzi. Taki półprodukt warto przechować, nawet jeśli zwiększa to rozmiary archiwum. Są też podejścia skrajne archiwizujemy tylko pliki master, ponieważ wszystkie inne są pochodne, zaś pliki prezentacyjne trafiają do bibliotek cyfrowych lub na inne platformy, które mają swoje kopie bezpieczeństwa. Drugie skrajne podejście polega na archiwizacji wyłącznie plików prezentacyjnych, ponieważ to one stanowią cel digitalizacji. Pliki master pozostają wtedy wyłącznie na nośnikach off-line i degradują się wraz z nimi. Większość projektów digitalizacyjnych nie precyzuje, jaki rodzaj plików ma być udostępniany, poprzestając na ogólnym wymogu udostępnienia wyników digi- 2

talizacji. Znacząca część projektów nie zawiera też żadnego planu archiwizacji, ponieważ wykracza to poza zakres finansowania (zwykle ze środków na digitalizację nie można kupować ani sprzętu, ani oprogramowania, które nie służy bezpośrednio samemu procesowi digitalizacji, czyli skanowaniu lub fotografowaniu). Bywa też, że brak planu archiwizacji w projekcie wynika z niedostatków wiedzy autorów projektu. Nie ma w tym zakresie wypracowanej praktyki, która polegałaby na tworzeniu całościowych projektów zawierających wszystkie etapy: digitalizację, inwentaryzację (tworzenie inwentarzy, katalogów i metadanych), archiwizację i udostępnianie. O ile kwestie związane z plikami prezentacyjnymi i ich udostępnianiem znalazły naturalne rozwiązanie w bibliotekach cyfrowych, to kwestia udostępniania plików master jest wciąż sprawą przyszłości. Archiwa master (jeśli istnieją, bo często są to tylko zapisane nośniki, składowane off-line) są traktowane jako ściśle techniczne zaplecze danej instytucji i nie są przygotowane do udostępniania, ani organizacyjnie (odpowiednia struktura i metadane), ani technicznie (wydajność). Powtórne wykorzystanie (re-use) Postulat budowania aktywnych archiwów udostępniających pliki master wydaje się wart przemyślenia w kontekście dyskusji o powtórnym wykorzystaniu materiałów cyfrowych (re-use). Sens powtórnego wykorzystania jest oczywisty po co wydawać pieniądze na to, co już raz opłaciliśmy jako podatnicy. Niech każdy skorzysta z możliwości własnego przetworzenia uzyskanego raz materiału cyfrowego. Wszystko wskazuje jednak na to, że w polskiej praktyce legislacyjnej powtórnym wykorzystaniem zostaną objęte raczej pliki prezentacyjne (gdyż mówi się tam o zbiorach cyfrowych) niż archiwa zawierające pliki master. Logika powtórnego wykorzystania jest natomiast dokładnie odwrotna to pliki master są bardziej atrakcyjne, gdyż zawierają możliwość przetworzeń alternatywnych, wyzyskujących aspekty pominięte lub utracone w toku wytwarzania pierwszych plików prezentacyjnych. Taki jest też sens archiwizacji plików master dla przyszłych, nieznanych jeszcze technologii, które pozwolą uzyskać lepsze sposoby prezentacji niż dzisiejsze. Wymaga to nie tylko archiwizacji długoterminowej, ale również budowania archiwów aktywnych, udostępniających pliki on-line w czasie rzeczywistym. Łączenie i zagnieżdżanie (linking and embedding) Łączenie i zagnieżdżanie, to terminy znane każdemu informatykowi, wynikające z realizacji dwóch istotnych zasad informatycznej ekonomiki jednokrotnego wprowadzania danych oraz pozostawienia ich w miejscu wytworzenia. Łatwiej bowiem zmienić algorytm niż pozyskać lub modyfikować dane, zaś wielokrotne wprowadzanie lub niekontrolowane powielanie prędzej czy później prowadzą do utraty spójności i rodzą całą lawinę niekorzystnych konsekwencji. Jeśli zatem jakaś informacja w systemie już istnieje, to powinna zostać przywołana. W internecie realizacją tej idei jest technologia stron WWW, dla których łączenie i zagnieżdżanie jest cechą konstytutywną. Aby archiwa i zawarte w nich pliki mogły stać się częścią tego systemu, muszą zostać w odpowiedni sposób udostępnione, zaś niezawodność dostępu 3

i bezterminowa trwałość są warunkiem bogactwa odesłań i relacji, jakie będą się budować w sieci. Zniknięcie lub przemieszczenie pliku jest w tym kontekście prawdziwą katastrofą, ponieważ dotyczy nie tylko oryginalnego zasobu, ale też wszystkich zasobów z nim połączonych. Świadomość tego jest, niestety, bardzo nikła, co w rezultacie torpeduje szersze stosowanie łączenia i zagnieżdżania. Dlaczego jest to ważne? W realizowanych w ostatnich latach projektach (szczególnie dotyczących dużych platform informacyjnych) można zaobserwować marnotrawstwo środków, związane z wielokrotnym digitalizowaniem tych samych obiektów i wielokrotnym kopiowaniem zasobów. To drugie wydawałoby się pozytywne, ale niestety nie jest, ponieważ każda z kopii funkcjonuje autonomicznie, jest więc odrębnie archiwizowana, inwentaryzowana i udostępniana, co pociąga za sobą kolejne koszty. W rezultacie współistnieją w sieci lepsze i gorsze kopie, kopie mniej lub bardziej kompletne, lepiej lub gorzej opisane, bez żadnej gwarancji, że te lepsze są bardziej dostępne. Nie dość zatem, że wytwarzany jest bałagan, to za ten bałagan płacimy z własnej kieszeni, i to wielokrotnie. Łączenie i zagnieżdżanie nie jest antidotum na każdy rodzaj bałaganu, ale eliminując niepotrzebne powielanie, sprzyja zachowaniu większego porządku i podnosi pozycję zasobów wartościowych w rankingach wyszukiwawczych. Łączenie i zagnieżdżanie plików prezentacyjnych jest stosunkowo łatwe i szeroko stosowane, ponieważ posiadają one stabilne adresy URL. Niestety, nie dotyczy to archiwów i plików master, co sprzyja niepotrzebnym powtórzeniom digitalizacji. Postulaty W podsumowaniu przedstawiam postulaty, które wydają się ważne dla instytucji GLAM (galerie, biblioteki, archiwa, muzea). Jeszcze raz trzeba zaznaczyć, że postulaty te dotyczą instytucji budżetowych, konsumujących środki publiczne (podatników polskich i europejskich). Jakie one są? 1. Długoterminowe archiwa nie powinny realizować jedynie swojej funkcji podstawowej, ale również umożliwiać udostępnianie do sieci plików master w celu ich ponownego wykorzystania lub automatycznego łączenia z innymi zasobami i systemami. 2. Koszty infrastruktury służącej takim funkcjom przekraczają możliwości finansowe i techniczne instytucji budżetowych z uwagi na duże rozmiary archiwów i wymaganą wydajność udostępniania. Powinny zatem powstać mechanizmy stabilnego finansowania takich archiwów, bez względu na ich formę organizacyjną. 3. Niezbędna jest koordynacja budowy długoterminowych archiwów wraz z opracowaniem podstawowych standardów merytorycznych i technicznych oraz mechanizmów egzekwowania tych standardów dla utrzymania rzeczywistej dostępności. Instytucje deponujące zasoby nie mogą się martwić ani o ich fizyczną trwałość, ani kompatybilność ze zmieniającymi się technologiami odczytu. Skoordynowana budowa archiwów powinna zracjonalizować projekty digitalizacyjne, zoptymalizować koszty zabezpieczenia ich dorobku oraz zapobiec degradacji lub utracie zasobów z powodu upływu czasu i zmian technologicznych. Oczywiście te cele nie zostaną osiągnięte 4

ani szybko, ani łatwo, jednak należałoby do nich zmierzać, zdając sobie sprawę, że częściowe rozwiązania dadzą częściowe efekty, zaś wiele zagadnień warunkuje się wzajemnie w zasadniczy sposób (bez dostępnych archiwów nie ma mowy ani o skutecznym re-use, ani o stosowaniu dynamicznego łączenia danych). Radwański, A. Konteksty długoterminowej archiwizacji. Biuletyn EBIB [on-line] 2014, nr 9 (154), Gromadzenie i zabezpieczanie danych cyfrowych. [Dostęp 20.01.2015]. Dostępny w: http://open.ebib.pl/ojs/index.php/ebib/article/view/304. ISSN 1507-7187. 5