Jacek Seweryn Archiwum Narodowe System SZKiC Wstęp W roku 2010 Archiwum Państwowe w Krakowie 1 rozpoczęło wdrożenie systemu SZKiC. Głównym powodem realizacji projektu był powiększający się zasób dokumentów cyfrowych przechowywanych w Archiwum. W momencie rozpoczęcia projektu Archiwum posiadało sprzęt przeznaczony do masowego gromadzenia kopii cyfrowych. Jednak zarządzanie zgromadzonymi kopiami bez dedykowanego oprogramowania okazało się zadaniem bardzo trudnym. Powzięto więc decyzję o zaprojektowaniu i wdrożeniu dedykowanego systemu, wspomagającego proces przechowywania i zarządzania kopiami cyfrowymi. Przed przystąpieniem do realizacji projektu zespół odpowiedzialny za sprawy związane z digitalizacją przeprowadził rozpoznanie, które wykazało brak dostępności na rynku gotowego oprogramowania. Nawiązano wówczas kontakt z firmą Araneo, która podjęła się budowy systemu zaprojektowanego według wymogów i przy ścisłej współpracy pracowników Archiwum Państwowego w Krakowie. Założenia projektowe W trakcie prowadzenia projektu zostało przyjętych kilka założeń. Jednym z nich było wykorzystanie posiadanej infrastruktury IT i minimalizacja nakładów na dodatkowy sprzęt. Wynikało to z posiadania w momencie rozpoczęcia projektu infrastruktury do masowego gromadzenia kopii cyfrowych. Zakładano również integrację z zewnętrznym źródłem danych ewidencyjnych, ponieważ obecnie wszystkie archiwa państwowe prowadzą ewidencję w postaci cyfrowej, najczęściej z wykorzystaniem dedykowanych aplikacji bazodanowych. Dążeniem członków zespołu projektowego było więc wyeliminowanie konieczności wprowadzania uprzednio uporządkowanych już informacji do kolejnej bazy danych. 1 Obecnie Archiwum Narodowe w Krakowie. 1
Kolejnym istotnym założeniem była możliwość pracy w sieci rozległej o ograniczonym paśmie. Archiwum rozlokowane jest bowiem w 5 budynkach w Krakowie, posiada również 3 oddziały zamiejscowe oraz 2 ekspozytury. Podstawowym celem stało się zapewnienie dostępu do systemu wszystkim oddziałom Archiwum Państwowego w Krakowie, tak by prowadzenie prac związanych z digitalizacją było możliwe we wszystkich użytkowanych budynkach. Konieczność zaoszczędzenia czasu spowodowała przyjęcie założenia minimalizacji zasobów potrzebnych do administrowania systemem. Użycie istniejącego środowiska autentykacji do weryfikacji kont użytkowników znacząco zmniejszyło ilość czasu niezbędną do administrowania systemem SZKiC. Wymienione założenia wynikały zarówno z uwarunkowań środowiskowych, jak i doświadczeń, jakie pracownicy Archiwum zebrali przed rozpoczęciem projektu. Na ich wygląd miały również duży wpływ ograniczenia techniczne i finansowe. Opracowany system zapewnia przechowywanie kopii następujących rodzajów dokumentów: - graficznych głównie jako kopie dokumentacji papierowej (lub innych płaskich nośników) - audio jako kopie analogowej dokumentacji audio - video jako kopie analogowej dokumentacji audiowizualnej. Wśród kopii już posiadanych przez Archiwum oraz aktualnie wytwarzanych w procesie digitalizacji główną grupę stanowią pliki graficzne. Wobec tego w trakcie projektu postanowiono, aby w jak najszerszym zakresie automatyzować ich przetwarzanie w systemie. Dla plików graficznych system zapewnia następujące rodzaje transformacji: - zmianę formatu pliku - zmianę wielkości obrazu - dodanie lub zmianę kompresji - nakładanie znaku wodnego. Strona techniczna rozwiązania to infrastruktura służąca do gromadzenia, przetwarzania i przechowywania zasobów cyfrowych. Składają się na nią serwery plików, serwery aplikacji i pamięć masowa. Schemat infrastruktury systemu SZKiC jest przedstawiony na diagramie. Archiwum krakowskie jest rozlokowane w 10 budynkach w województwie małopolskim. Budynki te są połączone siecią VPN, opartą o dostęp do publicznego Internetu. Efektywna przepustowość tej sieci w momencie rozpoczęcia projektu oscylowała w okolicach 1 Mb/s. Taka przepustowość nie pozwala na szybkie i pewne przesyłanie plików ze stacji klienckich do głównego serwera bez wykorzystania dodatkowych mechanizmów. Skuteczne przesyłanie plików wymagało zastosowania serwerów pośredniczących w każdej lokalizacji. Umożliwiło to szybkie przesyłanie plików od klienta do serwera (w ramach sieci lokalnej) i skuteczne, acz wolne, przesyła- 2
nie plików do serwera głównego. Taka konfiguracja umożliwiła również sterowanie tym procesem, na przykład przesył poza godzinami pracy, a co za tym idzie mniejszą utylizację łączy podczas godzin pracy. Aby zapewnić integralność przesyłanym plikom, system w czasie całego procesu oblicza i sprawdza ich sumy kontrolne. Dzięki temu pewne jest, że plik dotrze na serwer nieuszkodzony. Dane ewidencyjne Schemat infrastruktury systemu SZKiC Zgromadzony zasób archiwalny jest ewidencjonowany z wykorzystaniem dedykowanych aplikacji bazodanowych. Głównym źródłem danych ewidencyjnych w archiwach państwowych są bazy SEZAM i IZA. Nowym rozwiązaniem w tym zakresie, od kilku lat wdrażanym w państwowej sieci archiwalnej, jest system ZoSIA. Ma on przejąć ciężar obsługi ewidencji zasobu archiwalnego. 3
Pierwotnie projekt systemu SZKiC zakładał pełną integrację w zakresie wymiany danych ewidencyjnych z tym systemem. Dane do tej pory przechowywane w bazach IZA i SEZAM miały zostać zmigrowane do systemu ZoSIA. System SZKiC miał korzystać z danych znajdujących się w systemie ZOSiA poprzez interfejs wymiany webapi. Niestety z przyczyn niezależnych od Archiwum nie udało się zrealizować tego scenariusza. Postanowiono zatem zaimportować niezbędne dane z baz IZA i SEZAM. Przechowywanie System SZKiC ma zapewnić wieczyste przechowywanie 2 cyfrowych kopii zabezpieczających materiałów archiwalnych. W przypadku obrazów (skanów, fotografii) kopie takie wykonuje się w odpowiednio dużej rozdzielczości i zapisuje w formatach bezstratnych np. tiff. Powstały plik jest stosunkowo duży. Przykładowo kopia strony A4 wykonana w rozdzielczości 300 dpi to plik o wielkości około 20 30 MB. Plik tego rozmiaru jest nieporęczny w codziennym użyciu, a już zupełnie nie nadaje się do publikacji na przykład na stronie www. Do codziennej pracy wykorzystywane są więc pliki o mniejszej wielkości, zapisane w formatach stratnych. Ich tworzenie jest w pełni zautomatyzowane. Tak duże ilości danych trzeba przechowywać na wydajnych i niezawodnych urządzeniach. Do tego celu została użyta macierz dyskowa i biblioteka taśmowa. Zgodnie z pierwotnym założeniem dane, do których wymagany jest stały i szybki dostęp (kopie użytkowe), będą przechowywane na macierzy dyskowej, natomiast dane rzadko używane (kopie wzorcowe) będą przenoszone na taśmy. Obecnie pojemność macierzy to około 20 TB przestrzeni logicznej. Macierz ma budowę modularną i może osiągnąć, przy obecnych wielkościach dysków, pojemność rzędu 200 TB. Biblioteka taśmowa nie ma ograniczeń w ilości taśm, które może obsłużyć, gdyż zapisane taśmy można usunąć z urządzenia i przechowywać w osobnym pomieszczeniu. Szacuje się, że biblioteka może obsłużyć minimum 100 TB danych zgromadzonych na taśmach. 2 Pojęcie wieczyste przechowywanie w informatyce jest wysoce problematyczne. Ze względu na ciągły postęp techniczny związany głównie ze sposobem przechowywania danych cyfrowych, zarówno logicznym jak i fizycznym, założono gruntowną przebudowę zaprojektowanego rozwiązania w cyklu co około 10 lat. 4
Wprowadzanie plików do systemu W procesie digitalizacji skanerzysta wytwarza wysokiej jakości kopię cyfrową materiału analogowego. Kopia taka nie powinna podlegać żadnym modyfikacjom ani przekształceniom z wyjątkiem ewentualnego przycięcia i obrócenia. Parametry, jakie powinna spełniać kopia, określa m.in. Katalog dobrych praktyk, opracowany przez Narodowy Instytut Audiowizualny 3, oraz wytyczne Naczelnego Dyrektora Archiwów Państwowych 4. Wytworzony plik wprowadza się do systemu uzupełniając niezbędne informacje. Proces ten jest w dużym stopniu uproszczony i wymaga od operatora podania numeru strony zdigitalizowanego obiektu. W szczególnych przypadkach, na przykład gdy skan zawiera dwie strony, jest fragmentem strony lub zastosowano foliację zamiast paginacji, operator musi zaznaczyć dodatkowo odpowiednie opcje. Pozostałe informacje uzupełniane są na podstawie danych zaimportowanych z systemów ewidencyjnych oraz pobierane z metadanych zawartych we wprowadzanych plikach. Takimi metadanymi jest m.in. rodzaj użytego urządzenia.?? Tak wprowadzony plik jest kopią wzorcową, z której wykonywane są kopie użytkowe. Po utworzeniu kopii użytkowych pliki (kopie) wzorcowe są przenoszone do archiwum, którym jest biblioteka taśmowa. Proces ten również jest zautomatyzowany. Dostęp do plików jest zachowany, jednak nie jest on natychmiastowy. Jako moduł zarządzający biblioteką taśmową wykorzystany został Tivoli Storage Manager firmy IBM. Udostępnianie Projekt zakłada trzy ścieżki dostępu do zasobów wprowadzonych do systemu SZKiC: - dedykowana aplikacja (dla pracowników Archiwum) - webszkic (dla korzystających z pracowni naukowych Archiwum) - portal szukajwarchiwach.pl (dla wszystkich użytkowników internetu). Obecnie zrealizowane są dwie pierwsze ścieżki. W szczególności cieszy fakt, że we wszystkich pracowniach naukowych archiwum można z systemu korzystać, a zasoby tam dostępne są niezależne od lokalizacji geograficznej pracowni. 3 Katalog Dobrych Praktyk Digitalizacji materiałów archiwalnych opracowany przez Narodowy Instytut Audiowizualny i opublikowany na jego stronie www. 4 Zarządzenie nr 13 Naczelnego Dyrektora Archiwów Państwowych z dnia 29 czerwca 2011 r. w sprawie digitalizacji zasobu archiwalnego archiwów państwowych. 5
Funkcje systemu System wspiera pracę zgodnie z przedstawionym na rysunku workflowem. Wprowadzanie nowych kopii do systemu rozpoczyna się od utworzenia nowego zlecenia. Zlecenie generuje automatycznie zadania z rozbiciem na poszczególne jednostki archiwalne. W przypadku gdy zlecenie dotyczy materiałów archiwalnych wcześniej zdigitalizowanych, które znajdują się już w systemie w części lub w całości, proces wygeneruje zadania tylko na brakujące strony odpowiednich jednostek archiwalnych. Operator wybiera zadanie do realizacji i rozpoczyna pracę. Realizacja zadania polega na wskazaniu wcześniej zdigitalizowanych plików lub też na skanowaniu ich bezpośrednio do aplikacji klienckiej. Operator ma możliwość podstawowej obróbki wprowadzanych plików. Zadanie może być realizowane wieloetapowo. Po zakończeniu zadania operator zamyka je i przekazuje do weryfikacji. Proces weryfikacji jest wykonywany przez pracownika merytorycznego oddziału, z którego akta pochodzą, i polega na sprawdzeniu kompletności oraz jakości wykonanych i wprowadzonych kopii cyfrowych. Osoba weryfikująca ma możliwość odrzucenia części lub całości zadania, gdy jest ono niewłaściwie wykonane. Zatwierdzenie weryfikacji powoduje automatyczne udostępnienie plików w pracowniach naukowych. Wyjątkiem jest sytuacja, gdy pliki nie 6
mogą być udostępniane z uwagi na zawarte w nich dane prawnie chronione. Fakt ten operator zaznacza podczas procesu weryfikacji. Przedstawiona ścieżka zapewnia minimalizację ilości błędów, jakie mogą się zdarzyć podczas procesu digitalizacji. Zgodnie ze wspomnianymi wyżej wytycznymi system przechowuje pliki w określony sposób: - nadaje nawy plikom według poniższego schematu - struktura katalogów odpowiada układowi akt w archiwum. Na każdym archiwum ciążą określone obowiązki sprawozdawcze. SZKiC umożliwia generowanie sprawozdań dla Głównego Urzędu Statystycznego i Naczelnej Dyrekcji Archiwów Państwowych. Rozwiązania techniczne i administracja systemem Wspomniano już o fakcie rozproszenia fizycznego Archiwum Państwowego w Krakowie. Wszystkie jego budynki są połączone siecią rozległą o ograniczonej przepustowości. System zatem musiał być tak zaprojektowany, aby działał w rozproszonej sieci. Serwery pośredniczące w dużym stopniu eliminują błędy związane z przesyłaniem dużych ilości danych. Dodatkowo ruch generowany przez aplikację jest szyfrowany i kompresowany. Zapewnia to zwiększenie bezpieczeństwa systemu oraz zmniejszenie zapotrzebowania na pasmo sieciowe. System jest również w stanie obsługiwać off-linowe nośniki, na przykład przenośne dyski twarde. W celu minimalizacji zadań administracyjnych założono integrację systemu z Active Directory. Pozwoliło to na częściowe zarządzanie hasłami i kontami użytkowników z poziomu istniejącego środowiska autentykacji. Jest to również korzystne dla pracownika aby wejść do systemu używa tego samego loginu i hasła, którym potwierdza swoją tożsamość przy logowaniu do komputera, a co za tym idzie nie musi pamiętać kolejnego hasła. Prawie wszystkie komponenty niezbędne do działania systemu dostępne są bezpłatnie na licencjach open-source. Pozwoliło to z jednej strony na znaczne 7
oszczędności, a z drugiej na uniezależnienie się od jednego dostawcy oprogramowania. Jedyną aplikacją dodatkową wymagającą odrębnej licencji jest Tivoli Storage Manager. Aplikacja kliencka napisana jest w Javie, co umożliwia łatwe jej skompilowanie (przeniesienie) na większość obecnie używanych systemów operacyjnych (Linux, Mac OS). Podsumowanie Obecnie system SZKiC jest w fazie poprawiania drobnych błędów. Od momentu wdrożenia udało się wprowadzić do systemu około 70 tys. plików, z tego zweryfikowano około 30 tys. Daje to około 2 TB danych. Jest to stan na 20 listopada 2011 r. Ilość ta rośnie z każdym dniem. Pracownicy Archiwum z uznaniem wyrażają się o systemie, który znacząco ułatwia korzystanie ze zgromadzonych zasobów cyfrowych. 8