Projekt Cyfrowe Repozytorium Dokumentów CREDO dr inż. Grzegorz Płoszajski doc. dr inż. Tomasz Traczyk Instytut Automatyki i Informatyki Stosowanej Politechnika Warszawska Dni Digitalizatora 23 czerwca 2015
Projekt CREDO Cyfrowe REpozytorium DOkumentów Projekt pt. Cyfrowe repozytorium dokumentów CREDO realizowany w ramach przedsięwzięcia pilotażowego Wsparcie badań naukowych i prac rozwojowych w skali demonstracyjnej DEMONSTRATOR+ współfinansowany z działania 1.5 POIG Umowa nr UOD-DEM-1-385/001 G.Płoszajski, T.Traczyk IAiIS PW 2/25
Projekt CREDO Wykonawcy Projekt CREDO konsorcjum Polska Wytwórnia Papierów Wartościowych S.A. lider Politechnika Warszawska, Instytut Automatyki i Informatyki Stosowanej SkyTechnology sp. z o.o. G.Płoszajski, T.Traczyk IAiIS PW 3/25
Projekt CREDO Cele projektu Cele projektu CREDO Stworzenie repozytorium cyfrowego mogącego pełnić funkcje repozytorium krótkoterminowego archiwum długoterminowego Zbudowanie instalacji demonstracyjnej o pojemności 2 PB G.Płoszajski, T.Traczyk IAiIS PW 4/25
Projekt CREDO Cele projektu Repozytorium krótkoterminowe Bezpieczny system plików o wielkiej pojemności system plików z replikacją pojemność petabajtowa, pojedyncze pliki wieloterabajtowe Zarządzanie i aplikacje po stronie użytkownika Główna trudność: wielkość zasobów G.Płoszajski, T.Traczyk IAiIS PW 5/25
Projekt CREDO Cele projektu Archiwum długoterminowe Długookresowe zapewnienie trwałości zasobów gwarancja wiarygodnego (łac. credibile) odczytu zasobu dyslokacja zasobów i współdziałanie wielu archiwów Kompletne funkcje archiwum cyfrowego, w tym zarządzanie metadanymi i wyszukiwanie zgodność z OAIS i innymi standardami opakowanie zasobów z ich metadanymi w pakiety archiwalne archiwum głębokie efektywne energetycznie zdatność do certyfikacji Zarządzanie archiwum po stronie systemu CREDO Główna trudność: długowieczność archiwum (kilkadziesiąt lat lub więcej) G.Płoszajski, T.Traczyk IAiIS PW 6/25
Archiwizacja długoterminowa w CREDO Pojęcie archiwizacji długoterminowej Archiwizacja długoterminowa zasobów cyfrowych Przechowywanie długoterminowe przez co najmniej kilkadziesiąt lat, często na wiele pokoleń przez czas znacząco dłuższy od czasu życia współczesnych technologii Archiwizacja długoterminowa zapewnienie nie tylko długoterminowego przechowania spełnienie wielu dodatkowych wymagań G.Płoszajski, T.Traczyk IAiIS PW 7/25
Archiwizacja długoterminowa w CREDO Wymagania archiwizacji zasobów cyfrowych a CREDO Trwałość informacji Trudna do uzyskania Brak trwałych nośników potrzebne specjalne warunki przechowywania konieczne okresowe przepisywanie/odświeżanie: dyski co 2 lata, taśmy co 4 5 lat konieczne regularne poruszanie dyski trzeba włączać i rozkręcać taśmy trzeba przewijać Zmienne technologie taśmy mogą za kilka lat nie pasować do dostępnych napędów Co można zrobić? konieczne duplikowanie replikacja kopie lokalne dyslokacja kopie zdalne i relokacja przepisywanie lub odświeżanie zapisu w przypadku taśm kosztowne i czasochłonne G.Płoszajski, T.Traczyk IAiIS PW 8/25
Archiwizacja długoterminowa w CREDO Wymagania archiwizacji zasobów cyfrowych a CREDO Trwałość informacji, c.d. W CREDO Replikacja na poziomie systemu plików na poziomie archiwum także do różnych technologicznie systemów plików Relokacja automatycznie wykonywana przez archiwum z automatyczną ucieczką z nośników niepewnych lub oznaczonych jako przestarzałe Optymalizacja alokacji i relokacji z uwzględnieniem danych statystycznych dotyczących awaryjności G.Płoszajski, T.Traczyk IAiIS PW 9/25
Archiwizacja długoterminowa w CREDO Wymagania archiwizacji zasobów cyfrowych a CREDO Trwałość informacji, c.d. W CREDO Dyslokacja w ramach tego samego archiwum zdalna replikacja w ramach federacji archiwów (między archiwami) wzajemna świadomość posiadania kopii i stanu ich poprawności koordynacja działań związanych z ryzykiem uszkodzenia kopii możliwa odrębność technologiczna kopii Możliwość odbudowy uszkodzonego zapisu w replikacji automatycznie lub półautomatycznie w dyslokacji między archiwami w reakcji na alert systemu Możliwość użycia nowych technologii dość łatwa wymienność systemów plików względnie łatwe wprowadzenie nowej technologii nośników możliwość zautomatyzowanej migracji na nowe nośniki G.Płoszajski, T.Traczyk IAiIS PW 10/25
Archiwizacja długoterminowa w CREDO Wymagania archiwizacji zasobów cyfrowych a CREDO Weryfikowalność poprawności przechowywania Niezbędna dla zapewnienia trwałości musi istnieć metoda sprawdzenia, czy nie doszło do uszkodzenia informacji W CREDO Monitorowanie sprzętu dla dysków ocena bieżącej niezawodności zapisu na podstawie analizy danych SMART Regularne wielopoziomowe monitorowanie stanu zasobów na poziomie systemu plików: sprawdzanie sum kontrolnych niskopoziomowych porcji informacji (tzw. chunks) na poziomie archiwum: okresowe sprawdzanie skrótów cyfrowych plików w obecnej wersji SHA-256 możliwa zmiana standardu i równoczesne użycie wielu standardów G.Płoszajski, T.Traczyk IAiIS PW 11/25
Archiwizacja długoterminowa w CREDO Wymagania archiwizacji zasobów cyfrowych a CREDO Integralność informacji Kompletność (np. w sensie wymagań użytego formatu) Pewność, że nie dokonano nieuprawnionych modyfikacji W CREDO Przechowywanie zasobów opakowanych łącznie z ich metadanymi Kopia metadanych w bazie danych Mechanizmy sprawdzania integralności poprawności formatu niezmienności zapisu (skróty cyfrowe) G.Płoszajski, T.Traczyk IAiIS PW 12/25
Archiwizacja długoterminowa w CREDO Wymagania archiwizacji zasobów cyfrowych a CREDO Autentyczność informacji Zgodność zawartości rzeczywistej z deklarowaną (np. w metadanych) W CREDO Rozbudowane metadane w archiwum zapisane w XML możliwość poprawnej interpretacji po latach w bazie danych zapisane w elastycznych strukturach danych możliwość wykorzystania różnych standardów, także jeszcze nieistniejących Kontrola integralności metadanych i prawidłowości przypisania ich do zasobu G.Płoszajski, T.Traczyk IAiIS PW 13/25
Archiwizacja długoterminowa w CREDO Wymagania archiwizacji zasobów cyfrowych a CREDO Dostępność informacji Możliwość odnalezienia i pozyskania żądanego zasobu Interpretowalność zasobu szczególnie problematyczna w archiwum długoterminowym ze względu na moralne starzenie się formatów zapisu cyfrowego W CREDO Kopia metadanych w bazie danych on-line efektywne wyszukiwanie różnorodne mechanizmy wyszukiwania klasyczne zapytania do bazy danych wyszukiwanie pełnotekstowe wyszukiwanie w XML (XQuery) łatwość rozbudowy o nowe mechanizmy Różnorodne, współistniejące identyfikatory zasobów (DOI, URI itp.) Formaty zapisu zapewniające poprawną interpretację zasobów dopuszczone tylko formaty uznane za odpowiednie dla archiwizacji dokumentacja dostępna w archiwum i powiązana z zasobami G.Płoszajski, T.Traczyk IAiIS PW 14/25
Archiwizacja długoterminowa w CREDO Wymagania archiwizacji zasobów cyfrowych a CREDO Poufność informacji Gwarancja udostępnienia jedynie podmiotom uprawnionym W CREDO Ochrona fizyczna i zabezpieczenia techniczne zgodne z najwyższymi standardami przemysłowymi (PWPW) Dostęp do systemu CREDO wyłącznie w chronionej sieci VPN Udostępnianie zasobów jedynie ich właścicielowi i użytkownikom przez niego upoważnionym Brak bezpośredniego dostępu użytkowników do systemu plików archiwum Wydzielony podsystem bezpieczeństwa, uprawniający programy CREDO do operowania na plikach archiwum tylko w niezbędnym zakresie i na niezbędny czas G.Płoszajski, T.Traczyk IAiIS PW 15/25
Archiwizacja długoterminowa w CREDO Wymagania archiwizacji zasobów cyfrowych a CREDO Efektywność energetyczna Archiwum musi mieć akceptowalne koszty utrzymania W CREDO znaczącym składnikiem są koszty energii Tzw. archiwum głębokie dostęp na zamówienie (off-line), a nie na żądanie z oszacowaniem czasu dostawy Inteligentne wyłączanie urządzeń pamięciowych (serwerów, dysków) Optymalizacja okresów dostępu do poszczególnych obszarów danych w celu minimalizacji zużycia energii G.Płoszajski, T.Traczyk IAiIS PW 16/25
Archiwizacja długoterminowa w CREDO Standardy i certyfikacja Standardy w archiwum cyfrowym Tylko zgodność ze standardami może zapewnić długookresową możliwość poprawnej interpretacji zasobów Standardy muszą dotyczyć zawartości archiwum: formatów przechowywanych zasobów, metadanych Także struktura archiwum i procedury jego działania powinny być zgodne ze standardami lub ogólnie przyjętymi obyczajami W CREDO Zgodność filozofii i działania systemu z Open Archival Information System (OAIS) standardem określającym model referencyjny dla archiwów cyfrowych (ISO 14721:2012) Pakiety archiwalne zgodne z XML Formatted Data Unit (XFDU) standardem określający budowę pakietu archiwalnego Metadane zgodne ze standardami, np. PREMIS (Preservation Metadata: Implementation Strategies) G.Płoszajski, T.Traczyk IAiIS PW 17/25
Archiwizacja długoterminowa w CREDO Standardy i certyfikacja Certyfikacja archiwum cyfrowego Potrzebę oparcia zaufania do archiwów cyfrowych na certyfikacji sformułowano już w roku 1996 Model referencyjny OAIS dostarczył terminologię i strukturę logiczną Zasady certyfikacji określa dokument Trusted Digital Repositories (ISO 16363:2012) W CREDO Założona zdatność archiwum CREDO do certyfikacji Zgodność z modelem OAIS w szczególności co do zarządzania obiektami cyfrowymi Przejrzysta architektura z dobrze określonym podziałem zadań Szczegółowe rejestrowanie zdarzeń w dziennikach (logach) Dokumentacja techniczna w języku angielskim ze względu na potencjalny brak krajowych instytucji certyfikujących G.Płoszajski, T.Traczyk IAiIS PW 18/25
Rozwiązania w archiwum CREDO Założenia techniczne Założenia techniczne archiwum CREDO Nacisk na rozwiązania oparte na pamięciach dyskowych mniejsze trudności przy relokacji/odświeżaniu możliwość budowy repozytorium on-line nadzieja na rozwój i spadek cen dysków SSD Wbudowane także rozwiązanie bazujące na taśmach Budowa z dostępnych komponentów o rozsądnych cenach w przypadku dysków typowe dyski o dobrym stosunku pojemność/cena w przypadku taśm typowe taśmy LTO Modularność Podział na luźno sprzężone podsystemy Dobrze określone interfejsy między podsystemami Możliwość wymiany poszczególnych podsystemów Możliwość współdziałania z systemami zewnętrznymi np. z systemami finansowymi rozliczenia przez otwarte interfejsy (XML) G.Płoszajski, T.Traczyk IAiIS PW 19/25
Rozwiązania w archiwum CREDO Założenia techniczne Założenia techniczne archiwum CREDO, c.d. Rozproszenie możliwość instalacji w wielu lokalizacjach replikacja/dyslokacja do odległych centrów danych Względna niezależność od aktualnych rozwiązań technicznych zgodność ze standardami mało uwarunkowanymi technologicznie szerokie użycie XML możliwość działania z różnymi systemami plików używającymi różnych nośników także jeszcze nieistniejącymi Możliwości rozwoju wymienność podsystemów osiągnięta dzięki luźnym sprzężeniom elastyczne struktury danych względnie łatwa rozbudowa o nowe podsystemy rozwój ułatwiony dzięki zgodności ze standardami G.Płoszajski, T.Traczyk IAiIS PW 20/25
Rozwiązania w archiwum CREDO Składowe i technologie Składowe rozwiązania CREDO Trwałe (mogą co najwyżej ewoluować, z zachowaniem zgodności wstecznej) użyte standardy architektura interfejsy (w tym formaty komunikatów między podsystemami) struktura pakietów archiwalnych AIP procedury działania rekomendacje co do formatów, metadanych itp. Możliwe do wymiany (z możliwością współistnienia starych i nowych) środowiska sprzętowo-systemowe nośniki i ich obudowa programowa (w tym systemy plików) konkretne rozwiązania informatyczne (baza danych, języki itp.) protokoły komunikacyjne struktury pakietów SIP i DIP formaty zapisu danych G.Płoszajski, T.Traczyk IAiIS PW 21/25
Rozwiązania w archiwum CREDO Składowe i technologie Technologie w Demonstratorze CREDO System plików: dostosowany do CREDO klon systemu MooseFS rozproszony system plików o wielkiej pojemności (2 lokalizacje) rozbudowany m.in. o mechanizmy oszczędzania energii z możliwością obsługi pamięci taśmowych pojemność docelowa 2 PB System rozproszony (3 węzły) z chronionymi połączeniami (VPN) Podsystem zarządzania archiwum zbudowany z użyciem b.d. Oracle G.Płoszajski, T.Traczyk IAiIS PW 22/25
Podsumowanie Dlaczego CREDO może interesować Digitalizatorów? Możliwość wykorzystania jako podręcznej bezpiecznej składnicy o wielkiej pojemności jako efektywnego ekonomicznie archiwum długoterminowego Zgodność ze standardami i możliwość certyfikacji Możliwość dostosowania do potrzeb klienta i współdziałania z systemami informatycznymi klienta Możliwości rozwoju i rozbudowy Rozwiązania otwarte na absorbcję nowych technologii Know-how pozostający w uczelni publicznej do wykorzystania także w innych projektach Wiarygodni wykonawcy czołowa uczelnia publiczna spółka strategiczna Skarbu Państwa o podwyższonych standardach bezpieczeństwa G.Płoszajski, T.Traczyk IAiIS PW 23/25
Podsumowanie Dostępność systemu CREDO Stan realizacji projektu projekt przeszedł z fazy koncepcyjnej do fazy projektowania i implementacji zbudowano dwa centra danych, ośrodek zarządzania i VPN Zakończenie projektu: marzec 2016 www.credo.ia.pw.edu.pl G.Płoszajski, T.Traczyk IAiIS PW 24/25
Cyfrowe REpozytorium DOkumentów G.Płoszajski, T.Traczyk IAiIS PW 25/25