Standardy digitalizacji i repozytoria cyfrowe Seminarium: Digitalizacja stan obecny 19 II 2010 r. Grzegorz Płoszajski Politechnika Warszawska, Instytut Automatyki i Informatyki Stosowanej Biblioteka Główna
Plan prezentacji Podstawowe cele digitalizacji Dodatkowe motywy digitalizacji Technika digitalizacji wymagania i zalecenia Metadane - standardy Repozytoria 2
Dwa cele digitalizacji ZACHOWANIE obiektów kultury dla przyszłych pokoleń w postaci cyfrowych kopii UDOSTĘPNIANIE bieŝące cyfrowych kopii z uŝyciem techniki cyfrowej 3
Digitalizacja realizacja celów ZACHOWANIE obiektów kultury dla przyszłych pokoleń przez przechowywanie długoterminowe cyfrowych kopii w REPOZYTORIACH UDOSTĘPNIANIE bieŝące cyfrowych kopii za pośrednictwem internetu i ich gromadzenie (m.in.) w BIBLIOTEKACH CYFROWYCH 4
Kopie wzorcowe i pochodne Tworzenie dobrych jakościowo cyfrowych kopii WZORCOWYCH w celu ich zachowania Tworzenie z nich kopii POCHODNYCH o jakości odpowiedniej (wystarczającej) do udostępniania 5
Proces digitalizacji a metadane Powiązanie tworzonych kopii cyfrowych z METADANYMI opisującymi oryginalny obiekt Dołączanie w procesie digitalizacji innych METADANYCH, zawierających informacje o procesie digitalizacji i sprzęcie, o strukturze cyfrowego obiektu złoŝonego, o prawach udostępniania 6
Proces digitalizacji standardy Standardy i wymagania techniczne odnośnie procesu digitalizacji charakteryzujące wierność odwzorowania analogowego oryginału za pomocą tworzonych kopii cyfrowych Standardy i wymagania dotyczące poszczególnych grup metadanych opisujących tworzone obiekty cyfrowe 7
Proces zachowywania - zapis Technika cyfrowa posługuje się obecnie zapisem nietrwałym Technika cyfrowa zapewnia łatwość tworzenia dokładnych kopii cyfrowych (w technice analogowej przy kopiowaniu następuje utrata jakości) Zakłada się zachowywanie obiektów cyfrowych poprzez ich okresowe kopiowanie (np. co 3 lata) 8
Proces zachowywania 2 - technika Technika cyfrowa będzie się zmieniać w okresie Ŝycia obiektów cyfrowych Zachowywane w repozytoriach obiekty cyfrowe będą z konieczności podlegały tzw. migracjom na nowe nośniki, zmianom formatu zapisu itp. Właściwy obiekt cyfrowy ma pozostać przy tym niezmieniony 9
Proces zachowywania - standardy Standardy dotyczą dokumentowania w metadanych konserwatorskich zmian i procesów, jakim poddawany jest obiekt cyfrowy w repozytorium, np. Kopiowania odświeŝającego Badania sum kontrolnych Zmiany formatu Zmiany nośnika 10
Plan prezentacji Podstawowe cele digitalizacji Dodatkowe motywy digitalizacji Technika digitalizacji wymagania i zalecenia Metadane - standardy Repozytoria 11
Dodatkowe motywy digitalizacji Pilność digitalizacji ze względu na ZAGROśENIA dla oryginału, w tym: szybko postępujące procesy autodestrukcyjne nośnika starzenie techniczne urządzeń i nośników Szerokie udostępnianie poza Polską, skłaniające do stosowania: odpowiednich standardów metadanych zaleceń technicznych 12
Typy zagroŝeń Zdarzenia losowe, np. poŝar, kradzieŝ, zalanie ZagroŜenia chemiczne, biologiczne, fizyczne, w tym PROCESY AUTODESTRUKCYJNE nośnika Zaprzestawanie produkcji urządzeń do odczytu i nośników Nietrwałość zapisu (magnetycznego) 13
ZagroŜenia nośnika i zapisu Procesy autodestrukcyjne nośnika dotyczą przede wszystkim: kwaśnego papieru w gazetach, ksiąŝkach, dokumentach znacznej części nośników audiowizualnych: taśm filmowych nitro i octanowych taśm magnetycznych: audio i wideo, z zapisem analogowym i cyfrowym Nietrwały zapis - magnetyczny 14
ZagroŜenia co robić? Spowalniać procesy destrukcyjne jeśli moŝna (np. odpowiednim przechowywaniem materiałów filmowych) Spieszyć się z digitalizacją, zwłaszcza tam, gdzie nie ma się wpływu na procesy zachodzące w nośnikach (np. na zapis magnetyczny) Zabezpieczać stare urządzenia odtwarzające bądź dokumentację umoŝliwiającą ich zbudowanie 15
Zalecenia Spowalnianie procesów autodestrukcyjnych materiałów audiowizualnych (taśm filmowych i magnetycznych) odbywa się przez zapewnienie: stałej określonej temperatury i wilgotności podczas przechowywania niewielkiej szybkości zmian tych parametrów przy wyjmowaniu materiałów. Zalecane wartości parametrów są opracowane przez kilka ośrodków i firm 16
ZagroŜenia zdąŝyć! ZdąŜyć przed (samo)zniszczeniem nośnika ZdąŜyć przed zanikiem zapisu na nośniku ZdąŜyć przed niemoŝnością odczytu z powodu braku urządzeń 17
Współpraca europejska Zapewnienie moŝliwości udostępniania cyfrowych kopii naszych obiektów kultury w takich portalach jak Europeana (takŝe w portalach dla zbiorów archiwalnych, dla filmów itd.): przez stosowanie standardów metadanych przez stosowanie zaleceń odnośnie formatów zapisu obiektów cyfrowych 18
Współpraca europejska - dlibra Zbiory bibliotek cyfrowych posługujących się polskim oprogramowaniem dlibra, współpracujących w Federacji Bibliotek Cyfrowych, są widoczne takŝe w Europeanie 19
Plan prezentacji Podstawowe cele digitalizacji Dodatkowe motywy digitalizacji Technika digitalizacji wymagania i zalecenia Metadane - standardy Repozytoria 20
Typy obiektów analogowych Dokumenty biblioteczne i archiwalne (ksiąŝki, gazety, dokumenty, mapy, rękopisy), oraz np. partytury, plakaty, scenariusze Zbiory muzealne (malarstwo, rzeźba, artefakty ) Fotografie (negatywy, slajdy, odbitki) Nośniki z zapisem analogowym dźwięku (płyty gram., wałki, taśmy magn. szpulowe, kasety, ) Filmy, wideo (taśmy studyjne, np. archiwa TV, kasety do uŝytku domowego, np. VHS) 21
Typy obiektów cyfrowych Obrazy nieruchome płaskie: czarno białe, kolorowe, w skali szarości Teksty (pliki tekstowe) Dźwięk (cyfrowy) Obrazy ruchome Obiekty złoŝone (obraz z dźwiękiem) 22
Sprzęt do digitalizacji typowy Skanery i aparaty fotograficzne Sprzęt do odtwarzania dźwięku z nośników analogowych, przetworniki analogowo-cyfrowe do dźwięku, karty dźwiękowe Skanery do filmów, telekina 23
Sprzęt do digitalizacji pomocniczy Sprzęt i oprogramowanie do korekcji dźwięku cyfrowego Sprzęt i oprogramowanie do korekcji obrazu ruchomych 24
Sprzęt do digitalizacji specjalny Skanery 3D Sprzęt i oprogramowanie do tworzenia obrazów 3D (np. obiektów architektonicznych) Sprzęt do bezdotykowego odtwarzania płyt gramofonowych i innych nośników dźwiękowych starego typu 25
Wymagania przykładowe Dla obrazów cyfrowych płaskich nieruchomych: Rozdzielczość (np. 300 dpi) Przestrzeń barwna (np. RGB) Liczba bitów (np. 8, 10, 16 na kolor) Skala liniowa lub logarytmiczna Korekcja gamma (np. 2.2) Profil barwny ICC (np. AdobeRGB1998) Format TIFF 6.0 26
Wymagania przykładowe Dla obrazów cyfrowych ruchomych ze skanowania negatywów filmowych: Rozdzielczość (np. 2048 x 1080 dpi) Przestrzeń barwna (RGB) Liczba bitów (np. 10 na kolor w skali logarytmicznej lub 16 w skali liniowej) Korekcja gamma (np. 2.6) Format zapisu (np. DPX) 27
Wymagania przykładowe Dla obrazów cyfrowych ruchomych z digitalizacji materiałów wideo: Rozdzielczość (np. 720 x 576 - PAL) Przestrzeń barwna (model YCbCr) Bity na kolor (np. 8 w skali liniowej) Podpróbkowanie sygnału chrominancji (np. 4:4:4, 4:2:2, zaleŝnie od materiału digitalizowanego) Format plikowy (np. AVI) lub zapis strumieniowy (np. Beta Digital) 28
Wymagania przykładowe Dla dźwięku: Digitalizacja LPCM (Linear Pulse Code Modulation) Częstotliwość próbkowania 48 khz 24 bity na próbkę Zapis typu WAVE (.wav) 29
Zalecenia IASA dla dźwięku (International Association of Sound and Audiovisual Archives) Zewnętrzny przetwornik A/C (ze względu na zakłócenia wewnątrz komputera) Digitalizacja LPCM (Linear Pulse Code Modulation) Częstotliwość próbkowania 48/96/192 khz 24 bity na próbkę Zapis typu WAVE (.wav) lub BWF (standard EBU Tech 3285 pozwalający na umieszczanie metadanych w WAVE) 30
Zalecenia IASA dla przetwornika Wybrane przykładowe zalecenia: Zakres dynamiczny przetwornika > 115 db Charakterystyka częstotliwościowa płaska -0.1/+0.1 db 20 Hz 20 khz -0.3/+0.3 db 20 khz 40 khz (od 96 khz) -0.5/+0.5 db 40 khz 50 khz (dla 192kHz) Liniowość charakterystyki amplitudowej -0.5 db/+0.5 db w zakresie od 0 do 120 db Dokładność wewnętrznego zegara lepsza od 25 ppm Fluktuacje (jitter) < 5 ns 31
Wymagania a cel digitalizacji Zalecenia Biblioteki Kongresu są formułowane zaleŝnie od celu digitalizacji, np. dla tekstu drukowanego, gdy celem jest: pokazanie obrazu strony - min 300 ppi wykonanie OCR min 400 ppi np. dla fotografii, gdy celem jest: dostęp do zawartości min 300 ppi wykonanie reprodukcji maksymalna rozdzielczość sprzętu 32
Wymagania a charakter obiektu W materiałach przygotowanych przez Zespół ds. Digitalizacji sformułowano 10 zasad, podających m.in.: jak interpretować zalecenia dotyczące rozdzielczości skanowania w przypadku obiektów o nietypowych rozmiarach jak oceniać jakość wykonywanych skanów ( Standardy w procesie digitalizacji obiektów dziedzictwa kulturowego bcpw.bg.pw.edu.pl/dlibra) 33
Specyfika materiałów AV Specyficzna dla digitalizacji materiałów AV jest korekcja (remastering) obrazu i dźwięku Korekcja automatyczna moŝe wprowadzić niepoŝądane zmiany (wymaga nadzoru) Korekcja dobrej jakości wymaga pracy ręcznej Szczególnie pracochłonna i kosztowna jest korekcja obrazu Prosta korekcja dźwięku ( odszumianie ) moŝe przebiegać w trybie automatycznym 34
Wymagania dla materiałów AV Przy digitalizacji materiałów AV trzeba dokonywać wyborów, wiedząc Ŝe: Proces digitalizacji niektórych typów materiałów jest kosztowny - i koszt rośnie z jakością Pliki cyfrowe są zazwyczaj duŝe; ich wielkość rośnie z jakością; koszt długoterminowego przechowywania duŝych plików jest znaczny Materiały oryginalne są zagroŝone zniszczeniem i moŝliwość wykonania kopii moŝe się nie powtórzyć Skłania to do starannego formułowania wymagań odnośnie sposobu digitalizacji 35
Wielkość plików przy digitalizacji materiałów AV Jedna godzina dźwięku stereo digitalizowanego 24 bity/48 khz zajmuje w pliku ok. 1 GB Jedna godzina filmu digitalizowanego w standardzie 2K (16 bitów) zajmuje w pliku ok. 1.2 TB Jedna godzina filmu digitalizowanego w standardzie 4K (16 bitów) zajmuje w pliku blisko 5 TB 36
Wymagania jak formułować? Dla jakich materiałów filmowych przyjmować jako minimum np. specyfikację Digital Cinema 2K (obecnie v. 1.2)? Czy wymagać wówczas zapisu do celów archiwalnych w formacie MXF (dobrze ocenionym w analizie Biblioteki Kongresu)? Dla jakich materiałów filmowych uwaŝać za uzasadnioną digitalizację 4K? 37
Wymagania jak formułować? Dla jakich materiałów wideo przyjmować jako minimum np. specyfikację PAL cyfrowy SD? Czy stosować HD? Jak oceniać jakość korekcji obrazu i dźwięku? Czy porównywać plik po korekcji z (zachowanym) plikiem sprzed korekcji? Czy w przypadku nagrań dźwiękowych o wartości artystycznej stosować jako zasadę zachowywania pliku sprzed korekcji? 38
Wymagania jak formułować? Jaki stosować format zapisu wideo do celów archiwalnych? Kiedy wymagać zapisu plikowego, a kiedy dopuszczać strumieniowy? Jak formułować wymagania dla źródeł o wysokiej wartości dokumentalnej ale niskiej jakości technicznej, np. VHS? 39
Plan prezentacji Podstawowe cele digitalizacji Dodatkowe motywy digitalizacji Technika digitalizacji wymagania i zalecenia Metadane - standardy Repozytoria 40
Metadane dane o danych Przykład 1 informacje we właściwościach pliku MS Word (tytuł, autor, firma i in.), niektóre wpisywane automatycznie Przykład 2 informacje wyświetlane przy przeglądaniu zdjęć z aparatu cyfrowego, takie jak wymiary zdjęcia, model aparatu, data, zawarte w samym pliku graficznym 41
Typy metadanych w digitalizacji Opisowe (dotyczące oryginału), Administracyjne, w tym prawne (pomocne w zarządzaniu) Techniczne (np. parametry skanowania) Strukturalne (relacje z innymi obiektami cyfrowymi) Konserwatorskie (zabiegi dokonywane na przechowywanym obiekcie cyfrowym) 42
Metadane opisowe przykładowe standardy EAD do opisu zasobów archiwalnych MARCXML (odmiana MARC ułatwiająca przetwarzanie komputerowe) CDWA, VRA do opisywania dzieł sztuki EBU Tech 3293 metadane zamieszczane w transmisjach radiowych IPTC4XMP zapisywane w zdjęciach cyfrowych (standard fotografii prasowej)
Metadane administracyjne Dotyczące procesu digitalizacji od strony zarządzania (np. data, osoba, nazwa projektu, ocena jakościowa skanu). Prawne - dotyczące ograniczeń prawnych w udostępnianiu obiektu cyfrowego (prawa autorskie) Behawioralne (dotyczące zaleceń technicznych przy udostępnianiu, np. obrócenie zdjęcia w lewo) Uwaga, podział metadanych na grupy i podgrupy jest róŝnie przedstawiany
Metadane techniczne przykładowe standardy MIX/ Z39.87 dla obrazów cyfrowych płaskich nieruchomych (Biblioteka Kongresu) Exif 2.2 dla zdjęć cyfrowych w formatach TIFF I JPG (sprzęt fotograficzny popularny i profesjonalny)
Exif przykład (fragment) Make - Canon Model - Canon PowerShot A720 IS Orientation - Top left XResolution - 180 YResolution - 180 ResolutionUnit - Inch DateTime - 2009:03:12 05:33:43 YCbCrPositioning - Centered ExifOffset - 196 ExposureTime - 1/250 seconds FNumber - 4.00 ISOSpeedRatings - 80 ExifVersion - 0220 DateTimeOriginal - 2009:03:12 05:33:43 DateTimeDigitized - 2009:03:12 05:33:43 ComponentsConfiguration - YCbCr CompressedBitsPerPixel - 5 (bits/pixel) ShutterSpeedValue - 1/251 seconds ApertureValue - F 4.00 ExposureBiasValue - 0.00 MaxApertureValue - F 2.80 MeteringMode - Multi-segment Flash - Flash not fired, compulsory flash mode FocalLength - 5.80 mm UserComment - FlashPixVersion - 0100 ColorSpace - srgb ExifImageWidth - 2592 ExifImageHeight - 1944 InteroperabilityOffset - 3362 FocalPlaneXResolution - 11520.00 FocalPlaneYResolution - 11502.96 FocalPlaneResolutionUnit - Inch SensingMethod - One-chip color area sensor FileSource - DSC - Digital still camera CustomRendered - Normal process ExposureMode - Auto White Balance Auto DigitalZoomRatio - 1.00 x SceneCaptureType - Standard
Metadane techniczne po co? Co moŝna powiedzieć o rzeczywistej wielkości skanowanego obiektu, gdyby nie zapisać informacji o rozdzielczości skanowania? Co moŝna powiedzieć o wierności przedstawienia barw oryginału na podstawie samego obrazu cyfrowego, gdyby nie zapisać odpowiedniej informacji o odwzorowywaniu barw?
Metadane techniczne po co? Potrzebne np. do: określenia częstotliwości wyświetlania obrazu wideo sposobu wyświetlania obrazu (z przeplotem czy bez) częstotliwości próbkowania dźwięku odróŝnienia poszczególnych kanałów dźwiękowych i sposobu ich przeplatania
Metadane techniczne jak szczegółowo? ZaleŜnie od celu digitalizacji, którym moŝe być np.: Zachowanie obrazu graficznego dokumentu lub obiektu muzealnego, Zachowanie obrazu dokumentu drukowanego i rozpoznanie tekstu (OCR) Reprodukowanie na wysokim poziomie jakości Analiza cech obiektu, np. technik wytworzenia Prowadzenie badań naukowych
Metadane opisowe materiałów AV Standardy metadanych dla materiałów bibliotecznych i archiwalnych są w miarę dopracowane, i niekiedy stosowane od długiego czasu Sposób opisywania materiałów audiowizualnych był niejednolity (np. ośrodkach regionalnych PR i TV), a przy tym zmieniał się okresowo 50
Metadane materiałów AV Przy digitalizacji moŝna tworzyć metadane w nowych standardach Tworzenie metadanych jest zadaniem pracochłonnym Znacznie prostsze jest przenoszenie danych ze starego opisu (przy pracy ręcznej teŝ jest pracochłonne), ale niejednolitość jest problemem 51
Metadane materiałów AV Wprowadzono w Polsce standard opisu materiałów filmowych określony w normie PN-EN 15744:2009 Ma być wprowadzona w roku 2010 norma oparta na EN 15745, określająca format wymiany informacji o materiałach filmowych 52
Metadane materiałów AV Dla materiałów dźwiękowych moŝna stosować metadane opracowane przez EBU: w roku 2001 dla archiwów radiowych (Tech 3293-2001) rozszerzone w roku 2009 jako EBU Core, oparte na Dublin Core, (Tech 3293-2009) oraz uaktualnione w roku 2009 P_META (Tech 3295) spec. 2.1 Do wymiany danych słuŝyć moŝe zestaw Exchange Metadata Set (Tech 3331-2009) 53
Metadane materiałów AV Oprócz metadanych źródłowych zawierających np. rozbudowane dane szczegółowe mogą być potrzebne metadane w formatach wymiennych DuŜe znaczenie ma Dublin Core i jego pochodne, jak standard Europeany MoŜe być celowe konwertowanie opisów dodatkowo na taki standard 54
Metadane materiałów AV Wspólny format wymienny dla moŝliwie szerokich grup materiałów AV moŝe ułatwić ich wyszukiwanie w duŝych bazach Otwarte udostępnianie metadanych, np. za pomocą protokołu OAI-PMH, moŝe ułatwić tworzenie baz z opisami materiałów AV Czy nie powinno się udostępniać metadanych obiektów digitalizowanych z uŝyciem funduszy publicznych? 55
Plan prezentacji Podstawowe cele digitalizacji Dodatkowe motywy digitalizacji Technika digitalizacji wymagania i zalecenia Metadane - standardy Repozytoria 56
Repozytoria Są opracowane teoretyczne podstawy długotrwałego przechowywania danych w repozytoriach, m.in. Model referencyjny OAIS Obserwuje się znaczący postęp w pojemnościach pamięci komputerowych (taśmy LTO-4, dyski przekraczające 1 TB) 57
Repozytoria W prace dotyczące długotrwałego przechowywania danych zaangaŝowali się znaczący producenci Rośnie zapotrzebowanie na usługi z zakresu długotrwałego przechowywania danych cyfrowych ze strony instytucji państwowych 58
Repozytoria Na repozytoria patrzy się niekiedy przede wszystkim jak na SPRZĘT, który trzeba kupić dla instytucji lub firmy, w przyszłości wymieniać Powinno się patrzeć na nie takŝe jako na USŁUGI, które mogą być świadczone róŝnym uŝytkownikom 59
Repozytoria - sprzęt Typowe konstrukcje tworzonych repozytoriów opierały się zazwyczaj na połączonym uŝyciu bibliotek taśmowych i serwerów z macierzami dyskowymi do obsługi operacji wejścia-wyjścia Koncepcja rozwoju ilościowego zasobów zakładała często (ze względu na koszty) ręczną obsługę taśm, składowanych na półkach 60
Repozytoria - sprzęt Biblioteki taśmowe wykorzystywane w dłuŝszym horyzoncie wymagają wymiany, jak równieŝ odświeŝania zapisu na taśmach Analiza kosztów róŝnych archiwów cyfrowych powstających w ostatnich latach wskazywała na znaczący udział kosztów osobowych 61
Repozytoria - sprzęt Prowadzone są prace nad technologiami umoŝliwiającymi zautomatyzowane wykonywanie większości operacji technicznych, w szczególności odświeŝania zapisu Pewne nadzieje moŝna wiązać z wprowadzeniem do szerokiego uŝytku dysków o duŝej pojemności 62
Repozytoria - sprzęt W macierzach dyskowych dyski stale się obracają i pobierają energię Dyski stosowane w repozytoriach nie muszą być zasilane w sposób ciągły (mogą być wyłączone jak taśma odłoŝona na półkę) W duŝych repozytoriach aspekt energetyczny ma znaczenie 63
Plan prezentacji Podstawowe cele digitalizacji Dodatkowe motywy digitalizacji Technika digitalizacji wymagania i zalecenia Metadane - standardy Repozytoria 64
Standardy digitalizacji i repozytoria cyfrowe Dziękuję za uwagę