Metadanew archiwach cyfrowych CREDO Grzegorz PłoszajskiP Warszawa, 24 IV 2014 r.
Plan prezentacji O metadanych ogólnie Metadane dla materiałów audiowizualnych Metadane strukturalne Metadane złożone Formaty plików cyfrowych Uwagi
Metadane dane o danych Przykład 1 informacje we właściwościach pliku MS Word (tytuł( tytuł, autor,, firma i in.), niektóre wpisywane automatycznie Przykład 2 informacje wyświetlane przy przeglądaniu zdjęć z aparatu cyfrowego, takie jak wymiary zdjęcia,, model aparatu,, data, zawarte w samym pliku graficznym (wpisywane automatycznie)
Typy metadanych-ogólne Opisowe (identyfikacja i opis oryginału) Techniczne (tworzenie obiektów cyfrowych) Strukturalne (struktura złożonych obiektów cyfrowych) Konserwatorskie (przechowywanie obiektów cyfrowych) Prawne (zakres udostępniania obiektów cyfrowych) Administracyjne (zarządzanie obiektami cyfrowymi)
Typy metadanych rozróżniane w informacji geoprzestrzennej Metadane wyszukiwania służące do wybrania zbioru danych (nazwa i opis zbioru, przeznaczenie danych, daty pozyskania i aktualizacji danych, producent, dostawca, główni użytkownicy, obszar, do którego dane się odnoszą, struktura zbioru danych) Metadanerozpoznania umożliwiają ocenę właściwości danych zbioru, ocenę przydatności danych zbioru pod względem wymagań użytkownika, nawiązanie kontaktu z dysponentem Metadanestosowania określają te właściwości zbioru, które są potrzebne do odczytania danych oraz ich transferu, interpretacji danych i praktycznego z nich korzystania
Metadane opisowe: Jest wiele standardów metadanych opisowych o różnym przeznaczeniu i zakresie stosowania, np. stosuje się w bibliotekach Marc21, Dublin Core(biblioteki cyfrowe) w archiwach EAD w księgarstwie ONIX for Books w fotografii prasowej IPTC(International Press Telecommunications Council) do opisu zasobów wizualnych (architektura, malarstwo, fotografia, film, wydawnictwa) VRA Core, CDWA do opisu obiektów w Systemach Informacji Geograficznej GIS - CSDGM (Content Standard for Digital Geospatial Metadata)
Metadane opisowe: Szczególne znaczenie ma Dublin Core (DC): Obowiązkowo stosowany w OpenAccess Initiativew wersji prostej (niekwalifikowanej, 15-elementowej) Przy braku standardów odpowiadających dokładnie potrzebom bywa stosowany jak jest bądź jako podstawa uzupełniana elementami lokalnymi Różne standardy szczegółowe mogą być odwzorowywane (z uproszczeniami) na Dublin Corew celu określenia wspólnych elementów wyszukiwawczych Bywa stosowany ze względu na mniejszy nakład pracy przy opracowaniu opisu od standardów dopasowanych do danej dziedziny, ale rozbudowanych
Elementy prostego Dublin Core: Tytuł (Title) Twórca (Creator) Opis rzeczowy (Subject) Opis (Description) Wydawca (Publisher) Współtwórca (Contributor) Data (Date) Typ (Type) Format (Format) Identyfikator (Identifier) Źródło (Source) Język (Language) Relacja (Relation) Miejsce i Czas (Coverage) Własność (Rights)
Bibliotekacyfrowa-metadane
Dublin Core - uwagi Opis Pamiętnika lubelskiego jest zgodny z prostym formatem Dublin Core. Opis pracy doktorskiej wykracza poza prosty Dublin Core (pola: Wydział, Promotor, Streszczenie). Qualified Dublin Core kwalifikatory mogą: zawężać znaczenie pól (np. spis treści, streszczenie dla pola opis ) albo wprowadzać słowniki kontrolowane
Metadane techniczne informują o: Procesie tworzenia obiektu cyfrowego Urządzeniach użytych do digitalizacji Parametrach procesu digitalizacji Parametrach związanych z formatami zapisu Wymaganiach odnośnie pamięci Lokalizacji Przykładowy standard: Exif, MIX (dla obrazów nieruchomych płaskich)
Metadane techniczne dla obrazów cyfrowych -Exif Exif2.2 ma blisko 150 metadanych zdjęciowych (takich jak obok) w tym ok. 30 GPS ponadto ma metadane dla dźwięku cyfrowego Exif.Image.ProcessingSoftware Exif.Image.NewSubfileType Exif.Image.ImageWidth Exif.Image.ImageLength Exif.Image.BitsPerSample Exif.Image.Compression Exif.Image.PhotometricInterpretation Exif.Image.FillOrder Exif.Image.DocumentName Exif.Image.ImageDescription Exif.Image.Make Exif.Image.Model
Metadane techniczne dla dźwięku -przykłady AES31-3-1999 1999 AES standard for network and file transfer of audio Audio file transfer and Exchange AudioMD v8 Audio Technical Metadata Extension Schema AES audioobject XML Schema Zalecenia IASA (International( Association of Sound Archives)
Metadane techniczne dla wideo Przykładowe informacje dla materiałów wideo dotyczą: Częstotliwości wyświetlania zapisanego obrazu wideo Sposobu wyświetlania obrazu (z przeplotem czy bez) Częstotliwości próbkowania dźwięku Rozróżniania poszczególnych kanałów dźwiękowych Sposobu przeplatania informacji z poszczególnych kanałów
Metadane strukturalne informują o: obiektach składowych tworzących obiekt złożony, np. obrazach cyfrowych i ich metadanych obiektach cyfrowych różnych typów, jak obrazy nieruchome, tekst i dźwięk powiązaniach między obiektami: statycznych (np. kolejne strony) odnoszących się do czasu (np. synchronizacja odtwarzania) Przykładowe standardy: METS, MPEG21-DIDL
Metadane konserwatorskie Wspomagają długotrwałe przechowywanie obiektów cyfrowych, umożliwiając zapisanie informacji o dotyczących ich zabiegach, np. odświeżeniu zapisu z przeniesieniem na inny nośnik, zmianie formatu zapisu, dokonaniu zmiany w metadanychobiektu cyfrowego. Przykładowy standard PREMIS
Metadane prawne Mogą być wyrażane opisowo w prostych, pojedynczych metadanychbądź za pomocą rozbudowanych systemów i sformalizowanych pojęć Informacje mogą być przeznaczone dla zarządzających udostępnianiem bądź dla ogółu użytkowników Zakres i forma informacji może być uzgadniana z organizacjami: zarządzania zbiorowego prawami autorskimi nadającymi numery takie jak ISAN dla utworów audiowizualnych lubkody dla wykonań
Metadane administracyjne Wspomagają zarządzanie obiektem cyfrowym Bywają określane niejednolicie, m.in. jako grupa obejmująca: -metadaneprawne, -metadanetechniczne, - metadane zawierające informacje o przetwarzaniu obiektu cyfrowego (np. o operacjach graficznych wykonanych na obrazie cyfrowym)
Informacja o zalecanych w Polsce standardach W Polsce powstało kilka centrów kompetencji w zakresie digitalizacji dóbr kultury. Funkcje te pełnią: Biblioteka Narodowa Narodowe Archiwum Cyfrowe Narodowy Instytut Audiowizualny Narodowy Instytut Dziedzictwa Narodowy Instytut Muzealnictwa i Ochrony Zabytków Opracowane przez nie zalecenia w postaci katalogów dobrych praktyk są dostępne m.in. na stronie Narodowego Instytutu Audiowizualnego
Informacja o zalecanych w Polsce standardach W katalogach dobrych praktyk są podane: zalecane (wymagane) formaty zapisu plików standardy metadanych parametry procesu digitalizacji Ponadto dla bibliotek, archiwów i muzeów są podane szczegółowe zalecenia odnośnie stosowanego sprzętu, oświetlenia, zapewnienia wierności barw itp. Przestrzeganie zalecanych praktyk jest wymagane przy współpracy z wymienionymi instytucjami (np. przy korzystaniu z dofinansowania projektów), ale warto się z nimi zapoznać i w jakimś zakresie stosować takżeprzy działalności prowadzonej samodzielnie, bez korzystania z dofinansowania
Metadane opisowe zalecane w polskich katalogach dobrych praktyk dla materiałów bibliotecznych -MARC 21 lub Dublin Core (są określone pola MARC 21 wymagane przy poszczególnych typach digitalizowanych obiektów); dla materiałów audiowizualnych - metadaneokreślone w normie PL-EN 15744; dla materiałów archiwalnych - metadaneopisowe nie są określone (wiadomo, że przy współpracy z archiwami z jednej strony wymaga się EAD, z drugiej dopuszcza się opis indywidualny, wzorowany na Dublin Core); zamieszczono uwagę, że metadanetechniczne powinny być zapisywane przez sprzęt skanujący, bez udziału człowieka; dla materiałów muzealnych zaleca się korzystanie ze standardów wspieranych przez uznane instytucje muzealne (np. CIDOC); dopuszcza się ich modyfikacje i własne standardy, zalecając, by opis był nie mniej szczegółowy niż Dublin Core.
Metadane gdzie jeszcze szukać informacji Sporo informacji o różnych standardach metadanych, a także o formatach zapisu plików cyfrowych zgromadziła Biblioteka Kongresu Stanów Zjednoczonych (Library of Congress www.loc.gov). Oprócz standardów typowo bibliotecznych, jak MARC 21, znaleźć tam można opis: standardu METS (Metadata Encoding and Transmission Schema), służącego do opakowywania informacji i przesyłania jej (np. do archiwum), oraz standardu ALTO (Analyzed Layout and Text Objects), służącego do łączenia informacji tekstowej w postaci wizualnej z rozpoznanym w procesie OCR tekstem Biblioteka Kongresu USA organizuje prace nad rozwojem standardów; standardem ALTO zajmuje się od 2009 r.; prace postępują (np. XML Schema 2.1 standardu ALTO została oficjalnie zaakceptowana 23-02-2014)
Metadane gdzie jeszcze szukać informacji W stowarzyszeniach i innych organizacjach zawodowych, np. The International Federation of Film Archives International Association of Sound and Audiovisual Archives Przykładowe metadanetechniczne dla materiałów dźwiękowych: AES31-3-1999 AES standard for network and file transfer of audio Audio file transfer and Exchange AudioMD v8 Audio Technical Metadata Extension Schema AES audioobject XML Schema Zalecenia IASA (International Association of Sound Archives)
Plan prezentacji O metadanych ogólnie Metadane dla materiałów audiowizualnych Metadane strukturalne Metadane złożone Formaty plików cyfrowych Uwagi
Metadane opisowe materiałów AV Znaczenie mają przede wszystkim standardy międzynarodowe, opracowane m.in. przez: Europejską Unię Nadawców EBU, Międzynarodową Federację Archiwów Filmowych FIAF Międzynarodową Federację Archiwów Telewizyjnych FIAT/IFTA Międzynarodowe Stowarzyszenie Archiwów Dźwiękowych IASA a także przez organizacje i instytucje amerykańskie, m.in. SMPTE (niekiedy wspólnie z europejskimi)
Metadane opisowe materiałów AV Oprócz standardów określających strukturę metadanych znaczenie mają słowniki pojęć, opracowywane i uzgadniane na szczeblu organizacji międzynarodowych, takich jak EBU
Identyfikacja materiałów AV Utwory audiowizualne mogą być oznaczane identyfikatorem: ISAN (ISO 15706) - International Standard Audiovisual Number - odpowiadającym ISBN i ISSN UMID (SMPTE 330M) Unique Material Identifier
Identyfikacja materiałów AV Nagrania audiowizualne mogą być oznaczane identyfikatorami ISRC International Standard Recording Code (ISO 3901) Nagrania muzyczne mogą być oznaczane kodami ISWC International Standard Music Work Code (ISO 15707)
Identyfikacja materiałów AV Numer ISAN jest przewidziany w standardzie MPEG-4; jest obowiązkowy w standardzie AACS (stosowanym w Bluray) Przy występowaniu o kody ISWC są potrzebne metadane. Przy wymienianiu osób i ich funkcji wymagane jest posługiwanie się kodami IPI, zawartymi w określonej bazie danych
Metadane materiałów AV W warunkach polskich szczególne znaczenie może mieć standard stosowany w TVP Tworzenie metadanych jest zadaniem pracochłonnym Znacznie prostsze jest przenoszenie danych ze starego opisu (przy pracy ręcznej też jest pracochłonne), ale niejednolitość jest problemem
Metadane materiałów AV - film Wprowadzono w Polsce standard opisu materiałów filmowych określony w normie PN-EN 15744:2009 Stosowanie go jest wymagane przez katalog dobrych praktyk NInA Jest w opracowaniu norma uzupełniająca, określająca format wymiany informacji o materiałach filmowych
Metadane materiałów AV Dla materiałów dźwiękowych można stosować metadane opracowane przez EBU: w roku 2001 dla archiwów radiowych (Tech( 3293-2001) 2001) rozszerzone w roku 2009 jako EBU Core, oparte na Dublin Core,, (Tech( 3293-2009) 2009) oraz uaktualnione w roku 2009 P_META (Tech 3295) spec. 2.1 Do wymiany danych służyć może zestaw Exchange Metadata Set (Tech( 3331-2009)
Metadane materiałów AV Oprócz metadanych źródłowych zawierających np. rozbudowane dane szczegółowe mogą być potrzebne metadane w formatach wymiennych Znaczenie ma Dublin Core i jego pochodne, jak standard Europeany Może być celowe konwertowanie opisów dodatkowo na taki standard
Metadane materiałów AV Wspólny format wymienny dla możliwie szerokich grup materiałów AV może ułatwić ich wyszukiwanie w dużych bazach Otwarte udostępnianie metadanych, np.. za pomocą protokołu OAI-PMH PMH,, może ułatwić tworzenie baz z opisami materiałów AV Na razie ten aspekt jakby nie był doceniony
Plan prezentacji O metadanych ogólnie Metadane dla materiałów audiowizualnych Metadane strukturalne Metadane złożone Formaty plików cyfrowych Uwagi
Metadane strukturalne METS METS do czego służy? Opakowanie i transport: metadanych (administracyjnych, technicznych, prawnych, behawioralnych) obiektów dowolnych (Base64) Określa strukturęobiektów złożonych.
Metadane strukturalne METS Około 30 typów metadanych strukturalnych Bardzo duże możliwości tworzenia powiązańmiędzy obiektami cyfrowymi współtworzącymi obiekt złożony
Metadane strukturalne cz. 2 Relacje strukturalne: Należy do grupy; w grupie jest kolejność (strona książki); Należy (ponadto) do rozdziału książki (rel. logiczne); Obiekt ten sam co..., tyle że po konserwacji (zdarzenie); Obiekt ten sam co..., tyle że inaczej ujęty (położenie, oświetlenie); Obiekt jest konkretnym fragmentem innego (położenie); Tekst przedstawiony graficznie można też usłyszeć jest w pliku audio począwszy od (multimedia - czas).
Metadane strukturalne cz. 3 Standardy metadanych stosowane do opisywania relacji strukturalnych: METS (LOC) MPEG-21 SMIL IMS Content Packaging Zalecenia CCSDS
Metadane strukturalne cz. 4 METS do czego służy? Opakowanie i transport: metadanych (administracyjnych, technicznych, prawnych, behawioralnych) obiektów dowolnych (Base64) Określa strukturę obiektów złożonych.
Metadane strukturalne cz. 5 Florida State University Metadata: <filegroup> <subgroup type="chapter" sequence="1" head = "Introduction"> <file>...</file> <file>...</file> </subgroup> <subgroup type="chapter" sequence="2" head = "Chapter 1"> <file>...</file> <file>...</file> </subgroup> </filegroup>
Metadane strukturalne cz. 6 FSU Elementy: filegroup, subgroup, file Atrybuty: type, sequence, header Type dla subgroup: filegroup, collection, volume, issue, article, part, chapter, page, main, supplement, secion, cover, fonds, recordgrp, series, subgrp, subseries, file, box, item, advertisement, contents, correspondence, editorial, index, inventory, other
Metadane strukturalne cz. 7 METS Około 30 typów metadanych strukturalnych Bardzo duże możliwości tworzenia powiązań między obiektami cyfrowymi współtworzącymi obiekt złożony
Metadane strukturalne cz. 8 METS a inne Metadane strukturalne mogą być potrzebne tylko do przesyłania do repozytorium. Repozytorium może stosować wewnątrz własne standardy. Istotne jest udostępnianie zwrotne. Możliwość automatycznego tłumaczenia na METS standardu FSU, ew. innego tymczasowego.
Metadane konserwatorskie PREMIS Przykład: repozytorium przyjmuje przysłany plik XML (obiekt A) i tworzy jego znormalizowaną kopię (obiekt B) za pomocą programu komputerowego (zdarzenie 1). W metadanych obiektu B zdarzenie to mogłoby to zostać zapisane jako: relationshiptype = derivation relationshipsubtype = derived from relatedobjectidentification relatedobjectidentifiertype = local relatedobjectidentifiervalue = A relatedobjectsequence = not applicable relatedeventidentification relatedeventidentifiertype = local relatedeventidentifiervalue = 1 relatedeventsequence = not applicable
Metadane konserwatorskie PREMIS Przykład c.d.: po utworzeniu obiektu B jest on poddany sprawdzaniu (validation) za pomocą programu (zdarzenie 2). W tym wypadku zdarzenie 2 odnosi się tylko do obiektu B, a nie do relacji między A i B. Link do zdarzenia 2 zostanie zapisany jako Linking EventIdentifier: linkingeventidentifiertype = local linkingeventidentifiervalue= 2
METS a inne standardy Metadane strukturalne mogą być potrzebne tylko do przesyłania do repozytorium. Repozytorium może stosować wewnątrz własne standardy. Istotne jest udostępnianie zwrotne.
Standard METS Definiuje format pojedynczych dokumentów zawierających obiekty bibliotek cyfrowych, mogących pełnić role SIP, AIP i DIP w modelu referencyjnym OAIS Początkowo zakres ograniczony do obiektów zawierających tekst, obrazy oraz pliki audio i wideo Ułatwia interoperability metadanych opisowych, administracyjnych i technicznych, zostawiając miejsce na elastyczne działania bibliotek (Następne trzy ilustracje zaczerpnięte z prezentacji Jerome McDonough Introduction to METS ) 30/04/2014 48
XML Schema METS Dokument METS Header Md. admin. Struktura linków Md. behav. Md. opisowe Lista plików Odwzor. strukt. 30/04/2014 49
Struktura METS 30/04/2014 50
Struktura METS - przykład Historia mówiona Rekord opisu MARC21 Wstęp Pyt.1 & odp. Pyt.2 & odp. AIFF Master AES/EBU Metadane tech. Linki Time Code Linki IDREF 30/04/2014 TEI (tekst transkrypcji) 51 Tekst Metadane tech.
Plan prezentacji... Metadane złożone przykłady Dodanie OCR do zdigitalizowanych czasopism (Biblioteka Narodowa Nowej Zelandii) Złożona struktura publikacji w czasopismach Stosowanie ALTO Formaty plików cyfrowych
Our approach: OCR Q: Article-level level or page-level access? Article level that is what our users said they wanted. Q: Is enhanced processing worth the cost? Custom dictionaries of New Zealand names and language? Yes We added a custom dictionary made up of place names and Māori subject headings, including iwi-ha hapū names, which increased search term recall. Manual headline correction? Yes The headlines are corrected and displayed in search result lists and to build a table of contents for each newspaper issue. Manual article categorisation? No It didn t work consistently enough, so we settled for the automatic categories: article, advertisement and illustration (and a cost saving).
Our approach: OCR Q: Should we show users the OCR text? Yes so that users can copy it into their documents, even though the OCR quality is sometimes very poor. Q: How do we know whether the OCR data is acceptable? Unique automated acceptance tests were developed, and some manual acceptance tests were performed. Q: What standards are there for OCR output? We used the METS and ALTO standards to ensure that data could be easily passed from one partner to another.
Lessons learned OCR supports search: OCR quality is variable. Choosing high-quality inputs helps a lot. Fuzzy search can help. Turning a complex project into a simple product: It is hard to attain a balance between providing an easy-to to-use interface and getting the most out of your OCR text. User education is important. Incomplete search results are better than no search results OCR may not be appropriate for some materials
Sneak preview!
Plan prezentacji... Metadane złożone przykłady Dodanie OCR do zdigitalizowanych czasopism (Biblioteka Narodowa Nowej Zelandii) Złożona struktura publikacji w czasopismach Stosowanie ALTO Formaty plików cyfrowych
Analiza struktury publikacji w czasopismach Ilustracje zaczerpnięte z prezentacji: Claus Grevenhorst: docworks/metae The Engine for Automated Metadata Extraction and XML Tagging. Content Converdon Specialists
CCS Offices docworks Structural Analysis Subchapter 1 Subchapter 2 Chapter 1 Chapter 2
CCS Offices docworks Structural Analysis Title page Preface Statement page Table of contents
CCS Offices docworks Digitization of books and journals (METAe)
CCS Offices docworks Digitization of books and journals (METAe)
Plan prezentacji... Metadane złożone przykłady Dodanie OCR do zdigitalizowanych czasopism (Biblioteka Narodowa Nowej Zelandii) Złożona struktura publikacji w czasopismach Stosowanie ALTO (Analyzed Layout and Text Object) Formaty plików cyfrowych
CCS Offices docworks METS Header MODS or DC, descriptive metadata NISO 39.087 (mix), technical metadata Structural Map: Physical Structure Structural Map: Logical Structure
CCS Offices docworks ALTO Styles - Paragraph (alignment, linespacing, etc.) - Font (name, size, bold, italic, etc.) Layout - Printspace - TopMargin - InnerMargin - OuterMargin - BottomMargin Objects in 5 areas above: - Text block - Text lines - Strings [coordinates, string (as printed), substitution (hyphenation)] - Spaces - Composed block - Picture - Table - Formula
CCS Offices docworks ALTO / page layout and text content
CCS Offices docworks ALTO / hyphenated word
CCS Offices docworks ALTO / hyphenated word
Plan prezentacji O metadanych ogólnie Metadane dla materiałów audiowizualnych Metadane strukturalne Metadane złożone Formaty plików cyfrowych Uwagi
Grupy formatów plików cyfrowych (LOC) Obrazy nieruchome Dźwięk Obrazy ruchome z dźwiękiem (filmy i wideo) Tekst (także ebooki i tekst powiązany z obrazem graficznym) Dane GIS Archiwa stron internetowych Formaty generyczne(nie powiązane z konkretnym typem zawartości) Zbiory danych
Cechy formatów plików cyfrowych W Bibliotece Kongresu zgromadzono informacje o różnych formatachplików cyfrowych, w podziale na grupy jak na poprzednim slajdzie. Ciekawy jest sposób ich oceny i kryteria brane pod uwagę. Wyróżniono siedem kryteriów mających znaczenie dla zdolności trwałego przechowywania informacji, wspólnych dla wszystkich grup: Otwartość, jawność (disclosure-kompletna specyfikacja, dostępność narzędzi do sprawdzania technicznej poprawności pliku) Przyjęcie, akceptacja (adoption-format jest szeroko używany i jak: zapis wzorcowy, udostępnianie, wymiana między systemami; czy są do niego łatwo dostępne narzędzia zarówno amatorskie jak profesjonalne) Przejrzystość (transparency-czy zapisana informacja daje się analizować lub oglądać bez specjalistycznych narzędzi, np. czy zawarte w pliku metadanemogą być przeczytane za pomocą zwykłego edytora) Samodokumentowanie (self-documentation-obiekt z zapisanymi wewnątrz niego metadanymima większe szanse przetrwania w razie katastrofy w archiwum od takiego, który ma metadaneoddzielnie, a także lepiej się nadaje do wymiany) Zależności zewnętrzne (external dependencies-zależność od konkretnego sprzętu, systemu operacyjnego lub oprogramowania; dotyczy często danych naukowychoraz plików z zawartością interaktywną) Techniczne mechanizmy zabezpieczające, umożliwiające przyszłe migracje, zmiany nośników (format nie powinien być związany z konkretnym typem nośnika) oraz ochronę praw.
Formaty plików cyfrowych dla obrazów nieruchomych Wykaz Biblioteki Kongresu zawiera ponad 80 odmian formatów plików graficznych dla obrazów nieruchomych, w tym: 10 odmian plików TIFF (m.in. Podstawowy TIFF 6 revision 6.0, a także GeoTIFF) 9 odmian plików JPEG Ponad 30 odmian plików JPEG2000 Zdolność zapisu obrazów o dużej rozdzielczości (w plikach rastrowych wyrażanej za pomocą dpi) i odpowiedniej głębi bitowej (bity na piksel). W zastosowaniach profesjonalnych ma znaczenie możliwość posługiwania się konkretną przestrzenią barwną, np. AdobeRGB. W Polsce podstawowe znaczenie w archiwizacji ma format TIFF 6.0 zalecany także w wymienionych katalogach dobrych praktyk (z wyjątkiem materiałów audiowizualnych). Format TIFF jest bezstratny; ponadto umożliwiazapis metadanych wewnątrz pliku Popularny format JPEG jako format stratny -nie jest zalecany do archiwizacji w katalogach dobrych praktyk; jest natomiast stosowany do udostępniania.
Formaty plików cyfrowych dla dźwięku Zasady zapisu dźwięku są zróżnicowane, np..: Jedna z grup formatów przedstawia zapisany dźwięk wavefrom sound Inna grupa dostarcza informacji potrzebnych do dynamicznego wytworzenia dźwięku z użyciem oprogramowania i sprzętu Kryteria: Dostępność narzędzi do odsłuchiwania zapisanego dźwięku -z użyciem sprzętu mono, stereo i ew. wielu głośników (surround). Wierność (fidelity) -zdolność formatu do przenoszenia dźwięku Hi-Fi (high fidelity); w przypadku liniowej modulacji impulsowej LPCM operuje się częstotliwością próbkowania i długością słowa (liczbą bitów, głębią bitową), np. 48 khz i 24 bity. Wiele kanałów wykorzystywane zarówno do wielokanałowego zapisu tego samego dźwięku, jak i do zapisywania wielu ścieżek np. w różnych językach. Zdolność do dodawania lub korygowania dźwięku przez użytkownika Funkcjonalności ponadstandardowe związane z różnymi aplikacjami (np. zmienna częstotliwość próbkowania).
Formaty plików cyfrowych dla dźwięku W katalogu dobrych praktyk zalecenia dla dźwięku są formułowane w kontekście materiałów filmowych bądź wideo, a nie samodzielnie. Zgodnie z nimi powinno się stosować częstotliwość próbkowania nie mniejszą od 48 khz, a rozdzielczość 24-bitową. Zapis dźwięku PCM WAVE (.wav) Wielkość strumienia przy tych parametrach wynosi: 48000 x 24 bitów na sekundę na każdy kanał, co dla dźwięku stereo daje ok. 1GB na godzinę Formułuje się ponadto zalecenie rekonstrukcji dźwięku. Prostą odmianą rekonstrukcji jest tzw. odszumianie. W przypadku rekonstrukcji należy zachowywać zarówno pliki sprzed rekonstrukcji, jak i po rekonstrukcji. Nie wymienia się w katalogach dobrych praktyk żadnego z popularnych formatów stosowanych do udostępniania, jak MP3.
Formaty plików cyfrowych dla obrazów ruchomych Są dwie grupy materiałów audiowizualnych, do których stosuje się nieco inne formaty: filmy kinowe oraz wideo. W formatach dla materiałów filmowych kinowych dominuje wpływ Digital Cinema Initiative i opracowanego przez tę grupę standardu mającego na celu udostępnianie materiałów filmowych w kinach cyfrowych. Stosuje się tu nieco inne niż w materiałach wideo parametry przedstawiania koloru (m.in. korekcja gamma 2.6, stosowanie skali nieliniowej przy 10 bitach na kolor). Dla materiałów wideo zalecane jest stosowane w telewizji uproszczenie zapisu sygnału chrominancji (podpróbkowanie 4:2:2), oparte na analizie postrzegania barw przez oko ludzkie. Zagadnienie formatów dla materiałów audiowizualnych i stosowanych do nich kryteriów jest nader szerokie.
Formaty plików cyfrowych dla obrazów ruchomych W katalogu dobrych praktyk zalecenia dla materiałów filmowych zapisanych na taśmach światłoczułych obejmują: Skanowanie z rozdzielczością nie mniejszą niż 2K (2048). Zapisywanie plików w formacie DPX (zapis logarytmiczny 10-bitowy) lub TIFF (zapis liniowy 16-bitowy) Digitalizacja dźwięku (48 khz, 24 bity, zapis PCM WAVE) Rekonstrukcję obrazu i jego korekcję barwną oraz rekonstrukcję dźwięku. Zapisanie metadanych wg normy PN-EN 15744 Przekazanie materiałów do NInAw formacie DPX w przestrzeni RGB przed i po rekonstrukcji, pliku wideo w formacie QuickTimeAppleProRes422 HQ, plików audio w formacie PCM WAVE.
Formaty plików cyfrowych dla obrazów ruchomych Trzy uwagi odnośnie zaleceń podanych w katalogu dobrych praktyk zalecenia dla materiałów filmowych Jedna godzina filmu digitalizowanego w standardzie 2K/16 bitów i zapisywanego bez kompresji zajmuje w pliku ok. 1.2 TB (a w standardzie 4K/16 bitów ok. 5 TB). Format DPX zalecany dla materiałów zapisanych w oryginale na taśmie filmowej światłoczułej, został w Bibliotece Kongresu opatrzony uwagą, że jego wadą z punktu widzenia długoterminowej archiwizacji jest oddzielne zapisywanie dźwięku. Format QuickTime AppleProRes 422 HQ ma dobre opinie profesjonalistów. Zapewnia on wysoką jakość obrazu o parametrach źródłowych 4:2:2. Dla obrazu mającego pełne dane o chrominancji lepiej nadaje się format Apple ProRes 4444.
Formaty plików cyfrowych dla obrazów ruchomych W procesie produkcji materiałów wideo może zachodzić zmiana formatów, rozdzielczości obrazu i in. Warto pamiętać, że każda taka zmiana powoduje obniżenie jakości obrazu. Jedna godzina filmu digitalizowanego w standardzie 2K/16 bitów i zapisywanego bez kompresji zajmuje w pliku ok. 1.2 TB (a w standardzie 4K/16 bitów ok. 5 TB). Rekonstrukcja obrazu może być przeprowadzana ręcznie, klatka po klatce (w przypadku taśm filmowych), albo z pewną dozą automatyzacji tego procesu. Należy pamiętać, że proces automatyczny powinien być nadzorowany, a w przypadku powierzenia prac firmie zewnętrznej, materiał powinien być starannie sprawdzony pzy odbiorze.
Plan prezentacji O metadanych ogólnie Metadane dla materiałów audiowizualnych Metadane strukturalne Metadane złożone Formaty plików cyfrowych Uwagi
Uwagi Standardy metadanych technicznych dla obrazów cyfrowych nieruchomych (płaskich) można uznać za w miarę dojrzałe Standardy dla obiektów tekstowych są wystarczająco dojrzałe (albo zbliżają się do takiego stanu) Dla materiałów audiowizualnych standardy metadanych technicznych zmieniają się, jak gdyby nie w pełni nadążając za postępem technicznym w dziedzinie konstrukcji sprzętu, kompresji obrazu i dźwięku oraz formatów zapisu plików
Uwagi: METS w Polsce - przykład <mets:mets LABEL="WPR Kultura+, xmlns:premis=http http://www.loc.gov/standards/premis/v2 > - <mets:metshdr CREATEDATE="2013-07 07-0808 14:07:29" LASTMODDATE="2013-07 07-11 17:06:49" RECORDSTATUS="wrapper"> "> - <mets:agent ROLE="IPOWNER" TYPE="ORGANIZATION"> "> - <mets:name> > Biblioteka N.</mets:name mets:name> </mets:agent mets:agent> <mets:agent ROLE="CREATOR" TYPE="INDIVIDUAL"> "> <mets:name>osoba w bibliotece</mets:name mets:name> </mets:agent mets:agent> <mets:agent ROLE="EDITOR" TYPE="INDIVIDUAL"> "> <mets:name>osoba dostawcy, (nazwa firmy)</mets:name mets:name> </mets:agent mets:agent> <mets:agent ROLE="CREATOR" TYPE="OTHER" OTHERTYPE="SOFTWARE"> "> <mets:name>firma - nadawca danych - MetaData Creator 1.20</mets:name mets:name> </mets:agent mets:agent> <mets:altrecordid>wimbp-00133</ 00133</mets:altRecordID> </mets:metshdr mets:metshdr> - <mets:dmdsec ID="DM_MODS"> "> - <mets:mdwrap MIMETYPE="text/xml xml" MDTYPE="MODS"> "> - <mets:xmldata> - <mods:mods version="3.5"> - <mods:titleinfo displaylabel="tytuł publikacji"> <mods:title>bromberger Zeitung,, R: 1863 Nr 002.</mods:title mods:title>
Uwagi: METS w Polsce przykład c.d. <mets:mdwrap> <mets:dmdsec> - <mets:dmdsec ID="DM_DC"> "> - <mets:mdwrap MIMETYPE="text/xml xml" MDTYPE="DC"> "> - <mets:xmldata> - <oai_dc:dc> <dc:title xml:lang="pl">bromberger Zeitung,, R: 1863 Nr 002.</dc:title dc:title> <dc:contributor xml:lang="pl">pierwszy redaktor Fisher,, F.</dc:contributor dc:contributor> <dc:date>1863</dc:date <dc:description xml:lang="pl">kontynuacja "Bromberger Wochenblatt" " (1850-1861).</dc:description dc:description> <dc:description>29.9 x 46.1 cm.</.</dc:description> <dc:description xml:lang="pl">6 stron</dc:description dc:description> <dc:description xml:lang="en">6 pages</ </dc:description> <dc:language>ger</ </dc:language> <dc:publisher>bydgoszcz</ </dc:publisher> <dc:publisher>[s.n.]</.]</dc:publisher> <dc:publisher xml:lang="ge">bromberg</ </dc:publisher> <dc:rights xml:lang="en">public domain</ </dc:rights> <dc:rights xml:lang="pl">domena publiczna</dc:rights dc:rights>
Uwagi: METS w Polsce przykład c.d. </mets:techmd mets:techmd> - <mets:digiprovmd ID="DProv000633_RC DProv000633_RC"><mets:mdWrap MDTYPE="OTHER OTHER"> - <mets:xmldata> - <premis:premis> - <premis:object> - <premis:objectidentifier> <premis:objectidentifiertype>wimbp.repos premis:objectidentifiertype>wimbp.repos</ </premis:objectidentifiertype> <premis:objectidentifiervalue>0001587/rc</premis:objectidentifiervalue </premis:objectidentifier premis:objectidentifier> <premis:objectcategory>file</ </premis:objectcategory> </premis:object premis:object> - <premis:event> - <premis:eventidentifier> <premis:eventidentifiertype>wimbp.repos premis:eventidentifiertype>wimbp.repos</ </premis:eventidentifiertype> <premis:eventidentifiervalue>dpr.wimbp.2013.00133</ 0133</premis:eventIdentifierValue> </premis:eventidentifier premis:eventidentifier> <premis:eventtype>konwersja do formatu JPG</premis:eventType premis:eventtype> <premis:eventdatetime>2013-06 06-16T14:41:13</ 16T14:41:13</premis:eventDateTime> <premis:eventdetail>konwersja plików w macierzystym formacie TIFF do formatu JPEG.</premis:eventDetail premis:eventdetail> - <premis:linkingagentidentifier> <premis:linkingagentidentifiertype>wimbp premis:linkingagentidentifiertype>wimbp</ </premis:linkingagentidentifiertype premis:linkingagentidentifiertype> <premis:linkingagentidentifiervalue>biblioteka premis:linkingagentidentifiervalue>biblioteka</ </premis:linkingagentidentifiervalue premis:linkingagentidentifiervalue>
Dziękuj kuję za uwagę