Tworzenie zasobów cyfrowych Wykład 8, Digitalizacja. Cz. 1, Organizacja pracy, prezentacja danych, standardy
Etapy tworzenia PC Przygotowanie materiałów do dygitalizacji Digitalizacja Obróbka plików Porządkowanie i zapis na nośnikach Przechowywanie i udostępnianie
Przygotowanie materiału Strategie: Digitalizacja; Digitalizacja wraz z konserwacją; Digitalizacja i przygotowanie form pośrednich czyli digitalizacja połączona z mikrofilmowaniem.
Przygotowanie podział mat. Typ oryginału: czarno-białe (druk, rysunek itp.); kolorowe i półtonowe (fotografie, grafika itp.); Format oryginału Małe (do A4 cm); Średnie (A3-A2 cm); Duże (A1 i większe); Obiekty cenne
Digitalizacja Metody: Skanowanie oryginału; Filmowanie oryginału; Skanowanie z mikroform; Skanowanie z filmów negatywowych; Konwersja z formatów pośrednich paradigitalizacja
Obróbka plików Formaty plików (standardy i dobór); Wersjonowanie (f. archiwalny i prezencyjny); Retusz (f. prezencyjny); Konwersja (f. prezencyjny); OCR (f. prezencyjny); Łączenie i indeksowanie (f. archiwalny i prezencyjny).
Utrwalenie, archiwizacja Nośniki: CD/DVD; Dyski; System oznaczeń Notacja; Obsługa wersjonowania; Zabezpieczenia: 1 kopia (macierz archiwalna) f. archiwalny; 2 kopia (macierz użytkowa) f. archiwalny; 3 kopia (egz. użytkowy) f. prezencyjny.
Przechowywanie i udostępnianie Problem trwałości nośnika: CD, HDD, Internet mikroformy Udostępnianie: Offline (f. prezencyjny, f. archiwalny); Intranet; nośniki CD/DVD; Online (f. prezencyjny); Usługi: wydruki, wyp. miedzybibliot., usługi komercyjne
Formaty dokumentów cyfr. Typologia ogólna Tekstowe nieadnotowane (np. TXT) *** adnotowane (np. RTF) Graficzne wektorowe (np. CorelDraw, AutoCAD) rastrowe (TIF, BMP, JPG, GIF, PNG) *** Hybrydowe (PDF, djvu) *** *** Formaty stosowane w bibliotekach cyfrowych
Formaty graficzne a tekstowe
Formaty tekstowe TXT nieadnotowany plik tekstowy (ang. text file lub plain text). Składający się wyłącznie z tekstu, jest on pozbawiony elementów typograficznych (formatowania) Tekst zakodowany w standardzie ASCII lub jego odmianie (możliwy jest też zapis w standardach Unicode). Przykład: Ala ma kota (11 znaków 11 bajtów)
Formaty tekstowe RTF - (Rich Text Format) - format pliku opracowany w 1987 r. przez Microsoft do międzyplatformowej wymiany informacji między procesorami tekstów. RTF posługuje się zestawami znaków ANSI, PC-8, Macintosh lub IBM PC do sterowania formatowaniem tekstu na ekranie i w druku. Od wersji 1.6 obsługuje Unicode. RTF w odróżnieniu od TXT pozwala na zapis formatowania. Przykład: Ala ma kota (11 znaków 189 b)
Formaty archiwalne i prezencyjne Cechy formatu archiwalnego (FA): - wysoka jakość; - wierne odwzorowanie oryginału. (np. TIF bez kompresji) por. wytyczne NDAP 2005 Cechy formatu prezencyjnego (FP): - małe rozmiary; - akceptowalna jakość; - wysoki poziom zorganizowania (indeksowania).
Formaty archiwalne i prezencyjne
Świat cali i pikseli...
Wybrane parametry FA Za NDAP (2005) Dokumenty tekstowe: rozdzielczość (600 DPI); głębia bitowa (24 lub 36 BPP) Rękopisy: rozdzielczość (600-800 DPI); głębia bitowa (36 lub 48 BPP) Ikonografia: rozdzielczość (300-600 DPI); głębia bitowa (24 lub 36 BPP); Fotografie: rozdzielczość (3200-6400 DPI); głębia bitowa (16, 36, 48 BPP); Mikrofilmy: rozdzielczość (3200 DPI); głębia bitowa (16 BPP);
Objętość a głębia i rozdzielczość Objętość przykładowego skanu A4 (format TIF w MB) 800 700 600 500 400 300 200 100 300 dpi 400 dpi 600 dpi 1200 dpi 0 Skala szarości 8 bit Skala szarości 16 bit Kolor 36 bit Kolor 48 bit
Objętość a głębia i rozdzielczość Objętość przykładowego skanu A4 (format TIF w MB) Rozdzielcz ość Skala szarości 8 bit Skala szarości 16 bit Kolor 36 bit Kolor 48 bit 300 dpi 8 16 33 50 400 dpi 16 32 60 100 600 dpi 33 66 133 200 1200 dpi 133 266 533 800
Głębia a jakość 24 BPP 8 BPP 4 BPP
Głębia a jakość Gray 8 BPP Gray 4 BPP Bitonal 1 BPP
Głębia a jakość (gazety) Bitonal Kolor 8 BPP 1 BPP Gray 4 BPP
Gazeta (300 DPI, 1BPP)
Album (600 DPI, 24 BPP)
Tagged Image File Format (TIF) Opracowany w 1986 r. przez grupę firm pod przewodnictwem Aldus Corporation. - Bezstratny; - Obsługa przestrzeni barwnej RGB, CMYK i in. - Pełna obsługa wszystkich trybów głębi bitowej (kolor odcieni szarości i cz.-b.) do 32 BPP;
Tagged Image File Format (TIF) - Przechowuje ścieżki i kanały alfa, profile koloru, komentarze tekstowe; - Uniwersalny (miedzyplatformowy); - Możliwa kompresja bezstratna (LZW, CCITT i in.); - Możliwy zapis dokumentów wielostronicowych.
TIF kompresja
TIF
Windows BitMaP (BMP) Standard opracowany przez Microsoft i IBM - Bezstratny; - Tylko obsługa przestrzeni barwnej RGB; - Obsługa wszystkich trybów głębi bitowej (kolor odcieni szarości i cz.-b.) do 24 BPP; - Dedykowany na platformę Windows; - Obsługuje kompresję bezstratną RLE.
BMP - kompresja
Formaty prezencyjne
JPEG JPEG standard kompresji statycznych obrazów rastrowych, przeznaczony głównie do przetwarzania obrazów naturalnych, charakteryzujących się płynnym przejściami barw oraz brakiem lub małą ilością ostrych krawędzi i drobnych detali. Format ten obsługuje pełną paletę barw i jest powszechnie uznawany za standard do zapisu fotografii, szczególnie pejzaży, portretów itp.
JPEG JPEG, obok GIF i PNG jest jednym najczęściej stosowanych formatów w sieci www. JPEG oferuje b. dobry współczynnik kompresji danych, lecz jest to kompresja stratna.
JPEG w praktyce Istniej możliwość ustalenia stopnia kompresji, a co za tym idzie jakości obrazu oraz rozmiarów pliku; Plik może być zapisany jako progresywny - jest on wtedy pokazywany etapami w kilku przejściach; Plik w formacie JPG ma niewielkie rozmiary JPG dużo lepiej niż GIF nadaje się do zapisu ilustracji czarno-białych Pliki JPG nie mogą być przezroczyste JPG nie nadaje się do prostych obrazków, ikonek nawigacyjnych, miniaturek
JPEG Bez kompresji (196 kb) Kompresja 25% (4 kb) Kompresja 5% (1,7 kb)
JPEG Bez kompresji (5 kb) Kompresja 25% (2 kb) Kompresja 5% (1,2 kb)
JPEG 2000 Standard zbliżony do JPEG oferujący nadto algorytm kompresji bezstratnej.
Graphics Interchange Format GIF - format pliku graficznego z kompresją bezstratną stworzony w 1987 przez Unisys (patent wygasł w 2006) Obrazy zapisane w tym formacie kompresowane są za pomocą algorytmu LZW i operują paletą o maksymalnej ilości 256 kolorów. Jeden kolor z palety może być zdefiniowany jako przezroczysty, a sam plik GIF może zawierać wiele klatek tworzących animację.
Graphics Interchange Format GIF oferuje zapis bez straty jakości, jednak ograniczenie palety do 256 kolorów wymusza jego wykorzystywanie wyłącznie do grafiki - wszelkiego rodzaju obrazy naturalne (np. zdjęcia) muszą zostać przekształcone z trybu TrueColor do trybu indeksowanego co powoduje utratę ich jakości.
Portable Network Graphics PNG - format plików graficznych oraz system bezstratnej kompresji danych graficznych. PNG został opracowany jako następca GIF w 1995 roku po ogłoszeniu przez Unisys oraz CompuServe roszczeń patentowych dotyczących kompresji LZW używanej w formatach GIF oraz TIFF. Format ma większe możliwości niż GIF: obsługuje stopniowaną przezroczystość (kanał alfa), 24-bitową głębię koloru RGB, pozwalająca zapisać dowolny rodzaj grafiki bez utraty jakości.
Portable Network Graphics http://www.ckmedia.pl/~jankomuzykant/r/0.htm
Porównanie
Programy Czołowe edytory: Adobe Photoshop komercyjny (Windows, MAC OS) GIMP bezpłatny (Linux, Windows) Przeglądarki i konwertery: - IrfanView - bezpłatny - xnview - bezpłatny - ACDSee - komercyjny
Adobe Photoshop
GIMP
irfanview
xnview
FastStone Viewer
FastStone MaxViewer
Formaty hybrydowe Formaty hybrydowe łączą cechy formatów tekstowych i graficznych. PDF DjVu
Portable Document Format PDF (ang. Portable Document Format) - jest formatem plików służącym do prezentacji, przenoszenia i drukowania treści tekstowo-graficznych, stworzonym przez firmę Adobe Systems. Językiem opisu pliku PDF jest okrojona wersja języka programowania PostScript wzbogacona o elementy hipertekstowe. W plikach PDF może być zawarty tekst, grafika (rastrowa wektorowa), a także elementy aktywne. W styczniu 2007 Adobe całkowicie otwarła format PDF i przekazała jego specyfikację organizacji AIIM. Docelowo PDF ma zostać opublikowany jako standard ISO
Portable Document Format Wybrane funkcje Adobe Acrobata: - pełna możliwość manipulacji na danych (układ, grafika, tekst, czcionki, parametry obiektów itp.); - możliwość importu dowolnych danych; - możliwość dodania warstwy OCR; - zabezpieczenia; metadane; - narządza do edycji i optymalizacji; - Formularze, komentarze, - Liczne opcje eksportu.
Portable Document Format
PDF jak to zrobić? 1. Edycja dokumentu 2. Tworzenie publikacji na bazie skany TIF (OCR) 3. Wirtualne drukarki
PDF narzędzia 1. Adobe Acrobat - edytor (komercyjny) 2. brak godnych polecenia edytorów bezpłatnych; 3. Liczne przeglądarki (na czele z Adobe Reader); 4. Liczne drukarki wirtualne (z reguły bezpłatne) lub wbudowane w aplikacje (MS Office); 5. Liczne narzędzia do manipulacji na plikach PDF 6. Uwaga! poza Adobe Acrobatem wszystkie narządza oferują tylko pewien poziom obsługi formatu PDF (skutkuje to złą jakością, rozmiarem, niepoprawnymi parametrami).
AFPL GhostScript+GSview GSview http://www.cs.wisc.edu/~ghost/gsview/get48.htm
PDF Creator http://www.pdfforge.org/
QPrinter http://www.qprint.com.pl/
Gios PDF Splitter And Merger http://www.paologios.com/
PDFTools http://www.sheelapps.com/
PDF Password Cracker http://www.crackpdf.com/
Nowe horyzonty AdobeDigital
AdobeDigital
AdobeDigital
Społeczności
Społeczności
DjVu DjVu (wym.deża wu) zaawansowana metoda kompresji obrazu. Technologia rozwijana przez koncern AT&T do kompresji kolorowych, skanowanych dokumentów. Oprogramowanie oparte na tej technologii stworzyła i opatentowała firma LizardTech Inc.
DjVu Format DjVu w przeciwieństwie do PDF ma charakter czysto graficzny. Algorytm DjVu opiera się na zaawansowanej metodzie segmentacji obrazu - rozdzieleniu obrazów na odrębne warstwy i poddaniu ich odrębnej optymalizacji i kompresji. Dokumenty DjVu mogą mieć zakotwiczona warstwę tekstową OCR, tworzoną ad hoc z wykorzystaniem engine readiris.
DjVu Dokumenty DjVu są najmniejsze, ze spotykanych w zastosowaniach przemysłowych, nawet do 1000 razy niż pliki TIFF. Są też zwyczajowo 5 do 100 razy mniejsze niż pliki JPEG czy PDF. Dokumenty DjVu są nieedytowalne dają więc gwarancję wiarygodności (... i na to są sposoby)
DjVu
DjVu
DjVu - oprogramowanie DocumentExpress edytor (komercyjny) Windows DJVU Virtual Printer drukarka (komercyjna) Windows DjVu Solo prosty edytor (bezpłatny) Windows DjVuLIbre pakiet narzędziowy (bezpłatny) Linux (Win.) Przeglądarki (bezpł.): - DjVu Browser (LizardTech) - Inne (Linux, Windows) wyraźnie słabsze
DjVu Funkcje DocumentExpress Edytor: - import plików (TIF, BMP, inne) - manipulacje stronami dokumentu; - dodawanie adnotacji, etykiet, linków; - OCR - eksport do formatów graficznych; - wydruk do DjVu z dowolnej aplikacji (drukarka) - obsługa skanowania
DjVu jak to zrobić? 1. Edycja dokumentu 2. Tworzenie publikacji na bazie skany TIF (OCR) 3. Wirtualne drukarki
DocumentExpress Editor
DjVu Virtual Printer
DjVu Solo (bezpłatny) http://www.elektroda.net/download/file476.html
minidjvu (bezpłatny) http://sourceforge.net/ (Windows, Linux, Unix)
Any2DjVu Server
Any2DjVu Server
Społeczności
Społeczności
Społeczności
Społeczności
Inne formaty stosowane w BC Natywne formaty TeX, Latex popularne w kręgach matematyków i fizyków.
Inne formaty stosowane w BC PostScript - niezależnym od urządzenia wyjściowego językiem programowania, który opisuje tekst i grafikę na stronie. Jego polecenia sterują drukarką laserową (lub dowolnym innym urządzeniem postscriptowym), umieszczając w odpowiednim miejscu linię, okrąg, tekst czy też mapę bitową. Do odczytu plików Postscriptowych można uzyć programu AFPL GhostScript (GSview)
Aplikacje linuksa
Metajązyki XML to uniwersalny język formalny przeznaczony do reprezentowania różnych danych w ustrukturalizowany sposób. XML jest niezależny od platformy, co umożliwia łatwą wymianę dokumentów pomiędzy różnymi systemami. Z punktu widzenia bibliotek cyfrowych najistotniejsza aplikacją XML jest TEI - standard elektronicznej reprezentacji tekstu wraz z informacją o jego treści. TEI ma zastosowanie do tekstów ogólnych. Inne wysoce specjalizowane dziedziny mają własne mutacje, np. MaTHML (matematyka), CML (chemia).
Dziękuję