DjVu i DjVuLibre. Jakub Wilk. Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego. 15 listopada 2007 r.



Podobne dokumenty
Format DjVu. Jakub Wilk. Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego. 27 lutego 2007 r.

Tworzenie plików w formacie DjVu z wykorzystaniem oprogramowania DocumentExpress Enterprise Edition

GRAFIKA RASTROWA. WYKŁAD 2 Oprogramowanie i formaty plików. Jacek Wiślicki Katedra Informatyki Stosowanej

Tworzenie zasobów cyfrowych

dr hab. inż. Lidia Jackowska-Strumiłło, prof. PŁ Instytut Informatyki Stosowanej, PŁ

Rodzaje plików. Podstawowe definicje.

Biblioteki cyfrowe i ich kolekcje

Wirtualne drukarki konwertujące pliki aplikacji do formatu *.pdf i formatów graficznych

Grafika rastrowa i wektorowa

Kompresja obrazów i formaty plików graficznych

MBC technologia - instrukcja 3 1

Wyświetlanie publikacji w formacie DjVu. Wyświetlanie publikacji w Bałtyckiej Bibliotece Cyfrowej można realizować na 3 sposoby:

Katalog dobrych praktyk digitalizacyjnych dla obiektów bibliotecznych

Kompresja danych i formaty plików graficznych

Realizacja procesu digitalizacji przy pomocy systemu DigitLab

Wymagania edukacyjne na ocenę z informatyki klasa 3

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego. Opis oferowanego przedmiotu zamówienia

FORMATY PLIKÓW GRAFICZNYCH

Formaty plików graficznych

Automatyzacja procesu publikowania w bibliotece cyfrowej

Rozszerzenia plików graficznych do publkacji internetowych- Kasia Ząbek kl. 2dT

Cała prawda o plikach grafiki rastrowej

Jak przeglądać publikacje w formacie DjVu?

E.14.1 Tworzenie stron internetowych / Krzysztof T. Czarkowski, Ilona Nowosad. Warszawa, Spis treści

Wymagania edukacyjne z przedmiotu SYSTEMY OPERACYJNE. Klasa I i II- Technik Informatyk

Digitalizacja wybranych pozycji księgozbioru w Bibliotece Centralnego Instytutu Ochrony Pracy Państwowego Instytutu Badawczego

Specyfikacja PL (Ploter A1 24 ) (szt. 1) Wymagane parametry minimalne. 72 wydruki A1/godz. (+/- 1 m²/godz) 72 wydruki A1/godz.

OPROGRAMOWANIA DO CYFRYZACJI ZBIORÓW BIBLIOTEKI

Wyszukiwanie pełnotekstowe w zasobach bibliotek cyfrowych

Plan wykładu. Wprowadzenie Program graficzny GIMP Edycja i retusz zdjęć Podsumowanie. informatyka +

Elementy grafiki komputerowej

Cechy systemu X Window: otwartość niezależność od producentów i od sprzętu, dostępny kod źródłowy; architektura klient-serwer;

Jak tworzyć pliki *.pdf z dowolnego programu (np. Word, Exel, PowerPoint itp.).

OPIS PRZEDMIOTU ZAMÓWIENIA: przeznaczenie do druku mono/kolor - tekst i grafika. rodzaj urządzenia wielofunkcyjne - druk/skan/kopia

Załącznik nr 1 do wzoru umowy, która stanowi załącznik nr 3 do SIWZ OBLIGATORYJNE WYMAGANIA TECHNICZNE. I. Drukarka laserowa typ szt.

INFORMATYKA Wymagania na poszczególne oceny - klasa 7 szkoły podstawowej

Obróbka grafiki cyfrowej

GRAFIKA. Formaty plików graficznych

WYMAGANIA EDUKACYJNE Z ZAJĘĆ KOMPUTEROWYCH W KLASIE 4 SZKOŁY PODSTAWOWEJ

7. Dynamiczne generowanie grafiki

Wymagania na poszczególne oceny Informatyka klasa VII

Wymagania edukacyjne z informatyki na poszczególne oceny w klasie 7 szkoły podstawowej

WYMAGANIA EDUKACYJNE Z INFORMATYKI KLASA III GIMNAZJUM DOBRY. prawem autorskim. komputerów wyszukuje w Internecie strony WWW związane z tematem.

Wymagania edukacyjne na poszczególne oceny z informatyki klasa 7

WYMAGANIA NA POSZCZEGÓLNE OCENY Z INFORMATYKI W KLASIE VII

Wymagania na poszczególne oceny z informatyki w klasie 7

Wymagania na poszczególne oceny dla klasy VII

Wymagania na poszczególne oceny

Wymagania na poszczególne oceny

Wymagania na poszczególne oceny

Wymagania na poszczególne oceny

Wymagania na poszczególne oceny

Wymagania na poszczególne oceny z przedmiotu Informatyka w klasie 7

Wymagania edukacyjne z informatyki w klasie VII w roku szkolnym 2018/2019

WYMAGANIA NA POSZCZEGÓLNE OCENY Z INFORMATYKI W KLASIE VII

Informatyka klasa 7 - wymagania na poszczególne oceny

Wymagania na poszczególne oceny KLASA 7

Kryteria oceniania na zajęciach informatyki w klasie 7.

INFORMATYKA Wymagania na poszczególne oceny w kl. VII

Ocena Stopień dobry Uczeń: wymienia sześć dziedzin,

UNIWERSYTETU WARSZAWSKIEGO

Wymagania na poszczególne oceny kl. VII

Od planowania do publikowania co można zautomatyzować?

WYMAGANIA EDUKACYJNE Z INFORMATYKI KLASA VII DOBRY. DZIAŁ 1. KOMPUTER 4 godziny

Kryteria ocen z informatyki w klasie VII Uczeń musi umieć:

dr inż. Piotr Odya dr inż. Piotr Suchomski

Od edukacji do realizacji otwarta digitalizacja z DigitLabem Adam Dudczak Poznaoskie Centrum Superkomputerowo-Sieciowe maneo@man.poznan.

Rozbudowa pakietu oprogramowania DjVuLibre

Wykorzystano fragmenty wykładu Krystyny Dziubich GRAFIKA WEKTOROWA. Aplikacje i Usługi Internetowe KASK ETI Politechnika Gdańska.

Podstawy użytkowania systemu Linux

Pracownia komputerowa. Dariusz Wardecki, wyk. X

Wymagania na poszczególne oceny Informatyka kl. 7

Plan wykładu. Wprowadzenie Program graficzny GIMP Edycja i retusz zdjęć Podsumowanie. informatyka +

Z życia grafika-webmastera

Jak przygotować? Wymiary reklam: Spad. Bez spadu

. Sposób zapisu plików pojedynczej publikacji w formacie DjVu

Wymagania na poszczególne oceny z informatyki w klasie VII

Wykorzystanie grafiki wektorowej do tworzenia elementów graficznych stron i prezentacji

INFORMATYKA Wymagania na poszczególne oceny-klasa 7

Klasa 7 - wymagania na poszczególne oceny

Wymagania na poszczególne oceny klasa 7

Załącznik_kl7. Wymagania na poszczególne oceny

Wymagania na poszczególne oceny

Rozdział 7. Przedstawienie formatu graficznego BMP.

INFORMATYKA KLASA VII Wymagania na poszczególne oceny

Stopień dobry Uczeń: wymienia sześć dziedzin, Stopień bardzo dobry Uczeń: wymienia osiem dziedzin,

Nazwa, typ, model, producent oferowanego urządzenia...

Urządzenie wielofunkcyjne czarno białe 1 szt.

Wymagania edukacyjne na ocenę z informatyki KLASA III

Grafika w dokumencie tekstowym. Technologia Informacyjna Lekcja 26

Księgarnia internetowa Lubię to!» Nasza społeczność

Wpisany przez Łukasz Nawrotek Niedziela, 08 Czerwiec :43 - Zmieniony Niedziela, 08 Czerwiec :44

Drukarka czarno-biał z tonerem umożliwiającym wydruk stron sztuk 5

GRAFIKA RASTROWA. WYKŁAD 1 Wprowadzenie do grafiki rastrowej. Jacek Wiślicki Katedra Informatyki Stosowanej

WYMAGANIA EDUKACYJNE. Witryny i Aplikacje Internetowe klasa I

1 LEKCJA. Definicja grafiki. Główne działy grafiki komputerowej. Programy graficzne: Grafika rastrowa. Grafika wektorowa. Grafika trójwymiarowa

Formaty plików. graficznych, dźwiękowych, wideo

WYMAGANIA EDUKACYJNE Z INFORMATYKI DLA KLASY VII ROK SZKOLNY 2017/2018

Urządzenie wielofunkcyjne 3 w 1 kolorowe Xerox DocuCentre SC2020 V_U A3 RADF duplex sieć

Część I Witamy w programie Adobe Acrobat

Transkrypt:

DjVu i DjVuLibre Jakub Wilk Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego 15 listopada 2007 r. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 1 / 26

Wprowadzenie Motywacja > 90% informacji znajduje się na papierze. 1 Większość z nich nie jest dostępna w Internecie. Udostępnianie skanowanych dokumentów w sieci w konwencjonalnych formatach jest problematyczne: czytelność wysoka rozdzielczość; formaty PNG, JPEG, PDF: mają niski współczynnik kompresji, ich dekodowanie jest pamięciożerne; mamy do wyboru: niewygodną nawigację: HTML + plik graficzny dla każdej strony skanu plik PDF olbrzymich rozmiarów. Rozwiązanie: DjVu /deza vy/ metoda kompresji obrazów i format dokumentu przeznaczone zwłaszcza do dygitalizacji dokumentów papierowych. 1 <http://djvuzone.org/wid/> Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 2 / 26

Wprowadzenie Podstawowe cechy DjVu Zastosowanie: książki, czasopisma, gazety, rękopisy, dokumenty historyczne; głównie skany, także dokumenty elektroniczne. Zalety: mocna kompresja, wygoda przeglądania pogodzona z niewielkimi rozmiarami plików, lekkie wtyczki do przeglądarek WWW dostępne za darmo, format pliku o otwartej specyfikacji. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 3 / 26

Wprowadzenie Eksperyment Przykład Kazimierz Kuratowski, Andrzej Mostowski Teoria mnogości dostępna w Bibliotece Wirtualnej Matematyki ICM-u: PDF: <http://matwbn.icm.edu.pl/kstresc.php?wyd=10&tom=27>, 6 plików PDF, rozdzielczość 600 dpi, 147 stron A4, 87,3 MiB ( 600 KiB/stronę); DjVu: 20,3 MiB ( 140 KiB/stronę) ponad 4 razy mniejszy od oryginału. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 4 / 26

Formaty i techniki DjVuBitonal DjVuBitonal (DjVuText, JB2): dla obrazów: czarno-białych (zwłaszcza tekstu) lub o małej liczbie kolorów (duże jednolite obszary); kompresja: z użyciem słownika powtarzających się kształtów, 2 10 mocniejsza niż CCITT GroupIV (TIFF, PDF), 5 30 KiB / stronę w 300 dpi, stratna lub bezstratna. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 5 / 26

Formaty i techniki DjVuPhoto DjVuPhoto (IW44): dla obrazów o płynnych przejściach barw (zdjęcia); kompresja: falkowa, niektóre piksele mogą być oznaczone jako nieistotne, 2 razy mocniejsza niż JPEG; dekompresja: mały narzut pamięci, 3 szybsza niż JPEG-2000, możliwa postępowa wizualizacja, możliwa wizualizacja obszaru bez dekompresji całego obrazu. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 6 / 26

Formaty i techniki DjVuPhoto Przykład JPEG C44 2081 bajtów 2026 bajtów Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 7 / 26

Formaty i techniki DjVuLayered DjVuLayered (DjVu, DjVuDocument): dla obrazów: skanowanych w kolorze lub skali szarości, zawierających oprócz tekstu grafikę, o niejednolitym tle; 2 warstwy: tło IW44 lub JPEG, pierwszy plan IW44 lub JPEG + maska JB2 lub MMR; kawałki IW44 mają zazwyczaj obniżoną rozdzielczość. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 8 / 26

Formaty i techniki DjVuLayered Przykład Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 9 / 26

Formaty i techniki DjVuLayered Przykład Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 9 / 26

Formaty i techniki DjVuLayered Przykład Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 9 / 26

Formaty i techniki DjVuLayered Przykład Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 9 / 26

Formaty i techniki Dokumenty wielostronnicowe Dokument spakowany (bundled multi-page document): jeden plik reprezentuje cały dokument; wygodny do przesyłania plików inną drogą niż HTTP; czas dostępu do strony: zależny od czasu ściągania poprzednich stron. Dokument pośredni (indirect multi-page document): główny plik jest tylko indeksem; osobny plik na każdą stronę; czas dostępu do strony zależny tylko od wielkości tej strony; taka sama wygoda przeglądania. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 10 / 26

Formaty i techniki Ukryte dane Poza obrazami, dokumenty DjVu mogą zawierać: adnotacje: hiperłącza, domyślny sposób wyświetlania, metadane; ukryty tekst; zakładki; miniaturki. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 11 / 26

DjVu a WWW Sposoby udostępniania dokument DjVu na stronach WWW: poprzez link do pliku, np. example.djvu?djvuopts&page=42&zoom=100%; zadziała tylko jeśli: serwer zaanonsuje odpowiedni typ MIME (image/vnd.djvu) i użytkownik będzie miał zainstalowaną wtyczkę lub użytkownik będzie wiedział, co zrobić z plikiem po pobraniu; osadzenie na stronie HTML, np. <embed src="example.djvu" type="image/vnd.djvu"> </embed>; aplet Javy: <http://javadjvu.sf.net/>, sprzeczny z zasadą lekkich wtyczek, kłopotliwe pobieranie pliku na dysk. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 12 / 26

Oprogramowanie Dostępne oprogramowanie: DjVuLibre <http://djvu.sf.net/> na licencji GPL, Linux, inne uniksy, Windows (Cygwin); Lizardtech Document Express <http://www.lizardtech.com/products/doc/> cena: wysoka, dostępne 30-dniowe wersje testowe, Windows 98/2000/XP lub NT 4.0; i inne. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 13 / 26

Oprogramowanie Przeglądarki djview (alias djview3): siermiężny wygląd; wyświetla jednocześnie co najwyżej jedną stronę. djview4: korzysta z biblioteki Qt4; brak ograniczeń djview3. evince dla Gnome; okular dla KDE. WinDjView i MacDjView. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 14 / 26

Oprogramowanie Wtyczki do przeglądarek WWW nsdejavu: komercyjne, darmowe wtyczki dla Internet Explorera i Safari <http: //www.lizardtech.com/download/dl_options.php?page=plugins>. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 15 / 26

Oprogramowanie Narzędzia linii poleceń c44: PGM, PPM, JPEG (zdjęcia) DjVuPhoto; stratna kompresja falkowa; the encoder requires more memory than necessary. cjb2: PBM (bitmapy) DjVuBitonal; kompresja bezstratna lub stratna; matching characters on several pages would improve the compression ratios for multi-page documents. cpaldjvu: PPM (grafika o małej liczbie kolorów) DjVuLayered; brak możliwości wyboru koloru tła; brak kontroli nad kwantyzacją kolorów. csepdjvu: PPM + własne formaty RLE DjVuLayered; raczej do użytku przez inny program; potrafi sprytnie włączyć do dokumentu warstwę tekstową. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 16 / 26

Oprogramowanie Narzędzia linii poleceń djvudigital: PostScript, PDF DjVu; wymaga specjalnego sterownika dla Ghostscripta, którego nie można dystrybuować w formie binarnej; opcjonalnie włącza do dokumentu tekst; nie potrafi zachowywać hiperłączy, zakładek ani metadanych. any2djvu: DjVu, PostScript, PDF, TIFF, JPEG, PNM i inne DjVu; korzysta z serwisu online; opcjonalnie wykonuje OCR; w przypadku PDF: zachowuje hiperłącza; w przypadku PDF/PostScript: nie potrafi zachowywać tekstu, zakładek ani metadanych. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 17 / 26

Oprogramowanie Narzędzia linii poleceń djvumake: montuje jedną stronę dokumentu DjVu z kawałków; nie pozwala włączyć kawałka z adnotacjami. djvm: łączy dokumenty DjVu w spakowany dokument; wstawia dokument DjVu do spakowanego DjVu; usuwa stronę ze spakowanego dokumentu. djvmcvt: spakowany DjVu DjVu pośredni. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 18 / 26

Oprogramowanie Narzędzia linii poleceń djvused: tworzy/edytuje/usuwa: adnotacje, ukryty tekst, zakładki; generuje/usuwa miniaturki stron; konwertuje: spakowany DjVu DjVu pośredni. djvutoxml i djvuxmlparser: adnotacje i ukryty tekst XML; nie eksportuje/importuje zakładek ani miniaturek; nieprzyzwoicie niewydajny. EmbedBookmarks: tworzy zakładki na podstawie pliku HTML o prostej strukturze; <http://windjview.sourceforge.net/bookmarks.html>. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 19 / 26

Oprogramowanie Narzędzia linii poleceń ddjvu: DjVu PPM, PGM, PBM, TIFF, własny RLE; opcjonalnie wizualizacja tylko fragmentu strony (stron). djvups: DjVu (Encapsulated) PostScript; opcjonalnie tryb książeczki. djvuextract: wyodrębnia kawałki z dokumentu DjVu. djvutxt: wyodrębnia tekst osadzony w dokumencie DjVu. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 20 / 26

Oprogramowanie LizardTech: DjVu Solo i Document Express Document Express Professional: Document Express Editor: graficzny edytor dokumentów DjVu, manipulowanie ukrytym tekstem tylko OCR (ReadIris), działa pod winem; Virtual Printer Pro: wirtualna drukarka tworzenie DjVu z dowolnego programu obsługującego drukowanie; cena (wersja 6.0): 1,35 tys. zł + VAT. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 21 / 26

Oprogramowanie LizardTech: DjVu Solo i Document Express Document Express Enterprise: możliwości Document Express Professional oraz: narzędzia do wsadowej konwersji dokumentów do DjVu, tryb hot folders; wymaga.net Framework nie działa pod winem; cena: (wersja 5.1) 23 tys. zł + VAT. DjVu Solo: graficzny edytor dokumentów DjVu; nie można edytować ukrytego tekstu ani zakładek; działa pod winem; za darmo, ale tylko do zastosowań niekomercyjnych. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 22 / 26

Oprogramowanie pdf2djvu pdf2djvu <http://freshmeat.net/projects/pdf2djvu/> PDF DjVu; autor: Jakub Wilk; licencja: GPL 2; włącza do dokumentu: warstwę graficzną: pierwszy plan: tekst, grafika wektorowa, grafika rastrowa bitonalna, tło: reszta, tekst, hiperłącza, zakładki, metadane; użyte narzędzia: biblioteka poppler, biblioteka DjVuLibre: publiczne API, csepdjvu, djvuextract, djvused, djvumake, djvm. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 23 / 26

Oprogramowanie DjVuLibre od środka Programy narzędziowe: niekonsekwentne nazewnictwo; niekonsekwentne ograniczenia; proste problemy wymagają nieintuicyjnych zabiegów; nie zawsze są prostymi opakowaniami na funkcje biblioteczne. API publiczne: dla C i C++; skromny zakres: obsługa S-wyrażeń 2, dekodowanie DjVu; asynchroniczna natura; brak zależności od protokołów sieciowych. API prywatne: tylko dla C++, dokumentacja sprzeczna z rzeczywistością! niestabilne? Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 24 / 26

Oprogramowanie DjVuLibre od środka Programy narzędziowe: niekonsekwentne nazewnictwo; niekonsekwentne ograniczenia; proste problemy wymagają nieintuicyjnych zabiegów; nie zawsze są prostymi opakowaniami na funkcje biblioteczne. API publiczne: dla C i C++; skromny zakres: obsługa S-wyrażeń 2, dekodowanie DjVu; asynchroniczna natura; brak zależności od protokołów sieciowych. API prywatne: tylko dla C++, dokumentacja sprzeczna z rzeczywistością! niestabilne? 2 Any sufficiently complicated C or Fortran program contains an ad-hoc, informally-specified bug-ridden slow implementation of half of Common Lisp. /Philip Greenspun/ Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 24 / 26

Do zrobienia Do zrobienia: narzędzie do efektywnej konwersji: ukryte dane XML; dalsza integracja DjVu OCR; bindingi biblioteki DjVuLibre dla Pythona: API publiczne API, API prywatne?; graficzny edytor DjVu. Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 25 / 26

Literatura DjVu Zone <http://www.djvuzone.org/> DjVu Technology Primer <http://www.lizardtech.com/files/doc/techinfo/djvu_tech_primer.djvu> Overview of the DjVu Document Compression Technlogy <http://www.lizardtech.com/files/doc/techinfo/2001_compression_ overview.djvu> Léon Bottou High Quality Document Image Compression with DjVu <http://leon.bottou.org/slides/djvu/index.djvu> Lizardtech DjVu Reference <http://www.lizardtech.com/files/doc/techinfo/djvu3spec.djvu> Jakub Wilk (MIMUW) DjVu i DjVuLibre 2007-11-15 26 / 26