Jak przygotować pliki gotowe do publikacji w sieci za pomocą DigitLabu?

Jak przygotować pliki gotowe do publikacji w sieci za pomocą DigitLabu? Po zainstalowaniu DigitLabu na komputerze otrzymujemy pakiet programów niezbędnych do przygotowania cyfrowych wersji obiektów tekstowych. Poniżej prezentujemy instrukcję, jak za pomocą dostępnych w DigitLab programów stworzyć cyfrowe dokumenty gotowe do prezentacji w sieci. 1. Należy zeskanować docelowy obiekt w jakimkolwiek programie do skanowania pamiętając o odpowiednim oświetleniu i ułożeniu skanowanego obiektu, tak aby zminimalizować konieczną obróbkę po skanowaniu. W DigitLabie takim programem jest Simple Scan, ale oczywiście można użyć skanu stworzonego w inny sposób lub fotografii obiektu wykonanej aparatem cyfrowym (na takim obiekcie będziemy pracować w dalszej części tekstu). 2. Następnie skan należy poddać obróbce, która doprowadzi obraz do postaci zoptymalizowanej pod kątem programów do optycznego rozpoznawania znaków (OCR). Celem OCR jest zamiana skanu, który przez wyszukiwarki traktowany jest wyłącznie jak obraz, na dokument, w którym można wyszukiwać konkretne frazy. Do wspomnianej obróbki w DigitLabie służy program Scan Tailor. 3. Etapy obróbki za pomocą Scan Tailor: a. Po wczytaniu wykonanego skanu do programu pierwszym krokiem jest (widoczne w lewym górnym rogu) Fix Orientation czyli możliwość obrotu skanu w razie, gdyby wczytany był obrócony nieprawidłowo. Nie zawsze jest to konieczne. Aby wykonać przekształcenia należy kliknąć przycisk, który znajduje się w tej samej linii co nazwa kroku Fix Orientation (por.rysunek 1).

Rysunek 1. Możliwość obrotu obrazu. b. Kolejnym krokiem jest Split Pages, w którym program automatycznie sugeruje podział skanu na strony, co oczywiście można zmieniać wedle własnego uznania za pomocą ikonek po lewej stronie i podziałki na obrazie. Operacja ta ma dwa tryby działania: i. automatyczny program sam stara się dobrać granicę podziału, a użytkownik może ją ręcznie dostosować dla konkretnych skanów; ii. ręczny użytkownik sam wybiera gdzie przebiega granica podziału, może również określić z góry, że skany zawierają wizerunek tylko jednej strony (menu Page Layout ) i podział jest niepotrzebny.

Rysunek 2. Podział skanu na strony. c. Następnym krokiem jest Deskew czyli dopasowanie tekstu na obrazie do siatki, tak aby niezależnie od krzywizny zeskanowanego papieru, tekst był ułożony prosto w stosunku do ekranu komputera. Jest to dopasowane przez program automatycznie, istnieje oczywiście możliwość ręcznej modyfikacji.

Rysunek 3. Dopasowanie tekstu na obrazie do siatki. d. Select Content polega na zaznaczeniu pola tekstu, który powinien zostać poddany OCR tak, aby jak najmniej pozostałej części skanu znalazło się w tym polu. Zaznaczony tekst sugerowany jest automatycznie, można jednak zmieniać jego obszar manualnie.

Rysunek 4. Zaznaczanie pola tekstu na obrazie. e. Kolejnym krokiem jest zaznaczenie marginesów ( Margins ). W wyniku przekształceń takich jak dzielenie stron, zmiana orientacji linii tekstu czy wreszcie wybór treści, zmieniany jest rozmiar skanów, aby ujednolicić rozmiar dodawane są marginesy. Obszar marginesów po obróbce zostanie wypełniony kolorem białym.

Rysunek 5. Zaznaczanie marginesów. f. Output to krok ostatni w którym możemy określić szczegóły związane z rozdzielczością wynikowych plików ( Output Resolution ), stosowaną w ich przypadku głębią kolorów (domyślnie tworzone są obrazy czarno-białe, menu Mode ). Pozostałe dwie opcje zostały opisane poniżej.

Rysunek 6. Określanie szczegółów związanych z wynikami wcześniejszej obróbki. Dewarping pozwala na wyprostowaniu zakrzywienia linii tekstu wynikających z faktu iż skanowanie książki odbywało się na skanerze płaskim. Rysunek 7. Prostowanie zakrzywień linii tekstu.

Despeckling to stopień usuwania zanieczyszczeń i szmerów z obrazu (im większy pędzel na ikonce tym większe jest intensywność z jaką algorytm czyszczący szuka zanieczyszczeń). Istnieje oczywiście możliwość wyczyszczenia docelowego tekstu a nie tylko szmerów, w zakładce po prawej widoczne są (zaznaczone czerwonymi kropkami) miejsca, które zostały oznaczone jako zanieczyszczenia. Rysunek 8. Usuwanie zanieczyszczeń i szmerów z obrazu Powstały w powyższym procesie obraz zapisywany jest w folderze out tworzonym automatycznie przez Scan Tailor w miejscu na dysku, z którego wczytujemy skan. 4. Tak przygotowany wynik obróbki skanu można poddać optycznemu rozpoznawaniu znaków (OCR). W DigitLabie realizowane jest to za pomocą programu Tesseract z którego można korzystać bezpośrednio z linii poleceń bądź poprzez interfejs programu gscan2pdf. Po jego otwarciu możemy wczytać obraz ( Open image file(s) ) powstały za pomocą Scan Tailor. Następnie należy wybrać Tools (narzędzia) w górnym pasku zadań, a potem opcję OCR. W oknie OCR domyślną OCR Engine jest Tesseract i tak powinno zostać, dalej należy wybierać język tekstu na obrazie i zasięg stron, które chcemy poddać OCR.

Rysunek 9. Wybieranie języka i programu do OCR w programie gscan2pdf. Po ukończeniu rozpoznawania, w zakładce OCR Output wyświetlony zostanie wynik działania OCR każde słowo w osobnym polu. Aby zobaczyć dokładniej wyniki można wykorzystać ikony + i - dostępne z głównego paska programu. Po kliknięciu w dane pole można poprawić wynik działania programu OCR. Rysunek 10. Wynik OCR Kolejny krok to stworzenie dokumentów wynikowych. GScan2PDF wbrew nazwie pozwala tworzyć również dokumenty w formacie DjVu. Z menu File wybieramy pozycje Save i wybieramy format wyjściowy. W przypadku PDF możemy wpisać podstawowe metadane, które będą dołączane do pliku.

Rysunek 11. Zapis powstałych wyników OCR w odpowiednim formacie na dysku.