Konwersja formatów na serwerze Doxis4 Rendition Server Kluczowe informacje Pakiet Doxis4 iecm (zintegrowany system zarządzania treścią w przedsiębiorstwie) oferuje możliwość konwersji dokumentów wejściowych i wyjściowych do trwałych formatów zabezpieczonych przed modyfikacją. Niezbędnym do tego celu elementem pakietu Doxis4 iecm jest działający jako serwer program Doxis4 Rendition Server. Umożliwia on konwersję dokumentów wejściowych i wyjściowych do różnych formatów trwałych, takich jak PDF, PDF/A lub TIFF. Realizacja operacji po stronie serwera zapewnia wysoką wydajność obróbki dokumentów, która odbywa się w sposób niezakłócający pracy użytkownika w systemie zarządzania dokumentami (DMS). Konwersja do formatu trwałego umożliwia archiwizowanie dokumentów w prawnie bezpieczny i chroniący przed modyfikacją sposób i zgodnie z aktualnym poziomem techniki gwarantuje ich odczyt w przyszłości. Kolejną funkcją programu Doxis4 Rendition Server jest optyczne rozpoznawanie dokumentów (OCR), umożliwiające generowanie wersji pełnotekstowych na potrzeby operacji wyszukiwania oraz udostępnienie treści dokumentów.
Streszczenie W przypadku systemu zarządzania dokumentami (DMS) i związanego z nim cyklu życia dokumentów korzystne jest zarządzanie dokumentami Office w oryginalnym formacie (np. DOC, DOCX, XLS itd.). W ten sposób zachowane zostają wszystkie właściwości dokumentu Office, a on sam może być bez ograniczeń opracowywany i modyfikowany. Minusem tej metody jest to, że w celu prawidłowej prezentacji dokumentu oryginalny program także w przyszłości musi być dostępny w odpowiedniej wersji. Ze względu na konieczność przyszłego, prawidłowego wyświetlania dokumentu istotne jest zatem przekształcenie go do odpowiedniego formatu trwałego. Właśnie do tego celu służy aplikacja Doxis4 Rendition Service, która umożliwia konwersję tych dokumentów do formatu TIFF, PDF lub PDF/A. Oprócz popularnych formatów Doxis4 Rendition Server jest także w stanie przetwarzać formaty plików graficznych, które opcjonalnie mogą być odczytywane z wykorzystaniem technologii optycznego rozpoznawania znaków OCR. Odczyt OCR umożliwia wykorzystanie dokumentu do wyszukiwania pełnotekstowego udostępniając tym samym jego zawartość. Formaty źródłowe i wyjściowe Formaty źródłowe Na potrzeby operacji konwersji Doxis4 Rendition Server obsługuje następujące formaty źródłowe: Formaty graficzne: BMP, GIF, JPG, PNG, TIFF Formaty MS Office: DOC, DOCX, ICS, MSG, PPS, PPSX, PPT, PPTX, RTF, VCF, VSD, XLS, XLSB, XLSM, XLSX (Konwersja za pośrednictwem MS Office 2007, 2010 lub 2013) Formaty OpenOffice: ODT (Konwersja za pośrednictwem Apache OpenOffice) Formaty poczty e-mail: MSG, EML (Konwersja za pośrednictwem MS Outlook 2007, 2010 lub 2013) Formaty tekstowe: ASC, CONF, CONFIG, INI, LOG, PROPERTIES, TEXT, TXT (Konwersja za pośrednictwem Notatnika) Formaty archiwum: ZIP, GZ, RAR, TAR, TGZ, 7Z (Konwersja odbywa się poprzez rozpakowanie i przekształcenie wszystkich plików do formatu TIFF/PDF) HTML, XML (Konwersja za pośrednictwem programu IE) PDF: Dzięki Doxis4 Rendition Server możliwe jest konwertowanie plików PDF z ograniczeniami lub bez (opcja dodatkowa). Ograniczenie dokumentów dotyczy funkcji wydruku i składania dokumentu. Program nie obsługuje dokumentów PDF XFA. Pliki portfolio PDF są traktowane podobnie jak formaty archiwalne. Automatyczna i odbywająca się na serwerze konwersja dokumentów podlega zgodnie ze stanem techniki pewnym ograniczeniom, które wymagają uwzględnienia. Doxis4 Rendition Server zawsze archiwizuje przekonwertowany plik docelowy jako dodatkową reprezentację w Doxis4, dzięki czemu pliki oryginalne zostają zachowane. Ograniczenia Doxis4 Rendition Server nie może dokonywać konwersji dokumentów, które są zabezpieczone hasłem chroniącym przed nieuprawnionym otwarciem. Z uwagi na dużą ilość parametrów uzyskane wyniki nie zawsze muszą odpowiadać rezultatom konwersji ręcznej. Przykładem może być tutaj wydruk plików programu MS Excel. Także renderowanie dokumentów HTML zależy od wersji używanej przeglądarki, rodzaju zablokowanych treści itp. Rezultat przekształcania archiwum ZIP polegającego na konwersji poszczególnych zawartych w nim plików nie zawsze musi też odpowiadać oczekiwaniom. W przypadku przekształcania do formatu PDF/A osadzanie czcionek zastępczych, eliminowanie przezroczystości czy też uzupełnianie profili kolorów może spowodować występowanie różnic w stosunku do oryginału. Z uwagi na fakt, że walidacja PDF/A przebiega w bardzo złożony sposób, jej rezultat w przypadku tego samego pliku może w przyszłości być inny w wyniku zmienionej interpretacji standardu. Formaty wyjściowe Doxis4 Rendition Server obsługuje następujące formaty wyjściowe: PDF TIFF PDF/A-1b (opcjonalnie z wykorzystaniem OCR) PDF/A-2b PDF/A-2u Format trwały PDF/A Doxis4 Rendition Server obsługuje funkcję generowania walidowanych dokumentów PDF/A w powyższych wersjach zgodnie z obecnym stanem techniki. Format wyjściowy PDF/A (standaryzowany wg. normy ISO 19005-1:2005) to odmiana PDF (Portable Document Format), która nadaje się do archiwizacji trwałej. Z konwersji przeprowadzanej przez Doxis4 Rendition Server wykluczone są wszystkie funkcje PDF, które nie są przydatne do archiwizacji trwałej. Dotyczy to np. skryptów Javy, treści audio i wideo oraz kodowania. Ponadto dokumenty PDF/A nie mogą być w żaden sposób powiązane z zasobami zewnętrznymi (np. czcionki systemu operacyjnego). Z uwagi na to format PDF/A przyjął się oprócz formatu TIFF jako standard dla archiwizacji trwałej. Strona 2
Indeksowanie dokumentów przeznaczonych do konwersji Określenie terminu konwersji i rodzaju poddawanych jej dokumentów odbywa się w niezwykle łatwy i elastyczny sposób, gdyż do tego celu wykorzystywane są właściwości i indeksy dokumentów. Przykładowo dokumenty aktywne lub wersje robocze można wykluczyć z procesu konwersji w taki sam sposób, jak ma to miejsce w przypadku samodzielnie generowanej w przedsiębiorstwie korespondencji masowej. W każdej sytuacji istnieje możliwość elastycznego ustawienia mechanizmów kontrolnych w oparciu o konkretne potrzeby klienta oraz ich późniejszego dostosowania poprzez zwykłą modyfikację indeksu. Rys. 2: Schemat konwersji za pomocą Doxis4 Rendition Server Konwersja Bazująca na regułach konwersja odbywająca się z wykorzystaniem dispatchera Cały przebieg procesu konwersji jest przedstawiony schematycznie na poniższym rysunku i jest sterowany przez tzw. dispatcher. Na podstawie właściwości indeksu dispatcher określa bazując na regułach dokumenty, które należy poddać konwersji. Następnie przekazuje je do dostępnej aplikacji Doxis4 Rendition Engine, a rezultat konwersji zostaje zapisany w Doxis4 CSB jako nowa reprezentacja. Dispatcher nie wymaga własnego systemu zarządzania zleceniami lub danymi, gdyż do tych celów bezpośrednio wykorzystywane są funkcje Doxis4 CSB. Dzięki ograniczeniu lokalizacji źródłowej dokumentu można nawet zastrzec, aby tylko wybrane obszary pamięci systemu Doxis4 były przeszukiwane pod kątem dokumentów nadających się do konwersji. W ten sposób można zagwarantować, że konwertowane będą wyłącznie te dokumenty, które znajdują się w pamięci trwałej lub też zostały skopiowane z rozproszonych lokalizacji w centrali. Konwersja i walidacja Właściwa konwersja dokumentów odbywa się w aplikacji Doxis4 Rendition, przy czym jej metoda zależy od formatu źródłowego i docelowego. Istnieje możliwość podłączenia do dispatchera kilku aplikacji Doxis4 Rendition Engine, co pozwala na łatwe skalowanie systemu. Rys. 1: Schemat aplikacji Doxis4 Rendition Server Strona 3
Przekształcanie typowych formatów Office odbywa się z wykorzystaniem procesu wydruku oryginalnej aplikacji. Rolę sterownika drukarki pełni aplikacja Doxis4 PDF & TIFF Producer, która jest także dostępna w wersji stricte klienckiej. Podczas odczytu OCR wykorzystywane są te komponenty Doxis4 Recognition, w przypadku których rozpoznany tekst zostaje umieszczony za widoczną grafiką w docelowym dokumencie PDF. Walidacja do prawidłowego formatu PDF/A oraz naprawa dokumentów PDF do formatu PDF/A odbywa się za pośrednictwem zintegrowanych komponentów, które są także stosowane przez moduł Adobe Preflight. Opcje konwersji Doxis4 Rendition Server dysponuje szeregiem opcji, z których część jest omówiona poniżej. Istnieje możliwość ograniczenia lub rozszerzenia ilości dozwolonych formatów plików na potrzeby konwersji w aplikacji Doxis4 Rendition Server. Można także zastrzec, aby wiadomości e-mail były konwertowane bez załączników. Rozwiązanie takie ma sens np. w przypadku, gdy załączniki do wiadomości e-mail zostały zarchiwizowane oddzielnie jako dokumenty częściowe w programie Doxis4. Dla takich złożonych dokumentów składających się z wielu plików, Doxis4 Rendition Server oferuje konfigurowalne ustawienia w przypadku, gdy pojedyncze dokumenty częściowe nie mogą zostać poddane konwersji (np. wspomniany wcześniej plik WAV). Możliwe jest przy tym wstrzymanie konwersji, pominięcie nieznanych formatów lub ich przejęcie w wersji oryginalnej. Podczas konwersji do formatu PDF/A. także dokumenty składające się z kilku pojedynczych plików TIFF lub JPG mogą zostać połączone w jeden plik. Dla dokumentów PDF można wprowadzić takie ustawienie, aby w sytuacji, gdy PDF składa się wyłącznie z osadzonych obrazów, odczyt odbywał się tylko z wykorzystaniem metody OCR. Rys. 3: Umiejscowienie wśród produktów Doxis4 Strona 4
Produkty powiązane z Doxis4 Rendition Server W niniejszej broszurze informacyjnej omówione są następujące usługi i komponenty: Doxis4 Rendition Service (SVC_REND_V3) Pozostałe opcjonalne funkcje wspomniane w broszurze informacyjnej można wykonywać korzystając z następujących usług lub komponentów: z wykorzystaniem interfejsu API również w niestandardowych aplikacjach klienckich Formaty źródłowe Formaty graficzne (TIFF, JPG, ) Formaty Office (MS Office & OpenOffice ODT) Formaty tekstowe Formaty archiwalne (ZIP, ) Doxis4 Rendition Service konwersja danych wejściowych (SVC_REND_INP_V3) Doxis4 Rendition Service odczyt OCR (SVC_REND_OCR_V3) Doxis4 Rendition Service PDF/A (SVC_REND_PDFA_V3) Doxis4 Rendition Service TIFF (SVC_REND_TIFF_V3) Doxis4 Rendition Service PDF Security Release (SVC_REND_PDFSEC_V3) Klasyfikacja w ofercie produktowej Doxis4 Rendition Server jest elementem pakietu Doxis4- iecm. Zgodnie z zasadą budowy modułowej w każdym momencie można dodawać kolejne rozwiązania z rodziny Doxis4. Zestawienie funkcji Doxis4 Rendition Server PDF Formaty wyjściowe TIFF PDF PDF/A-1b PDF/A-2b & PDF/A-2u PDF lub PDF/A-1b opcjonalnie z wykorzystaniem OCR Informacja o dokumencie Niniejsza broszura informacyjna dotyczy wersji V03.02 dla Doxis4 Rendition Server. Zachęcamy do zapoznania się z zestawieniami funkcji naszych produktów w celu porównania Państwa oczekiwań z funkcjonalnościami rozwiązań Doxis4 iecm: DOXiS4 Rendition Server Konwersja formatu na serwerze Skalowanie/Rozkład obciążenia z wykorzystaniem dispatchera Konwersja w oparciu o wartości indeksowe Opcjonalny odczyt OCR podczas konwersji Wybór dokumentów do konwersji w oparciu o zasadę szczegółowości Częściowa konwersja dokumentów (np. wiadomości e-mail) Zestawianie plików TIFF/JPG Obsługa złożonych dokumentów, które składają się z kilku plików Możliwość zastosowania Doxis4 Rendition Server Wydawca SERgroup Holding Europe GmbH Joseph-Schumpeter-Allee 19 D-53227 Bonn Tel: +49 228 90896-0 Internet: www.ser.de E-mail: info@ser.de S.E.R. Solutions Polska Sp. z o.o. ul. Grzybowska 2/81 PL-00-131 Warszawa Tel: +48 22 4365695 Fax: +48 22 4365692 Internet: www.ser-solutions.pl E-Mail: info@ser-solutions.pl Zastrzegamy sobie prawo do modyfikacji technicznych, pomyłek i błędów w druku. Wszystkie znaki towarowe są znakami towarowymi ich właścicieli. Informacje na temat przepisów ustawowych, prawnych i podatkowych nie mają charakteru wiążącego. Wszystkie dane zawarte w katalogu mają charakter przybliżony. Zastrzegamy sobie prawo do zmian w strukturze i zakresie dostawy. (V03.02,PL) SERgroup Holding Europe GmbH Strona 5