Repozytorium Cyfrowe BN

Podobne dokumenty
Wykonać Ćwiczenie: Active Directory, konfiguracja Podstawowa

Instalacja programu:

Repozytorium Cyfrowe BN

Dokumentacja SMS przez FTP

Ministerstwo Finansów

Opis modułu pl.id w programie Komornik SQL-VAT

Zanim zaczniesz. Warto ustawić kartę sieciową naszego serwera.

Wdrożenie modułu płatności eservice. dla systemu Gekosale 1.4

Opis modułu pl.id w programie Komornik SQL-VAT

Sieciowa instalacja Sekafi 3 SQL

Data modyfikacji:

Obowiązek wysyłania Jednolitego Pliku Kontrolnego (JPK) Instrukcja

Dokument opisuje sposób postępowania prowadzący do wysłania deklaracji VAT, PIT lub CIT drogą elektroniczną za pomocą funkcji systemu ADA modułu FK.

Instalacja Active Directory w Windows Server 2003

Instrukcja instalacji programu SYSTEmSM

Instrukcja obsługi Multiconverter 2.0

JPK Jednolity Plik Kontrolny

INFO-R. Instalacja programu na systemie Windows vista/win 7/win 8/win 10

VinCent Administrator

Wdrożenie modułu płatności eservice dla systemu PrestaShop

Programy LeftHand - Obsługa plików JPK. Luty 2017

Współpraca z platformą Emp@tia. dokumentacja techniczna

Obsługa modułu. e-deklaracje. w programach WF-FaKir oraz WF-Gang. (opracował Przemysław Gola)

Instrukcje instalacji pakietu IBM SPSS Data Access Pack dla systemu Windows

Instrukcja obsługi DHL KONWERTER 1.6

Import zleceń / Integracja klienta K-Ex

KOMPUTEROWY SYSTEM WSPOMAGANIA OBSŁUGI JEDNOSTEK SŁUŻBY ZDROWIA KS-SOMED

Od planowania do publikowania co można zautomatyzować?

procertum CLIDE Client 2.1 wersja 1.0.2

Certyfikat Certum Basic ID. Instrukcja dla użytkowników Windows Vista. wersja 1.3 UNIZETO TECHNOLOGIES SA

Rozdział ten zawiera informacje o sposobie konfiguracji i działania Modułu OPC.

Wdrożenie modułu płatności eservice. dla systemu PrestaShop

Instrukcja dla użytkowników Windows Vista Certyfikat Certum Basic ID

Instrukcja konfiguracji funkcji skanowania

Win Admin Replikator Instrukcja Obsługi

Zarządzanie Infrastrukturą IT

Wysyłka plików JPK - instrukcja za pomocą profilu zaufanego (epuap)

Integracja programów LeftHand z systemem Skanuj.to

Aktualizacja firmware w urządzeniu za pośrednictwem FTP

System kontroli wersji - wprowadzenie. Rzeszów,2 XII 2010

JPK Jednolity Plik Kontrolny.

Przy wykonywaniu rozliczeń obowiązują pewne zasady, do których nie zastosowanie się będzie skutkowało odrzuceniem raportów ze strony NFZ:

Instrukcja obsługi xserver

Programy LeftHand - Obsługa plików JPK. Wrzesień 2016

MasterEdytor. Podprogram pomocniczy do programu mpfotoalbum 1.2 INSTRUKCJA

INFO-R. Instalacja pakietu programów obsługujących platformę

CZNE LUB INSTALOWANIE SERVERA

Silent setup SAS Enterprise Guide (v 3.x)

Do wersji Warszawa,

Sterbox e-pilot Dla iphone/ipad/ ANDROID

Wdrożenie modułu płatności eservice. dla systemu Magento

PUE ZUS Wysyłka elektronicznych zapytan. Instrukcja wysyłki zapytań do ZUZ-PUE za pomocą aplikacji Komornik SQL

Wirtualny Dziennik - INSTRUKCJA DLA RODZICÓW

BlackHole. Bezpieczne Repozytorium Ważnych Zasobów.

JPK Jednolity Plik Kontrolny

Rysunek 178. Programowanie monitorów KDS

Zaopatrzenie ortopedyczne aplikacja internetowa

Kurs walut. Specyfikacja projektu. Marek Zając

Instrukcja obsługi dla operatora

Przykładowa konfiguracja konta pocztowego w programie Thunderbird z wykorzystaniem MKS 2k7 (MS Windows Vista Busissnes)

Archiwizacja baz MSSQL /BKP_SQL/ opis oprogramowania

SAS Institute TECHNICAL SUPPORT )

Po pobraniu plików instalacyjnych w pierwszej kolejności dokonujemy instalacji serwera ESET Remote Administrator Server

Repozytorium Cyfrowe BN

Instalacja i podstawowa konfiguracja aplikacji ImageManager

Opis procesów biznesowych związanych z realizacją e-usług WZGiK

Instalacja rozwiązania Uruchomienie rozwiązania w systemie Sage Konfiguracja dodatku Ustawienia dodatkowe rozwiązania...

Tworzenie plików w formacie DjVu z wykorzystaniem oprogramowania DocumentExpress Enterprise Edition

5.1. MINIPOS MINIPOS. INSTALACJA ORAZ URUCHOMIENIE USŁUGI

Warsztaty: Tworzenie obrazów stacji roboczych

Elektroniczna Skrzynka Podawcza

Spis treści 1. Oprogramowanie wizualizacyjne IFTER EQU Dodanie integracji CKD Wprowadzanie konfiguracji do programu EQU... 6 a.

Sprawdzenie i ocena pracy z wykorzystaniem Archiwum Prac Dyplomowych

Komunikator wewnętrzny. funkcjonalność podstawowa bs4 intranet

Wprowadzenie do projektu QualitySpy

Konsorcjum FEN Sp. z o.o. ul. Dąbrowskiego 273A, Poznań Mateusz Zapotoczny support [at] fen.pl

Sprawdzenie i ocena pracy z wykorzystaniem Archiwum Prac Dyplomowych

Zaopatrzenie ortopedyczne aplikacja internetowa

System imed24 Instrukcja Moduł Analizy i raporty

Win Admin Replikator Instrukcja Obsługi

MONITOROWANIE WINDOWS Z NETCRUNCHEM 7 P A G E 1

KOMPUTEROWY SYSTEM WSPOMAGANIA OBSŁUGI JEDNOSTEK SŁUŻBY ZDROWIA KS-SOMED INSTRUKCJA OBSŁUGI

Backend Administratora

SYSTEM INFORMATYCZNY KS-SEW

Instrukcja instalacji programu. system Windows vista/win 7/win 8/win 10 32/64bit

PANEL ADMINISTRACYJNY SPRZEDAWCY SZYBKI START

JPK Jednolity Plik Kontrolny.

Jak przygotować pliki gotowe do publikacji w sieci za pomocą DigitLabu?

INSTRUKCJA UŻYTKOWNIKA Instalacja KS - EDE w systemie KS - ZSA ISO 9001:2008 Dokument: Wydanie: 1 Waga: 90

Podręcznik użytkownika Obieg dokumentów

Podręcznik użytkownika

enova Instalacja wersji demo

W oknie konfiguratora Importu/Exportu należy wprowadzić odpowiednie ustawienia poprzez zaznaczenie pól kursorem myszki przy poszczególnych opcjach.

Wdrożenie modułu płatności eservice dla systemu PrestaShop

Program dla praktyki lekarskiej

Słownik. Instrukcja obsługi programu

ZESTAW PLATINUM. - instrukcja pobrania i instalacji certyfikatu niekwalifikowanego wersja 1.2

KURIER BY CTI. Instrukcja do programu

Transkrypt:

Repozytorium Cyfrowe BN OCR 1

Repozytorium współpracuje z wybranymi rozwiązaniami OCR w celu uzyskania warstwy tekstowej z obiektów, które zawierają postać graficzną tekstu (skany, zdjęcia). Na chwilę obecną wdrożona jest współpraca z dwoma rozwiązaniami: ABBYY Recognition Server (wersja 3.5) DocWorks 1. ABBYY Recognition Server Opis oprogramowania (istotny z punktu widzenia RCBN) ABBYY Recognition Server (RS) dostarcza kilku metod współpracy które są opisane szczegółowo w dokumentacji. W przypadku RCBN współpraca z RS została oparta na wymianie plików przy pomocy współdzielonych katalogów. Rozróżniamy trzy typy katalogów w tym podejściu: Katalog wejściowy (IN) jest to katalog w którym umieszczane są zadania do przetworzenia przez RS. Wraz z plikami można umieścić plik XML (tak zwany XML ticket) który poza wskazaniem kompletnej listy plików należących do danego zadania będzie również określał dodatkowe niestandardowe parametry (nadpisujące parametry określone w danym profilu) Katalog wyjściowy (OUT) RS umieszcza w nim gotowe pliki wynikowe wraz z plikiem XML opisującym szczegóły zadania i wyników Katalog błędów (EXC) RS umieszcza w nim pliki źródłowe zadania w którym napotkał na problemy wraz plikiem XML opisującym napotkany problem. W ABBYY RS można określić wiele profilów w których każdy ma odrębne katalogi IN, OUT oraz EXC. Profil to zestaw predefiniowanych ustawień z jakimi zadanie zostanie przetworzone. W ramach tych ustawień możemy wyróżnić między innymi (wybrane ustawienia i skrócony opis): Określenie metody współpracy (tutaj katalogi współdzielone) określenie czasu po którym zadanie zostanie podjęte (licząc od daty ostatniej modyfikacji katalogu/pliku), czas ten zapobiega przedwczesnemu podjęciu zadania kiedy system współpracujący jeszcze jest w trakcie wysyłania materiału określenie katalogów IN, OUT i EXC określenie czy pliki wynikowe będą w formie jeden plik każdego wskazanego formatu na całe zadanie (forma scalona) jeden plik dla każdego wskazanego formatu na każdy plik w zadaniu wskazanie słowników z jakich RS ma korzystać podczas procesu rozpoznawania. Tutaj należy się uwaga iż nie należy wybierać zbyt wielu słowników jednocześnie w ramach pojedynczego profilu gdyż skutkuje to pogorszeniem jakości wyników zamiast ich polepszeniem oraz wpływa znacząco na czas przetwarzania 2

określenie czy ma być uwzględniona w procesie weryfikacja oraz po spełnieniu jakich warunków weryfikacja ma się uruchomić (zawsze, nigdy, po wystąpieniu określonego % nierozpoznanych znaków) jakość OCRa wpływa na czas przetwarzania określenie plików wynikowych W powyższych ustawieniach występuje taka definicja jak weryfikacja. Polega to na tym, iż w przypadku zakwalifikowania danego zadania do etapu weryfikacji, wyniki procesu OCR przed opublikowaniem (np. w katalogu OUT) zostaną poddane weryfikacji przez użytkownika. Weryfikacja następuje poprzez dedykowane oprogramowanie zainstalowane na komputerze klienta (użytkownika) w którym użytkownik może podjąć wybrane zadanie, podejrzeć przetworzone wyniki i wprowadzić odpowiednie poprawki w razie potrzeby. Dopiero po zaakceptowaniu wyniku OCR przez kontrolera wyniki danego zadania zostaną opublikowane w katalogu OUT skąd system współpracujący będzie mógł je pobrać i zaaplikować do swojej bazy. Krok ten jest o tyle istotny iż znacząco wpływa na wydłużenie procesu OCR zadanie będzie tak długo w trakcie procesu dopóki ktoś go nie podejmie, opracuje i zaakceptuje (bądź odrzuci co skutkuje wrzuceniem zadania do katalogu EXC). Opis sposobu współpracy Obiekt można wysłać do procesowania w oprogramowaniu ABBYY RS z dwóch miejsc: etap workflow wybór formy prezentacji zakładka OCR dostępna w edycji obiektu Jak wcześniej wspomniano RCBN współpracuje z ABBYY RS przy pomocy współdzielonych katalogów. Zasoby każdego obiektu wytypowanego do procesu OCR przy pomocy RS jest przez RCBN wgrywane są odpowiedniego katalogu wejściowego, który to katalog obserwuje RS i po wgraniu materiału rozpoczyna proces rozpoznawania z określonymi parametrami. Każdy obiekt jest wgrywany do oddzielnego katalogu którego nazwa jest tworzona według wzoru: UID_TASKID w przypadku obiektów wysyłanych w trakcie workflow; UID - w przypadku obiektów wysyłanych z formatki OCR dostępnej w edycji obiektu. Do procesu OCR wysyłane są wszystkie pliki źródłowe contentów podstawowych znajdujących się w sekcji paginacyjnej obiektu, niezależnie od formatu. Pomijane są natomiast te pliki które dotyczą contentów ukrytych. Nazewnictwo wgrywanych plików jest odpowiednio określone według następującego wzoru:. Wraz z plikami do katalogu wgrywany jest specjalny plik XML (tzw. XMLticket) w którym zawarta jest lista wszystkich plików wchodzących w ramach danego zadania. Ten plik jest wgrywany jako pierwszy i dzięki zdefiniowaniu w nim całej listy plików do przetworzenia zapobiega się sytuacji (zabezpieczenie dodatkowe) w której ABBYY RS rozpocząłby procesowanie tego obiektu przed wgraniem wszystkich plików. W pliku XML można również przekazać dodatkowe parametry nadpisujące ustawienia profilu zdefiniowane w oprogramowaniu ABBYY RS 3

jednakże na chwilę obecną RCBN nie korzysta z tej możliwości i użytkownik nie ma możliwości ustawienia tych parametrów od strony GUI RCBN. Po przetworzeniu wyniki są umieszczane w oddzielnym katalogu który z kolei jest monitorowany przez RCBN i po wgraniu gotowych wyników importuje je do systemu. Są zdefiniowane określone zasady umieszczania wyników OCR w obiekcie: W przypadku wyników per content pliki ALTO oraz TXT są umieszczane w contencie bazowym jako alternatywny stream (pliki ALTO pod kluczem download_alto, zaś pliki txt pod kluczem text ) pozostałe formaty są umieszczane przy contencie bazowym jako content alternatywny. Podczas dopasowywania pomijane są te contenty które są oznaczone jako ukryte. W przypadku wyników per content, jeżeli mamy do czynienia z plikami typu PDF, EPUB lub MOBI i dla danego profilu skonfigurowanego po stronie RCBN jest ustawienie wskazujące aby wyniki poddawać procesowi scalania, wówczas system nie umieszcza ich jako contenty alternatywne tylko wszystkie pojedyncze pliki scala do jednego pliku i umieszcza jako content zbiorczy. Pliki PDF są scalane za pomocą skryptu.. Pliki EPUB i MOBI są scalane za pomocą skryptu Epubmerge.py Każdy z tych skryptów kopiuje sobie pliki na udział lokalny po czym łączy wszystkie pliki i zapisuje pod nazwą składającą się z odpowiednio spreparowanej metadanej title. W przypadku wyników per zadanie (obiekt), plik jest wgrywany jako content zbiorczy (kolejny w kolejności). Dodatkowo jeżeli jest to plik PDF to tekst z każdej kolejnej strony jest wyciągany i zapisywany do streamu alternatywnego text przy contencie bazowym odpowiadającym kolejności stronie w pliku PDF (zachowując zasadę iż contenty ukryte się nie liczą). W przypadku kiedy zadanie w OCR zostanie zakwalifikowane jako błędne ABBYY umieści pliki w odpowiednim katalogu przeznaczonym na zadania błędne. Ten katalog jest również monitorowany przez RCBN i w razie wykrycia wadliwego zadania odnotuje ten fakt w swojej bazie. Jeżeli obiekt był wysłany o procesu OCR w ramach workflow wówczas system oznaczy odpowiednie zadanie workflow dotyczące OCR jako zakończone i w zależności od ścieżki workflow przeniesie dane zadanie do odpowiedniego kroku następnego. Dodatkowo nieprawidłowość zostanie odnotowana poprzez dodanie do listy obiektów które nie przeszły procesu OCR. Na potrzeby weryfikacji prowadzony jest odpowiedni dziennik zapisywany w bazie danych w tabeli ocr_status. Każde zadanie wysyłane do OCR jest wpisywane do tej tabeli z informacją kiedy zostało wysłane, jaką ścieżką oraz ustawiony status na IN_PROCESS. W momencie wysyłania każdego obiektu do OCR sprawdzana jest najpierw ta tabela pod kątem czy dany obiekt nie jest przypadkiem wysłany do OCR jeżeli tak to ponowne wysłanie do OCR zostanie zaniechane, co zapobiega wysłaniu wiele razy tego samego dokumentu do procesu OCR. W chwili odebrania informacji o zakończeniu procesowania OCR w bazie odszukiwana jest informacja o ostatnim statusie wysłania obiektu do OCR i 4

wpis zostaje zaktualizowany o datę odebrania wyników oraz zaktualizowany jest status: SUCCESS kiedy wynik był w katalogu OUT lub FAIL jeżeli wynik był w katalogu EXC. Jak wspomniano wcześniej, po stronie oprogramowania ABBYY RS można zdefiniować szereg profilów. Każdy z tych profilów które chcemy dać użytkownikowi do użytku w RCBN musimy najpierw skonfigurować po stronie Repozytorium. Konfigurację tą zapisujemy w pliku academica.properties która wygląda następująco: ocr1.name=bypage_alto_pdf-70/300 ocr1.indir=smb://172.26.106.50/ocr-workspace-aca/acaocrp1_in/ ocr1.outdir=smb://172.26.106.50/ocr-workspace-aca/acaocrp1_out/ ocr1.excdir=smb://172.26.106.50/ocr-workspace-aca/null/ ocr1.merge=true ocr2.name=merged_imagepdf ocr2.indir=smb://172.26.106.50/ocr-workspace-aca/acaocrm1_in/ ocr2.outdir=smb://172.26.106.50/ocr-workspace-aca/acaocrm1_out/ ocr2.excdir=smb://172.26.106.50/ocr-workspace-aca/null/ ocr2.merge=false ocr.user=username ocr.password=passwordvalue ocr.retrieve.enabled=true epub.merge.command=/opt/academica/resources/epubmerge.py ocr.sendingthreads=2 ocr.enabled=true ocr.cron=0 */5 * * *? gdzie: ocr1, ocr2 określa kolejny zdefiniowany profil ocrx.name nazwa profilu ocrx.indir katalog IN profilu ocrx.outdir katalog OUT profilu ocrx.excdir katalog EXC profilu ocrx.merge określa czy wybrane pliki należy scalać ocr.user nazwa użytkownika do łączenia się do udziałów SMB osr.password hasło użytkownika do łączenia się do udziałów SMB ocr.retrieve.enabled określa czy dana instancja RCBN powinna brać udział w procesie pozyskiwania wyników OCR epub.merge.command wskazuje ścieżkę do pliku używanego do łączenia EPUB ocr.sendingthreads liczba wątków wysyłających zgłoszone obiekty do OCR ocr.enabled określa czy dana instancja RCBN bierze udział w wysyłaniu zgłoszonych obiektów do OCR ocr.cron określa z jaką częstotliwością system ma sprawdzać katalogi OUT i EXC 5

Na chwilę obecną na serwerach produkcyjnych są dostępne następujące ścieżki OCR: bypage_alto_pdf pliki wynikowe ALTO dla każdej strony oraz PDF zbiorczy dla całej publikacji, włączony słownik polski i angielski, bez weryfikacji bypage_alto pliki wynikowe ALTO dla każdej strony, włączony słownik polski i angielski, bez weryfikacji merged_imagepdf wynikiem jest zbiorczy PDF jeden na całą publikację bez warstwy tekstowej (moim zdaniem jedna z bardziej bezsensownych ścieżek), bez weryfikacji bypage_alto_pdf_verify pliki wynikowe ALTO dla każdej strony oraz PDF zbiorczy dla całej publikacji, włączony słownik polski i angielski, w tej ścieżce każda pozycja musi przejść etap weryfikacji przez redaktora przed wytworzeniem wyników (weryfikacja odbywa się w oddzielnym oprogramowaniu instalowanym dla wybranych osób) bypage_pref jest to to samo co bypage_alto_pdf tylko ma wyższy priorytet jak już zadanie zostanie wgrane na serwer OCR (w repozytorium nie ma wyższego priorytetu), wynikiem są pliki ALTO dla każdej strony + jeden zbiorczy PDF na całą publikację, włączone słowniki polski i angielski, bez weryfikacji bypage_alto_pdf_latin pliki wynikowe ALTO dla każdej strony oraz PDF zbiorczy dla całej publikacji, włączony słownik polski, angielski i łaciński, bez weryfikacji bypage_alto_pdf_latin_verify pliki wynikowe ALTO dla każdej strony oraz PDF zbiorczy dla całej publikacji, włączony słownik polski, angielski i łaciński, w tej ścieżce każda pozycja musi przejść etap weryfikacji przez redaktora przed wytworzeniem wyników (weryfikacja odbywa się w oddzielnym oprogramowaniu instalowanym dla wybranych osób) bypage_alto_latin pliki wynikowe ALTO dla każdej strony, włączony słownik polski, angielski i łaciński, bez weryfikacji 6