OCR. Obróbka Cyfrowa Materiału



Podobne dokumenty
Korekta OCR problemy i rozwiązania

Katalog dobrych praktyk digitalizacyjnych dla obiektów bibliotecznych

4. Oprogramowanie OCR do rozpoznawania znaków 39

POLITECHNIKA OPOLSKA

Jak przygotować pliki gotowe do publikacji w sieci za pomocą DigitLabu?

Zajęcia 3: Skanowanie i rozpoznawanie materiałów

TECHNOLOGIA INFORMACYJNA

Wykorzystanie grafiki wektorowej do tworzenia elementów graficznych stron i prezentacji

UNIWERSYTETU WARSZAWSKIEGO

E.14.1 Tworzenie stron internetowych / Krzysztof T. Czarkowski, Ilona Nowosad. Warszawa, Spis treści

Skanowanie dokumentów i techniki rozpoznawania znaków

Wykład 13. Systemy Informacji Przestrzennej. Systemy Informacji Przestrzennej 1

Tworzenie zasobów cyfrowych

Przetwarzanie i OCR czasopism drukowanych gotykiem - krok po kroku

Digitalizacja wybranych pozycji księgozbioru w Bibliotece Centralnego Instytutu Ochrony Pracy Państwowego Instytutu Badawczego

FORMATY PLIKÓW GRAFICZNYCH

Przegląd programów stosowanych w procesie digitalizacji zbiorów publikowanych w Repozytorium PK

Z-ETI-1028 Grafika komputerowa Komputer graphics. Stacjonarne (stacjonarne / niestacjonarne) Podstawowy (podstawowy / kierunkowy / inny HES)

Przedmiotowy System Oceniania

W odniesieniu do wszystkich zajęć: Ocena dopuszczająca: Uczeń:

Spis treści. Lekcja 1: PowerPoint informacje podstawowe 1. Lekcja 2: Podstawy pracy z prezentacjami 36. Umiejętności do zdobycia w tej lekcji 36

Realizacja procesu digitalizacji przy pomocy systemu DigitLab

Adobe InDesign CC/CC PL : oficjalny podręcznik / Kelly Kordes Anton, John Cruise. Gliwice, cop Spis treści

Wymagania edukacyjne na ocenę z informatyki klasa 3

GRAFIKA RASTROWA. WYKŁAD 1 Wprowadzenie do grafiki rastrowej. Jacek Wiślicki Katedra Informatyki Stosowanej

Instrukcja przygotowania pliku do deponowania

Rodzaje plików. Podstawowe definicje.

Warunki przekazywania obiektów cyfrowych do Biblioteki Narodowej. Zawartość cyfrowa

Informatyka dla szkół ponadgimnazjalnych zakres podstawowy

Sylabus Moduł 2: Przetwarzanie tekstów

Podstawy grafiki komputerowej. Teoria obrazu.

. Sposób zapisu plików pojedynczej publikacji w formacie DjVu

Xpress Sp. z o.o. jako wieloletni Premium Partner firmy Xerox ma w swojej ofercie rozwiązanie

Instrukcja przygotowania pliku do deponowania

Plan nauczania informatyki Opracował: mgr Daniel Starego

zeskanowania publikacji artykułów cyfrowej

KATEGORIA OBSZAR WIEDZY

Innowacyjne narzędzia w procesie digitalizacji

Techniki multimedialne

Z życia grafika-webmastera

O przetwarzaniu danych. R. Robert Gajewski omklnx.il.pw.edu.pl/~rgajewski

KATEGORIA OBSZAR WIEDZY

Projekcje multimedialne

Bydgoskie Centrum Archiwizacji Cyfrowej sp. z o.o.

Scenariusz szkolenia

dr inż. Piotr Odya dr inż. Piotr Suchomski

Cześć I Oprogramowanie do zautomatyzowanej masowej obróbki plików graficznych.

Opis właściwości plików macierzystych (plików TIFF) dla Wojewódzkiej Biblioteki Publicznej im. Hieronima Łopacińskiego w Lublinie

Obróbka grafiki cyfrowej

SYLABUS ECCC MOD U Ł : C S M2 GR A F I K A KO M P U T E R O W A PO Z I O M: PO D S T A W O W Y (A)

Kryteria oceniania z Technologii Informacyjnej

Skanowanie OCR w aplikacji Kancelaria Komornika. Instrukcja dla użytkownika

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

dr hab. inż. Lidia Jackowska-Strumiłło, prof. PŁ Instytut Informatyki Stosowanej, PŁ

SZCZEGÓŁOWY HARMONOGRAM SZKOLENIA

3.1. Na dobry początek

Skaner. Skanery płaskie (ang. flatbed scanners) powszechnie używane w domach i biurach, materiał do skanowania umieszczany jest na poziomej szybie.

Opis standardów przekazywania obiektów zdigitalizowanych oraz informacji towarzyszących.

Etap B4. Badanie użytkowników Jagiellońskiej Biblioteki Cyfrowej. Biblioteka Jagiellońska. Uniwersytet Jagielloński. Kraków 2012

1. Zaczynamy! (9) 2. Edycja dokumentów (33)

PRZEDMIOTOWY SYSTEM OCENIANIA

Repozytorium Uniwersytetu Jagiellońskiego

OPIS PRZEDMIOTU ZAMÓWIENIA. Część nr 4.3

Ćwiczenie Nr 6 Przegląd pozostałych najważniejszych mechanizmów systemu operacyjnego Windows

Spis treści. Wstęp Rozdział 1. Wprowadzenie do pakietu Office Rozdział 2. Edytory tekstu program Word... 15

WYMAGANIA EDUKACYJNE NA POSZCZEGÓLNE STOPNIE Z INFORMATYKI W KLASIE 8 opracowane na podstawie podręcznika

Cyfrowe dokumenty muzyczne w Internecie

Adam Korzeniewski p Katedra Systemów Multimedialnych

Tematy - TECHNOLOGIE MULTIMEDIALNE- Przedmiot teoretyczny. 5. Zależność pomiędzy materiałem cyfrowym, a źródłem pozyskania;

Tworzenie plików w formacie DjVu z wykorzystaniem oprogramowania DocumentExpress Enterprise Edition

ECDL/ICDL Przetwarzanie tekstów Moduł B3 Sylabus - wersja 6.0

Grafika komputerowa dziedzina informatyki zajmująca się wykorzystaniem technik komputerowych do celów wizualizacji artystycznej oraz wizualizacji i

ECDL/ICDL Edycja obrazów Moduł S4 Sylabus - wersja 2.0

Podstawy grafiki komputerowej

Kadrowanie i prostowanie - wybór czy konieczność?

ECDL/ICDL Przetwarzanie tekstów Moduł B3 Sylabus - wersja 5.0

Sprawdzian z informatyki na rozpoczęcie nauki w pierwszej klasie szkoły ponadgimnazjalnej

SZCZEGÓŁOWY OPIS wymagań i cech sprzętu

Wymagania edukacyjne na ocenę z informatyki KLASA III

1.Formatowanie tekstu z użyciem stylów

Corel Draw, Adobe Illustrator grafika wektorowa

Adres strony internetowej, na której Zamawiający udostępnia Specyfikację Istotnych Warunków Zamówienia:

2014 Electronics For Imaging. Informacje zawarte w niniejszej publikacji podlegają postanowieniom opisanym w dokumencie Uwagi prawne dotyczącym tego

Tworzenie szablonów użytkownika

Ucyfrowienie i Visotec

Jako, że jesteśmy Linuksowcami będziemy używać OCR dla Linuksa. Właśnie zainstalowałeś silnik OCR ze słownikiem (by nie robił błędów)

WYMAGANIA EGZAMINACYJNE Z PRZYKŁADAMI ZADAŃ

Multimedialne Systemy Interaktywne

Grafika na stronie www

Kryteria oceniania uczniów z informatyki w klasie II gimnazjum

KATEGORIA OBSZAR WIEDZY NR ZADANIA Podstawowe informacje i czynności

Wprowadzenie do prezentacji multimedialnych

REGULAMIN I CENNIK USŁUG ARCHIWALNYCH ŚWIADCZONYCH W ARCHIWUM UNIWERSYTECKIM KATOLICKIEGO UNIWERSYTETU LUBESLKIEGO JANA PAWŁA II

Spis treści. Od autorów / 9

Oprogramowanie specjalistyczne

Kod składa się z kodu głównego oraz z odpowiednich kodów dodatkowych (akcesoriów). Do kodu można przyłączyć maksymalnie 9 kodów dodatkowych.

Cele edukacyjne i umiejętności ucznia. Komputer i jego zastosowanie

EDYCJA TEKSTU MS WORDPAD

Rozkład materiału do zajęć z informatyki. realizowanych według podręcznika

Transkrypt:

OCR

Plan prezentacji Podstawowe pojęcia Historia OCR Zastosowanie OCR Opis dostępnych silników Opis procesu OCR Pozytywne i negatywne czynniki wpływające na jakość OCR 2

Podstawowe pojęcia OCR Obróbka cyfrowa materiału

OCR OCR Optical Character Recognition (optyczne rozpoznanie znaków) Poprzez proces OCR rozumiemy przypisanie konkretnego znaku z alfabetu pikselom w zeskanowanym dokumencie Jest to konwersja obrazu do formy tekstowej W dokumencie tekstowym wyświetlanie znaków odbywa się poprzez odwoływanie się deklaracji w pamięci do przedstawienia znaku w pliku czcionki Czcionka jest specyficznie deklarowaną grafiką wektorową Dokument tekstowy zajmuje znacznie mniej miejsca niż jego kopia w formacie grafiki rastrowej czy wektorowej 4

ICR, IWR ICR Intelligent Character Recognition, rozpoznawanie różnych rodzajów pisma wraz z właściwościami czcionki (rodzaj czcionki, krój pisma, akapit, kolumny) ICR to też rozpoznanie struktury dokumentu Większość silników typu ICR jest związana również z douczaniem programu Silnik OCR pozwalający na douczanie jest budowany na bazie sieci neuronowej IWR Intelligent Word Recognition, rozpoznawanie słów Rozpoznawanie słów zamiast znaków wymaga większej mocy obliczeniowej, zastosowanie ma w modelach rozpoznawania pisma odręcznego OMR Optical Music Recognition (optical?) SR Speech Recognition, rozpoznawanie mowy 5

Historia OCR OCR Obróbka cyfrowa materiału

Historia OCR W 1914r. rozpoczęto prace nad maszyną konwertująca tekst drukowany na kod telegraficzny (tzw. Optofon) W 1929r. w Niemczech przyznano pierwszy patent na system OCR (rozpoznawanie z fotografii) W 1933r. Pierwszy patent zatwierdził UP USA W 1949r. w USA opracowano pierwszą metodę mechanicznego odczytywania tekstu Firma IMR opracowała pierwszy komercyjny system OCR w 1953 r. Od 1965r. Urząd Pocztowy USA stosuje OCR do sortowania listów W 1974 roku R. Kurzweil opracował metodę odczytywania tekstu z różnych czcionek (wykupiony przez firmę Xerox) 7

Historia OCR c.d. W 1980r. Rozpoczęły się prace nad rozpoznawaniem tekstu odręcznego W 1985r. powstał silnik Tesseract, od 2005 w open source, rozwijany przez Google od 2006 roku W 1987r. Stworzono silnik Read I.R.I.S., rozwijany do 2009 roku, własność firmy I.R.I.S. ABBYY Finereader (od 1989r.) W 1990r. Zaaplikowano do tabletów odczyt pisma odrecznego W 1991r. Stworzono program MIDISCAN (OMR) W 1996r. pojawia się pierwszy darmowy silnik OCR W 1997r. Urząd Pocztowy USA wprowadza system rozpoznawania ręcznie zapisanego adresu 8

Zastosowanie OCR OCR Obróbka cyfrowa materiału

Jakie są zalety zawarcia tekstu w dokumencie? Możliwość zmniejszenia wielkości pliku Możliwość wykorzystywania rozpoznanego tekstu w innych programach Możliwość wyszukiwania słów kluczowych w treści dokumentu Możliwość odczytania tekstu za pomocą syntetyzatora mowy Tzw. Text Mining (eksploracja tekstu), który przydaje się w wyszukiwaniu informacji 10

Pozostałe zalety OCR Przekształcanie tekstu odręcznego w tabletach Automatyzacja pracy za pomocą analizy treści dokumentu Odczytywanie tekstu z plików wideo czy archiwalnych materiałów zdjęciowych (m.in. wykorzystanie w policji np. przy poszukiwaniu nr rejestracyjnego samochodu poprzez kamery miejskie) 11

Opis procesu OCR OCR Obróbka cyfrowa materiału

Proces OCR Proces zaczyna się od wydzielenia w pliku grafiki rastrowej sekcji zawierających tekst tworzenie struktury dokumentu Na podstawie deklaracji rodzaju sekcji dalsze rozpoznanie będzie formatowane wg narzuconego schematu Każdy silnik rozpoznawania tekstu z pliku grafiki rastrowej musi sekcje pikseli przyporządkować konkretnemu znakowi w zestawie czcionek W pliku czcionki każdy schemat jest czarnobiały Dokument zostaje więc sprowadzony do wersji czarnobiałej Czarnobiałe piksele są następnie przyporządkowane wektorom zawartym w silniku Następnym etapem jest weryfikacja kilku znajdujących się obok siebie znaków w oparciu o słownik 13

III poziomy OCR Rozpoznanie układu dokumentu Rozpoznanie znaków Weryfikacja słownikowa słów Douczanie silnika OCR Weryfikacja gramatyki Tzw. Neocognitron stosowanie dwóch rodzajów wzorów, prostego i złożonego K. Fukushima, A hierarchical neural network model for selective attention, [w:] Neural computers, R. Eckmiller, C. Von der Malsburg, s. 81-90, 1987. Analiza ruchów pisma (rozpoznawanie pisma odręcznego) 14

Metody douczania Douczanie może odbywać się na każdym z wymienionych wcześniej etapów Silnik ABBYY pozwala użytkownikowi na douczanie rozpoznawania znaków i dodawanie wyrażeń słownikowych Czy weryfikacje metodą słownikową możemy nazwać IWR? IWR to rozpoznawanie całych słów z bazowych pikseli, nie zaś weryfikacja znaków IWR bazuje na metodzie neokognitronowej IWR zastosowanie ma głównie w rozpoznawaniu pisma odręcznego, ale podejrzewa się, że w przyszłości będzie to główna metoda rozpoznawania tekstu we wszelkich dokumentach 15

Pozytywne i negatywne czynniki wpływające na proces OCR OCR Obróbka cyfrowa materiału

Badania nad jakością OCR Dostępne silniki OCR, zwłaszcza komercyjne, zostały poddane ocenie przez ośrodki badawcze na całym świecie Zestawienie wyników m.in. w: Holley, Rose. How Good Can It Get? Analysing and Improving OCR Accuracy in Large Scale Historic Newspaper Digitisation Programs. D-lib Magazine 15, nr 3/4 (2009). http://www.dlib.org/dlib/march09/holley/03holley.html. Mühlberger, Günter. Digitalisierung historischer Zeitungen aus dem Blickwinkel der automatisierten Text- und Strukturerkennung (OCR). Zeitschrift für Bibliothekswesen und Bibliographie 58, nr 1 (2011): 10 18. Kalota, Tomasz, Rafał Raczyński, i Paweł Rękar. Przetwarzanie i OCR czasopism drukowanych gotykiem krok po kroku. Zredagowane przez Cezary Mazurek, Maciej Stroiński, i Jan Węglarz. Polskie biblioteki cyfrowe 2010. Poznań: Ośrodek Wydawnictw Naukowych, 2011. Powell, Tracy, i Gordon Paynter. Going Grey? Comparing the OCR Accuracy Levels of Bitonal and Greyscale Images. D-lib Magazine 15, nr 3/4 (2009). Tanner, Simon, Trevor Muñoz, i Pich Hemy Ros. Measuring Mass Text Digitization Quality and Usefulness: Lessons Learned from Assessing the OCR Accuracy of the British Library s 19th Century Online Newspaper Archive. D-lib Magazine 15, nr 7/8 (2009). http://www.dlib.org/dlib/july09/munoz/07munoz.html. 17

Czynniki Proces Wpływ Dobór materiału Skanowanie Jakość dokumentu Grubość strony (przebijanie) Format pozyskanego pliku Wady techniczne lampy skanującej Rozdzielczość skanowania Korekta graficzna Profil kolorów Głębia bitowa Kompresja 18

Czynniki Proces Wpływ Rozpoznawanie struktury Kadrowanie Prostowanie Różnorodność układu stron Jasne przestrzenie pomiędzy kolumnami tekstu Brak zanieczyszczeń w skrajnych częściach strony 19 Analiza powierzchni należącej do jednego znaku Kontrast-Gamma-Jasność Przyciemnienie pikseli przedstawiających znak Kontrast pomiędzy pikselami należącymi do znaku a tłem DPI Tresholding

Czynniki Proces Wpływ Dopasowywanie grupy pikseli do wzorcowych obrazów Weryfikacja słownikowa Douczanie oprogramowania Ilość wzorców w bazie Możliwość tworzenia nowych wzorców Algorytm przyporządkowujący Zawartość słownika Algorytm dopasowujący wyrażenia do słów Możliwość zmieniania słownika Możliwość importowania słowników z innych programów Czas 20

Czynniki Proces Działanie Dobór materiału Skanowanie Wykonywanie digitalizacji na materiałach najbardziej popularnych ochrona zbiorów Dobór dobrej jakości egzemplarza Wybór formatu kompresji bezstratnej Rozdzielczość min. 300DPI Obraz niekadrowany w kolorze Korekta graficzna Wyostrzenie tekstu Jeżeli obraz w skali szarości konwersja do czarnobiałego Ocena skanu 21

Czynniki Proces Działanie Rozpoznawanie struktury Prostowanie/kadrowanie Zmiana kontrastu z uwzględnieniem granic pomiędzy sekcjami Nie można poprawić układu stron zwykłą korektą graficzną Analiza powierzchni należącej do jednego znaku Kontrast-Gamma-Jasność Przyciemnienie pikseli przedstawiających znak Kontrast pomiędzy pikselami należącymi do znaku a tłem DPI Tresholding 22

Czynniki Proces Działanie Dopasowywanie grupy pikseli do wzorcowych obrazów Weryfikacja słownikowa Douczanie oprogramowania Obór oprogramowania Powiększanie bazy wzorców Douczanie Import słowników z różnych programów Dodawanie wyrażeń słownikowych Współpraca zespołu Tworzenie schematów dla poszczególnych drukarni 23