Korekta OCR problemy i rozwiązania



Podobne dokumenty
Innowacyjne narzędzia w procesie digitalizacji

Rozwój polskich bibliotek cyfrowych. Tomasz Parkoła Poznańskie Centrum Superkomputerowo-Sieciowe

Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT

Wykorzystanie regionalnej biblioteki cyfrowej do tworzenia repozytorium instytucjonalnego

OCR. Obróbka Cyfrowa Materiału

Wyzwania techniczne związane z prezentacją dziedzictwa kulturowego w Internecie

DIGITALIZACJA. Maciej Rynarzewski Oddział Zbiorów Specjalnych

Zajęcia 3: Skanowanie i rozpoznawanie materiałów

Organizacja i logistyka digitalizacji

Katalog dobrych praktyk digitalizacyjnych dla obiektów bibliotecznych

W kierunku zwiększania dostępności zasobów udostępnianych przez polskie biblioteki cyfrowe Nowoczesne rozwiązania w systemie dlibra 6

Przetwarzanie i OCR czasopism drukowanych gotykiem - krok po kroku

Federacja Bibliotek Cyfrowych w sieci PIONIER

Krok w stronę cyfrowej humanistyki infrastruktura IT dla badań humanistycznych

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI XVIII Wieku jako uzupełniona bibliografia Zawadzkiego

Udostępnianie i przechowywanie obiektów cyfrowych w kontekście biblioteki akademickiej

Digitalizacja wybranych pozycji księgozbioru w Bibliotece Centralnego Instytutu Ochrony Pracy Państwowego Instytutu Badawczego

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII w.

Agregacja metadanych zbiorów polskich instytucji kultury działania Poznańskiego Centrum Superkomputerowo-Sieciowego

Publikacje w formacie DjVu. Integracja i wykorzystywanie metadanych w publikacjach DjVu

Rozwój Wielkopolskiej Biblioteki Cyfrowej a zmiany funkcjonalności systemu dlibra

Realizacja procesu digitalizacji przy pomocy systemu DigitLab

Marcin Heliński, Cezary Mazurek, Tomasz Parkoła, Marcin Werla

OPIS PRZEDMIOTU. Dygitalizacja i biblioteki cyfrowe MSIW IN23D-SP. Wydział Administracji i Nauk Społecznych Instytut/Katedra

Jeleniogórska Biblioteka Cyfrowa od kuchni

Federacja Bibliotek Cyfrowych: wsparcie instytucji kultury w udostępnianiu zbiorów on-line, agregacja metadanych na potrzeby Europeany

Masowe zabezpieczanie i udostępnianie egzemplarza obowiązkowego w Jagiellońskiej Bibliotece Cyfrowej. Leszek Szafrański Biblioteka Jagiellońska

OPIS PRZEDMIOTU ZAMÓWIENIA. Część nr 4.3

Marcin Werla Poznańskie Centrum Superkomputerowo-Sieciowe

Specjalizacja tekstologiczno-edytorska

Nic nie zastąpi ciężkiej pracy*

Digitalizacja zbiorów muzycznych analiza od strony użytkownika na podstawie Federacji Bibliotek Cyfrowych (FBC)

Nowe usługi w infrastrukturze sieci MAN i PIONIER. Aleksandra Nowak Marcin Werla

Rozwój bibliotek cyfrowych w Polsce. Cezary Mazurek Tomasz Parkoła Marcin Werla

Tematy - TECHNOLOGIE MULTIMEDIALNE- Przedmiot teoretyczny. 5. Zależność pomiędzy materiałem cyfrowym, a źródłem pozyskania;

KATEGORIA OBSZAR WIEDZY

Dygitalizacja i komputeryzacja słowników na przykładzie Słownika polszczyzny XVI wieku

Infrastruktura bibliotek cyfrowych

SYLABUS ECCC MOD U Ł : C S M2 GR A F I K A KO M P U T E R O W A PO Z I O M: PO D S T A W O W Y (A)

Biblioteki cyfrowe i ich kolekcje

Joanna Chwałek Nareszcie jest! - Śląska Biblioteka Cyfrowa. Bibliotheca Nostra : śląski kwartalnik naukowy 3/3, 18-21

Warunki przekazywania obiektów cyfrowych do Biblioteki Narodowej. Zawartość cyfrowa

Czytelnik w bibliotece cyfrowej

Realizacja założeń polityki otwartości na Politechnice Krakowskiej.

POZYCJONOWANIE ZASOBÓW BIBLIOTEK CYFROWYCH

Wyszukiwanie pełnotekstowe w zasobach bibliotek cyfrowych

Od edukacji do realizacji otwarta digitalizacja z DigitLabem Adam Dudczak Poznaoskie Centrum Superkomputerowo-Sieciowe maneo@man.poznan.

Rola polskich bibliotek cyfrowych w zapewnianiu otwartego dostępu

Instrukcja przygotowania pliku do deponowania

Przetwarzanie i OCR czasopism drukowanych gotykiem krok po kroku

OPROGRAMOWANIA DO CYFRYZACJI ZBIORÓW BIBLIOTEKI

Morze i Pomorze w Bałtyckiej Bibliotece Cyfrowej. Iwona Joć-Adamkowicz Wojewódzka i Miejska Biblioteka Publiczna w Gdańsku Gdańsk, 21 czerwca 2017 r.

Trzecie warsztaty Biblioteki cyfrowe. Poznań grudnia 2006 r.

Zasady adaptacji materiałów dydaktycznych dla uczniów słabowidzących. Donata Kończyk

. Sposób zapisu plików pojedynczej publikacji w formacie DjVu

Tworzenie metadanych, proces digitalizacji i publikowanie dokumentów w projekcie Merkuriusz. Katarzyna Araszkiewicz

Zasoby Uniwersytetu Marii Curie-Skłodowskiej - moduł dla nauki i społeczeństwa. Bogusław Kasperek, Stanisława Wojnarowicz Biblioteka Główna UMCS

NOWE ELEMENTY BAZY AGRO

Jak przygotować pliki gotowe do publikacji w sieci za pomocą DigitLabu?

Jest ZMIANA TREŚCI SIWZ

Opracowanie wydawnictw ciągłych w NUKAT a czasopisma w bibliotekach cyfrowych

TECHNOLOGIA INFORMACYJNA

Sposoby wyszukiwania multimedialnych zasobów w Internecie

Europeana Cloud: Wykorzystanie technologii chmurowych do współdzielenia on-line baz danych dziedzictwa kulturowego

Instrukcja przygotowania pliku do deponowania

Spis treści. Lekcja 1: PowerPoint informacje podstawowe 1. Lekcja 2: Podstawy pracy z prezentacjami 36. Umiejętności do zdobycia w tej lekcji 36

1. Narzędzia główne: WORD 2010 INTERFEJS UŻYTKOWNIKA. wycinamy tekst, grafikę

KATEGORIA OBSZAR WIEDZY

Rola bibliotek cyfrowych w budowaniu gospodarki opartej o wiedzę. Cezary Mazurek

Mirosław Górny, Paweł Gruszczyński, Cezary Mazurek, Jan Andrzej Nikisch, Maciej Stroiński, Andrzej Swędrzyński

WYSTĄPIENIE POKONTROLNE

Projekt współfinansowany przez Unię Europejską ze środków Europejskiego Funduszu Społecznego w ramach Programu Operacyjnego Kapitał Ludzki

Cyfrowe dokumenty muzyczne w Internecie

Zintegrowany System Wiedzy oraz Wielofunkcyjne Repozytorium Danych Źródłowych podstawy technologiczne. Marcin Werla, PCSS

Ewa Piotrowska. Projekty biblioteczne realizowane w Bibliotece Głównej Uniwersytetu Pedagogicznego w Krakowie

Z-ETI-1028 Grafika komputerowa Komputer graphics. Stacjonarne (stacjonarne / niestacjonarne) Podstawowy (podstawowy / kierunkowy / inny HES)

Jolanta Białkowska "Problemy cyfryzacji zasobów muzeów, bibliotek i archiwów" : sprawozdanie z konferencji : Warszawa, 19 października 2011 r.

Oferta edukacyjna Książnicy Karkonoskiej 2016/2017 Szkoły ponadgimnazjalne. Szkoły PONADGIMNAZJALNE

Biblioteki cyfrowe organizacja prawo funkcjonowanie.

ZBIERANIE MATERIAŁÓW DO PRACY. Bazy danych

POROZUMIENIE O WSPÓŁPRACY NAD TWORZENIEM PODKARPACKIEJ BIBLIOTEKI CYFROWEJ. zawarte w dniu 17 lipca 2007 r.,

Biblioteka Cyfrowa Uniwersytetu Wrocławskiego Narzędzie do wspierania procesów dydaktycznych uczelni oraz promocji miasta i regionu.

LOGO BUDOWA LOGO. Znak składa się z dwóch części - sygentu zbudowanego z trzech wielkoątów oraz logotypu - typograficznego zapisu nazwy firmy CDA.

UNIWERSYTETU WARSZAWSKIEGO

Wsparcie udzielone przez Islandię, Liechtenstein oraz Norwegię poprzez dofinansowanie ze środków Mechanizmu Finansowego Europejskiego Obszaru

Czwarte warsztaty Biblioteki cyfrowe dzień 1. Poznań 12 listopada 2007 r.

Nr rachunku bankowego: Reklamacje przyjmuje: ul...

Oddział Informatyzacji

4. Oprogramowanie OCR do rozpoznawania znaków 39

MODUŁ AM3: PRZETWARZANIE TEKSTU

Rozkład materiału realizacji informatyki w szkole podstawowej w wymiarze 1;1;2 godziny w cyklu trzyletnim

Urządzenia techniki komputerowej Identyfikacja i charakteryzowanie urządzeń zewnętrznych komputera. Budowa i zasada działania skanera

WBC i dlibra. Marcin Werla. Poznańskie Centrum Superkomputerowo-Sieciowe

Rola użytkowników w tworzeniu zasobów bibliotek cyfrowych

Merkuriusz Artykuły naukowe w systemie elektronicznych wypożyczeń międzybibliotecznych

Agnieszka Koszowska, FRSI Remigiusz Lis, ŚBC-BŚ

POLSKIE BIBLIOTEKI CYFROWE 2008

SZCZEGÓŁOWY HARMONOGRAM SZKOLENIA

Odkrywanie CAQDAS : wybrane bezpłatne programy komputerowe wspomagające analizę danych jakościowych / Jakub Niedbalski. Łódź, 2013.

INSTRUKCJA UŻYTKOWNIKA

Transkrypt:

Korekta OCR problemy i rozwiązania Edyta Kotyńska eteka.com.pl Kraków, 24-25.01.2013 r.

Tekst, który nie jest cyfrowy - nie istnieje w sieci OCR umożliwia korzystanie z materiałów historycznych w formie przeznaczonej do odczytu komputerowego.

Materiały historyczne: obraz

Materiały historyczne: tekst

W efekcie OCR-u możemy uzyskać: - pełnotekstowe indeksowanie i przeszukiwanie, - możliwość kopiowania tekstu, - powszechne udostępnienie materiałów trudnych do czytania, - możliwość korzystania z translatorów, - możliwość modyfikacji, uzupełnień, - hiperlinkowanie w tekście, - udostępnienie materiałów użytkownikom z dysfunkcją wzroku, - umożliwienie wyeksportowania treści do formatów mobilnych. Źródło: T. Kalota

OCR - optyczne rozpoznawanie znaków (ang. Optical Character Recognition) zestaw technik lub oprogramowanie służące do rozpoznawania znaków oraz całych tekstów z obrazów cyfrowych i przetworzenie ich na teksty cyfrowe. Zadaniem OCR-u jest rozpoznanie tekstu w zeskanowanym dokumencie: - drukowanym, - rękopiśmiennym, - tabelarycznym. ICR zaawansowane rozpoznawanie kroju pisma, stopnia pisma, interlinii.

Terminy powiązane: digitalizacja zachowanie dziedzictwa kulturowego dokumenty cyfrowe reprodukcja obrazy cyfrowe teksty cyfrowe badania naukowe transkrypcja interpretacja biblioteki cyfrowe korekta konwersja słowniki technologia...

Dobry efekt rozpoznawania znaków zależy od: - jakości tekstu i ogólnego stanu materiałów (zagięcia, pofałdowania), - języka tekstu, alfabetu, kroju pisma, - układu tekstu (kolumny), - formatowania tekstu (marginesy, interlinie), - rozdzielczości skanowania i zastosowania głębi kolorów. Źródło: G. Bednarek

Problemy techniczne dot. obrazu: - wybór tekst (pomijanie grafiki), - przebijający tekst, - plamy, zalania, wandalizm, - deformacja obiektu, - kolorystyka i nasycenie druku, - kolorystyka i nasycenie tła. Konieczna obróbka techniczna. Źródło: G. Bednarek

Plik przed obróbką Źródło: T. Kalota

Plik po obróbce Źródło: T. Kalota

Problemy techniczne dot. języka tekstu i alfabetu: - łączenie słów, - zamiana znaków, - złe odczytywanie znaków, - nieużywane współcześnie znaki i słowa. ß ſ Æ & ss s AE et Konieczna korekta

Problemy merytoryczne: obraz czy tekst? - znaki specjalne, - litery z akcentami, - skróty (abrewiatury, ligatury), - dawna pisownia nazw geograficznych i osobowych, - dawna gramatyka i fleksja, - zasób typograficzny drukarni, Typowe ligatury alfabetu łacińskiego - nieużywane współcześnie słowa.

Heduuige czy Hedwige Cvnradvs czy Cunradus Iablvncka czy Jabluncka czy Jablunka VVarta czy Warta czy Wartha

Korekta = Ekonomia (sprzęt, oprogramowanie, licencje, praca, czas, efekty): - korekta dla bibliotek cyfrowych, - korekta dla projektów badawczych i wydawniczych, - korekta społeczna, - recaptcha.

Korekta OCR Abbyy FineReader

Korekta OCR ReCAPTCHA Autoryzacja komentarza pod artykułem http://wiadomosci.ngo.pl/wiadomosci/833233.html

Korekta OCR w WLT http://wlt.synat.pcss.pl

Korekta znaków w WLT

Podsumowanie: Cel dążenie do pełnej użyteczności historycznych materiałów, które są już dostępne w sieci. OCR jest nadal w fazie bardzo intensywnego rozwoju z powodu dobrych narzędzi, ale ciągle jeszcze niedoskonałych efektów ich pracy. Korekta OCR-u wykonywana przez człowieka jest efektywna, ale bardzo kosztowna. Masowa digitalizacji, aby była opłacalna wymaga automatyzacji procesów, a tym samym ciągle doskonalszych narzędzi wspomagających i uczących OCR. Dodatkowo generalnych ustaleń wymagają problemy merytoryczne.

Wybrane źródła: Repozytorium Instytucjonalne PCSS: http://lib.psnc.pl/dlibra Biblioteka 2.0: http://forum.biblioteka20.pl/index.php Digitalizacja.pl: http://digitalizacja.pl/ Format Djvu: http://www.djvu.com.pl/ Federacja Bibliotek Cyfrowych: http://fbc.pionier.net.pl/owoc Wybrani autorzy publikacji dot. OCR-u: Grzegorz Bednarek, Adam Dudczak, Tomasz Kalota, Tomasz Parkoła, Paweł Rękar, Marcin Szala 5 konferencja z cyklu Cyfrowe spotkania z zabytkami pt. Reprodukcja cyfrowa zabytku metody, wiarygodność, trwałość. Wrocław, 19-20.11.2012 r. Edyta Kotyńska: OCR materiałów historycznych potrzeby i problemy

Dziękuję za uwagę. Edyta Kotyńska eteka.com.pl edyta.kotynska@eteka.com.pl Digitalizacja.pl