Innowacyjne narzędzia w procesie digitalizacji Tomasz Parkoła tparkola@man.poznan.pl Konferencja i3, 16.04.2013, Poznań
Agenda Wprowadzenie Obszary działania Narzędzia i zasoby Podsumowanie
Kontekst projekt IMPACT (Improving Access to Texts) Duży strategiczny projekt realizowany w ramach 7PR UE Badania związane z algorytmami w kontekście procesu OCR Binaryzacja, segmentacja, rozpoznawanie znaków, korekta wyników działania OCR, zasoby lingwistyczne Efekt: innowacyjne narzędzia Utrzymanie wyników i ich dalszy rozwój powierzono zawiązanemu w 2012 roku Centrum Kompetencji IMPACT
Czym jest Centrum Kompetecji IMPACT? Inne centra kompetencji Europeana Infrastruktury do badań Dostawcy usług CK IMPACT Ośrodki badawczorozwojowe oraz eksperci Dostawcy treści (muzea, archiwa, biblioteki)
Korzyści dla uczestników Ośrodki badawczo-rozwojowe: Współdzielenie wiedzy i doświadczenia Budowanie stabilnego środowiska współpracy Partnerzy technologiczni, sponsorzy Identyfikacja nowych obszarów badań Firmy komercyjne: Demonstracja własnych narzędzi Możliwość dotarcia do docelowego klienta Biblioteki i instytucje dziedzictwa kulturowego: Dostęp do najnowszych technologii Współdzielenie doświadczeń i współpraca z ekspertami Realny wpływ na innowacje i obszary badań
Korzyści dla uczestników biblioteki i inne instytucje
Korzyści dla uczestników biblioteki i inne instytucje
Kluczowe działania Aktywne prowadzenie strony internetowej z informacjami na temat narzędzi i zasobów dostępnych poprzez CK IMPACT Świadczenie usług konsultacyjnych dotyczących licencjonowania, konfiguracji oraz ewaluacji narzędzi Podnoszenie świadomości w kontekście innowacyjnych narzędzi poprzez organizację szkoleń, konkursów oraz grup eksperckich Pomoc uczestnikom w tworzeniu społeczności badawczych, identyfikacji nadchodzących potrzeb oraz możliwości pozyskiwania funduszy na wspólne projekty Stymulowanie udziału uczestników w dedykowanych grupach roboczych dotyczących standardów w digitalizacji
Założyciele CK IMPACT
Doświadczenie partnerów Wdrażanie projektów masowej digitalizacji oraz budowanie bibliotek cyfrowych Świadczenie usług digitalizacji Budowanie i realizacja projektów badawczych powiązanych z technologiami i technikami digitalizacji Tworzenie zasobów lingwistycznych na potrzeby digitalizacji Interoperacyjność, standardy i normalizacja w kontekście zasobów i narzędzi Budowanie społeczności i nawiązywanie współpracy Współpraca pomiędzy publicznymi i prywatnymi instytucjami (komercyjna i sponsorowana)
Obszary działań CK IMPACT Narzędzia: demonstracja, dokumentacja, wsparcie Dane: dostęp, licencjonowanie Usługi: konsutlacje, dostosowanie, walidacja Organizacja wydarzeń, grup roboczych Szkolenia: kursy, popularyzacja standardów i dobrych praktyk
Narzędzia i zasoby Zasoby dla języków historycznych Leksykony OCR i IR: słoweński, niemiecki, hiszpański, polski, holenderski, angielski. Skany wraz z pełnotekstową reprezentacją: czeski, hiszpański, polski, Biodiversity Heritage Library Korpus adnotowany: hiszpański +10% Rysunek pobrany ze strony: http://en.wikipedia.org/wiki/precision_and_recall
Narzędzia i zasoby Obróbka obrazów NCSR: usuwanie obramowania NCSR: korekta geometryczna NCSR: binaryzacja Abbyy FineReader 10: binaryzacja
Narzędzia i zasoby Segmentacja Abbyy FineReader 10: do formatu PAGE Uniwersytet Salford: poziom regionów, linii i słów NCSR: poziom znaków
Narzędzia i zasoby Silniki OCR Abbyy FineReader 10/11 OCR Abbyy FineReader 10/11 z zewnętrznymi słownikami Uniwersytet Salford: OCR do maszynopisów Tesseract 3
Narzędzia i zasoby Ewaluacja NCSR: ewaluacja wyników OCR Uniwersytet Salford: ewaluacja układu strony INL: ewaluacja słów
Narzędzia i zasoby Transformacje ALTO oraz PAGE XML Uniwersytet Salford: normalizacja plików pełnotekstowych Uniwersytet Salford: transformacja PAGE XML do SVG Inne INL: usługa rozpoznawania nazw własnych
Wyzwania Nowa strona internetowa łatwiejszy dostęp do informacji, narzędzi i zasobów Opracowanie planu działania na podstawie oczekiwań obecnych i potencjalnych uczestników Wsparcie dla testowania narzędzi w trybie przepływu pracy Identyfikacja pól współpracy uczestników i utrzymanie jej w długiej perspektywie czasu (np. poprzez wspólne projekty) Wielojęzyczność (zasoby, narzędzia) Współpraca z innymi centrami kompetencji oraz inicjatywami europejskimi
Succeed Projekt europejski typu Support Action, FP7 Celem jest usprawnienie procesu digitalizacji dokumentów poprzez Walidację narzędzi: 8-12 bibliotek zaangażowanych we wdrażanie narzędzi wspierających proces digitalizacji (również z Polski) Pracę grup eksperckich: standardy digitalizacji i wizja współdziałania europejskich centrów kompetencji w perspektywie programu Horizon 2020 Organizację wydarzeń: konkursy, konferencje, itp.
Konsorcjum Succeed
Podsumowanie Centrum Kompetencji IMPACT pracuje w celu usprawnienia digitalizacji w europejskich instytucjach Wspiera tym samym UE w kontekście realizacji założeń przedstawionych w Digital Agenda for Europe oraz rekomendacji z 27.10.2011 Wdrażanie innowacyjnych technologii (rozmowy z zainteresowanymi bibliotekami już trwają) Promocja standardów związanych z digitalizacją (PCSS jest liderem grupy roboczej, która będzie przygotowywała rekomendacje) Budowanie sieci centrów kompetencji w zakresie digitalizacji w europie (pierwszy warsztat już się odbył)
Dziękuję za uwagę! Tomasz Parkoła tparkola@man.poznan.pl Konferencja i3, 16.04.2013, Poznań