Wyszukiwanie pełnotekstowe w zasobach bibliotek cyfrowych



Podobne dokumenty
Biblioteki cyfrowe i ich kolekcje

Czytelnik w bibliotece cyfrowej

Rozwój polskich bibliotek cyfrowych. Tomasz Parkoła Poznańskie Centrum Superkomputerowo-Sieciowe

Biblioteka Cyfrowa Uniwersytetu Wrocławskiego Narzędzie do wspierania procesów dydaktycznych uczelni oraz promocji miasta i regionu.

Rozwój bibliotek cyfrowych w Polsce. Cezary Mazurek Tomasz Parkoła Marcin Werla

Rola polskich bibliotek cyfrowych w zapewnianiu otwartego dostępu

Rozwój Wielkopolskiej Biblioteki Cyfrowej a zmiany funkcjonalności systemu dlibra

Federacja Bibliotek Cyfrowych w sieci PIONIER

Biblioteka Cyfrowa Politechniki Łódzkiej (ebipol) Vademecum Użytkownika rok akademicki 2010/2011

Czytelnik w bibliotece cyfrowej

Infrastruktura bibliotek cyfrowych w sieci PIONIER

Opracowanie wydawnictw ciągłych w NUKAT a czasopisma w bibliotekach cyfrowych

Czwarte warsztaty Biblioteki cyfrowe dzień 1. Poznań 12 listopada 2007 r.

Agregacja metadanych zbiorów polskich instytucji kultury działania Poznańskiego Centrum Superkomputerowo-Sieciowego

Joanna Chwałek Nareszcie jest! - Śląska Biblioteka Cyfrowa. Bibliotheca Nostra : śląski kwartalnik naukowy 3/3, 18-21

Arkadiusz Pulikowski Instytut Bibliotekoznawstwa i Informacji Naukowej Uniwersytet Śląski Katowice Widoczność publikacji naukowych w Internecie

Federacja Bibliotek Cyfrowych: wsparcie instytucji kultury w udostępnianiu zbiorów on-line, agregacja metadanych na potrzeby Europeany

Tworzenie kolekcji cyfrowych

The Online Books Page

Zbiory bibliotek cyfrowych dla ucznia i nauczyciela

Wykorzystanie regionalnej biblioteki cyfrowej do tworzenia repozytorium instytucjonalnego

Infrastruktura bibliotek cyfrowych

Trzecie warsztaty Biblioteki cyfrowe. Poznań grudnia 2006 r.

Zarządzanie zdigitalizowaną biblioteką i systemy kontroli dostępu na przykładzie Wielkopolskiej Biblioteki Cyfrowej

Marcin Heliński, Cezary Mazurek, Tomasz Parkoła, Marcin Werla

Digitalizacja wybranych pozycji księgozbioru w Bibliotece Centralnego Instytutu Ochrony Pracy Państwowego Instytutu Badawczego

OPIS PRZEDMIOTU. Dygitalizacja i biblioteki cyfrowe MSIW IN23D-SP. Wydział Administracji i Nauk Społecznych Instytut/Katedra

Federacja Bibliotek Cyfrowych w sieci PIONIER Dostęp do otwartych bibliotek cyfrowych i repozytoriów

WBC i dlibra. Marcin Werla. Poznańskie Centrum Superkomputerowo-Sieciowe

Digitalizacja zbiorów muzycznych analiza od strony użytkownika na podstawie Federacji Bibliotek Cyfrowych (FBC)

dokumentów w internetowych przyczyny, skala zjawiska, sposoby przeciwdziałania

Organizacja i logistyka digitalizacji

Cyfrowe dokumenty muzyczne w Internecie

CALIFORNIA DIGITAL LIBRARY CYFROWA BIBLIOTEKA KALIFORNIJSKA

Jak przeglądać publikacje w formacie DjVu?

Korekta OCR problemy i rozwiązania

Marcin Werla Poznańskie Centrum Superkomputerowo-Sieciowe

mgr inż. Mariusz Jarocki Forum Nauczycieli Bibliotekarzy Szkolnych

Biblioteki cyfrowe w środowisku sieciowym

BIBLIOTECA NACIONAL DE ESPAÑA (Coleccion Digital) HISZPAŃSKA BIBLIOTEKA NARODOWA (Zbiory w wersji elektronicznej)

Integracja wyszukiwania w bibliotekach cyfrowych

WYKORZYSTANIE FUNDUSZY UNIJNYCH PRZEZ BIBLIOTEKĘ GŁÓWNĄ AKADEMII MORSKIEJ W SZCZECINIE

Możliwości i wyzwania dla polskiej infrastruktury bibliotek cyfrowych

W kierunku zwiększania dostępności zasobów udostępnianych przez polskie biblioteki cyfrowe Nowoczesne rozwiązania w systemie dlibra 6

Jeleniogórska Biblioteka Cyfrowa od kuchni

Instrukcja przygotowania pliku do deponowania

ZBIERANIE MATERIAŁÓW DO PRACY. Bazy danych

Gdzieś w bibliotece jeleniogórskiej, 14 grudnia Wirtualna biblioteka e-pogranicze

Zintegrowany System Wiedzy oraz Wielofunkcyjne Repozytorium Danych Źródłowych podstawy technologiczne. Marcin Werla, PCSS

CYFROWA ZIEMIA SIERADZKA PRZYKŁADEM REGIONALNEJ BIBLIOTEKI CYFROWEJ INFORMUJĄCEJ O KULTURZE SIERADZKIEJ. Abstrakt WSTĘP

Wyzwania techniczne związane z prezentacją dziedzictwa kulturowego w Internecie

Wyświetlanie publikacji w formacie DjVu. Wyświetlanie publikacji w Bałtyckiej Bibliotece Cyfrowej można realizować na 3 sposoby:

Śląska Biblioteka Cyfrowa

Krok w stronę cyfrowej humanistyki infrastruktura IT dla badań humanistycznych

Jakość bibliotek cyfrowych. Próba ustalenia kryteriów oceny z punktu widzenia (zaawansowanego) użytkownika

Plan. Ewaluacja jakości bibliotek cyfrowych w ujęciu architektury informacji. Biblioteka cyfrowa (b.c.) Przykładowe biblioteki cyfrowe ABC

dlibra System do budowy bibliotek cyfrowych

w Politechnice Łódzkiej

The University of Michigan Digital Library Production Service Collection

Sposoby wyszukiwania multimedialnych zasobów w Internecie

Internet Archive (IA) ogólne informacje. ebooks and Texts prezentacja polskojęzycznych dokumentów

dlibra 3.0 Marcin Heliński

Podsumowanie ankiety dotyczącej korzystania ze zbiorów bibliotek cyfrowych przez użytkowników FBC

OPIS MODUŁU (PRZEDMIOTU), PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA

Instrukcja przygotowania pliku do deponowania

Warsztat pracy bibliotekarza w przestrzeni cyfrowej

Nowe usługi w infrastrukturze sieci MAN i PIONIER. Aleksandra Nowak Marcin Werla

Marcin Kassatti Katedra Technologii i Mediów Edukacyjnych Uniwersytet Pedagogiczny im. KEN Kraków

Mirosław Górny, Paweł Gruszczyński, Cezary Mazurek, Jan Andrzej Nikisch, Maciej Stroiński, Andrzej Swędrzyński

Prezentacje prac magisterskich 2003/2004 na specjalno ści SKISR.

Udostępnianie i przechowywanie obiektów cyfrowych w kontekście biblioteki akademickiej

Dziedzinowa Baza Wiedzy w zakresie Nauk Technicznych

Filozofia. Jagiellońskiej Biblioteki Cyfrowej. Krystyna Sanetra

Przygotowanie plików PDF do efektywnego udostępniania publikacji w Internecie

Ograniczenia dostępu do książek z domeny publicznej w środowisku cyfrowym

Dolnośląska Biblioteka Cyfrowa - etapy rozwoju

Mgr Aniela Piotrowicz Poznań - UM

Realizacja procesu digitalizacji przy pomocy systemu DigitLab

BIBLIOTEKA CYFROWA JAKO KONTENER TREŚCI DLA PORTALI INTERNETOWYCH. DLIBRA & DRUPAL DWA SYSTEMY, JEDNA WITRYNA.

IX Zebranie Uczestników Śląskiej Biblioteki Cyfrowej

Biblioteka Wirtualnej Nauki

Funkcjonalność i użyteczność interfejsów bibliotek cyfrowych. Lidia Derfert-Wolf

Metadane w Jagiellońskiej Bibliotece Cyfrowej. Piotr Myszkowski

Wyszukiwanie w czasie rzeczywistym sposób na zwiększenie widoczności zasobów bibliotek cyfrowych w wyszukiwarkach internetowych Karolina Żernicka

Porozumienie w sprawie utworzenia konsorcjum Polskie Biblioteki Cyfrowe Agreement on the creation of a Consortium Polish Digital Libraries

Zasoby czasopiśmiennicze w polskich bibliotekach cyfrowych i bibliograficznych bazach danych koegzystencja, konkurencja czy kooperacja?

CENTRALNA BIBLIOTEKA STATYSTYCZNA PRZEWODNIK PO KATALOGU KOMPUTEROWYM SYSTEM ALEPH WERSJA 22

Sposób prezentacji czasopisma w bibliotece cyfrowej

WKŁAD BIBLIOTEKI KÓRNICKIEJ W ROZWÓJ SYSTEMU ROZPROSZONYCH BIBLIOTEK CYFROWYCH W POLSCE

Platformy ebooków w polskich bibliotekach akademickich ocena funkcjonalności i dostępności

Znaczenie digitalizacji i udostępniania zasobów archiwalnych w Internecie dla rozwoju nowych inicjatyw społecznych. Piotr Skałecki, Maciej Głowiak

Projekt DIR jako przykład praktycznej realizacji idei Open Access. Marek Niezgódka, Alek Tarkowski ICM UW

Etap B4. Badanie użytkowników Jagiellońskiej Biblioteki Cyfrowej. Biblioteka Jagiellońska. Uniwersytet Jagielloński. Kraków 2012

projekt Zachodniopomorskiego Systemu Informacji i N@ukowej

Nowoczesne biblioteki cyfrowe w środowisku rozproszonych usług atomowych Modern digital libraries in the environment of distributed atomic services

Dygitalizacja i komputeryzacja słowników na przykładzie Słownika polszczyzny XVI wieku

Publikacje współczesne w realiach biblioteki cyfrowej technicznej szkoły wyższej wokół pewnego przypadku

System SINUS otwarte narzędzie do budowy bibliograficznych baz danych

WYSTĄPIENIE POKONTROLNE

Biblioteki cyfrowe wstęp do problematyki

Transkrypt:

Arkadiusz Pulikowski Instytut Bibliotekoznawstwa i Informacji Naukowej Uniwersytet Śląski Wyszukiwanie pełnotekstowe w zasobach bibliotek cyfrowych X Krajowe Forum Informacji Naukowej i Technicznej, Zakopane 22-24.10.2009 r.

Plan wystąpienia biblioteki cyfrowe w Polsce stan obecny, wyszukiwanie pełnotekstowe w zasobach polskich bibliotek cyfrowych, wskazanie problemów, przedstawienie propozycji ich rozwiązania bazującej na doświadczeniach zagranicznych.

Biblioteki cyfrowe w Polsce ważne daty krótkiej historii październik 2002 - Wielkopolska Biblioteka Cyfrowa na platformie dlibra, grudzień 2002 - Polska Biblioteka Internetowa, październik 2006 - Cyfrowa Biblioteka Narodowa Polona, czerwiec 2007 - Federacja Bibliotek Cyfrowych, czerwiec 2007 - CBN Polona w FBC, lipiec 2008 - Biblioteka Narodowa przejmuje PBI, czerwiec 2009 - PBI w FBC.

Federacja Bibliotek Cyfrowych (FBC) została utworzona w czerwcu 2007, ma na celu wirtualne połączenie bibliotek cyfrowych i repozytoriów dostępnych w polskim Internecie oraz udostępnienie nowych zaawansowanych funkcji i usług sieciowych realizowanych w tym środowisku, liczy 40 uczestników, z których 36 wykorzystuje oprogramowanie dlibra, 19 regionalnych bibliotek cyfrowych, 21 instytucjonalnych, na 19 regionalnych bibliotek cyfrowych składa się sto kilkadziesiąt bibliotek i innych instytucji różnej wielkości, udział w FBC jest bezpłatny.

Serwis FBC jest rozwijany i utrzymywany przez Poznańskie Centrum Superkomputerowo Sieciowe, serwis FBC umożliwia przeszukiwanie z jednego miejsca publikacji zgromadzonych w bibliotekach cyfrowych należących do federacji, co ważniejsze, wyszukiwarka FBC pozwala kontrolować duplikaty i minimalizować ich występowanie dzięki umożliwieniu przeszukiwania wykazów publikacji przeznaczonych do digitalizacji, dane o zdigitalizowanych i planowanych do digitalizacji obiektach są pobierane dzięki protokołowi OAI-PMH, który jest wymagany do uwidocznienia zasobów w serwisie FBC.

Liczba publikacji zgromadzonych w największych bibliotekach cyfrowych 90000 80000 70000 60000 50000 40000 30000 Łącznie w FBC: 284 504 (20.09.2009 r.) Wielkopolska 88873 31,2 % Polska Biblioteka Internetowa 32071 11,3 % Kujawsko-Pomorska 28608 10,1 % BC Uniwersytetu Wrocławskiego 20497 7,2 % Cyfrowa Biblioteka Narodowa 20387 7,2 % Małopolska 18337 6,4 % Śląska 13378 4,7 % Podlaska 7333 2,6 % Świętokrzyska 5751 2,0 % Zielonogórska 5303 1,9 % Zachodniopomorska 4579 1,6 % 20000 10000 0 Wielkopolska Polska Biblioteka Internetowa Kujawsko- Pomorska BC Uniwersytetu Wrocławskiego Cyfrowa Biblioteka Narodowa Małopolska Śląska Podlaska Świętokrzyska Zielonogórska Zachodniopomorska

Formaty plików stosowane w FBC PDF 7,13% Pozostałe 1,75% Text/HTML 18,99% DjVu/Image 72,13% 72,13% przypadające na DjVu to ponad 205 tysięcy dokumentów z 284 tysięcy dostępnych, to blisko ¾ zasobów, z którymi występują problemy przy wyszukiwaniu pełnotekstowym.

Format DjVu odpowiedni dla skanowanych dokumentów z uwagi na rozdzielenie warstwy tła od warstwy treści, warstwa treści jest wyodrębniana ze skanów z wykorzystaniem wbudowanego modułu OCR, dzięki temu możliwe jest wyszukiwanie pełnotekstowe, największe dwie zalety: - niewielkie rozmiary, - szybkość dostępu do poszczególnych stron dokumentów opublikowanych online, największe dwie wady: -słaby OCR, - nieindeksowanie przez Google i inne wyszukiwarki.

OCR DjVu a OCR FineReader porównanie na fragmencie z książki Przebieczany. Wieś w powiecie wielickim Stanisława Cercha z 1899 roku, poniżej wycinek oryginału, a pod nim efekty pracy OCR Document Express Prof. i FineReadera wklejone do MS Worda.

Wyszukiwanie rozproszone w serwisie FBC wyszukiwanie prowadzone jest wśród metadanych pobieranych do FBC od wszystkich uczestników, istnieje możliwość zawężenia wyszukiwania do wybranych bibliotek cyfrowych, dostępnych jest 15 pól wyszukiwawczych w obrębie opisu publikacji, nie jest możliwe wyszukiwanie w pełnym tekście.

Wyszukiwanie lokalne na stronie jednej z bibliotek cyfrowych na platformie dlibra wyszukiwanie prowadzone jest wśród tych samych elementów opisu co w FBC, dodatkowo pojawiają się tagi dodawane przez użytkowników danej biblioteki, istnieje możliwość wyszukiwania pełnotekstowego, domyślnie każde zapytanie jest rozszerzane przy użyciu synonimów (możliwe wyłączenie).

Prezentacja wyników lokalnego wyszukiwania pełnotekstowego lista trafień odsyła do dokumentów zawierających poszukiwane terminy, niestety, po wybraniu publikacji nie jesteśmy przenoszeni do strony zawierającej poszukiwany termin, nie wiemy ile razy termin pojawił się w dokumencie, musimy samodzielnie przeszukiwać dokument, korzystając z narzędzi dostępnych w czytniku danego formatu, np. Djvu Viewer (czasochłonne, szczególnie przy dużej liczbie stron).

Wyszukiwanie lokalne na stronie Cyforwej Biblioteki Narodowej CBN Polona wykorzystuje format PDF zamiast DjVu, PDF z dobrym OCRem zapewnia dużo lepsze wyniki wyszukiwania pełnotekstowego.

Podsumowanie możliwości wyszukiwania pełnotekstowego w zasobach polskich bibliotek cyfrowych Google oraz inne wyszukiwarki nie są w stanie bezpośrednio indeksować plików djvu; z innymi formatami (1/4) radzą sobie bardzo dobrze, w związku z powyższym można przyjąć, że około 3/4 zasobów polskich bibliotek cyfrowych należy do tzw. niewidocznego Internetu, jakość OCR w plikach djvu w znacznym stopniu ogranicza wykorzystanie wyszukiwania pełnotekstowego dostępnego lokalnie w większości bibliotek na platformie dlibra, to poważny problem, gdyż nawet gdyby Google zaczął indeksować pliki djvu, kompletność wyników byłaby daleka od oczekiwanej, sposób prezentacji wyników wyszukiwań w znacznym stopniu utrudnia dotarcie do fragmentu tekstu zawierającego poszukiwaną frazę.

Próby rozwiązania aktualnie występujących problemów opisane problemy są znane specjalistom zajmującym się na co dzień bibliotekami cyfrowymi, pisze się o tych problemach na forach Biblioteka 2.0 oraz Digitalizacja i biblioteki cyfrowe (Ebib), sposobem na uwidocznienie zasobów w Google jest ekstrakcja warstwy tekstowej z dokumentów djvu do osobnego (ukrytego) pliku i podpięcie do opisu, dlibra 4.0 ma to już wbudowane, ale skuteczność rozwiązania jest ograniczona, słaby OCR można zamienić na bardzo dobry wykonując skany w FineReaderze jako PDF dwuwarstwowy, a następnie konwertując programem pdf2djvu (czasochłonne).

Zagraniczne sposoby udostępniania skanowanych dokumentów źródło inspiracji Google Books http://books.google.pl Internet Text Archive http://www.archive.org Gallica http://gallica.bnf.fr Digitale bibliotheek voor Nederlandse letteren http://www.dbnl.org Austrian Literature Online http://www.literature.at Hungarian Electronic Library http://mek.oszk.hu National Library of Australia http://www.nla.gov.au/digicoll Biblioteca nacional digital http://purl.pt The Digital Christian Library http://thedcl.org adigital Library of India http://dli.iiit.ac.in Botanicus http://www.botanicus.org

Google Books books.google.pl nawet dla książek dostępnych w pełnym widoku nie ma możliwości zaznaczania, wygoda

Internet Text Archive www.archive.org/details/texts wśród sponsorów Microsoft i Yahoo, ambicją przegonienie Google Books, najważniejsze kolekcje: - American Libraries, ponad milion pozycji, - Canadian Libraries, ponad 200 tys. poz., - Universal Library, ponad 30 tys. poz., - Project Gutenberg, ponad 20 tys. poz.

Internet Text Archive (2) wyszukiwanie pełnotekstowe można realizować tylko w trakcie przeglądania dokumentów, dopracowane jest tak, jak to z Google Books, obecność PDF, HTML, TXT pozwala Google na indeksowanie.

Propozycja poszerzenie dostępnych formatów pliku dla tego samego dokumentu, oprócz dotychczasowego DjVu PDF i TXT, PDF dwuwarstwowy, wygenerowany przez FineReadera z pliku DjVu, taki PDF będzie charakteryzował się świetnym OCR Google zaindeksuje zarówno PDFy jak i TXT, odzyskamy zasoby dla widocznego Internetu, wszystkie dotychczasowe problemy znikną, do tego zyskamy Google Custom podpięte do FBC, przykład dla dokumentu 32 stronicowego: - DjVu 2,5 MB, -PDF:-jakość wysoka 2 MB (B&W bez tła), -jakość średia 1,4 MB (B&W bez tła), -jakość niska 4 MB (Grayscale z tłem),

Dziękuję za uwagę e-mail: arkadiusz.pulikowski@us.edu.pl