Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych



Podobne dokumenty
Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Marcin Werla Poznańskie Centrum Superkomputerowo-Sieciowe

Rozwój polskich bibliotek cyfrowych. Tomasz Parkoła Poznańskie Centrum Superkomputerowo-Sieciowe

POZYCJONOWANIE ZASOBÓW BIBLIOTEK CYFROWYCH

Czytelnik w bibliotece cyfrowej

Wykorzystanie regionalnej biblioteki cyfrowej do tworzenia repozytorium instytucjonalnego

Metadane. Przykry obowiązek czy przydatny zasób?

Czytelnik w bibliotece cyfrowej

JĘZYKI INFORMACYJNO-WYSZUKIWAWCZE. Zagadnienia do egzaminu. 1. Język informacyjno-wyszukiwawczy - charakterystyka ogólna. Definicja języka.

Jeleniogórska Biblioteka Cyfrowa od kuchni

Europeana Cloud: Wykorzystanie technologii chmurowych do współdzielenia on-line baz danych dziedzictwa kulturowego

PBC 2009 zespół d/s synonimów. Tomasz Kalota, Biblioteka Uniwersytetu Wrocławskiego

Rozwój bibliotek cyfrowych w Polsce. Cezary Mazurek Tomasz Parkoła Marcin Werla

Marcin Heliński, Cezary Mazurek, Tomasz Parkoła, Marcin Werla

NUKAT i Federacja Bibliotek Cyfrowych pierwsze wyniki działań w kierunku integracji metadanych

dlibra 3.0 Marcin Heliński

BIBLIOTEKA CYFROWA JAKO KONTENER TREŚCI DLA PORTALI INTERNETOWYCH. DLIBRA & DRUPAL DWA SYSTEMY, JEDNA WITRYNA.

Rola polskich bibliotek cyfrowych w zapewnianiu otwartego dostępu

Digitalizacja zbiorów muzycznych analiza od strony użytkownika na podstawie Federacji Bibliotek Cyfrowych (FBC)

3 grudnia Sieć Semantyczna

Efektywność wyszukiwania informacji w publicznie dostępnych katalogach bibliotek wykorzystujących polskie programy biblioteczne

Innowacyjne narzędzia w procesie digitalizacji

Domena publiczna. Udostępnianie

DLIBRA & DRUPAL DWA SYSTEMY, JEDNA WITRYNA

Infrastruktura bibliotek cyfrowych

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

WBC i dlibra. Marcin Werla. Poznańskie Centrum Superkomputerowo-Sieciowe

Wielojęzyczne strony Polskich instytucji kultury

Rozwój Wielkopolskiej Biblioteki Cyfrowej a zmiany funkcjonalności systemu dlibra

Zarządzanie zdigitalizowaną biblioteką i systemy kontroli dostępu na przykładzie Wielkopolskiej Biblioteki Cyfrowej

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Federacja Bibliotek Cyfrowych: wsparcie instytucji kultury w udostępnianiu zbiorów on-line, agregacja metadanych na potrzeby Europeany

24 LATA WSPÓŁPRACY POLSKICH BIBLIOTEK MEDYCZNYCH OSIĄGNIĘCIA I WYZWANIA

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

POLITECHNIKA POZNAŃSKA Wydział Informatyki i Zarządzania Instytut Informatyki. Praca magisterska. Dariusz Daćko

TECHNIKA ONLINE informator o zasobach internetowych dla nauk technicznych: ELEKTROTECHNIKA: projekt

POLSKIE BIBLIOTEKI CYFROWE 2009

Zintegrowany System Wiedzy oraz Wielofunkcyjne Repozytorium Danych Źródłowych podstawy technologiczne. Marcin Werla, PCSS

Słowniki i inne przydatne adresy. oprac. dr Aneta Drabek

Ontologie, czyli o inteligentnych danych

Wprowadzenie do tematyki bibliotek cyfrowych

Uniwersytet Jagielloński Collegium Medicum. Anna Uryga, Jolanta Cieśla, Lucjan Stalmach

Przekształcenie. JHP KABA w Deskryptory Biblioteki Narodowej. Maria Nasiłowska. Instytut Bibliograficzny Pracownia Deskryptorów Biblioteki Narodowej

KSZTAŁTOWANIE SIĘ NOWEGO PARADYGMATU ORGANIZACJI ZASOBÓW WIEDZY W SPOŁECZEŃSTWIE SIECIOWYM [?]

Gdzieś w bibliotece jeleniogórskiej, 14 grudnia Wirtualna biblioteka e-pogranicze

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Skrócona instrukcja obsługi

AUTOMATYKA INFORMATYKA

Marcin Werla Poznańskie Centrum Superkomputerowo-Sieciowe

Multimedialne bazy danych. Andrzej Łachwa, WFAiIS UJ 2011

dlibra platforma do budowy repozytoriów cyfrowych

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

Federacja Bibliotek Cyfrowych w sieci PIONIER

Open Access w technologii językowej dla języka polskiego

Wymagania edukacyjne na poszczególne stopnie szkolne z języka angielskiego w klasie VII

Biblioteki cyfrowe w środowisku sieciowym

2

Agregacja metadanych zbiorów polskich instytucji kultury działania Poznańskiego Centrum Superkomputerowo-Sieciowego

Baza PEDAGOG narzędziem edukacji informacyjnej w bibliotece

Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT

Semantic Web Internet Semantyczny

Aplikacja testowej wersji tezaurusa w systemie komputerowym ALEPH w Bibliotece CIOP-PIB

II. Wyszukiwanie złożone poprzez indeksy

Ewa Piotrowska. Projekty biblioteczne realizowane w Bibliotece Głównej Uniwersytetu Pedagogicznego w Krakowie

Dlaczego musimy nauczać o katalogach bibliotecznych, w świecie idei Web 2.0?

Neurobook. Inteligentne repozytoria wiedzy. Cezary Dołęga

Lokalizacja Oprogramowania

Krok w stronę cyfrowej humanistyki infrastruktura IT dla badań humanistycznych

Eksploracja Zasobów Internetu

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Marcin Werla, PCSS

Zintegrowany system promocji gospodarczej. Włodzimierz Majer

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

Organizacja i logistyka digitalizacji

Projektowanie architektury informacji katalogu biblioteki w oparciu o badania użytkowników Analiza przypadku

System SINUS otwarte narzędzie do budowy bibliograficznych baz danych

Zastosowanie technologii Semantic Web w regionalnej sieci telemedycznej

Marcin Werla, PCSS

Biblioteka Cyfrowa Uniwersytetu Wrocławskiego Narzędzie do wspierania procesów dydaktycznych uczelni oraz promocji miasta i regionu.

O słowach kluczowych prawie wszystko

Crea%ve Commons 0. Instrukcja.

Sposoby wyszukiwania multimedialnych zasobów w Internecie

Korekta OCR problemy i rozwiązania

Biblioteki cyfrowe główne kierunki rozwoju

Infrastruktura bibliotek cyfrowych w sieci PIONIER

Internet Archive (IA) ogólne informacje. ebooks and Texts prezentacja polskojęzycznych dokumentów

Narzędzia do automatycznego wydobywania kolokacji

Wikisłownik. (więcej niż słownik) Piotr Derbeth Kubowicz. Wikiwarsztaty Wrocław, 7 marca Stowarzyszenie Wikimedia Polska

!!!!!!!!!! WNIOSEK O PORTFOLIO:

Rola użytkowników w tworzeniu zasobów bibliotek cyfrowych

Wprowadzenie do XML. Joanna Jędrzejowicz. Instytut Informatyki

Realizacja procesu digitalizacji przy pomocy systemu DigitLab

Projekt EuropeanaLocal europejski wymiar agregowania zasobów cyfrowych

Internet Semantyczny i Logika II

Jacek Tomaszczyk Instytut Bibliotekoznawstwa i Informacji Naukowej Uniwersytet Śląski

Nazwa biblioteki (w języku oryginalnym) National Library of Scotland Biblioteka Narodowa Szkocji

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

Strona znajduje się w archiwum.

Transkrypt:

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych Adam Dudczak Poznańskie Centrum Superkomputerowo-Sieciowe (maneo@man.poznan.pl) I Konferencja Polskie Biblioteki Cyfrowe 1

Plan prezentacji Przedstawienie podstawowych wymagań związanych z tworzeniem wyszukiwarki zasobów wielojęzycznych Systemy organizacji wiedzy i obszary ich wykorzystania w europejskich bibliotekach cyfrowych Praktyczne spojrzenie na problemy związane z udostępnianiem treści zgromadzonych w polskich bibliotekach cyfrowych dla Europeany 2

Podstawowe wymagania i najważniejsze pytania Dlaczego wielojęzyczność jest problemem? Czy dotyczy to również polskich bibliotek cyfrowych? Jakie wymagania funkcyjne powinien spełniać system udostępniający treści w wielu językach? 3

Dlaczego wielojęzyczność jest problemem? 4

Dlaczego wielojęzyczność jest problemem? 5

Czy dotyczy to również polskich bibliotek cyfrowych? Języki jakimi posługują się użytkownicy Wielkopolskiej Biblioteki Cyfrowej Polski 88,4% Angielski 5,54% Niemiecki 2,98% Rosyjski 1,45% Francuski 0,4% Czeski 0,17% Ukraiński 0,13% Pozostałe 0,93% W sumie 77 612 wizyt Dane z ostatniego miesiąca (23.10-22.11) 6

Czy dotyczy to również polskich bibliotek cyfrowych? Materiały w wielojęzyczne w polskich bibliotekach cyfrowych WBC - 21, ŚBC 14 różnych języków Czy użytkownik nie posługujący się językiem polskim jest w stanie odnaleźć zasoby w swoim języku? 7

Jakie wymagania funkcyjne powinien spełniać system udostępniający treści w wielu językach? Interfejs użytkownika we wszystkich wspieranych językach [1] Mechanizmy indeksacji uwzględniające specyfikę wspieranych języków [1] Przede wszystkim analiza morfologiczna Hasłowanie, lematyzacja, analiza syntaktyczna Listy wyrazów pospolitych (ang.stop words) [1] EDLnet - D2.5 - Europeana Outline Functional Specification, wersja 1.0 8

Jakie wymagania funkcyjne powinien spełniać system udostępniający treści w wielu językach? Wyszukiwanie [1] Zapytanie w określonym języku, w wyniku tylko obiekty w tym języku Zapytanie w określonym języku, zwraca pasujące obiekty niezależnie od języka Zapytanie w określonym języku jest tłumaczone na wszystkie wspierane języki i zwraca obiekty we wszystkich (wspieranych) językach 9

Jakie wymagania funkcyjne powinien spełniać system udostępniający treści w wielu językach? Wydawanie zapytań w dowolnym języku [1] Wsparcie dla znaków diakrytycznych Unicode Wyniki w języku użytkownika [1] Tłumaczenie metadanych/obiektów na język w którym użytkownik wydał zapytanie 10

Systemy organizacji wiedzy i obszary ich wykorzystania w europejskich bibliotekach cyfrowych Systemy organizacji wiedzy (ang. Knowledge organisation system, KOS) Podstawowe definicje Słownictwo kontrolowane Tezaurus SKOS Potencjalne obszary zastosowań 11

Systemy organizacji wiedzy - definicje Słownictwo kontrolowane (SK) zbiór unikalnych słów, które posiadają jednoznaczną definicję [2] Jeżeli dany wyraz posiada wiele znaczeń uzupełnia się go o dodatkową informację np. Łódź, Łódź (powiat poznański), Łódź (jednostka pływająca) hasła z Wikipedii Przykłady: KABA [3], Medical Subject Headings (MeSH) [2] Wikipedia : Controlled vocabulary [3] Zastosowanie ontologii do wykrywania wiedzy, Dariusz Daćko 12

Systemy organizacji wiedzy - definicje Tezaurus to słownictwo kontrolowane zawierające informację o terminach powiązanych Synonimy, pojęcia nadrzędne (hipernimy) i podrzędne (hiponimy), kolokacja i inne Przykłady: Library of Congres Subject Headings (LCSH) WordNet, synonimy.ux.pl 13

Simple Knowledge Organisation System SKOS - rodzina języków formalnych służących do zapisu struktur takich jak : słowniki kontrolowane, tezaurusy, klasyfikacje SKOS jest zapisywany w postaci dokumentu zgodnego z RDF i RDF Schema Standard ten jest rozwijany przez konsorcjum WWW (W3C) SKOS jest/ma być ważnym elementem sieci semantycznej 14

Jak wykorzystać SOW? Integracja różnych kolekcji dokmentów: Tworzenie odwzorowań między dwoma zupełnie odmiennymi : Słownictwami, klasyfikacjami Przetwarzanie zapytań Tłumaczenie, rozszerzanie Automatyczne tłumaczenie opisów bibliograficznych Indeksowanie, wyświetlanie wyników 15

Tworzenie odwzorowań potencjalne problemy Dopasowywanie dwóch słowników kontrolowanych Niezgodność znaczeniowa np. vegetables i Gemüse Różne poziomy szczegółowości i dziedziny Słownik A: pojazd mechaniczny, czołg Słownik B: car Brak odpowiadających terminów MACS (Multilingual Access to Subject) SWD (niemiecki), RAMEAU (francuski) i LCSH (angielski) 16

Przetwarzanie zapytań Dopasowywanie zapytań użytkowników do tego co jest w KOSie Rozwijanie zapytania o pojęcia podrzędne i tłumaczenie zwierzęta zwierzęta... koty psy... animals Zvířata katze... kočka... 17

Automatyczne tłumaczenie opisów bibliograficznych [1] zakłada użycie : odwzorowań między słownictwami lub tłumaczenia maszynowego W przypadku opisu bibliograficznego tłumaczenie maszynowe może dać stosunkowo dobre wyniki Rzeczowniki, niewiele zwartego tekstu Tłumaczenie całych obiektów o wiele trudniejsze (manuskrypty, OCR) 18

Wnioski końcowe Jak dotąd znamy tylko schemat metadanych który będzie wykorzystywała Europeana Brak informacji o słownikach wartości Uspójnienie przechowywanej w polskich bibliotekach cyfrowych informacji bibliograficznej bardzo ułatwiłoby pracę nad włączeniem polskich zbiorów do Europeany 19

Wnioski końcowe Preferowanym sposobem włączania zasobów do Europeany są krajowe agregatory metadanych Na tym poziomie możliwe jest częściowe dokonanie przekształceń i czyszczenia przekazywanych dalej metadanych Rolę takiego agregatora dla Polski pełni FBC 20

Dziękuje za uwagę Adam Dudczak Poznańskie Centrum Superkomputerowo-Sieciowe (maneo@man.poznan.pl) I Konferencja Polskie Biblioteki Cyfrowe 21