NUKAT i Federacja Bibliotek Cyfrowych pierwsze wyniki działań w kierunku integracji metadanych Cezary Mazurek, Marcin Mielnicki, Krzysztof Sielski, Marcin Werla {mazurek,marcinm,sielski,mwerla}@man.poznan.pl
Plan prezentacji Agregacja danych z wielu źródeł Reprezentacja wiedzy w ontologii FRBRoo Integracja i wzbogacanie danych Prototypowy interfejs do bazy wiedzy Scenariusze wykorzystania bazy wiedzy do wzbogacenia funkcji portalu FBC
Agregacja i przetwarzanie danych Dane źródłowe Czyszczenie, normalizacja (np. daty, języki) Wykrywanie relacji Katalog NUKAT MARC 21 Mapowanie do FRBRoo FBC PLMET Agregator Danych Źródłowych Wzbogacanie Semantyczna Baza Wiedzy MNW MONA Dane pomocnicze MNK CDWA LITE JHP Kaba Geonames VIAF (KHW)
CIDOC CRM ontologia, czyli formalna reprezentacja pewnej dziedziny wiedzy (tutaj: obiektów dziedzictwa kulturowego), na którą składa się zbiór konceptów i relacji między nimi definiuje 86 konceptów i 139 relacji przykładowe koncepty: Nośnik Informacji, Osoba, Temat, Język przykładowe relacje: ma temat, ma język, brał udział w zdarzeniu, jest powiązany z
Tytuł treść
FRBRoo Rozszerzenie CIDOC CRM o koncepty FRBR 119 klas (33 nowe w stosunku do CIDOC CRM) 178 właściwości (39 nowych) Ontologia do reprezentowania różnego rodzaju obiektów dziedzictwa kulturowego (w szczególności: muzealnych i bibliotecznych)
Mapowanie do FRBRoo Przykładowy rekord metadanych w PLMET: <plmet:metadata> <dc:title>figliki albo rozlicznych ludzi przypadki dworskie [...]</dc:title> <dc:creator>rej, Mikołaj (1505-1569)</dc:creator> <dc:contributor>pencz, Georg (ca 1500-1550). Il.</dc:contributor> <dc:description>dzieło pierwotnie współwydane z dziełem: Zwierziniec W ktorym rozmaitich <dc:publisher>drukarnia Macieja Wirzbięty</dc:publisher> <plmet:placeofpublishing>kraków</plmet:placeofpublishing> <dc:date>1574</dc:date> <dc:language>pol</dc:language> <dc:coverage>16 w.</dc:coverage> <dc:subject>starodruki 16 w.</dc:subject> <dc:type>starodruk</dc:type> <dc:format>image/vnd.djvu</dc:format> <plmet:locationofphysicalobject>biblioteka Jagiellońska</plmet:locationOfPhysicalObject> <dc:rights>domena publiczna (public domain)</dc:rights> <plmet:digitisationsponsor>efrr POIiŚ 11.1</plmet:digitisationSponsor> </plmet:metadata>
Mapowanie do FRBRoo Wynik mapowania do FRBRoo (rekord z poprzedniego slajdu): 33 powiązanych ze sobą obiektów opisanych przez 78 trójek RDF
Wzbogacanie Rej, Mikołaj (1505-1569) E21 Person: http://viaf.org/viaf/61585459 = NUKAT n 94001968 Pencz, Georg (ca 1500-1550). Il. E21 Person: http://viaf.org/viaf/64120782 = NUKAT n 2008044525 Kraków E53 Place: http://www.geonames.org/3094802 pol E56 Language: http://lexvo.org/id/iso639-3/pol starodruki 16 w. E55h Subject Hierarchy: NUKAT s 2010216717 (Stare druki -- 16 w.) Biblioteka Jagiellońska E40 Legal Body: http://viaf.org/viaf/148485690 = NUKAT n 94250236
Dopasowania KABA - Geonames
Dopasowania KABA - Geonames 1. KABA: s 97053818 Kcynia (Polska). s 2012307665 Kcynia (Polska ; gmina). Brak powiązania (tropu) między hasłami 2. Geonames: http://www.geonames.org/3096385/kcynia http://www.geonames.org/7533422/kcynia Powiązanie między miejscowością a gminą, współrzędne geograficzne
Dopasowania KABA - Geonames KABA: ok. 16 000 nazw geograficznych w JHP KABA Czasem miejsca są powiązane przez pole 5XX np. Kcynia (Polska ; gmina). 551 \w g \a Nakielski, Powiat (Polska). Geonames: ok. 6 242 000 miejsc Współrzędne geograficzne Wiele powiązań między miejscami
Portal FBC+ treść Przeglądarka BW Wyszukiwanie, przeglądanie Wyszukiwanie, przeglądanie Wzbogacanie wyników Agregator Danych Źródłowych Semantyczna Baza Wiedzy
Portal FBC+ treść Przeglądarka BW Wyszukiwanie, przeglądanie Wyszukiwanie, przeglądanie Wzbogacanie wyników Agregator Danych Źródłowych Semantyczna Baza Wiedzy
Portal FBC+ treść Przeglądarka BW Wyszukiwanie, przeglądanie Wyszukiwanie, przeglądanie Wzbogacanie wyników Agregator Danych Źródłowych Semantyczna Baza Wiedzy
Wyszukiwanie geograficzne Jeżeli wyszukiwane słowo zostanie rozpoznane jako nazwa miejscowości, to pokazywane jest na mapie razem z zaznaczonymi miejscami, z którymi są powiązane jakieś publikacje.
Wyszukiwanie: Kcynia Wyszukiwanie geograficzne treść
Hierarchia tematów Podobne tematy: Promieniotwórczość (254), Mechanika(634), Energia (2106), Ciepło(64)
Podsumowanie Agregowanie w jednej bazie rekordów z katalogu NUKAT, bibliotek i muzeów cyfrowych oraz systemów inwentaryzacji zabytków (np. MONA) Przetwarzanie danych do postaci semantycznej bazy wiedzy opartej na ontologii FRBRoo Integracja danych z heterogenicznych źródeł i wzbogacanie ich o informacje pochodzące baz takich jak Geonames, TERYT, VIAF czy słownik JHP KABA Prototypowy interfejs dostępowy do bazy wiedzy Rozszerzenie funkcji portalu FBC poprzez semantyczną analizę zapytania, wyszukiwanie geograficzne i prezentowanie połączeń między obiektami w portalu
Wybrane wyniki prac Pakiet oprogramowania do agregacji i przetwarzania danych: http://fbc.pionier.net.pl/pro/clepsydra/ Narzędzie do mapowania metadanych do postaci ontologicznej: http://fbc.pionier.net.pl/pro/jmet2ont/ Prototypowe interfejsy do przeglądania bazy wiedzy: http://iks-portal.synat.pcss.pl/portal/ http://iks-portal.synat.pcss.pl/knowledgebaseviewer/ Wirtualne Laboratorium Transkrypcji: http://wlt.synat.pcss.pl/ System długoterminowego składowania danych źródłowych: http://darceo.psnc.pl/darceo/ Prace realizowane w ramach projektu SYNAT finansowanego przez Narodowe Centrum Badań i Rozwoju (nr umowy: SP/I/1/77065/10)
Dziękujemy za uwagę! Pytania?