Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT A. Dudczak, C. Mazurek, T. Parkoła, J. Pukacki, M. Stroiński, M. Werla, J. Węglarz Poznańskie Centrum Superkomputerowo-Sieciowe {maneo, mazurek, tparkola, pukacki, stroins, mwerla, weglarz}@man.poznan.pl
Polskie zasoby naukowe Różnego rodzaju bazy bibliograficzne/abstraktowe np. Polska Bibliografia Literacka (http://pbl.ibl.poznan.pl/dostep/) Katalog Rozproszony Bibliotek Polskich (KaRo) http://karo.umk.pl Biblioteka Wirtualna Nauki http://vls.icm.edu.pl/ Narodowe Archiwum Cyfrowe http://nac.pl ZOSIA http://szukajwarchiwach.pl/ Narodowy Uniwersalny Katalog Centralny (NUKAT) http://www.nukat.edu.pl/ Biblioteki cyfrowe Źródło: http://www.flickr.com/photos/myklroventine/ 2
Federacja Bibliotek Cyfrowych Łączna liczba obiektów: Prawie 500 tys. + około 15 tys. nowych co miesiąc Liczba bibliotek cyfrowych: 59 + kilkanaście nowych co roku Liczba współpracujących instytucji: Kilkaset Wszystkie te zasoby dostępne w jednym miejscu: http://fbc.pionier.net.pl Regionalne biblioteki cyfrowe Instytucjonalne biblioteki cyfrowe 3
Cele projektu SYNAT Celem zadania badawczego jest zbudowanie sieciowego systemu informacyjnego dla nauki, techniki i dziedzictwa kulturowego w Polsce. System powinien: Umożliwić integracje istniejących i nowych zasobów infrastrukturalnych i treściowych Zapewnić powszechny, zunifikowany i przyjazny dostęp do usług informacyjnych i danych źródłowych 4
SYNAT System Nauki i Techniki http://www.synat.pl Projekt ten jest finansowany przez Narodowe Centrum Badań i Rozwoju nr umowy SP/I/1/77065/10 W ramach programu strategicznego o nazwie Interdyscyplinarny system interaktywnej informacji naukowej i naukowo-technicznej Koordynatorem tego projektu jest ICM UW Czas trwania projektu 08.2010 08.2013 5
Rola PCSS Dwa etapy badawcze Badania w zakresie federacyjnych modeli usług informacji naukowej i naukowo-technicznej Badania związane z usługami dotyczącymi danych źródłowych Celem pozostałych etapów jest opracowanie dwóch współpracujących ze sobą prototypów Zintegrowanego Systemu Wiedzy (ZSW) Wielofunkcyjnego Repozytorium Danych Źródłowych (dalej WRDZ) 6
Architektura systemu 7
Architektura systemu 8
Model współpracy usług Koncepcja federacyjnego modelu usług wynika bezpośrednio z doświadczeń z Service OrientedArchitecture(SOA) oraz ResourceOrientedArchitecture (ROA) wzbogaconych o wykorzystanie technologii semantycznych Kontynuacja badań dotyczących atomowych usług bibliotek cyfrowych i Federacją Bibliotek Cyfrowych (http://fbc.pionier.net.pl) Identyfikacja i kategoryzacja istniejących źródeł informacji naukowo-technicznej np. Bibliograficzne/abstraktowe/pełnotekstowebazy danych, Encyklopedie, słowniki Wyszukiwarki ogólne/dziedzinowe Biblioteki/muzea/archiwa/repozytoria cyfrowe 9
Model współpracy usług Semantyczna adnotacja umożliwiająca zaimplementowanie zaawansowanych scenariuszy integracji omawianych usług (OWL-S) Zestaw protokołów komunikacyjnych pozwalający na unifikację sposobu w jaki pozyskiwana jest informacja dla konkretnych kategorii usług (REST) Stworzenie rejestru (jednego bądź wielu) usług umożliwiającego odkrywanie i kompozycje opisanych w nim instancji usług Wykorzystanie stworzonych narzędzi w implementacji Zintegrowanego Systemu Wiedzy 10
Usługi dostępu i składowania danych źródłowych Dane źródłowe surowe dane stanowiące materiał dla badań naukowych np. Wysokiej jakości skanymanuskryptów z polskich bibliotek cyfrowych Dane z odczytów z urządzeń pomiarowych Różnego rodzaju dane medyczne Korpusy tekstowe Materiały audio i wideo Integracja i rozszerzenie istniejących usług składowania Wykorzystanie usługi Platon U4 na potrzeby referencyjnej implementacji Integracja prototypowych usług z oprogramowaniem dlibra 11
Usługi dostępu i składowania danych źródłowych Kontrola dostępu do składowanych danych Integracja z rozproszonymi mechanizmami uwierzytelniania np. model wykorzystywany w Shibboleth Udostępnianie składowanych danych Dostępność informacji w dłuższej perspektywie czasowej Kontrola integralności Polityka migracji między formatami 12
Usługi dostępu i składowania danych źródłowych Udostępnianie składowanych danych Wydajne i spersonalizowane formy dostarczania danych źródłowych dla użytkowników końcowych Strumieniowanie Konwersja w locie Usługi umożliwiające przetwarzanie i ekstrakcję informacji z danych źródłowych np. korekta i tworzenie transkrypcji dla różnego rodzaju materiałów 13
Zintegrowany System Wiedzy 14
Zintegrowany System Wiedzy Ujednolicenie dostępu do informacji naukowej pochodzącej z heterogenicznych i rozproszonych źródeł Opracowanie elastycznego i rozszerzalnego schematu metadanych/modelu semantycznego (np. w oparciu o CIDOC CRM) dla potrzeb wewnętrznej reprezentacji różnego rodzaju obiektów Określenie metod aktualizacji danych udostępnianych w ZSW 15
Zintegrowany System Wiedzy Integracja prototypowych usług przygotowanych w ramach zadań PCSS Zbudowanie prototypu portalu wirtualnych społeczności badawczych przeznaczony dla naukowców, studentów oraz hobbystów Opracowanie prototypowych aplikacji wspierających badania naukowe prowadzone w dziedzinach humanistycznych 16
Zintegrowany System Wiedzy Udostępnienie funkcji i danych zgromadzonych w ZSW poprzez standardowe, otwarte protokoły komunikacyjne OAI-ORE, OAI-PMH 17
Podsumowanie ZSW to przykład rozbudowanego systemu integrującego heterogeniczne źródła wiedzy Proponowana architektura została stworzona w oparciu o dobrze znane paradygmaty SOA i ROA wzbogacone o wykorzystanie technologii semantycznych Dzięki takiemu rozwiązaniu mamy nadzieje zapewnić elastyczność, niezawodność i skalowalność całego rozwiązania 18
Podsumowanie (2) Prace realizowane w SYNAT to nie tylko narzędzia dla naukowców, ale również narzędzia dla promocji wyników ich prac, zwiększenia ich widoczności w światowej sieci naukowej Wykorzystanie otwartych, standardowych protokołów komunikacyjnych jest więc niezbędne z uwagi na zakres i cele całego przedsięwzięcia 19
Pytania? Adam Dudczak maneo@man.poznan.pl 20
Dziękuje za uwagę!