dlibra platforma do budowy repozytoriów cyfrowych



Podobne dokumenty
Marcin Heliński, Cezary Mazurek, Tomasz Parkoła, Marcin Werla

Federacja Bibliotek Cyfrowych w sieci PIONIER

Federacja Bibliotek Cyfrowych w sieci PIONIER Dostęp do otwartych bibliotek cyfrowych i repozytoriów

Infrastruktura bibliotek cyfrowych w sieci PIONIER

Rozwój bibliotek cyfrowych w Polsce. Cezary Mazurek Tomasz Parkoła Marcin Werla

WdraŜanie regionalnych bibliotek cyfrowych w sieci PIONIER w oparciu o środowisko dlibra

Wykorzystanie regionalnej biblioteki cyfrowej do tworzenia repozytorium instytucjonalnego

Czytelnik w bibliotece cyfrowej

Infrastruktura bibliotek cyfrowych

Atomowe usługi w środowisku rozproszonych bibliotek cyfrowych

Marcin Werla Poznańskie Centrum Superkomputerowo-Sieciowe

Repozytorium Uniwersytetu Jagiellońskiego

Rozwój Wielkopolskiej Biblioteki Cyfrowej a zmiany funkcjonalności systemu dlibra

Nowoczesne biblioteki cyfrowe w środowisku rozproszonych usług atomowych Modern digital libraries in the environment of distributed atomic services

Wyzwania techniczne związane z prezentacją dziedzictwa kulturowego w Internecie

Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT

Mirosław Górny, Paweł Gruszczyński, Cezary Mazurek, Jan Andrzej Nikisch, Maciej Stroiński, Andrzej Swędrzyński

dlibra 3.0 Marcin Heliński

Europeana Cloud: Wykorzystanie technologii chmurowych do współdzielenia on-line baz danych dziedzictwa kulturowego

Czytelnik w bibliotece cyfrowej

Metadane w Jagiellońskiej Bibliotece Cyfrowej. Piotr Myszkowski

Rozwój polskich bibliotek cyfrowych. Tomasz Parkoła Poznańskie Centrum Superkomputerowo-Sieciowe

Biblioteki cyfrowe w środowisku sieciowym

Zintegrowany System Wiedzy oraz Wielofunkcyjne Repozytorium Danych Źródłowych podstawy technologiczne. Marcin Werla, PCSS

BIBLIOTEKA CYFROWA JAKO KONTENER TREŚCI DLA PORTALI INTERNETOWYCH. DLIBRA & DRUPAL DWA SYSTEMY, JEDNA WITRYNA.

W kierunku zwiększania dostępności zasobów udostępnianych przez polskie biblioteki cyfrowe Nowoczesne rozwiązania w systemie dlibra 6

Rola polskich bibliotek cyfrowych w zapewnianiu otwartego dostępu

Komunikacja i wymiana danych

Serwery LDAP w środowisku produktów w Oracle

DLIBRA & DRUPAL DWA SYSTEMY, JEDNA WITRYNA

Sposób prezentacji czasopisma w bibliotece cyfrowej

WYKORZYSTANIE FUNDUSZY UNIJNYCH PRZEZ BIBLIOTEKĘ GŁÓWNĄ AKADEMII MORSKIEJ W SZCZECINIE

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Spis treści. Dzień 1. I Wprowadzenie (wersja 0906) II Dostęp do danych bieżących specyfikacja OPC Data Access (wersja 0906) Kurs OPC S7

Wprowadzenie do tematyki bibliotek cyfrowych

ZAŁOŻENIA TECHNICZNO-TECHNOLOGICZNE SYSTEMU BUDOWANEGO W RAMACH PROJEKTU

EXSO-CORE - specyfikacja

Kurs OPC S7. Spis treści. Dzień 1. I OPC motywacja, zakres zastosowań, podstawowe pojęcia dostępne specyfikacje (wersja 1501)

dlibra System do budowy bibliotek cyfrowych

Tomasz Grześ. Systemy zarządzania treścią

WBC i dlibra. Marcin Werla. Poznańskie Centrum Superkomputerowo-Sieciowe

Jeleniogórska Biblioteka Cyfrowa od kuchni

Zarządzanie zdigitalizowaną biblioteką i systemy kontroli dostępu na przykładzie Wielkopolskiej Biblioteki Cyfrowej

Plan. Wprowadzenie. Co to jest APEX? Wprowadzenie. Administracja obszarem roboczym

Udostępnianie i przechowywanie obiektów cyfrowych w kontekście biblioteki akademickiej

Czwarte warsztaty Biblioteki cyfrowe dzień 1. Poznań 12 listopada 2007 r.

Marcin Werla Poznańskie Centrum Superkomputerowo-Sieciowe

serwisy W*S ERDAS APOLLO 2009

Systemy identyfikacji obiektów cyfrowych w środowisku sieciowym

Przypisywanie bibliotek w architekturze SAS

Szczegółowy opis zlecenia Plugin do oprogramowania dlibra. Szczegółowy opis zlecenia dla Pluginu do oprogramowania dlibra.

Rola bibliotek cyfrowych w budowaniu gospodarki opartej o wiedzę. Cezary Mazurek

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Biblioteki cyfrowe i ich kolekcje

Podręcznik użytkownika środowiska dlibra w wersji 4.0. Poznańskie Centrum Superkomputerowo - Sieciowe Redakcja: Tomasz Parkoła

Nowe usługi w infrastrukturze sieci MAN i PIONIER. Aleksandra Nowak Marcin Werla

System SINUS otwarte narzędzie do budowy bibliograficznych baz danych

Metadane dokumentów w bibliotekach cyfrowych. Marcin Werla, PCSS

Digitalizacja zbiorów muzycznych analiza od strony użytkownika na podstawie Federacji Bibliotek Cyfrowych (FBC)

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

Dokumentacja wstępna TIN. Rozproszone repozytorium oparte o WebDAV

Hurtownie danych - przegląd technologii

Architektury usług internetowych. Tomasz Boiński Mariusz Matuszek

Deduplikacja danych. Zarządzanie jakością danych podstawowych

CYFROWA ZIEMIA SIERADZKA PRZYKŁADEM REGIONALNEJ BIBLIOTEKI CYFROWEJ INFORMUJĄCEJ O KULTURZE SIERADZKIEJ. Abstrakt WSTĘP

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Dotacje na innowacje. Inwestujemy w waszą przyszłość.

Agregacja metadanych zbiorów polskich instytucji kultury działania Poznańskiego Centrum Superkomputerowo-Sieciowego

Kartografia multimedialna krótki opis projektu. Paweł J. Kowalski

Możliwości i wyzwania dla polskiej infrastruktury bibliotek cyfrowych

Opis wdrożenia Platformy Technologicznej epodreczniki.pl na zasobach Poznańskiego Centrum Superkomputerowo-Sieciowego

Zastosowanie technologii Semantic Web w regionalnej sieci telemedycznej

System komputerowy. Sprzęt. System komputerowy. Oprogramowanie

Systemy obiegu informacji i Protokół SWAP "CC"

TWÓJ BIZNES. Nasz Obieg Dokumentów

WKŁAD BIBLIOTEKI KÓRNICKIEJ W ROZWÓJ SYSTEMU ROZPROSZONYCH BIBLIOTEK CYFROWYCH W POLSCE

Krok w stronę cyfrowej humanistyki infrastruktura IT dla badań humanistycznych

Sieci równorzędne, oraz klient - serwer

Projekt dotyczy stworzenia zintegrowanego, modularnego systemu informatycznego wspomagającego zarządzanie pracownikami i projektami w firmie

LWEB-900: Nowoczesny i wszechstronny system BMS

Instrukcja do panelu administracyjnego. do zarządzania kontem FTP WebAs.

Programowanie współbieżne i rozproszone

Aplikacja serwerowa Platformy Prezentacyjnej Opis produktu

4. Jak połączyć profil autora w bazie Scopus z identyfikatorem ORCID. 5. Jak połączyć ResearcherID (Web of Science) z identyfikatorem ORCID

Diagramy związków encji. Laboratorium. Akademia Morska w Gdyni

Wykład I. Wprowadzenie do baz danych

Jakość i otwartość: # otwarte e-podręczniki akademickie AGH

The Office of Scientific and Technical Information (OSTI)

ZESZYTY NAUKOWE WYDZIAŁU ETI POLITECHNIKI GDAŃSKIEJ Nr 5 Seria: Technologie Informacyjne 2007

ActiveXperts SMS Messaging Server

Wykład 3 / Wykład 4. Na podstawie CCNA Exploration Moduł 3 streszczenie Dr inż. Robert Banasiak

edziennik Ustaw Opis architektury

MAREK NIEZGÓDKA ICM, UNIWERSYTET WARSZAWSKI

Zbiory bibliotek cyfrowych dla ucznia i nauczyciela

Integracja wyszukiwania w bibliotekach cyfrowych

Kielce, dnia roku. HB Technology Hubert Szczukiewicz. ul. Kujawska 26 / Kielce

OfficeObjects e-forms

RELACYJNE BAZY DANYCH

Transkrypt:

dlibra platforma do budowy repozytoriów cyfrowych Adam Dudczak 1, Marcin Heliński 1, Cezary Mazurek 1, Tomasz Parkoła 1, Marcin Werla 1 Streszczenie: Niniejszy artykuł opisuje oprogramowanie dlibra platformę do budowy bibliotek cyfrowych rozwijaną przez Poznańskie Centrum Superkomputerowo-Sieciowe. W artykule omówiono podstawowe funkcje systemu dlibra, jego architekturę oraz najważniejsze moduły. Przedstawiono również zaawansowane mechanizmy systemu dlibra takie jak: zarządzanie metadanymi przechowywanych obiektów, mechanizmy integracji oprogramowania dlibra z innymi systemami informatycznymi czy mechanizmy bazujące na otwartym protokole wymiany informacji między rozproszonymi instalacjami oprogramowania dlibra w Polsce. Słowa kluczowe: metadane, obiekty cyfrowe, przetwarzanie zasobów rozproszonych, repozytoria cyfrowe, biblioteki cyfrowe, systemy rozproszone 1. Wstęp Coraz większa ilość cyfrowych informacji tworzonych na całym świecie, wymaga zastosowania profesjonalnych narzędzi, umożliwiających ich efektywne gromadzenie, przechowywanie, zarządzanie i udostępnianie. W roku 1996 w Poznańskim Centrum Superkomputerowo-Sieciowym rozpoczęto prace badawcze w obszarze repozytoriów dokumentów cyfrowych. Efektem tych prac był prototyp oprogramowania do budowy bibliotek cyfrowych, na bazie którego w 1999 roku rozpoczęto tworzenie platformy do budowy bibliotek cyfrowych o nazwie dlibra. Platforma ta jest pierwszym tego typu polskim oprogramowaniem. W roku 2001 uruchomiony został program PIONIER, zdefiniowany jako Polski Internet Optyczny Zaawansowane Aplikacje, Usługi i Technologie dla Społeczeństwa Informacyjnego. Jednym z trzech kluczowych obszarów tego programu było wytworzenie i przetestowanie pilotowych usług i aplikacji dla społeczeństwa informacyjnego, stanowiących podstawę dla wdrożeń w takich dziedzinach, jak: nauka, edukacja, opieka zdrowotna, środowisko naturalne, administracja rządowa i samorządowa, przemysł i usługi. Oprogramowanie dlibra rozwijane dalej było jako jeden z projektów w obszarze e-content programu PIONIER. Pod koniec roku 2002 w ramach współpracy Poznańskiego Centrum Superkomputerowo-Sieciowego z Poznańską Fundacją Bibliotek Naukowych uruchomiona została pierwsza publicznie dostępna biblioteka cyfrowa oparta na oprogramowaniu dlibra Wielkopolska Biblioteka Cyfrowa. Jest to obecnie największa w Polsce 1 Poznańskie Centrum Superkomputerowo-Sieciowe ul. Z. Noskowskiego 12/14, 61-704 Poznań http://www.man.poznan.pl/

dlibra platforma do budowy repozytoriów cyfrowych 459 biblioteka cyfrowa. Śladem WBC poszły również inne instytucje, tworząc w Polsce kolejne biblioteki cyfrowe. Obecnie system dlibra jest najpopularniejszym w Polsce oprogramowaniem do budowy bibliotek cyfrowych. System ten jest wykorzystywany przez ponad 150 instytucji do budowy regionalnych oraz instytucjonalnych repozytoriów. W czerwcu 2007 roku w sieci PIONIER było uruchomionych około 20 takich systemów. Tworzą one wspólnie sieć rozproszonych bibliotek cyfrowych, dającą dostęp do ponad 80 000 tysięcy obiektów cyfrowych wraz z ich metadanymi oraz do zaawansowanych usług takich jak wyszukiwanie rozproszone czy wirtualne kolekcje. Następny rozdział niniejszego artykuły przedstawia najważniejsze funkcje oprogramowania dlibra. Rozdział 3 opisuje architekturę tego systemu ze szczególnym uwzględnieniem podstawowego modułu systemu - serwera. Rozdział 4 przedstawia wybrane zaawansowane mechanizmy systemu dlibra takie jak zarządzanie metadanymi obiektów cyfrowych czy wymiana tych metadanych pomiędzy rozproszonymi repozytoriami. 2. Funkcjonalność oprogramowania dlibra dlibra jest oprogramowaniem, które może być wykorzystywane do budowy bibliotek cyfrowych, instytucjonalnych repozytoriów dokumentów, cyfrowych archiwów oraz innych systemów zarządzania treścią. System ten pozwala na gromadzenie, długoterminowe przechowywanie i udostępnianie obiektów cyfrowych w dowolnym formacie (np. wieloplikowe dokumenty HTML, PDF, nagrania audio i video, itd.). Każdy z przechowywanych obiektów opisany może być przy pomocy zdefiniowanego w ramach danego repozytorium zestawu metadanych. Udostępnianie obiektów cyfrowych w Internecie odbywa się poprzez dedykowane strony WWW repozytorium. Repozytoria dlibra mogą także współpracować z innymi systemami internetowymi przy użyciu otwartych standardów komunikacyjnych takich jak: OAI-PMH (patrz Lagoze, 2004), kanały RSS. System dlibra składa się z trzech podstawowych elementów: Serwer biblioteki cyfrowej odpowiedzialny za realizację wszystkich funkcji biblioteki, uruchomiony na dedykowanym komputerze (lub kilku komputerach), niedostępny bezpośrednio dla użytkowników, Aplikacja redaktora i administratora pozwala użytkownikom tworzącym repozytorium cyfrowe (wprowadzającym obiekty cyfrowe, opisującym je itp.) oraz administratorom na korzystanie z funkcji repozytorium, Aplikacja czytelnika dostępna poprzez strony WWW, pozwala użytkownikom ( czytelnikom ) korzystać z zasobów zgromadzonych w repozytorium cyfrowym. Jedną z podstawowych funkcji oprogramowania dlibra jest przechowywanie obiektów cyfrowych. W ramach tego zadania system dlibra udostępnia takie mechanizmy jak: planowanie wprowadzania obiektów cyfrowych, grupowanie powiązanych obiektów w większe struktury, zarządzanie wersjami obiektów cyfrowych

460 A. Dudczak, M. Heliński, C. Mazurek, T. Parkoła, M. Werla oraz tworzenie kolekcji powiązanych ze sobą obiektów (patrz Mazurek, 2005). Jak wcześniej wspomniano, obiekty cyfrowe mogą być opisane przy użyciu zdefiniowanego zestawu metadanych. Poza metadanymi opisowymi w systemie dlibra istnieją również metadane techniczne (struktura obiektu, informacje o częściach składowych obiektu) oraz administracyjne (uprawnienia użytkowników do obiektu, lokalizacja oraz stan obiektu w repozytorium). Użytkownicy systemu dlibra, korzystający z zasobów repozytorium poprzez strony WWW, mają do dyspozycji wiele różnych funkcji takich jak: przeglądanie indeksów obiektów cyfrowych, analizę statystyk ich wykorzystania itp. Kluczową funkcją jest tu jednak funkcja wyszukiwania w lokalnych zasobach. Wyszukiwanie to odbywa się w metadanych opisowych obiektów cyfrowych oraz w treści tych obiektów, z których można ją wyodrębnić w postaci tekstowej (czyli np. dokumenty HTML czy PDF). Korzystając z zaawansowanego formularza wyszukiwania, możliwe jest określenie zakresu wyszukiwania oraz wykorzystanie wyrażeń logicznych do łączenia kilku zapytań prostych. Poza wyszukiwaniem w zasobach lokalnych system dlibra pozwala na przeszukiwanie metadanych opisowych obiektów, znajdujących się w innych (zdalnych) repozytoriach cyfrowych, wspierających otwarty standard wymiany metadanych OAI-PMH. Dzięki tej właściwości możliwe było utworzenie polskiej platformy bibliotek rozproszonych w sieci PIONIER, gdzie każde repozytorium udostępnia funkcję wyszukiwania zasobów rozproszonych z całej sieci bibliotek. Użytkownicy WWW mogą również przeglądać zasoby repozytorium, używając indeksów wartości z metadanych lub kolekcji obiektów cyfrowych. System dlibra opiera się na publicznie dostępnych standardach, umożliwiających integrację tego środowiska z innymi systemami informatycznymi. Jest to przede wszystkim wsparcie dla protokołu OAI-PMH, dzięki czemu każde repozytorium dlibra może zarówno pobierać informacje z innych repozytoriów OAI-PMH, jak i udostępniać informacje o swoich lokalnych zasobach. Poza protokołem OAI- PMH system dlibra umożliwia przeprowadzanie procesu uwierzytelniania przy użyciu zewnętrznych serwerów LDAP lub systemów Single Sign-On. Wiele informacji dostępnych na stronach WWW repozytorium dlibra jest dostępnych również w formie kanałów RSS, a mechanizm wyszukiwawczy ma dodatek w formacie Open Search. 3. Architektura systemu dlibra Jak wspomniano wcześniej, system dlibra jest systemem wielowarstwowym, w którym możemy wyróżnić trzy podstawowe moduły: Moduł dlibra Serwer, Moduł dlibra Redaktor, Moduł dlibra Czytelnik. Na Rys. 1 przedstawiono schemat architektury systemu dlibra. Moduł dlibra Serwer (oznaczony linią przerywaną) jest podstawową jednostką systemu dlibra,

dlibra platforma do budowy repozytoriów cyfrowych 461 Rysunek 1. Schemat architektury systemu dlibra w skład której wchodzi szereg powiązanych ze sobą usług, odpowiedzialnych za poszczególne funkcje całego systemu. Usługi modułu dlibra Serwer można podzielić na dwa rodzaje: funkcjonalne oraz wspierające. Usługi funkcjonalne (Metadata, Content, User, Search i Distributed Search) odpowiedzialne są za wszystkie funkcje wykonywane przez serwer. Usługi wspierające (Event i System Services) udostępniają mechanizmy odkrywania, uwierzytelniania usług oraz komunikacji między nimi. Każda z usług systemu dlibra może być uruchomiona na osobnym komputerze (serwerze) lub też usługi te mogą być łączone w grupy. Dodatkowo każda z usług systemu dlibra wymaga do swojego działania relacyjnej bazy danych. Usługi mogą współdzielić między sobą jedno konto bazy danych, ale mogą też korzystać z odrębnych baz danych, uruchomionych na osobnych serwerach (patrz Mazurek, 2005). Dwa pozostałe moduły stanowią interfejs użytkownika systemu dlibra. Moduł dlibra Czytelnik (aplikacja WWW) uruchamiany jest na dedykowanym komputerze, a jego zadaniem jest obsługa czytelników korzystających z zasobów repozytorium poprzez strony WWW. W celu realizacji swoich zadań moduł dlibra Czytelnik komunikuje się z modułem dlibra Serwer oraz z systemem Single Sign-On, jeśli repozytorium zintegrowane jest z takim systemem. Moduł dlibra Redaktor jest

462 A. Dudczak, M. Heliński, C. Mazurek, T. Parkoła, M. Werla programem okienkowym, który uruchamiany jest na komputerach użytkowników wprowadzających zasoby do repozytorium lub zarządzających całym repozytorium. Moduł ten, w celu wykonywania wszelkich operacji na repozytorium, komunikuje się z modułem dlibra Serwer. 4. Zaawansowane mechanizmy systemu dlibra System dlibra posiada zaawansowane mechanizmy zarządzania obiektami cyfrowymi. Wśród najważniejszych mechanizmów można wyróżnić: mechanizm zarządzania metadanymi obiektów cyfrowych wraz z obsługą wielojęzyczności oraz wyrazów bliskoznacznych, mechanizmy pozwalające na łatwą integrację systemu dlibra z innymi systemami informatycznymi oraz mechanizm wymiany metadanych opisowych. 4.1. Mechanizm zarządzania metadanymi Obiekty cyfrowe w repozytorium dlibra mogą być opisane przy użyciu zdefiniowanego w ramach konkretnej instalacji schematu metadanych. Schemat metadanych w systemie dlibra jest hierarchiczny. Każdy element schematu nazywany jest atrybutem. Atrybutami mogą być przykładowo: tytuł, podtytuł, autor, data wydania itd. Jako że schemat metadanych zorganizowany jest hierarchicznie, każdy atrybut jest węzłem, który może posiadać atrybuty podrzędne (np. atrybut identyfikator może mieć podatrybuty URI, ISBN, ISSN i DOI, wykorzystywane zależnie od kontekstu danego obiektu cyfrowego). Atrybuty podrzędne rozdzielają zakres atrybutu nadrzędnego na mniejsze obszary, dlatego wszystkie wartości przypisane do atrybutów podrzędnych są automatycznie dodawane do wartości atrybutu nadrzędnego. Schemat metadanych (drzewo atrybutów) może być dowolnie modyfikowany przez administratora systemu, przy czym domyślnie wprowadzonym schematem jest schemat Dublin Core w wersji 1.1 (patrz NISO, 2003). Schemat metadanych definiowany jest na poziomie całego repozytorium, dlatego każdy obiekt cyfrowy opisany jest przy użyciu tego samego zestawu metadanych (zestawu atrybutów). Każdy atrybut zdefiniowany w schemacie metadanych posiada odrębny słownik wartości. Słownik ten tworzony jest automatycznie na podstawie wartości tego atrybutu, występujących w metadanych zgromadzonych obiektów cyfrowych, ale może być również uzupełniony dodatkowymi wartościami przez administratorów systemu. Wartości występujące w słowniku mogą być grupowane, tworząc tzw. grupy wartości. Każda grupa wartości może zawierać jedną lub więcej wartości z słownika, przy czym w każdej grupie musi znajdować się dokładnie jedna wartość bazowa, która identyfikuje grupę. W słowniku wartość bazowa może wystąpić tylko raz. Grupy wartości służą do definiowania grup wyrazów bliskoznacznych, które wykorzystywane są podczas procesu wyszukiwania uruchamianego przez użytkownika repozytorium. Zapytanie użytkownika rozbudowywane jest poprzez dodanie wszystkich wartości z grupy, do której należy wartość z zapytania, jako alternatywne do wartości z zapytania. Aby ułatwić tworzenie słowników atrybutów, podczas wprowadzania opisu obiektu cyfrowego, system dlibra automatycznie dodaje nowe wartości do słownika, tworząc dla każdej nowej wartości

dlibra platforma do budowy repozytoriów cyfrowych 463 grupę wartości, w której znajduje się tylko ta nowa wartość. Słownikami wartości atrybutów można zarządzać wykorzystując moduł dlibra Redaktor. Zarządzanie słownikami obejmuje między innymi: tworzenie nowych grup wartości, tworzenie nowych wartości, przenoszenie wartości z jednej grupy do innej, modyfikację wartości. Przez to że opisy obiektów powiązane są z wartościami w słowniku, każda modyfikacja wykonana na słowniku wpływa na opisy obiektów, które wykorzystują modyfikowaną wartość lub wartości. Takie podejście pozwala zarządzać i kontrolować wartości wykorzystywane w opisach obiektów na poziomie całego repozytorium. Obiekty cyfrowe w systemie dlibra mogą być opisywane metadanymi w różnych językach. Efektem jest to, że dany atrybut posiada tak naprawdę kilka słowników wartości jeden słownik dedykowany jednemu językowi. Zestaw wykorzystywanych języków definiowany jest na poziomie całego systemu, przez co każdy obiekt cyfrowy w repozytorium może być opisany we wszystkich zdefiniowanych językach. Słownikiem danego języka zarządza się niezależnie od słowników dla innych języków. Dodatkowo w systemie zdefiniowany jest specjalny język uniwersalny. Język ten widoczny jest tylko dla użytkowników wprowadzających zasoby i ma na celu przyspieszenie pracy przy wprowadzaniu metadanych obiektu. Wszystkie wartości wprowadzone w jezyku uniwersalnym dla konkretnego obiektu, dodawane są automatycznie do metadanych tego obiektu w innych językach. Jeśli zatem istnieją wartości metadanych, które powinny być wprowadzone we wszystkich językach, np. identyfikator w systemie zewnętrznym to wystarczy wprowadzić je w języku uniwersalnym. 4.2. Integracja systemu dlibra z innymi systemami informatycznymi Podstawowym mechanizmem pozwalającym na integrację repozytorium dlibra z innymi systemami informatycznymi jest mechanizm wymiany metadanych, wykorzystujący protokół OAI-PMH. System dlibra w pełni wspiera ten protokół, działając zarówno jako repozytorium (ang. repository) oraz klient (ang. harvester) OAI-PMH. Jako repozytorium OAI-PMH system dlibra udostępnia metadane opisowe obiektów cyfrowych, które przechowuje. Metadane mogą być prezentowane w schemacie Dublin Core 1.1 oraz w schemacie konkretnej instalacji systemu dlibra. Dodatkowo każda kolekcja obiektów cyfrowych utworzona w konkretnej instalacji systemu dlibra prezentowana jest poprzez protokół OAI-PMH jako zdefiniowany zbiór obiektów. Dostęp do tych metadanych jest otwarty, co oznacza że każdy inny system informatyczny może z nich korzystać bez żadnych ograniczeń. Jako klient OAI-PMH system dlibra może pobierać metadane obiektów cyfrowych z innych repozytoriów OAI-PMH. Lista repozytoriów OAI-PMH z których mają być pobierane metadane definiowana jest przez administratora systemu. Wszystkie metadane obiektów pobierane przez system dlibra z innych repozytoriów są przetwarzane (indeksowane), przez co mogą być przeszukiwane przez czytelników stron WWW repozytorium dlibra. Użytkownicy, którzy wprowadzają obiekty cyfrowe do repozytorium, mogą korzystać z mechanizmu automatycznego importu metadanych, zapisanych w innym formacie niż ten zdefiniowany w systemie dlibra. Import metadanych możliwy

464 A. Dudczak, M. Heliński, C. Mazurek, T. Parkoła, M. Werla Rysunek 2. Zależności między metadanymi, językami oraz atrybutami jest z następujących formatów: format komunikacyjny MARC 21, BibTeX, XML. W ramach XML możliwe jest importowanie opisów z szeregu konkretnych formatów, które wykorzystują standard XML jako formę prezentacji danych. Mechanizm importu metadanych bazuje na wtyczkach (ang. plugins), dzięki czemu w łatwy sposób można dołączyć do systemu wsparcie importu z innych formatów metadanych. Wtyczki udostępniane domyślnie w repozytorium dlibra są w pełni konfigurowalne, przez co mogą być w łatwy sposób zaadaptowane do konkretnych potrzeb określonej instytucji. Użytkownicy, którzy korzystają z zasobów repozytorium dlibra, mają do dyspozycji (poza stronami WWW) szereg informacji udostępnianych w formie kanałów RSS. Kanały RSS dostępne w repozytoriach dlibra zawierają informacje takie jak: lista ostatnio dodanych obiektów cyfrowych do repozytorium, lista planowanych obiektów cyfrowych (obiektów które mają być lub są w trakcie digitalizacji) oraz ostatnio dodane wiadomości na stronach repozytorium. Informacje znajdujące się w kanałach RSS mogą być także wykorzystywane przez inne systemy informatyczne (np. przez systemy agregujące informacje z różnych źródeł). 4.3. Sieć bibliotek cyfrowych w Polsce Zrealizowanie zaawansowanych mechanizmów udostępniających obiekty cyfrowe znajdujące się w repozytoriach sieci PIONIER możliwe było w oprogramowaniu

dlibra platforma do budowy repozytoriów cyfrowych 465 dlibra dzięki wykorzystaniu protokołu OAI-PMH. Obecnie w sieci PIONIER uruchomionych jest około 20 repozytoriów cyfrowych opartych na oprogramowaniu dlibra, które tworzą polską platformę repozytoriów cyfrowych. Łącznie platforma ta zawiera obecnie ponad 80 000 obiektów cyfrowych. Każde repozytorium oparte o oprogramowanie dlibra aktualizuje okresowo oraz przyrostowo metadane obiektów znajdujących się w pozostałych repozytoriach. W efekcie każde repozytorium dlibra posiada informacje o metadanych wszystkich obiektów cyfrowych znajdujących się w całej sieci repozytoriów. Bazując na tym procesie, każde repozytorium dlibra udostępnia wyszukiwanie w opisach obiektów cyfrowych rozproszonych w całej sieci połączonych repozytoriów. Użytkownicy końcowi repozytorium otrzymują jedną listę wyników, na której zasoby zdalne są specjalnie oznaczonymi hiperłączami i wskazują na konkretne obiekty w ich oryginalnych repozytoriach (patrz Mazurek, 2006). W oparciu o wyszukiwanie zasobów rozproszonych zrealizowany został mechanizm dynamicznych kolekcji, który uzupełnia statycznie definiowane kolekcje. Statyczne kolekcje definiowane są przez administratorów systemu dlibra. Aby dany obiekt należał do kolekcji statycznej, użytkownik tworzący go, musi takie powiązanie wprost zdefiniować. Kolekcje dynamiczne bazują na zupełnie innym podejściu. Kolekcja dynamiczna definiowana jest indywidualnie przez użytkownika stron WWW dla jego potrzeb. Jest to zbiór obiektów cyfrowych, których metadane pasują do zdefiniowanego przez użytkownika zapytania wyszukiwawczego. Wyniki takiego zapytania stanowią kolekcję dynamiczną. Jeżeli w platformie repozytoriów pojawi się nowy obiekt cyfrowy, propaguje się on przez wszystkie repozytoria i automatycznie trafia do tych kolekcji dynamicznych, których zapytanie pasuje do jego metadanych. Kolekcje dynamiczne mogą być subskrybowane jako kanały RSS lub wyświetlane na stronie WWW repozytorium jako wyniki wyszukiwania pod specjalnie przygotowanym adresem WWW. Obydwa wyżej opisane mechanizmy bazują na protokole wymiany metadanych OAI-PMH. Aby taka wymiana mogła nastąpić, wymagany był mechanizm unikalnej i trwałej w czasie identyfikacji obiektu. W systemie dlibra mechanizm ten zrealizowany został poprzez wykorzystanie formatu OAI identifier (patrz Lagoze, 2006). Format OAI identifier specyfikuje sposób konstruowania unikalnych identyfikatorów zasobów, znajdujących się w repozytoriach OAI-PMH. Wymaganiem tego formatu jest to, aby identyfikatory w ramach konkretnego repozytorium były unikalne. Składnia formatu OAI identifier jest ograniczeniem składni URI (patrz Berners-Lee, 1998). Identyfikator OAI składa się z schematu oai wskazującego na to, iż jest to identyfikator OAI, identyfikatora w przestrzeni nazw repozytoriów (będącego najczęściej nazwą domenową adresu WWW repozytorium) oraz identyfikatora lokalnego obiektu w konkretnym repozytorium. Przykładowy identyfikator OAI to oai:www.wbc.poznan.pl:234, gdzie oai to schemat identyfikatora, ciąg znaków www.wbc.poznan.pl to identyfikator w przestrzeni nazw repozytoriów, a 234 to identyfikator lokalny obiektu w repozytorium. Identyfikatory OAI mogą być również używane przez czytelników, jako identyfikatory do obiektów cyfrowych. Protokół OAI-PMH jest publicznie dostępnym, otwartym standardem, który wykorzystywany jest przez wiele różnych systemów repozytoriów cyfrowych. Me-

466 A. Dudczak, M. Heliński, C. Mazurek, T. Parkoła, M. Werla tadane dostępne poprzez protokół OAI-PMH w repozytoriach dlibra mogą zatem być wykorzystywane przez inne systemy wspierające protokół OAI-PMH, co więcej, systemy te mogą być również dołączone do platformy bibliotek cyfrowych w sieci PIONIER. 5. Zakończenie Oprogramowanie dlibra wykorzystywane jest przez wiele instytucji naukowych oraz publicznych w Polsce. Pozwala ono na budowanie skalowalnych, elastycznych oraz wygodnych w użyciu repozytoriów cyfrowych. Repozytoria dlibra posiadają zaawansowane mechanizmy zarządzania przechowywanymi obiektami oraz informacjami, które są z nimi powiązane. W Polsce repozytoria utworzone na bazie oprogramowania dlibra tworzą polską platformę repozytoriów cyfrowych, która udostępnia zaawansowane usługi związane z obiektami w platformie takie jak wyszukiwanie zasobów rozproszonych czy dynamiczne kolekcje obiektów. Pomimo rozbudowanych możliwości, oprogramowanie dlibra jest stale udoskonalane na podstawie zebranych doświadczeń użytkowników oraz przeprowadzanych badań. Obecnie prowadzone są badania, które mają na celu identyfikację podstawowych usług repozytoriów cyfrowych oraz zdefiniowanie mechanizmów ich współdziałania oraz kompozycji. W najbliższym czasie rozwój oprogramowania dlibra będzie również koncentrował się na technologiach Web 2.0, pozwalając czytelnikom wspomagać tworzenie czy opisywanie zasobów repozytorium. W planach rozwoju oprogramowania dlibra uwzględnione są również prace związane z problemem długoterminowego przechowywania obiektów. Literatura Berners-Lee, T. (1998) Uniform Resource Identifiers (URI): Generic Syntax, RFC 2396. The Internet Society. http://www.ietf.org/rfc/rfc2396.txt Lagoze, C. and Van de Sompel, H. (2004) Lagoze, C. and Van de Sompel, H. (2006) Specification and XML Schema for the OAI Identifier Format. Open Archives Initiative. http://www.openarchives.org/oai/2.0/ guidelines-oai-identifier.htm Mazurek, C. and Werla, M. (2005) Digital Object Lifecycle in dlibra Digital Library Framework. Proceedings of DELOS 9th Thematic Workshop: Digital Repositories. Kreta. Mazurek, C. and Werla, M. (2005) Distributed Services Architecture in dlibra Digital Library Framework. Proceedings of 8th International Workshop of the DELOS Network of Excellence on Digital Libraries on Future Digital Library Management Systems. DELOS.

dlibra platforma do budowy repozytoriów cyfrowych 467 Mazurek, C., Stroinski, M., Werla, M. and Węglarz J. (2006) Metadata harvesting in regional digital libraries in PIONIER Network. Proceedings of TERENA Networking Conference 2006. Włochy. NISO (2003) Information and documentation - The Dublin Core metadata element set, ISO Standard 15836-2003. NISO. The Open Archives Initiative Protocol for Metadata Harvesting. Open Archives Initiative. http://www.openarchives.org/oai/openarchivesprotocol.html. dlibra platform for building digital libraries This article describes the dlibra software platform for building digital libraries developed by Poznan Supercomputing and Networking Center. This article includes description of the most important functionality of the dlibra system, its architecture and core modules. Article describes advanced mechanisms which dlibra software provides such as management of digital objects metadata, integration of the dlibra system with other systems and mechanisms based on open metadata exchange protocol which is used by dlibra software installations in Poland.