2 0 0 8. I N F O R M A C J A D L A N A U K I A ŚWIAT ZASOBÓW C Y F R O W Y C H Cezary Mazurek mazurek@man.poznan.pl Maciej Stroiński stroins@man.poznan.pl Marcin Werla mwerla@man.poznan.pl Jan Węglarz weglarz@man.poznan.pl Nowoczesne biblioteki cyfrowe w środowisku rozproszonych usług atomowych Modern digital libraries in the environment of distributed atomic services Abstrakt Niniejszy referat przedstawia rezultaty projektu badawczego "Mechanizmy usług atomowych dla rozproszonych bibliotek cyfrowych" finansowanego przez MNiSW (nr projektu: 3 T11C 023 30). W ramach tego projektu przeanalizowano popularne systemy i modele bibliotek cyfrowych, a następnie na podstawie tej analizy podzielono funkcjonalność biblioteki cyfrowej na cztery atomowe usługi. Usługi te są odpowiedzialne za przechowywanie treści obiektów cyfrowych, przechowywanie metadanych, przechowywanie powiązań między obiektami cyfrowymi oraz wyszukiwanie obiektów cyfrowych. W ramach projektu opracowano model danych i protokoły komunikacyjne, pozwalające na korzystanie z biblioteki cyfrowej opartej na tych usługach. Praktyczną implementacją wyników badawczych wspomnianego projektu jest działająca w sieci PIONIER od czerwca 2007 roku Federacja Bibliotek Cyfrowych (FBC). W referacie, poza wspomnianymi rezultatami projektu badawczego, przedstawiono główne funkcje serwisu FBC przeznaczone dla czytelników oraz dla instytucji udostępniających zasoby cyfrowe. Omówiono też dalsze kierunki rozwoju FBC. Słowa kluczowe biblioteki cyfrowe; usługi atomowe; systemy rozproszone; Federacja Bibliotek Cyfrowych; agregacja metadanych; protokoły komunikacyjne Abstract This paper presents results of a research project titled Mechanisms of atomic services for distributed digital libraries funded by the Polish Ministry of Science and Education (grant number: 3 T11C 023 30). Within this project popular models and systems of digital libraries were analysed. On the basis of this analysis the functionality of a digital library system was divided into four atomic services. These services are responsible for storing the content of digital objects, storing objects metadata, storing relations between digital objects, and searching these objects.moreover, the data models and protocols were developed allowing the creation of a digital library based on atomic services. Practical implementation of project results is the PIONIER Network Digital Libraries Federation (DLF) service available since June 2007. In this
Nowoczesne biblioteki cyfrowe w środowisku rozproszonym usług atomowych 3 paper, besides of the research project results, also the main functionality of the DLF is described, both for digital library readers and for institutions making their digital resources available online. Finally, further directions of the DLF development are pointed out. Keywords digital libraries; atomic services; distributed systems; Digital Libraries Federation; metadata aggregation; communication protocols 1. Wstęp Największa obecnie biblioteka cyfrowa w Polsce, Wielkopolska Biblioteka Cyfrowa (WBC), dostępna publicznie od października 2002 roku, powstała jako efekt współpracy poznańskiego środowiska naukowego, a w szczególności Poznańskiej Fundacji Bibliotek Naukowych (PFBN), Biblioteki Kórnickiej PAN (BK PAN) oraz Poznańskiego Centrum Superkomputerowo-Sieciowego (PCSS). Działania związane z powstaniem tej biblioteki, zdobyte przy tym doświadczenie oraz opracowane oprogramowanie (system dlibra), okazały się istotnym przyczynkiem do powstawania kolejnych bibliotek cyfrowych w Polsce. Biblioteki te początkowo powstawały w tempie kilku rocznie, jednak ich stały i konsekwentny rozwój oraz działania wspierające, takie jak współorganizowane od 2004 roku przez PCSS i PFBN cykliczne warsztaty Biblioteki cyfrowe 1, doprowadziły do widocznego w ostatnich dwóch latach znacznego wzrostu liczby inicjatyw mających na celu utworzenie nowych bibliotek cyfrowych. Liczba bibliotek cyfrowych dostępnych w Polsce pod koniec 2007 roku (17) wzrosła o prawie 200% w stosunku do analogicznej liczby z końca roku 2005 (6). Według obecnych szacunków pod koniec roku 2008 publicznie dostępnych będzie około 35 bibliotek cyfrowych. Oznacza to ponad 100% przyrost pomiędzy rokiem 2007 i 2008. Tak intensywna rozbudowa infrastruktury bibliotek cyfrowych w Polsce stała się podstawą do rozpoczęcia przez PCSS prac badawczych, dotyczących architektury usług sieciowych w środowisku rozproszonych bibliotek cyfrowych. Prace te realizowane były m.in. w ramach projektu zatytułowanego "Mechanizmy usług atomowych dla rozproszonych bibliotek cyfrowych" finansowanego przez MNiSW (nr projektu: 3 T11C 023 30). Rezultaty tych prac opisane zostały w rozdziale 2 niniejszego artykułu. Rozdział 3 przedstawia praktyczną implementację koncepcji opracowanej w ramach wspomnianego projektu badawczego, czyli dostępną od czerwca 2007 roku Federację Bibliotek Cyfrowych. Artykuł kończy podsumowanie i opis kierunków dalszych prac. 2. Usługi atomowe dla rozproszonych bibliotek cyfrowych Głównym celem projektu badawczego Mechanizmy usług atomowych dla rozproszonych bibliotek cyfrowych było opracowanie spójnego zestawu otwartych protokołów dla atomowych usług bibliotek cyfrowych, które 1 Warsztaty Biblioteki cyfrowe [online] [dostęp 1 września 2008]. Dostępny w Internecie: <http://dl.psnc.pl/warsztaty>.
4 Cezary Mazurek, Maciej Stroiński, Marcin Werla, Jan Węglarz umożliwią dostęp do pełnej funkcjonalności, oferowanej obecnie przez różne systemy bibliotek cyfrowych. Pierwszym etapem projektu była analiza najpopularniejszych modeli i systemów bibliotek cyfrowych właśnie pod kątem dostępnej w nich funkcjonalności 2. Miało to na celu wydzielenie z zakresu funkcjonalnego bibliotek cyfrowych spójnych grup funkcjonalnych, które następnie zostaną przekształcone w usługi atomowe. Ostatecznie zdefiniowano następujące usługi atomowe 3 : usługa przechowywania obiektów cyfrowych przechowuje i wersjonuje treść obiektów cyfrowych dowolnego typu, składających się z jednego lub wielu strumieni danych; usługa przechowywania metadanych pozwala na opisywanie obiektów cyfrowych o złożonej strukturze metadanymi w wielu różnych schematach, skojarzonymi z dowolnymi poziomami struktury opisywanych obiektów; usługa kompozycji i relacji obiektów cyfrowych pozwala na tworzenie relacji pomiędzy obiektami cyfrowymi lub elementami ich struktury oraz na tworzenie grup powiązanych obiektów; usługa wyszukiwania obiektów cyfrowych umożliwia przeszukiwanie zbioru obiektów cyfrowych danego typu lub zbioru metadanych o określonym formacie. Dla tych usług zdefiniowano model danych oraz wykorzystujące go interfejsy 4, zaprojektowane zgodnie z podejściem ROA 5 (ang. resource-oriented architecture, tj. architektura zorientowana na zasoby). Takie podejście umożliwia tworzenie systemów informatycznych o dwupoziomowej architekturze, w których usługi aplikacyjne funkcjonują na podstawie mechanizmów usług atomowych. Schematycznie przedstawia to rysunek 1 widoczny poniżej. 2 Dudczak, A.; Heliński, M.; Mazurek, C.; Parkoła T.; Werla, M. Analiza funkcjonalności wybranych modeli i systemów zarządzania bibliotekami cyfrowymi. W: Zeszyty Naukowe Wydziału ETI Politechniki Gdańskiej. Technologie Informacyjne. Gdańsk : Wydawnictwo Politechniki Gdańskiej, 2007, s. 407-416. ISBN 978-83- 60779-01-9. V Krajowa Konferencja Technologie Informacyjne, Gdańsk, 20-23 maj, 2007. 3 Mazurek, C.; Parkoła, T.; Werla, M. Atomowe usługi w środowisku rozproszonych bibliotek cyfrowych. W: II Krajowa Konferencja Naukowa Technologie przetwarzania danych, Poznań, 24-26 wrzesień, 2007. Poznań : Wydawnictwo Politechniki Poznańskiej, 2007, s. 446-457. ISBN 978-83-7143-349-8. 4 Dudczak A.; Mazurek C.; Werla M. RESTful Atomic Services for Distributed Digital Libraries. W: 1st International Conference on Information Technology, Gdańsk, 18-21 maja, 2008. Gdańsk: s. 267 270. ISBN 978-1-4244-244-9. 5 Richardson, L.; Ruby, S. RESTful Web Services. O Reilly: 2007. ISBN 0-596-52926-0.
Nowoczesne biblioteki cyfrowe w środowisku rozproszonym usług atomowych 5 Rysunek 1. Dwupoziomowa architektura biblioteki cyfrowej działającej na podstawie usług atomowych Źródło: Opracowanie własne autorów Powyższy model został wykorzystany przy projektowaniu architektury Federacji Bibliotek Cyfrowych (FBC). W systemie tym na poziomie usług atomowych umiejscowione są m.in. dwie usługi przechowujące metadane. Pierwsza z nich odpowiada za metadane obiektów dostępnych w polskich bibliotekach cyfrowych, druga natomiast przechowuje dane obiektów przeznaczonych do digitalizacji. Dane te są automatycznie pobierane przy pomocy protokołu OAI-PMH z rozproszonych bibliotek cyfrowych, funkcjonujących w sieci PIONIER. Są one podstawą do działania zaawansowanych funkcji FBC, które omówiono w następnym punkcie artykułu. 3. Federacja Bibliotek Cyfrowych w sieci PIONIER Federacja Bibliotek Cyfrowych (http://fbc.pionier.net.pl/) to zaawansowana usługa sieciowa realizowana w oparciu o metadane opisujące zasoby polskich bibliotek cyfrowych. Główne cele FBC to 6: ułatwienie wykorzystania zasobów polskich bibliotek cyfrowych i repozytoriów; zwiększenie widoczności i popularyzacja zasobów polskich bibliotek cyfrowych i repozytoriów w internecie; udostępnienie użytkownikom i twórcom bibliotek cyfrowych nowych, zaawansowanych usług sieciowych opartych na zasobach polskich bibliotek cyfrowych i repozytoriów. Cele te są realizowane przy założeniu, iż nie ma potrzeby ani konieczności przekazywania zasobów cyfrowych na rzecz FBC, aby były one poprzez FBC widoczne. Nie ma również opłat za korzystanie z FBC, ani za udostępnianie poprzez nią zasobów, a podstawą działania są otwarte standardy. Użycie otwartych standardów ma na celu umożliwienie przyłączanie bibliotek cyfrowych do FBC bez ograniczeń związanych z technologiami stosowanymi przez konkretnych dostawców oprogramowania. 6 Federacja Bibliotek Cyfrowych O Serwisie [online] [dostęp 1 września 2008]. Dostępny w Internecie: <http://fbc.pionier.net.pl/owoc/about?id=about-fbc>.
6 Cezary Mazurek, Maciej Stroiński, Marcin Werla, Jan Węglarz Rysunek 2. Strona główna Federacji Bibliotek Cyfrowych Źródło: http://fbc.pionier.net.pl/ Obecnie FBC obejmuje zasoby 25 bibliotek cyfrowych, dające razem około 165 tysięcy obiektów cyfrowych. Strona główna FBC widoczna jest na rysunku 2. Podstawowe funkcje FBC związane są z przeszukiwaniem gromadzonych metadanych, zarówno w sposób podstawowy, jak i przy pomocy zaawansowanych formularzy wyszukiwawczych. Ponadto w sekcji Digitalizacja serwisu WWW FBC dostępny jest raport zawierający listę publikacji przeznaczonych do digitalizacji w ramach poszczególnych bibliotek cyfrowych. Metadane na temat dostępnych zasobów cyfrowych i obiektów przeznaczonych do digitalizacji są wykorzystywane również w mechanizmie wykrywania duplikatów oraz zapobiegania ich powstawania. Dzięki temu mechanizmowi instytucje prowadzące biblioteki cyfrowe już na etapie planowania digitalizacji mogą w zautomatyzowany sposób wykluczyć z tych planów obiekty wcześniej zdigitalizowane w innych ośrodkach. Ponadto w FBC dostępne są również podstawowe statystyki na temat liczby gromadzonych zasobów oraz opisujących ich metadanych, a także szereg dodatków popularyzujących FBC i widoczne w niej zasoby. Przykładem takiego dodatku może być rozszerzenie wyszukiwawcze dla przeglądarek WWW opracowane w standardzie OpenSearch. Rozszerzenie to na przełomie czerwca i lipca 2008 roku zostało włączone w oficjalną polską dystrybucję przeglądarek Firefox 2 i 3 (patrz rysunek 3).
Nowoczesne biblioteki cyfrowe w środowisku rozproszonym usług atomowych 7 Rysunek 3. Dodatek wyszukiwawczy FBC włączony do polskiej edycji przeglądarki Firefox 3 Źródło: http://dl.psnc.pl/2008/06/17/ W efekcie łączna miesięczna liczba użytkowników FBC wzrosła z około 25 tysięcy (czerwiec 2008) do ponad 42 tysięcy (lipiec 2008). Poza wzrostem liczby użytkowników FBC z pewnością wzrosła również wśród polskich internautów świadomość istnienia polskich bibliotek cyfrowych. Dzięki wspomnianemu dodatkowi wyszukiwawczemu mogą oni korzystać z zasobów tych bibliotek równie łatwo jak wcześniej z wyszukiwarki Google, Wikipedii czy Encyklopedii PWN. 4. Zakończenie W niniejszym artykule opisano rezultaty projektu badawczego Mechanizmy usług atomowych dla rozproszonych bibliotek cyfrowych. Opracowany w ramach tego projektu model usług atomowych oraz elementy jego prototypowej implementacji, zrealizowane z wykorzystaniem techniki REST, zostały wykorzystane do stworzenia Federacji Bibliotek Cyfrowych nowoczesnej usługi sieciowej gromadzącej i przetwarzającej metadane, udostępniane przez polskie biblioteki cyfrowe. FBC ma na celu ułatwienie wykorzystania polskich zasobów cyfrowych, zwiększenie ich widoczności i popularyzację w Internecie oraz udostępnianie nowych zaawansowanych usług sieciowych, zarówno użytkownikom bibliotek cyfrowych jak i ich twórcom. Równolegle do dynamicznego rozwoju bibliotek cyfrowych w Polsce budowana była infrastruktura europejska, m.in. w ramach takich projektów jak: Minerva, Michael, The European Library czy TEL-ME-MOR. Obecnie większość inicjatyw i projektów europejskich związanych z bibliotekami cyfrowymi skupiona jest na tworzeniu Europeany, mającej stać się europejskim cyfrowym archiwum, muzeum i biblioteką. Serwis ten ma docelowo
8 Cezary Mazurek, Maciej Stroiński, Marcin Werla, Jan Węglarz udostępniać zasoby związane z historią, kulturą i nauką wszystkich krajów europejskich. Jest to moment niezwykle istotny dla polskich bibliotek cyfrowych moment, w którym niezbędne jest połączenie ich z Europeaną i wyniesienie polskich zasobów cyfrowych na poziom europejski. Jednym ze sposobów realizacji tego celu jest rozpoczęty w czerwcu 2008 roku projekt EuropeanaLocal 7, którego zadaniem jest włączenie zasobów lokalnych i regionalnych bibliotek cyfrowych do prototypu Europeany. Kluczową rolę w przypadku Polski będzie tu pełniła Federacja Bibliotek Cyfrowych, mająca w ciągu kilku najbliższych lat stać się pojedynczym punktem gromadzącym, porządkującym i przekazującym metadane, dotyczące polskich zasobów cyfrowych na potrzeby Europeany. Bibliografia [1] Warsztaty Biblioteki cyfrowe [online] [odczyt 1 września 2008]. Dostępny w Internecie: <http://dl.psnc.pl/warsztaty/>. [2] Dudczak, A.; Heliński, M.; Mazurek, C.; Parkoła, T.; Werla, M. Analiza funkcjonalności wybranych modeli i systemów zarządzania bibliotekami cyfrowymi. W:Zeszyty Naukowe Wydziału ETI Politechniki Gdańskiej. Technologie Informacyjne. Gdańsk: Wydawnictwo Politechniki Gdańskiej, 2007, s. 407-416. ISBN 978-83-60779-01-9. [3] Mazurek, C.; Parkoła,T.; Werla, M. Atomowe usługi w środowisku rozproszonych bibliotek cyfrowych. W: II Krajowa Konferencja Naukowa Technologie przetwarzania danych, Poznań, 24-26 wrzesień, 2007. Poznań : Wydawnictwo Politechniki Poznańskiej, 2007, s. 446-457. ISBN 978-83-7143-349-8. [4] Dudczak, A.; Mazurek, C.; Werla, M. RESTful Atomic Services for Distributed Digital Libraries. W: 1st International Conference on Information Technology, Gdańsk, 18-21 maja, 2008. Gdańsk, s. 267 270. ISBN 978-1-4244-244-9. [5] Richardson, L.; Ruby, S. RESTful Web Services. O Reilly : 2007. ISBN 0-596-52926-0. [6] Federacja Bibliotek Cyfrowych O Serwisie [online] [dostęp 1 września 2008]. Dostępny w Internecie: <http://fbc.pionier.net.pl/owoc/about?id=about-fbc>. [7] EuropeanaLocal Strona projektu [online] [dostęp 1 września 2008]. Dostępny w Internecie: <http://www.europeanalocal.eu/>. 7 EuropeanaLocal Strona projektu [online][dostęp 1 września 2008]. Dostępny w Internecie: <http://www.europeanalocal.eu>.