Obiekty Badawcze długoterminowe przechowywanie eksperymentów naukowych Piotr Hołubowicz, Raúl Palma Poznańskie Centrum Superkomputerowo-Sieciowe
Plan prezentacji» Przechowywanie eksperymentów naukowych» Obiekty badawcze» Struktura» Cykl życia» Narzędzia Wf4Ever» Dalsze kierunki prac» Pytania? 2
Wstęp Procesy obliczeniowe w dzisiejszej nauce» Badania naukowe prowadzone są w sposób coraz bardziej zinformatyzowany» Coraz więcej danych zdigitalizowanych, dostępnych w sieci» Digitalizacji zaczynają podlegać także metody powstają cyfrowe eksperymenty in silico» Nowe obiekty cyfrowe to nowe możliwości, ale i wyzwania Surowe dane Wyniki Proces obliczeniowy 3
Wstęp Workflow zautomatyzowany przepływ pracy Typowym przykładem automatyzacji metod są przepływy pracy (ang. workflow)» Naukowy przepływ pracy to precyzyjna, wykonywalna specyfikacja procedury naukowej sekwencji operacji na danych» Każda operacja reprezentuje proces obliczeniowy» Może być realizowany przez zewnętrzną usługę sieciową» Może używać zewnętrznych źródeł danych dostępnych w sieci 4
Przechowywanie eksperymentów naukowych Wyzwania 1/3 Wyzwania związane z zależnością od zewnętrznych zasobów» Zmiany w zewnętrznych zasobach» Różne wyniki w różnych momentach» Błędy w działaniu» Starzenie się (ang. decay) eksperymenty cyfrowe z czasem mogą przestać działać lub działać inaczej w wyniku zmian w zasobach zewnętrznych zarządzanych przez strony trzecie. Proces ten w mniejszym stopniu dotyczy także zależności od zasobów lokalnych. 5
Przechowywanie eksperymentów naukowych Wyzwania 2/3 Wyzwania związane z cyklem życia obiektów Kristina Hettne» Cyfrowy eksperyment przechodzi przez różne fazy, jego struktura podlega ciągłym zmianom.» Może być tworzony przez więcej niż jedną osobę autor, współpracownik, recenzent, promotor, itp. 6
Przechowywanie eksperymentów naukowych Wyzwania 3/3 Wyzwania związane ze złożoną strukturą obiektów Naukowcy Hipoteza Obiekt badawczy Eksperymenty Anotacje Dokumenty elektroniczne Historia Dane Wyniki 7
Obiekt badawczy jest jak klepsydra Protokoły i usługi specyficzne dla aplikacji Protokoły i usługi wizualizacji, publikacji Historia, wersjonowanie, profile Specyfikacja struktury Usługi wymiany danych (zależne od medium) Usługi przechowywania (zależne od medium)
Obiekty badawcze Struktura Podstawowa struktura jest opisana przez słowniki opisujące agregacje oraz anotacje http://wf4ever.github.com/ro/ 9 9
Obiekty badawcze Struktura Wyniki Workflow_16 Zawarte w Generuje QTL Logi Metadane Generuje Jest wejście dla Jest częścią Zawarty w Jest częścią Opublikowany w Prezentacj e Generuje Opublikowane w Paper Common pathways Workflow_13 Wyniki Zrozumienie pochodzenia i znaczenia poszczególnych elementów obiektów badawczych jest kluczowe dla zrozumienia, porównania i analizy metod badawczych oraz możliwości weryfikacji poprawności całego eksperymentu 10
Obiekty badawcze Cykl życia Live RO Live RO Naukowiec Mój opiekun prosi o raport z bieżących prac Mój opiekun decyduje o publikacji eksperymentu Po ocenach, wersja finalna Nowy student kontynuuje eksperyment <<kopiuj>> <<kopiuj>> <<kopiuj, filtruj i monitoruj>> <<kopiuj>> <<versionof>> Naukowiec RO snapshot RO snapshot <<wersja>> Bibliotekarz/kurator Identyfikowany przez URI Częściowe metadane Częściowe monitorowanie Prywatny / wewnętrzny Identyfikowany przez URI Częściowe metadane Częściowe monitorowanie Prywatny / wewnętrzny Archived RO Identyfikowany przez URI Dobre metadane Pełne monitorowanie Publiczny 11
Usługi zbudowane wokół obiektów badawczych Projekt Wf4Ever Aplikacje końcowe RO-Enabled RO Portal RO Manager Tool Collaboration Spheres Usługi zarządzania i analizy danych Checklist Evaluation Stability Evaluation Recommender Workflow Abstraction WF-RO Transformation Usługi przechowywania Usługi cyklu życia RO Digital Library RO Digital Library Workflow Runner 12
Research Object Digital Library Podgląd obiektu badawczego 13
Research Object Digital Library Wyszukiwanie obiektów badawczych 14
Checklist Evaluation Service Sprawdzanie jakości obiektu badawczego» Weryfikacja zgodności obiektu z przygotowanym profilem» Zarówno profile, jak i metadane obiektu badawczego są semantyczne, tj. łatwe do rozszerzania i aktualizowania 15
Decay Monitoring Service Monitorowanie jakości obiektu badawczego» Regularne monitorowanie jakości obiektów badawczych» Informacje o zmianach w obiektach oraz w zależnych zasobach» Powiadomienia użytkowników 16
Workflow Runner Service Uruchamianie workflowu jako usługa» Możliwość uruchomienia workflowu na serwerze» Wyniki i dane tymczasowe udostępniane na serwerze» Opis przebiegu wykonania zapisany w postaci metadanych semantycznych 17
Workflow Abstraction Service Analiza statystyczna workflowów oraz rekomendacje» Usługa przeszukuje zapisy wykonania workflowów i analizuje występowanie sekwencji tych samych elementów» Pozwala proponować kolejne kroki przy budowaniu workflowów 18
Obiekty badawcze w praktyce Demo http://sandbox.wf4ever-project.org/portal 19
Podsumowanie Dotychczasowe rezultaty i plany na przyszłość» Obiekty badawcze stanowią model specyfikacji złożonych, dynamicznych obiektów cyfrowych, w szczególności eksperymentów naukowych» Modele obiektów badawczych już w tej chwili są przedmiotem standaryzacji (W3C, Open Annotation Data Model) oraz analiz ze strony projektów badawczych (myexperiment, BioVel, ) oraz komercyjnych (GigaScience, Dryad, )» Usługi Wf4Ever demonstrują korzyści wynikające ze stosowania ustandaryzowanych modeli metadanych semantycznych» Wsparcie dla obiektów badawczych będzie stopniowo dodawane do istniejących usług PCSS w zakresie przechowywania i publikowania obiektów cyfrowych» W oparciu o dotychczasowe doświadczenia ze współpracy z biologami i astronomami, planujemy przechowywać i wspierać obiekty także z innych dziedzin zapraszamy do współpracy! 20
Pytania? piotrhol@man.poznan.pl http://www.wf4ever-project.org/ http://www.man.poznan.pl/
Podziękowania Zespół Wf4Ever EU Wf4Ever project (270129) funded under EU FP7 (ICT- 2009.4.1). (http://www.wf4ever-project.org) 22