Zarządzanie danymi badawczymi Tomasz Psonka, Elsevier 05 czerwca 2017, IV Ogólnopolskie Seminarium użytkowników Uczelnianych Baz Wiedzy Politechnika Warszawska
Zarządzanie danymi badawczymi Dlaczego dane badawcze? Wpływ wymiany danych badawczych Kiedy mamy do czynienia z danymi badawczymi? Jak wygląda praktyka z danymi badawczymi? Elementy efektywnego korzystania z danych badawczych Narzędzia i programy wspierające korzystanie z danych badawczych Program łączący dane Standardy przemysłowe Wyszukiwanie informacji Notatniki badawcze (HiveBench) Repozytorium Danych (Mendeley Data) Data journals czasopisma publikujące zestawy danych Polityka danych badawczych
Dlaczego dane badawcze? 3
Wpływ wymiany danych: astronomia Wyciąg z Dziesięciu najważniejszych korzyści z udostępniania danych w astronomii, ze Sloan Digital Sky Survey: Wczesne udostępnianie danych znacznie poprawia finalny produkt, np. więcej osób patrząc na dane zwiększa szansę znalezienia subtelnych problemów, co jest szczególnie istotne dla misji kosmicznych z określonym czasem życia, np. Misja Gaja - Europejskiej Agencji Kosmicznej Więcej nauki jest ekstrahowane z tego samego zestawu danych, np Różnorodność pomysłów: wiele z najbardziej widocznych rezultatów SDSS było niespodziewane w pierwotnej propozycji projektu Czasami jedynym sposobem zabezpieczenia ograniczonych zasobów są najprostsze rozwiązania tzw. droga naprzód wymaga bardziej istotnego łączenia zasobów badawczych: HST Deep Field, UKIDSS, LSST Rezultatem była większa ilości cytowań czyli wpływ i prestiż dla Zespołu, który opracował dane, praktycznie wszyscy doktoranci z pierwszego etapu SDSS utrzymali swoje stanowiska wykładowców do dziś http://www.astro.washington.edu/users/ivezic/outreach/talks/nas2011_ivezic.pdf Željko Ivezić, Department of Astronomy, University of Washington - The Sloan Digital Sky Survey Telescope - Apache Point Observatory, NM With contributions from: Andy Connolly, Bob Hanisch, David Hogg, Mario Jurić, Andy Lawrence, Robert Lupton, Mathias Steinmetz, Michael Strauss, Alex Szalay, Tony Tyson, Roy Williams 4
Wpływ wymiany danych: nauki społeczne Kapitał w XXI wieku jest książką opublikowaną w 2013 przez francuskiego ekonomistę Thomasa Piketty. Koncentruje się ona na bogactwie i nierówności dochodów w Europie i Stanach Zjednoczonych od XVIII wieku Centralna teza jest taka, że kiedy stopa zwrotu z kapitału (r) jest większa niż tempo wzrostu gospodarczego (g) i to przez długi czas, to wynikiem jest koncentracja bogactwa, a nierówny podział bogactwa powoduje niestabilność społeczną i ekonomiczną Wszystkie surowe dane, znormalizowane dane, wszystkie analizy i metody zostały udostępnione publicznie na dedykowanej stronie internetowej Oto ogromne ilości informacji wyciągnięte z ewidencji podatkowych od spadków, zapisów, a także różnych innych dostępnych źródłach danych, określone w wykresach, które powinny być łatwo dostępne dla wszystkich czytelników. Nie wszystkie informacje zawarte w tych sekcjach są nowe lub zaskakujące. Mimo tego pozycja ta jest uznana jako cenna, ponieważ jest to wszystko w jednym miejscu, nawet większość zaciekłych krytyków tej książki szanuje to osiągnięcie. Pokazuje również że udostępnianie danych może prowadzić do problemów: Chris Giles, redaktor Financial Times (FT), twierdzi że zidentyfikowano "niewyjaśnione" błędy w danych Piketty, w szczególności w odniesieniu do wzrostu nierówności bogactwa od 1970 roku. "Zawierają szereg błędów, które wypaczają jego odkrycia Jako następstwo, Piketty napisał odpowiedź w obronie swoich odkryć, samo oskarżenie i odpowiedzi odbiły się szerokim echem w prasie Np. Scott Winship, socjolog z MIPR, twierdzi, że zarzuty nie są "istotne dla zasadniczej kwestii, czy teza Piketty jest słuszna czy nie" 5
Kiedy mówimy o danych badawczych? Procedury i/lub ustawienia urządzeń Skrypty i analizy Surowe dane Przetworzone dane Protokoły, metody, algorytmy Note: images for illustrative purpose only 6
Najczęściej postępowanie wygląda tak: Praca z przeciwciałami, i małymi fragmentami informacji, studenci prowadzą badania i tworzą notatki, Kierownik zespołu stara się to zrozumieć, i złożyć w całość. Koniec historii. 7
Najczęstsza praktyka: przechowywanie danych jest nadal bardzo rozdrobnione Researcher survey, 1202 respondents (PARSE.insight 2010) 3 8
Kiedy opuszczasz instytucję, co się dzieje z Twoimi danymi? Zostają w instytucji Zabieram je ze sobą Nie wiem Dane są stracone Inne Forschende und ihre Daten. Ergebnisse einer österreichweiten Befragung (ebook) E-infrastructures Austria Bauer, B. (Bruno) et all Oct 2015 https://phaidra.univie.ac.at/detail_object/o:407736
Czy Twoje dane badawcze są użyteczne dla innych? Często Tak Nie Forschende und ihre Daten. Ergebnisse einer österreichweiten Befragung (ebook) E-infrastructures Austria Bauer, B. (Bruno) et all Oct 2015 https://phaidra.univie.ac.at/detail_object/o:407736
10. Integracja w obie strony stworzyć tak metadane aby służyły do re-wykorzystania. 10 elementów dla efektywnych danych badawczych 9. Do ponownego użycia 8. Odtwarzalne 7. Zaufane(np. recenzja) Używanie 6. Zrozumiałe (opis/metoda jest dostępna) 5. Cytowalne 4. Znajdywalne (dane są indeks. lub powiązane z artykułem) 3. Dostępne 2. Zachowane (długoterminowo i niezależnie od formatu) 1. Przechowywane(istniejące w jakiejś formie) Zapisywanie Udostępnianie 11
Narzędzia i programy wspierające zarządzanie danymi badawczymi
Program łączenia danych Elsevier ma bogaty program z ponad 60 czołowymi repozytoriami danych, który ma na celu połączenia artykułów i danych Ułatwia to znalezienie odpowiednich danych i umieszczenia ich w odpowiednim kontekście Łączenie poprzez dostępne w artykule: liczby, dane DOI albo banery danych Łączenie przez nadane numery identyfikacyjne zestawów danych w artykule Banery z bazy danych pokazane obok artykułu na ScienceDirect Więcej: http://www.elsevier.com/databaselinking
Program łączenia danych przykład Pangea Supplementary data at PANGAEA Bidirectional links between PANGAEA & ScienceDirect Data visualized next to the article
Dane badawcze z grup roboczych zajmujących się badaniami i rozwojem standardów branżowych - przykład: www.scholix.org CEL: odejście od ICSU/WDS/RDA Grupa robocza dla usług publikowania danych Tworzenie modelu łączenia danych dla ekspozycji DOI do linków DOI, które łączy się poza firewallem wydawcy Połączone z programem pilotażowym Narodowe Usługi Danych o tym samym celu Współpraca pomiędzy: CrossRef, DataCite, Europe PubMed Central, ANDS, Thomson Reuters, Elsevier, OpenAire mnóstwo (w większości) porozumień dwustronnych między poszczególnymi graczami.. do.... jednej usługi łączenia/odsyłania dla wszystkich artykułów i danych
Model wyszukiwania danych Wiele przykładów wyszukiwarek danych już dostępnych BASE BioCaddie/ DataMED Datacite Datahub.io DataONE EbiSearch OneRepo Quandl RE3Data.org Semantic Scholar OSF SHARE TR Data Citation Index Zanran Niektóre wspólne tematy: wyszukiwanie metadanych (np. ranking na podstawie metadanych) i/lub multi wyszukiwarka i/lub skoncentrowane na przypisywaniu wpływu (cytowań) niż na prostym wyszukiwani informacji Nietypowe (z powodu różnego poziomu trudności): Głębokie indeksowanie zbiorów danych(wyodrębnianie spostrzerzeń na podstawie danych) Wyszukiwarka naprawdę koncentruje się na odkrywaniu danych
Elsevier Data Search np. wyszukaj Temperatura pomiaru lepkości cieczy jonowych DataSearch.Elsevier.com 1. Poprzez repozytoria 2. (Głębokie) indeksowanie danych, więc nie tylko metadane 3. Podgląd danych 1 3 2
Notatki badawcze - przechwytywanie i udostępnianie www.hivebench.com
Zarządzaj, przechowuj: Mendeley Dane http://data.mendeley.com/ Otwarte repozytorium do umieszczania i ponownego wykorzystania danych badawczych
Zarządzaj, przechowuj: Mendeley Dane Połączony z opublikowanymi pracami lub nie połączony z Github lub nie wersjonowanie i pochodzenie https://data.mendeley.com/ https://data.mendeley.com/datasets/xz6gv65m6d/6
Data journals: SoftwareX http://www.journals.elsevier.com/softwarex/
10. Integracja w obie strony stworzyć tak metadane aby służyły do re-wykorzystania. 10 elementów dla efektywnych danych badawczych Inicjatywy Elsevier 9. Do ponownego użycia 8. Odtwarzalne 7. Zaufane Protokoły badawcze (Hivebench) 6. Zrozumiałe 5. Cytowalne 4. Znajdywalne 3. Dostępne 2. Zachowane Mendeley dane repozytorium Data journals Łączenie danych Wyszukiwanie danych 1. Przechowywane 22
Polityka danych badawczych Elsevier będzie: Zachęcał i wspierał naukowców oraz instytucje naukowe do udostępniania danych w stosownych przypadkach i w możliwie najkrótszym czasie. Dostarczał wytyczne dla autorów dotyczące przechowywania i udostępniania danych. Zachęcał i umożliwiał dwukierunkowe powiązanie odpowiednich zbiorów danych i publikacji z wykorzystaniem standardowych stałych identyfikatorów. Promowanie i wspieranie właściwych praktyk cytowań danych, dzięki czemu naukowcy mogą być cytowani i uznawani za swoją pracę. Ściśle współpracował ze środowiskiem naukowym w celu ustalenia praktyk oceny danych w celu zapewnienia, że publikowane dane badawcze są ważne, odpowiednio udokumentowane i mogą być ponownie wykorzystane. Opracowywał narzędzia i usługi wspierające naukowców do znajdowania oraz wielokrotnego użycia danych do ich dalszych badań. Surowe dane badawcze powinny być ogólnie dostępne dla wszystkich naukowców w miarę możliwości STM Brussels Declaration 2007
Korzyści z usług Scopus i / lub ScienceDirect API dla repozytoriów instytucjonalnych www.elsevier.com/solutions/sciencedirect/support/institutional-repository 24
Dziękuję bardzo! Pytania? +48 501 980 333 t.psonka@elsevier.com