Uczelniana Baza Wiedzy Ω-Ψ R Jakub Koperwas, Łukasz Skonieczny, Marek Kozłowski, Henryk Rybiński and Wacław Struk Instytut Informatyki PW
Omega PsiR Baza Wiedzy w zakresie dorobku naukowego Agenda Pozycja systemu w strukturze SYNATu Założenia (czy to jeszcze jeden system?) Zrealizowane funkcjonalności Plany rozbudowy
Struktura projektu SYNAT INFONA S Y N Systemy dziedzinowe Systemy dziedzinowe Bazy wiedzy uczelniane wiedzy uczelniane OAI lub inne POL-ON A T Biblioteki cyfrowe Harvesting WEB i Systemy globalne scholar, WOS, Scopus
Dostępne krajowe rozwiązania 1. Systemy repozytoryjne (OS, np. D-Space, Fedora Commons, a teraz także Infona) raczkujące w Polsce, ale już stosowane, raczej na poziomie instytutów, katedr, rzadziej uczelni (UAM, ale nieobowiązkowo) 2. Biblioteki Cyfrowe (D-Libra), czasem obejmujące bazy doktoratów, częściej publikacje o wartościach historycznych 3. Systemy bibliograficzne (+ ocena pracownika), np. Expertus, system w AGH (bez dokumentów) 4. Uczelniane bazy faktograficzne (bazy projektów, dyplomy(?) )
Podstawowe założenie OMEGA-PSIR Wokół kompletnego repozytorium uczelni należy zintegrować wszystkie istotne dla uczelni funkcjonalności, dotyczące m.in.: 1. funkcji repozytoryjnych obejmujących przechowywanie i udostępnianie a) Publikacji, patentów, b) Doktoratów c) Dyplomów d) Dokumentów projektowych; 2. prowadzonych projektów powiązanych z publikacjami i/lub zrealizowanymi (a zatem jest możliwość oceny projektu); 3. ocen naukowców na potrzeby wewnętrzne 4. sprawozdawczości w zakresie prowadzonych badań naukowych (Pol-ON, MNiSW, PBN), 5. transferu wiedzy w ramach uczelni i na zewnątrz; 6. propagowaniu osiągnięć uczelni i jej ludzi w świecie;
Podstawowe założenia OMEGA-PSIR Komu ma służyć: Świat nauki Naukowcy/Pracownicy studenci Baza Wiedzy Bibliotekarze Administracja (sekretariaty, biura projektów) Kierownictwo: Rektorat, dziekanaty Jednostki uczelni: wydziały, instytuty
Dodatkowe założenia funkcjonalne Gromadzenie + archiwizacja (pełnych tekstów) + wyszukiwanie (pełnotekstowe) + udostępnianie zgodnie z zasadami własności intelektualnej (artykuł lub preprint, DOI, URL u wydawcy lub na stronie konferencji) + prezentacja (tradycyjne wyszukiwanie, wyszukiwanie ekspertów, chmura tagów) + sprawozdawczość (na potrzeby wewnętrzne i zewnętrzne) + analityka (tworzenie map obszarów badawczych dla jednostek i zespołów + Ekspozycja dorobku naukowego uczelni na świat
Kluczowe wymagania Wygoda użytkowania podpowiadanie, auto-uzupełnianie, walidacja Możliwość rozszerzania: nowe typy danych (formularze do wprowadzania, reguły poprawności ekrany wyszukiwania) raporty itp. Możliwość dostosowania do różnych wymagań jednostek: okno jednostki: uczelnia, wydział, instytut wygląd, rodzaje raportów, specyficzne reguły punktowania i/lub uprawnień Wielojęzyczność
Na przykład podpowiadanie dostosowane do profilu zalogowanego użytkownika
Definiowalne sprawdzanie poprawności Wskazywanie błędów, ostrzeżenia
Inny przykład: automatyczne naliczenie punktów Na podstawie opisu publikacji Modyfikowalne reguły punktujące Możliwość przeliczania według różnych reguł
Metody sztucznej inteligencji w systemie
Zautomatyzowane wprowadzanie danych/import - formaty:, XML - źródła: plik, systemy zewnętrzne (np. elkadyplom), inne obsługiwane przez ZOTERO (Google Scholar, Springer, Scopus i większość wydawców) - rozpoznawanie duplikatów, scalanie, usuwanie niejednoznaczności i integracja
Zautomatyzowane wprowadzanie danych
Akwizycja danych z weba Czasopismo Artykuł Książka Autor 1 Autor 1 Autor 2 Afiliacja Repozytorium Autor 2 Afiliacja rozpoznawanie duplikatów, scalanie, usuwanie niejednoznaczności i integracja
Wyszukiwanie ekspertów Celem modułu jest odnalezienie eksperta na podstawie zapytania dziedzinowego Prezentacja sugerowanych dziedzin Wyszukiwarka pełnotekstowa Algorytm rankingowy Prezentacja dorobku z wykorzystaniem dziedziny
Wyszukiwanie/Mapa dziedzin
Wyszukiwanie eksperta W procesie wyszukiwanie eksperta bierze udział Dorobek: opisy publikacji (metadane, w tym dane o czasopiśmie, itp..) Pełne teksty publikacji (jeśli dostępne) Opisy wypromowanych doktoratów Opisy projektów realizowanych/prowadzonych Opis własny autora Opis jednostki uczelnianej (do której ekspert jest afiliowany)
Ocena pracowników i jednostki Profil pracownika Definiowalne reguły oceny ranking publikacji wg punktacji MNiSW Raport wydziałowy, ankieta jednostki + definiowalne raporty
Wybór rankingu/prezentacja wyników Wybór algorytmu rankingowego Wartość rankingu Dorobek łączny i w danej dziedzinie
Profil pracownika Dorobek Indeks Hirsha
Klasyfikacja publikacji - OSJ OSJ Ontology of Scientific Journals Stworzona w 2011 przez Science-Metrix, Kanada Dysponujemy xls, który zawiera 15k czasopism przypisanych do 3 stopniowej klasyfikacji OSJ Rekordy typu: <domain: applied sciences, field: ICT, subfield: AI and Image Processing, title: Applied soft computing, issn: 1568-4946> Wykorzystujemy deterministyczną regułę, która sprawdza czy źródło publikacji jest sklasyfikowane w OSJ, jeśli tak to na podstawie kategoryzacji źródła automatycznie implikujemy dziedzinę naukową publikacji
OSJ poziom 2
Klasyfikator publikacji spoza listy OSJ W przypadku braku informacji o źródle, lub w przypadku gdy podane źródło nie ma kategoryzacji w OSJ opracowano mechanizm klasyfikacji publikacji w ramach OSJ w oparciu o dane tekstowe : tytuł, abstrakt, słowa kluczowe Metoda: drzewo bayesowskich klasyfikatorów Dla poziomu 0 - dysponujemy jednym klasyfikatorem Dla poziomu 1 dysponujemy dedykowanymi klasyfikatorami dla odpowiednich kategorii w ramach poziomu 0 Zbiór uczący: zbiór publikacji dysponujących co najmniej abstraktem, które zostały skategoryzowany do OSJ według dopasowania źródła (podejście regułowe) Ostatecznie wyniki oscylują na poziomie 85%.
Tagowanie tekstów za pomocą wikipedii Wikipedia jest największą otwartą encyklopedią obecnych czasów, której rozwój jest dynamiczny, i sięga już kilku mln artykułów, dodatkowo dysponuje ustaloną wewnętrzną ontologią W ramach projektu zbudowano ekstraktor, który czerpiąc z wiedzy zawartej w wikipedii polskiej i angielskiej pozwala semantycznie etykietować teksty: Tagowanie tekstów (etykietowanie) ma na celu wprowadzić dodatkową wiedzę semantyczną o ich zawartości Przykładowymi semantycznymi tagami są: słowa kluczowe, powiązane tematy, etykiety Dwujęzyczność (polski i angielski)
WikiEkstraktor Moduł dysponuje dwoma modułami : 1. wikitezaurus 2. wikikeywordsextractor Funkcjonalności w ramach wikitezaurus: Pobierz znaczenia dla podanego terminu Pobierz krótki opis dla podanego terminu Pobierz alternatywne etykiety dla podanego terminu Pobierz tłumaczenie dla podanego języka i terminu Pobierz powiązane tematy (artykuły) z danymi terminem Działanie opiera się na dwóch fundamentalnych krokach: identyfikacji artykułu z Wikipedii, który odpowiada terminowi, oraz analizie jego struktury, w tym zależności z innymi artykułami
Wiki Keywords Extractor Moduł może ekstrahować słowa kluczowe z tekstu polskiego i angielskiego. Obejmuje on 3 podmoduły: (1) preprocessor, (2) term detector, (3) term ranker Słowo kluczowe ma dwie odsłony: Termin (kotwica), który sam jest reprezentowany przez odpowiedni artykuł w wikipedii Etykiety, kategorię, które często występuje w artykułach wskazujących na kotwice w podanym tekście Istotność terminów jest mierzona poprzez mierzenie pokrycia odwołujących się do niego dokumentów z analogicznym pokryciem dla badanego dokumentu
Przykład ekstrakcji Wyekstrahowane terminy: information, information retrieval, web search engine, computer science, word sense, World Wide Web
Plany rozwoju Uproduktowienie oprogramowania Integracja z portalami społecznościowymi/dla naukowców: CiteULike,ResearchGate Angażowanie autorów w uzupełnianie profilu Zwiększenie ergonomii pracy Nowe typy danych (np. aktywność pozauczelniana)
Plany rozwoju Baza konferencji z aktualnymi Call for Papers Baza czasopism z IF i Call for Proposals Baza specjalistycznych baz danych Historia kariery pracownika Odkrywanie młodych talentów Powiązanie z bazami WOS, Scopus
Plany rozwoju Upowszechnienie systemu na polskich uczelniach pozwoli: 1. zasilić system INFONA (zbudować kompletną bazę nauki polskiej) 2. Stworzyć ogólnopolską bazę doktoratów (i może dyplomów) 3. Zbudować kilka dziedzinowych baz wiedzy integrujących uczelnie w dziedzinach, np.: a) nauki ścisłe, techniczne i ekonomiczne (może BAZTOL, ale ) b) nauki medyczne i przyrodnicze c) nauki humanistyczne, sztukę d)
Podsumowanie 1. System z powodzeniem jest wdrażany na Politechnice Warszawskiej 2. Zintegrowanie funkcjonalności repozytorium z mechanizmami oceny pracowników oraz funkcjonalności generatora raportów zdecydowanie zwiększa zainteresowanie kadry uczelni wdrożeniem systemu 3. Zastosowanie elementów sztucznej inteligencji w systemie pozwala realizować wiele zaawansowanych funkcji wspomagających użytkowanie systemu i jego użyteczność
Życzę owocnych warsztatów http://repo.pw.edu.pl wersja testowa - http://wizzar.ii.pw.edu.pl/repopw/