CLARIN-PL Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi Marcin Pol, Tomasz Walkowiak Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Katedra Informatyki Technicznej 2016-04-25
Funkcje CTJ CLARIN-PL Rozproszona identyfikacja i autoryzacja użytkowników oparta na federacjach narodowych zasada jednego konta i jednego logowania Odpowiedni system składowania (repozytoryjny) - dspace trwałość danych (system archiwizacji) jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers) metadane o złożonej strukturze (CMDI) zarządzanie metadanymi zgodnie z przyjętymi standardami, np. CCR (CLARIN Concept Registry) Integracja zasobów i usług w oparciu o usługi sieciowe (Web Services, REST) dostęp poprzez aplikacje sieciowe brak konieczności ściągania i instalowania 2
Infrastruktura Chmura prywatna Cisco UCS B-Series Blade Servers IBM Storwize V7000 Xen Server 3
Repozytorium DSpace Otwarty system dspace http://clarin-pl.eu/dspace/ zapisuje, przechowuje, opisuje, indeksuje i udostępnia materiały cyfrowe Platforma udostępnia otwarte zasoby naukowe oraz integruje narzędzia Clarin-PL z Clarin ERIC Wsparcie dla systemu CNRI Handle System [handle.net] pozwala na swobodną zmianę adresów/serwerów http://hdl.handle.net/11321/246 Zasoby są widoczne Virtual Language Observatory, który łączy repozytoria z różnych centrów w Europie https://catalog.clarin.eu/vlo/search?1&fq=collection:clarin-pl CMDI 4
Repozytorium DSpace Clarin-PL DSpace posiada liczne rozszerzenia udostępnianie zasobów instytucjom będącym w konfederacji tożsamości - edugain Federacyjne zarządzanie tożsamością logowanie za pomocą jednego loginu i hasła autoryzuje jednostka macierzysta 5
Polska federacja uwierzytelniania 6
Federacja uwierzytelniania Federacja PIONIER.Id - adresowana do polskiego środowiska naukowo-akademickiego Pokrewne usłudze: eduroam dostawca usługi, dostawca tożsamości Warunki rejestracji technicznie: serwer SAML2 organizacyjne: podpisanie Deklaracji Członkowskiej i przesłanie jej do Operatora Federacji Konfederacja EduGAIN konfederacją o ogólnoświatowym zasięgu, zrzeszającą akademickie i naukowe federacje zarządzania tożsamością, 35 krajowych federacji w 2015, w tym InCommon (ponad 500 uczelni i organizacji komercyjnych) 7
Usługi sieciowe Narzędzia językowe aplikacje zbudowane w różnorodnych technologiach złożony proces instalacji różnorodne interfejsy trudność w tworzeniu potoków przetwarzania Wszystko jest usługą sieciową Komponent oprogramowanie o ustandaryzowanym interfejsie, dostępny poprzez protokół internetowy UI przeglądarka internetowa Aplikacje dostępowe oparte o przeglądarki internetowe Łączenie usług w potoki Wizualizacja 8
Usługi sieciowe - architektura Samba Worker 1 (Any2txt) Worker 3 (WCRFT2) REST NLPREST2 RabbitMQ Worker 2 (fextor) Worker n (featfilt) Data base LPMN engine Wydajność przetwarzanie równoległe chmura prywatne, skalowanie Identyfikatory plików na wej./wyj. narzędzi urlzip(http://ws.clarin-pl.eu/ksiazki.zip) any2txt wcrft2 fextor({"features":"base"}) dir featfilt({"similarity":"jaccard ) cluto({"no_clusters":3}) 9
Usługi sieciowe: ws.clarin-pl.eu Zaimplementowane usługi Konwersja: any2txt Narzędzia NLP: maca, wcrft2, chunker, chunkrel, serel, liner2, WSD, spade spatial, dependpar, summarizer, tfidf, inkluz, termopl, fextor Filtrowanie, selekcja cech: SuperMatrix, R Klasyfikacja: stylo, cluto, SVM, kmeans Konwersja formatów Komunikacja (pliki, URL), integracja z dspace Możliwości podpięcia innych narzędzi Wirtualna maszyna w centrum + proste API Przekierowanie do zewnętrznych usług (WebLicht) 10
Zintegrowane środowisko D-SPACE NFS any2txt WCRFT2 LINER2 WSD Potok przetwarzania Dane tymczasowe Zasoby / dane Dane przygotowane 11
Aplikacje badawcze 13
Aplikacje badawcze Narzędzia wysokiego poziomu nie wymagające wiedzy z dziedziny inżynierii języka lub technologii językowych Techniki załadowania własnych danych Bezpośrednie załadowanie plików w interfejsie webowym Lokalny plik, URL Różnorodność formatów txt różnorodne kodowanie znaków doc, docx (pptx, xlslx), odt, rtf, html, pdf zip Uprzednie załadowanie plików do repozytorium zalecane Identyfikacja poprzez trwały identyfikator Wstępnie przetworzone Zasoby obliczeniowe są zawsze ograniczone 14
CLARIN-PL Dziękuję bardzo za uwagę