Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

Podobne dokumenty
Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

Repozytorium Centrum Technologii Językowych: deponowanie i upowszechnianie zasobów i narzędzi językowych, gromadzenie korpusów tekstowych

WebSty otwarty webowy system do analiz stylometrycznych

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

CLARIN infrastruktura naukowa technologii językowych

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

Federacja zarządzania tożsamością PIONIER.Id

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Zintegrowany system usług dla nauki etap II (ZSUN II)

Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT

Grafika i Systemy Multimedialne (IGM)

ERDAS TITAN środowisko 3D udostępniania danych przestrzennych

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

Nowa odsłona wyodrębnienie i kierunki jego rozwoju Łysomice

Nowa odsłona wyodrębnienie i kierunki jego rozwoju

EXSO-CORE - specyfikacja

Ogólnopolskie Repozytorium Prac Dyplomowych

Wirtualizacja sieci - VMware NSX

Zmiany na. wyodrębnienie i kierunki jego rozwoju Dubiecko

CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych

Instrukcja obsługi dla studenta

Zmiany na. wyodrębnienie i kierunki jego rozwoju Kraków

Instrukcja obsługi dla studenta

Łatwe w obsłudze narzędzie ochrony danych w środowiskach wirtualnych STORWARE.EU

Europeana Cloud: Wykorzystanie technologii chmurowych do współdzielenia on-line baz danych dziedzictwa kulturowego

Instrukcja obsługi dla studenta

Usługi przechowywania danych KMD/PLATON-U4 dla bibliotek cyfrowych. Maciej Brzeźniak, Norbert Meyer, Rafał Mikołajczak, Maciej Stroiński

Firma Informatyczna ASDER. Prezentacja. Serwer danych lokalnych. Przemysław Kroczak ASDER

Federacja Bibliotek Cyfrowych w sieci PIONIER

Zarządzanie i bezpieczeństwo publikacji zbiorów danych przestrzennych na przykładzie Geoportalu Województwa Małopolskiego.

Nowe usługi w infrastrukturze sieci MAN i PIONIER. Aleksandra Nowak Marcin Werla

Jarosław Kuchta Administrowanie Systemami Komputerowymi. Internetowe Usługi Informacyjne

Laboratorium Chmur obliczeniowych. Paweł Świątek, Łukasz Falas, Patryk Schauer, Radosław Adamkiewicz

Rola polskich bibliotek cyfrowych w zapewnianiu otwartego dostępu

dlibra 3.0 Marcin Heliński

Oprogramowanie dostosowane do potrzeb użytkownika. Skrócenie czasu wejścia na rynek

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Instrukcja obsługi dla studenta

MAREK NIEZGÓDKA ICM, UNIWERSYTET WARSZAWSKI

Materiał dystrybuowany na licencji CC-BY-SA

` Oxeris Anti-Theft Service Powered by Intel Anti-Theft Technology Usługa antykradzieżowa urządzeń

Infrastruktura bibliotek cyfrowych

Instrukcja użytkownika STUDENTA AKADEMICKIEGO SYSTEMU ARCHIWIZACJI PRAC

Nowa platforma

Konferencja POL-on. Moduły ORPD, PBN, POL-Index. Małgorzata Stefańczuk OPI PIB 18 maja 2015 r.

Instrukcja obsługi dla operatora

Składowanie i dostęp do danych w rozproszonym systemie ochrony własności intelektualnej ANDRZEJ SOBECKI, POLITECHNIKA GDAŃSKA INFOBAZY 2014

Dariusz Brzeziński. Politechnika Poznańska, Instytut Informatyki

Zapewnienie dostępu do Chmury

Federacyjne zarządzanie tożsamością. Tomasz Wolniewicz Uczelniane Centrum informatyczne Uniwersytet Mikołaja Kopernika w Toruniu

Część I Rozpoczęcie pracy z usługami Reporting Services

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

INSTRUKCJA DLA OPERATORA

edziennik Ustaw Opis architektury

Nowa odsłona wyodrębnienie i kierunki jego rozwoju Międzyzdroje

Usługi danych przestrzennych w GEOPORTAL-u. Marek Szulc , Warszawa

Oracle COREid Federation Przegląd

Regulamin Polskiej Federacji Zarządzania Tożsamością PIONIER.Id na potrzeby realizacji usługi SAML WebSSO

USOS i OSA. czyli o integracji systemów. Janina Mincer-Daszkiewicz Uniwersytet Warszawski, MUCI. Warszawa, jmd@mimuw.edu.pl ...

OPIS i SPECYFIKACJA TECHNICZNA

LANGUAGE: CUSTOMER: NO_DOC_EXT: SOFTWARE VERSION: 9.6.5

Xpress Sp. z o.o. jako wieloletni Premium Partner firmy Xerox ma w swojej ofercie rozwiązanie

Instrukcja konfiguracji funkcji skanowania

Serwis nie zbiera w sposób automatyczny żadnych informacji, z wyjątkiem informacji zawartych w plikach cookies.

Serwery. Autorzy: Karol Czosnowski Mateusz Kaźmierczak

Instrukcja obsługi dla studenta

DSpace. Co to jest DSpace? Dostęp do danych. 1.Podstawowe informacje: Co to jest DSpace? Dostęp do danych

P R O C E D U R A P O D Ł Ą C Z E N I A S Y S T E M U D Z I E D Z I N O W E G O D O C S I Z S

Platforma epuap. Igor Bednarski kierownik projektu epuap2 CPI MSWiA. Kraków, r.

KONTO UCZNIA Rok szkolny 2016/2017

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

System zdalnego dostępu (VPN) do sieci Wydziału Elektrycznego PW

Instrukcja Użytkownika (Studenta) Akademickiego Systemu Archiwizacji Prac

Piotr Dziubecki Piotr Grabowski, Tomasz Kuczyński Tomasz Piontek, Dawid Szejnfeld, PCSS

Wspólna propozycja w ramach porozumienia z dnia

Infrastruktura PL-LAB2020

Koncepcja rozwoju oprogramowania ORPPD

Platforma epuap. 1-3 marca 2011

Polska Bibliografia Naukowa jako krajowe repozytorium publikacji naukowych

Poniżej zostały zaprezentowane najważniejsze funkcjonalności Paperless BPM.

Zmiany na. wyodrębnienie i kierunki jego rozwoju Mierzęcin

OMNITRACKER Wersja testowa. Szybki przewodnik instalacji

Czym jest system antyplagiatowy? Andrzej Sobecki

Instrukcja obsługi dla studenta

Archiwizacja Rozpraw Doktorskich

Jednolite zarządzanie użytkownikami systemów Windows i Linux

Wydzielony Profil Zaufany bezpłatne narzędzie do usług administracji publicznej

Strona internetowa Elbląg dnia r. Znak sprawy 64/2014 Do wszystkich uczestników postępowania

Wybrane działy Informatyki Stosowanej

Wirtualizacja zasobów informatycznych w pracowni komputerowej

ZAŁOŻENIA TECHNICZNO-TECHNOLOGICZNE SYSTEMU BUDOWANEGO W RAMACH PROJEKTU

Transkrypt:

CLARIN-PL Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi Marcin Pol, Tomasz Walkowiak Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Katedra Informatyki Technicznej 2016-04-25

Funkcje CTJ CLARIN-PL Rozproszona identyfikacja i autoryzacja użytkowników oparta na federacjach narodowych zasada jednego konta i jednego logowania Odpowiedni system składowania (repozytoryjny) - dspace trwałość danych (system archiwizacji) jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers) metadane o złożonej strukturze (CMDI) zarządzanie metadanymi zgodnie z przyjętymi standardami, np. CCR (CLARIN Concept Registry) Integracja zasobów i usług w oparciu o usługi sieciowe (Web Services, REST) dostęp poprzez aplikacje sieciowe brak konieczności ściągania i instalowania 2

Infrastruktura Chmura prywatna Cisco UCS B-Series Blade Servers IBM Storwize V7000 Xen Server 3

Repozytorium DSpace Otwarty system dspace http://clarin-pl.eu/dspace/ zapisuje, przechowuje, opisuje, indeksuje i udostępnia materiały cyfrowe Platforma udostępnia otwarte zasoby naukowe oraz integruje narzędzia Clarin-PL z Clarin ERIC Wsparcie dla systemu CNRI Handle System [handle.net] pozwala na swobodną zmianę adresów/serwerów http://hdl.handle.net/11321/246 Zasoby są widoczne Virtual Language Observatory, który łączy repozytoria z różnych centrów w Europie https://catalog.clarin.eu/vlo/search?1&fq=collection:clarin-pl CMDI 4

Repozytorium DSpace Clarin-PL DSpace posiada liczne rozszerzenia udostępnianie zasobów instytucjom będącym w konfederacji tożsamości - edugain Federacyjne zarządzanie tożsamością logowanie za pomocą jednego loginu i hasła autoryzuje jednostka macierzysta 5

Polska federacja uwierzytelniania 6

Federacja uwierzytelniania Federacja PIONIER.Id - adresowana do polskiego środowiska naukowo-akademickiego Pokrewne usłudze: eduroam dostawca usługi, dostawca tożsamości Warunki rejestracji technicznie: serwer SAML2 organizacyjne: podpisanie Deklaracji Członkowskiej i przesłanie jej do Operatora Federacji Konfederacja EduGAIN konfederacją o ogólnoświatowym zasięgu, zrzeszającą akademickie i naukowe federacje zarządzania tożsamością, 35 krajowych federacji w 2015, w tym InCommon (ponad 500 uczelni i organizacji komercyjnych) 7

Usługi sieciowe Narzędzia językowe aplikacje zbudowane w różnorodnych technologiach złożony proces instalacji różnorodne interfejsy trudność w tworzeniu potoków przetwarzania Wszystko jest usługą sieciową Komponent oprogramowanie o ustandaryzowanym interfejsie, dostępny poprzez protokół internetowy UI przeglądarka internetowa Aplikacje dostępowe oparte o przeglądarki internetowe Łączenie usług w potoki Wizualizacja 8

Usługi sieciowe - architektura Samba Worker 1 (Any2txt) Worker 3 (WCRFT2) REST NLPREST2 RabbitMQ Worker 2 (fextor) Worker n (featfilt) Data base LPMN engine Wydajność przetwarzanie równoległe chmura prywatne, skalowanie Identyfikatory plików na wej./wyj. narzędzi urlzip(http://ws.clarin-pl.eu/ksiazki.zip) any2txt wcrft2 fextor({"features":"base"}) dir featfilt({"similarity":"jaccard ) cluto({"no_clusters":3}) 9

Usługi sieciowe: ws.clarin-pl.eu Zaimplementowane usługi Konwersja: any2txt Narzędzia NLP: maca, wcrft2, chunker, chunkrel, serel, liner2, WSD, spade spatial, dependpar, summarizer, tfidf, inkluz, termopl, fextor Filtrowanie, selekcja cech: SuperMatrix, R Klasyfikacja: stylo, cluto, SVM, kmeans Konwersja formatów Komunikacja (pliki, URL), integracja z dspace Możliwości podpięcia innych narzędzi Wirtualna maszyna w centrum + proste API Przekierowanie do zewnętrznych usług (WebLicht) 10

Zintegrowane środowisko D-SPACE NFS any2txt WCRFT2 LINER2 WSD Potok przetwarzania Dane tymczasowe Zasoby / dane Dane przygotowane 11

Aplikacje badawcze 13

Aplikacje badawcze Narzędzia wysokiego poziomu nie wymagające wiedzy z dziedziny inżynierii języka lub technologii językowych Techniki załadowania własnych danych Bezpośrednie załadowanie plików w interfejsie webowym Lokalny plik, URL Różnorodność formatów txt różnorodne kodowanie znaków doc, docx (pptx, xlslx), odt, rtf, html, pdf zip Uprzednie załadowanie plików do repozytorium zalecane Identyfikacja poprzez trwały identyfikator Wstępnie przetworzone Zasoby obliczeniowe są zawsze ograniczone 14

CLARIN-PL Dziękuję bardzo za uwagę