Repozytorium Centrum Technologii Językowych: deponowanie i upowszechnianie zasobów i narzędzi językowych, gromadzenie korpusów tekstowych

Podobne dokumenty
Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

WebSty otwarty webowy system do analiz stylometrycznych

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

CLARIN infrastruktura naukowa technologii językowych

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

DSpace. Co to jest DSpace? Dostęp do danych. 1.Podstawowe informacje: Co to jest DSpace? Dostęp do danych

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

Inforex - zarządzanie korpusami i ich anotacja

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Sprzętowo wspomagane metody klasyfikacji danych

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

Część 1. Ekstrakcja informacji oraz stylometria na usługach psychologii CLARIN-PL. Tomasz Walkowiak

OMNITRACKER Wersja testowa. Szybki przewodnik instalacji

Wydobywanie informacji oraz cech tekstów: tworzenie prostych statystyk Część 1

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

System generacji raportów

DSpace. Podstawowe informacje: Co to jest DSpace? Dostęp do danych

CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych

Emilia Karwasińska, Małgorzata Rychlik. Biblioteka Uniwersytecka w Poznaniu

Ogólnopolskie Repozytorium Prac Dyplomowych

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Serwery. Autorzy: Karol Czosnowski Mateusz Kaźmierczak

Doxis4 Rendition Server

Obiektowy model dokumentu. Katedra Mikroelektroniki i Technik Informatycznych

Program warsztatów CLARIN-PL

Federacja zarządzania tożsamością PIONIER.Id

KONTO UCZNIA Rok szkolny 2016/2017

CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

Składowanie i dostęp do danych w rozproszonym systemie ochrony własności intelektualnej ANDRZEJ SOBECKI, POLITECHNIKA GDAŃSKA INFOBAZY 2014

Integracja APD z Ogólnopolskim Repozytorium Prac Dyplomowych

OPIS i SPECYFIKACJA TECHNICZNA

OPROGRAMOWANIE KEMAS zbudowane jest na platformie KEMAS NET

Zadanie nr 4.5: Oprogramowanie bazodanowe. Lp. Zwartość karty Opis 1 Specyfikacja techniczna / funkcjonalna przedmiotu zamówienia

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Programowanie Komponentowe WebAPI

OMNITRACKER Wersja testowa. Szybki przewodnik instalacji

Regulamin korzystania z Usługi INVO24 przez Odbiorcę i Użytkownika Odbiorcy

Pytanie nr 2. Dodatkowy moduł Kreator Bannerów Czy moduł Kreator Bannerów ma być modułem zintegrowanym z portalem i pozwalającym na

Konferencja POL-on. Moduły ORPD, PBN, POL-Index. Małgorzata Stefańczuk OPI PIB 18 maja 2015 r.

APD. Archiwum Prac Dyplomowych w USOS. Mariusz.Czerniak@umk.pl

Typy przetwarzania. Przetwarzanie zcentralizowane. Przetwarzanie rozproszone

Wydobywanie informacji oraz cech tekstów: analiza frekwencyjna

Opis przedmiotu zamówienia

Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT

egroupware czy phpgroupware jest też mniej stabilny.

Narzędzia do automatycznej analizy odniesień w tekstach

Federacja Bibliotek Cyfrowych w sieci PIONIER

Tomasz Grześ. Systemy zarządzania treścią

Część I Rozpoczęcie pracy z usługami Reporting Services

Instrukcja obsługi dla studenta

Grafika i Systemy Multimedialne (IGM)

Aplikacja serwerowa Platformy Prezentacyjnej Opis produktu

Cześć I Oprogramowanie do zautomatyzowanej masowej obróbki plików graficznych.

Dariusz Brzeziński. Politechnika Poznańska, Instytut Informatyki

Nowe usługi w infrastrukturze sieci MAN i PIONIER. Aleksandra Nowak Marcin Werla

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Materiał dystrybuowany na licencji CC-BY-SA

dlibra 3.0 Marcin Heliński

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Instrukcja obsługi dla studenta

Instrukcja obsługi dla studenta

The Binder Consulting

Zintegrowany system usług dla nauki etap II (ZSUN II)

Koncepcja rozwoju oprogramowania ORPPD

Budowanie repozytorium dziedzinowego

Xpress Sp. z o.o. jako wieloletni Premium Partner firmy Xerox ma w swojej ofercie rozwiązanie

Zarządzenie Nr R-86/2016 Rektora Politechniki Lubelskiej z dnia 7 grudnia 2016 r. w sprawie Biuletynu Informacji Publicznej Politechniki Lubelskiej

` Oxeris Anti-Theft Service Powered by Intel Anti-Theft Technology Usługa antykradzieżowa urządzeń

Czym jest system antyplagiatowy? Andrzej Sobecki

Komunikacja i wymiana danych

Instrukcja użytkownika STUDENTA AKADEMICKIEGO SYSTEMU ARCHIWIZACJI PRAC

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

EXSO-CORE - specyfikacja

Rola polskich bibliotek cyfrowych w zapewnianiu otwartego dostępu

Część 1. Wydobywanie informacji z tekstu i stylometria CLARIN-PL. Tomasz Walkowiak, Maciej Piasecki

Instrukcja obsługi dla studenta

Instrukcja obsługi dla studenta

System informacji prawnej w wersji internetowej

Laboratorium Chmur obliczeniowych. Paweł Świątek, Łukasz Falas, Patryk Schauer, Radosław Adamkiewicz

ZARZĄDZANIE DOKUMENTACJĄ. Tomasz Jarmuszczak PCC Polska

Platforma Usług dla Obywateli - Microsoft Citizen Service Platform

Seeon Enterprise Search Engine. Rozwiązanie obsługiwane przez eo Networks S.A.

Instrukcja obsługi dla studenta

edziennik Ustaw Opis architektury

Programowanie obiektowe

Podstawy programowania. Wprowadzenie

Integracja APD z Ogólnopolskim Repozytorium Prac Dyplomowych i Otwartym Systemem Antyplagiatowym

OPIS PRZEDMIOTU ZAMÓWIENIA

Produkt Treść pochodzi ze strony AB (

Transkrypt:

CLARIN-PL Repozytorium Centrum Technologii Językowych: deponowanie i upowszechnianie zasobów i narzędzi językowych, gromadzenie korpusów tekstowych Marcin Pol, Tomasz Walkowiak, Marcin Oleksy Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Katedra Informatyki Technicznej 2017-02-3

Funkcje CTJ CLARIN-PL Rozproszona identyfikacja i autoryzacja użytkowników oparta na federacjach narodowych zasada jednego konta i jednego logowania Odpowiedni system składowania (repozytoryjny) - dspace trwałość danych (system archiwizacji) jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers) metadane o złożonej strukturze (CMDI) zarządzanie metadanymi zgodnie z przyjętymi standardami, np. CCR (CLARIN Concept Registry) Integracja zasobów i usług w oparciu o usługi sieciowe (Web Services, REST) dostęp poprzez aplikacje webowe brak konieczności ściągania i instalowania 2

Infrastruktura Chmura prywatna Cisco UCS B-Series Blade Servers IBM Storwize V7000 Xen Server 3

Repozytorium DSpace http://clarin-pl.eu/dspace/ Otwarty system dspace zapisuje, przechowuje, opisuje, indeksuje i udostępnia materiały cyfrowe Platforma udostępnia otwarte zasoby naukowe oraz integruje narzędzia Clarin-PL z Clarin ERIC Wsparcie dla systemu CNRI Handle System [handle.net] pozwala na swobodną zmianę adresów/serwerów http://hdl.handle.net/11321/246 Zasoby są widoczne Virtual Language Observatory, który łączy repozytoria z różnych centrów w Europie https://catalog.clarin.eu/vlo/search?1&fq=collection:clarin-pl CMDI 4

Repozytorium DSpace Clarin-PL DSpace posiada liczne rozszerzenia udostępnianie zasobów instytucjom będącym w konfederacji tożsamości - edugain Federacyjne zarządzanie tożsamością logowanie za pomocą jednego loginu i hasła autoryzuje jednostka macierzysta 5

Polska federacja uwierzytelniania 6

Federacja uwierzytelniania Federacja PIONIER.Id - adresowana do polskiego środowiska naukowo-akademickiego Pokrewne usłudze: eduroam dostawca usługi, dostawca tożsamości Warunki rejestracji technicznie: serwer SAML2 organizacyjne: podpisanie Deklaracji Członkowskiej i przesłanie jej do Operatora Federacji Konfederacja EduGAIN konfederacją o ogólnoświatowym zasięgu, zrzeszającą akademickie i naukowe federacje zarządzania tożsamością, 35 krajowych federacji w 2016, w tym InCommon (ponad 500 uczelni i organizacji komercyjnych) 7

Usługi sieciowe Narzędzia językowe aplikacje zbudowane w różnorodnych technologiach złożony proces instalacji różnorodne interfejsy trudność w tworzeniu potoków przetwarzania Wszystko jest usługą sieciową Komponent oprogramowanie o ustandaryzowanym interfejsie, dostępny poprzez protokół internetowy UI przeglądarka internetowa Aplikacje dostępowe oparte o przeglądarki internetowe Łączenie usług w potoki Wizualizacja 8

Problemy techniczne Narzędzia NLP/ML dostępne są w różnych językach programowania C++, Java, Python, R (Linux, Windows) Perl, Haskell, Julia, pliki wykonywalne Różnorodność formatów txt, doc, docx, ccl (xml), csv, gęste/rzadkie macierze Rozmiar danych 10 B 10 MB 1-1,000,000 tekstów w korpusie Korpusy po przetworzeniu osiągają duże rozmiary (3 GB dla 100 książek) Złożone tory przetwarzania Any2txt WCRFT2 Liner2 Fextorbis Any2txt WCRFT2 Liner2 Fextorbis WCRFT2 Liner2 Fextorbis Document (doc) Document (docx)... Any2txt Document (pdf) FeatFilt Cluto

Usługi sieciowe - architektura Samba REST NLPREST2 RabbitMQ Data base Wydajność Worker 1 (Any2txt) Worker 3 (WCRFT2) Worker 2 (fextor) Worker n (featfilt) LPMN engine urlzip(http://ws.clarin-pl.eu/ksiazki.zip) any2txt wcrft2 fextor({"features":"base"}) dir featfilt({"similarity":"jaccard ) cluto({"no_clusters":3}) przetwarzanie równoległe chmura prywatne, skalowanie Identyfikatory plików na wej./wyj. narzędzi 10

Usługi sieciowe: ws.clarin-pl.eu Zaimplementowane usługi (NLP): Konwersja: any2txt, konwersja formatów: ccl, tei, conll, gz, conll2svg Narzędzia NLP dla języka polskiego maca, wcrft2, chunker, serel, liner2, WSD, Spejd,spatial, dependpar, spejd http://ws.clarin-pl.eu/tager.shtml Narzędzia NLP dla języka angielskiego i niemieckiego spacy, nltk http://ws.clarin-pl.eu/tageren.shtml Wydobywanie informacji z tekstu summarizer, tfidf, inkluz, termopl http://ws.clarin-pl.eu/summarize.shtml 11

Usługi sieciowe: ws.clarin-pl.eu Zaimplementowane usługi (ML): wyznaczanie, zliczanie cech: fextor, converter filtrowanie, ważenie, wyznaczanie podobieństwa featfilt (SuperMatrix, R - stylo) grupowanie/klasyfikacja/istotność: cluto, class, featsel (sklearn, weka) skalowanie wielowymiarowe mds (sklearn) topic modeling : gensim, mallet komunikacja (zip, URL, podział), integracja z dspace Wykorzystanie Ilustracja działania narzędzi NLP Element aplikacji badawczych: Mapa literacka, Chronopress, Inforex, MeWeX WebSty, LEM, Topic modeling Inne usługi : SłowoSieć, geokodowanie 12

Aplikacje badawcze 13

Aplikacje badawcze Narzędzia wysokiego poziomu nie wymagające wiedzy z dziedziny inżynierii języka lub technologii językowych Techniki załadowania własnych danych Bezpośrednie załadowanie plików w interfejsie webowym Lokalny plik, URL, DSpace, prywatna chmura (trwają prace) Różnorodność formatów txt różnorodne kodowanie znaków doc, docx (pptx, xlslx), odt, rtf, html, pdf zip Uprzednie załadowanie plików do repozytorium Identyfikacja poprzez trwały identyfikator Wstępnie przetworzone 14

Możliwości wykorzystania Utworzone aplikacje webowe są do państwa dyspozycji służymy pomocą w ich obsłudze w zrozumieniu zasad ich działania/użytych metod nie tylko w ramach warsztatów: webserwisy@clarin-pl.eu Jeżeli nie spełniają one państwa potrzeb, to możemy: rozbudować usługi o potrzebne narzędzia NLP dokument/katalog ->dokument/katalog R, Python, Java, C++, Haskell kod, model, dokumentacja efektywność/niezawodność zbudować potrzebną aplikacje badawczą na bazie istniejących usług przetworzyć korpus za pomocą usług CTJ Clarin-PL 15

Możliwości wykorzystania Możecie państwo samodzielnie wykorzystać usługi API REST-owe: http://ws.clarin-pl.eu przykłady w Javie, Python, R (niedługo) język opisu choreografii (LPMN) efektywność przetwarzania Najbliższe plany: chmura prywatna Leksykograficzne API REST-owe (integratror) Przetwarzanie b. dużych korpusów Zasoby obliczeniowe są zawsze ograniczone Warsztaty to bardzo zły model przetwarzania 16

Zintegrowane środowisko D-SPACE any2txt WCRFT2 NFS LINER2 WSD Potok przetwarzania Dane tymczasowe Zasoby / dane Dane przygotowane 17

Component MetaData Infrastructure (CMDI)

Zalety CMDI elastyczność spójność i jednoznaczność > rejestr kategorii metadanych CLARIN Concept Registry (CCR) współdzielenie schematów > Component Registry wyszukiwanie spośród wielu źródeł Virtual Language Observatory Meertens Institute CMDI search engine

Prof il metadanych dla korpusu w DSpace ogólne Specyficzne dla zasobu danego typu Kategorie DCMI Informacje o zasobie

Prof il metadanych dla korpusu w DSpace Autor Data umieszczenia w repozytorium Opis Identyfikator Data pierwszej publikacji Język Osoba/instytucja publikująca Licencja Słowa kluczowe Tytuł Kategorie DCMI Informacje o zasobie

Prof il metadanych dla korpusu w DSpace Informacje o zasobie Dane identyfikacyjne Informacje o dystrybucji Osoba kontaktowa Data utworzenia instancji CMDI Dane zasobu Typ Zawartość Język Rozmiar Kategorie DCMI Informacje o zasobie

Jaki typ licencji wybrać? Warunki dostępu Warunki użycia Warunki dystrybucji

CLARIN License Category Calculator

Kategorie licencji Public domain CLARIN PUB CLARIN PUB CLARIN PUB CLARIN PUB CC-ZERO Public Domain Princeton Wordnet CLARIN PUB Oprogramowanie CLARIN PUB+BY CLARIN PUB+BY CLARIN PUB+BY CLARIN PUB+BY) CLARIN PUB+BY CLARIN PUB+BY+SA ApacheLicense 2.0 BSD 2 or BSD 3 MIT license Microsoft Public License (MS-PL) LGPL AGPL

Problem formatu Teksty przechowywane w wersji elektronicznej w wielu formatach: Przetwarzalne: txt, doc, docx, rtf... Nieprzetwarzalne: jpg, bmp, gif... Problem kodowania Rozwi zanie w CLARIN-PL: Apache Tika Wydobywanie tekstu z wielu formatów danych Wsparcie dla: ppt, xls, pdf, doc, rtf... Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL

Etapy przetwarzania Zdeponowanie korpusu w systemie DSpace Uruchomienie wyzwalacza Konwersja dowolnego formatu do postaci tekstowej Analiza morfosyntaktyczna Rozpoznawanie jednostek identyfikacyjnych Rozpoznawanie wyrażeń temporalnych Generowanie lematów dla anotacji Zapis rezultatu w postaci plików CCL Kompresja rezultatu i udostępnienie dla innych narzędzi

Publikacja w repozytorium

Publikacja w repozytorium

Publikacja w repozytorium

Publikacja w repozytorium

Publikacja w repozytorium

Publikacja w repozytorium

Publikacja w repozytorium

Dziękujemy bardzo za uwagę