CLARIN-PL Repozytorium Centrum Technologii Językowych: deponowanie i upowszechnianie zasobów i narzędzi językowych, gromadzenie korpusów tekstowych Marcin Pol, Tomasz Walkowiak, Marcin Oleksy Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Katedra Informatyki Technicznej 2017-02-3
Funkcje CTJ CLARIN-PL Rozproszona identyfikacja i autoryzacja użytkowników oparta na federacjach narodowych zasada jednego konta i jednego logowania Odpowiedni system składowania (repozytoryjny) - dspace trwałość danych (system archiwizacji) jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers) metadane o złożonej strukturze (CMDI) zarządzanie metadanymi zgodnie z przyjętymi standardami, np. CCR (CLARIN Concept Registry) Integracja zasobów i usług w oparciu o usługi sieciowe (Web Services, REST) dostęp poprzez aplikacje webowe brak konieczności ściągania i instalowania 2
Infrastruktura Chmura prywatna Cisco UCS B-Series Blade Servers IBM Storwize V7000 Xen Server 3
Repozytorium DSpace http://clarin-pl.eu/dspace/ Otwarty system dspace zapisuje, przechowuje, opisuje, indeksuje i udostępnia materiały cyfrowe Platforma udostępnia otwarte zasoby naukowe oraz integruje narzędzia Clarin-PL z Clarin ERIC Wsparcie dla systemu CNRI Handle System [handle.net] pozwala na swobodną zmianę adresów/serwerów http://hdl.handle.net/11321/246 Zasoby są widoczne Virtual Language Observatory, który łączy repozytoria z różnych centrów w Europie https://catalog.clarin.eu/vlo/search?1&fq=collection:clarin-pl CMDI 4
Repozytorium DSpace Clarin-PL DSpace posiada liczne rozszerzenia udostępnianie zasobów instytucjom będącym w konfederacji tożsamości - edugain Federacyjne zarządzanie tożsamością logowanie za pomocą jednego loginu i hasła autoryzuje jednostka macierzysta 5
Polska federacja uwierzytelniania 6
Federacja uwierzytelniania Federacja PIONIER.Id - adresowana do polskiego środowiska naukowo-akademickiego Pokrewne usłudze: eduroam dostawca usługi, dostawca tożsamości Warunki rejestracji technicznie: serwer SAML2 organizacyjne: podpisanie Deklaracji Członkowskiej i przesłanie jej do Operatora Federacji Konfederacja EduGAIN konfederacją o ogólnoświatowym zasięgu, zrzeszającą akademickie i naukowe federacje zarządzania tożsamością, 35 krajowych federacji w 2016, w tym InCommon (ponad 500 uczelni i organizacji komercyjnych) 7
Usługi sieciowe Narzędzia językowe aplikacje zbudowane w różnorodnych technologiach złożony proces instalacji różnorodne interfejsy trudność w tworzeniu potoków przetwarzania Wszystko jest usługą sieciową Komponent oprogramowanie o ustandaryzowanym interfejsie, dostępny poprzez protokół internetowy UI przeglądarka internetowa Aplikacje dostępowe oparte o przeglądarki internetowe Łączenie usług w potoki Wizualizacja 8
Problemy techniczne Narzędzia NLP/ML dostępne są w różnych językach programowania C++, Java, Python, R (Linux, Windows) Perl, Haskell, Julia, pliki wykonywalne Różnorodność formatów txt, doc, docx, ccl (xml), csv, gęste/rzadkie macierze Rozmiar danych 10 B 10 MB 1-1,000,000 tekstów w korpusie Korpusy po przetworzeniu osiągają duże rozmiary (3 GB dla 100 książek) Złożone tory przetwarzania Any2txt WCRFT2 Liner2 Fextorbis Any2txt WCRFT2 Liner2 Fextorbis WCRFT2 Liner2 Fextorbis Document (doc) Document (docx)... Any2txt Document (pdf) FeatFilt Cluto
Usługi sieciowe - architektura Samba REST NLPREST2 RabbitMQ Data base Wydajność Worker 1 (Any2txt) Worker 3 (WCRFT2) Worker 2 (fextor) Worker n (featfilt) LPMN engine urlzip(http://ws.clarin-pl.eu/ksiazki.zip) any2txt wcrft2 fextor({"features":"base"}) dir featfilt({"similarity":"jaccard ) cluto({"no_clusters":3}) przetwarzanie równoległe chmura prywatne, skalowanie Identyfikatory plików na wej./wyj. narzędzi 10
Usługi sieciowe: ws.clarin-pl.eu Zaimplementowane usługi (NLP): Konwersja: any2txt, konwersja formatów: ccl, tei, conll, gz, conll2svg Narzędzia NLP dla języka polskiego maca, wcrft2, chunker, serel, liner2, WSD, Spejd,spatial, dependpar, spejd http://ws.clarin-pl.eu/tager.shtml Narzędzia NLP dla języka angielskiego i niemieckiego spacy, nltk http://ws.clarin-pl.eu/tageren.shtml Wydobywanie informacji z tekstu summarizer, tfidf, inkluz, termopl http://ws.clarin-pl.eu/summarize.shtml 11
Usługi sieciowe: ws.clarin-pl.eu Zaimplementowane usługi (ML): wyznaczanie, zliczanie cech: fextor, converter filtrowanie, ważenie, wyznaczanie podobieństwa featfilt (SuperMatrix, R - stylo) grupowanie/klasyfikacja/istotność: cluto, class, featsel (sklearn, weka) skalowanie wielowymiarowe mds (sklearn) topic modeling : gensim, mallet komunikacja (zip, URL, podział), integracja z dspace Wykorzystanie Ilustracja działania narzędzi NLP Element aplikacji badawczych: Mapa literacka, Chronopress, Inforex, MeWeX WebSty, LEM, Topic modeling Inne usługi : SłowoSieć, geokodowanie 12
Aplikacje badawcze 13
Aplikacje badawcze Narzędzia wysokiego poziomu nie wymagające wiedzy z dziedziny inżynierii języka lub technologii językowych Techniki załadowania własnych danych Bezpośrednie załadowanie plików w interfejsie webowym Lokalny plik, URL, DSpace, prywatna chmura (trwają prace) Różnorodność formatów txt różnorodne kodowanie znaków doc, docx (pptx, xlslx), odt, rtf, html, pdf zip Uprzednie załadowanie plików do repozytorium Identyfikacja poprzez trwały identyfikator Wstępnie przetworzone 14
Możliwości wykorzystania Utworzone aplikacje webowe są do państwa dyspozycji służymy pomocą w ich obsłudze w zrozumieniu zasad ich działania/użytych metod nie tylko w ramach warsztatów: webserwisy@clarin-pl.eu Jeżeli nie spełniają one państwa potrzeb, to możemy: rozbudować usługi o potrzebne narzędzia NLP dokument/katalog ->dokument/katalog R, Python, Java, C++, Haskell kod, model, dokumentacja efektywność/niezawodność zbudować potrzebną aplikacje badawczą na bazie istniejących usług przetworzyć korpus za pomocą usług CTJ Clarin-PL 15
Możliwości wykorzystania Możecie państwo samodzielnie wykorzystać usługi API REST-owe: http://ws.clarin-pl.eu przykłady w Javie, Python, R (niedługo) język opisu choreografii (LPMN) efektywność przetwarzania Najbliższe plany: chmura prywatna Leksykograficzne API REST-owe (integratror) Przetwarzanie b. dużych korpusów Zasoby obliczeniowe są zawsze ograniczone Warsztaty to bardzo zły model przetwarzania 16
Zintegrowane środowisko D-SPACE any2txt WCRFT2 NFS LINER2 WSD Potok przetwarzania Dane tymczasowe Zasoby / dane Dane przygotowane 17
Component MetaData Infrastructure (CMDI)
Zalety CMDI elastyczność spójność i jednoznaczność > rejestr kategorii metadanych CLARIN Concept Registry (CCR) współdzielenie schematów > Component Registry wyszukiwanie spośród wielu źródeł Virtual Language Observatory Meertens Institute CMDI search engine
Prof il metadanych dla korpusu w DSpace ogólne Specyficzne dla zasobu danego typu Kategorie DCMI Informacje o zasobie
Prof il metadanych dla korpusu w DSpace Autor Data umieszczenia w repozytorium Opis Identyfikator Data pierwszej publikacji Język Osoba/instytucja publikująca Licencja Słowa kluczowe Tytuł Kategorie DCMI Informacje o zasobie
Prof il metadanych dla korpusu w DSpace Informacje o zasobie Dane identyfikacyjne Informacje o dystrybucji Osoba kontaktowa Data utworzenia instancji CMDI Dane zasobu Typ Zawartość Język Rozmiar Kategorie DCMI Informacje o zasobie
Jaki typ licencji wybrać? Warunki dostępu Warunki użycia Warunki dystrybucji
CLARIN License Category Calculator
Kategorie licencji Public domain CLARIN PUB CLARIN PUB CLARIN PUB CLARIN PUB CC-ZERO Public Domain Princeton Wordnet CLARIN PUB Oprogramowanie CLARIN PUB+BY CLARIN PUB+BY CLARIN PUB+BY CLARIN PUB+BY) CLARIN PUB+BY CLARIN PUB+BY+SA ApacheLicense 2.0 BSD 2 or BSD 3 MIT license Microsoft Public License (MS-PL) LGPL AGPL
Problem formatu Teksty przechowywane w wersji elektronicznej w wielu formatach: Przetwarzalne: txt, doc, docx, rtf... Nieprzetwarzalne: jpg, bmp, gif... Problem kodowania Rozwi zanie w CLARIN-PL: Apache Tika Wydobywanie tekstu z wielu formatów danych Wsparcie dla: ppt, xls, pdf, doc, rtf... Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL
Etapy przetwarzania Zdeponowanie korpusu w systemie DSpace Uruchomienie wyzwalacza Konwersja dowolnego formatu do postaci tekstowej Analiza morfosyntaktyczna Rozpoznawanie jednostek identyfikacyjnych Rozpoznawanie wyrażeń temporalnych Generowanie lematów dla anotacji Zapis rezultatu w postaci plików CCL Kompresja rezultatu i udostępnienie dla innych narzędzi
Publikacja w repozytorium
Publikacja w repozytorium
Publikacja w repozytorium
Publikacja w repozytorium
Publikacja w repozytorium
Publikacja w repozytorium
Publikacja w repozytorium
Dziękujemy bardzo za uwagę