Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Maciej Piasecki, Tomasz Walkowiak Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Katedra Informatyki Technicznej maciej.piasecki@pwr.edu.pl 2015-05- 18
CLARIN Warsztaty CLARIN = Common Language Resources and Technology Infrastructure Wspólne zasoby językowe i infrastruktura technologiczna Część europejskiej mapy drogowej infrastruktury naukowej (European Roadmap for Research Infrastructures) ESFRI (European Strategy Forum on Research Infrastructures) Polskiej Mapy Drogowej Infrastruktury Badawczej Cel połączenie zasobów i narzędzi językowych dla wszystkich języków europejskich w ramach jednej wspólnej sieciowej infrastruktury naukowej Obszar działania: nauki humanistyczne i społeczne
CLARIN Warsztaty CLARIN ERIC konsorcjum naukowe typu ERIC (European Research Infrastructure Consortium) Członkowie założyciele Austria, Bułgaria, Czechy, Dania, Estonia, Holandia, Niemcy, Polska, Dutch Language Union (organizacja międzypaństwowa) Pozostali członkowie Grecja, Litwa, Portugalia, Słowenia, Szwecja Obserwatorzy Norwegia
Podstawowe pojęcia Warsztaty Zasoby językowe zbiory danych i bazy danych opisujące język naturalny oraz jego użycie sformalizowany opis wybranych aspektów języka naturalnego Narzędzia językowe programy komputerowe do przetwarzania tekstu i mowy na różnych poziomach analizy języka naturalnego automatyczna analiza struktur językowych, np. analiza składniowa zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw własnych Technologia językowa = zasoby + narzędzia + infrastruktura Infrastruktura językowa wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych
Bariery w dostępie Warsztaty Fizyczna narzędzia i zasoby nie są dostępne w sieci Informacyjna brak opisu narzędzi i zasobów brak katalogów i możliwości łatwego odnalezienia Technologiczna brak standardów, możliwości łączenia elementów technologii brak wspólnej platformy różnorodność rozwiązań technologicznych brak sprzętu o określonych parametrach Wiedzy wymagane umiejętności programistyczne wymagana wiedza z zakresu inżynierii języka naturalnego Prawna licencje ograniczające dostęp i wykorzystanie szczególnie w odniesieniu do korpusów
Infrastruktura językowa Warsztaty
Usługi CLARIN Warsztaty Wspólna europejska sieć technologii językowej tj. narzędzi i zasobów językowych oraz aplikacji Centrum Technologii Językowych repozytorium do przechowywania i udostępniania zasobów językowych usługi do analizy tekstów i mowy na różnych poziomach aplikacje badawcze, np. do półautomatycznej anotacji semantycznej tekstu lub semantycznego porównywania korpusów Aplikacje skojarzone z, np. rozszerzenia do przeszukiwania NKJP Centrum Wiedzy zapewniające wsparcie dla użytkowników CLARIN
Wspólna europejska sieć technologii językowych Warsztaty Jeden, własny login z macierzystej jednostki naukowej przy dostępie do całej sieci Jeden system trwałych identyfikatorów dla zasobów Połączona sieć centrów centralne przeszukiwanie treści: Federated Content Search bezpieczeństwo danych (certyfikaty i kopie danych) Wspólny standard metadanych centralne wyszukiwanie po wszystkich zasobach Virtual Language Observatory wspólny słownik atrybutów, wartości i relacji w meta-danych wirtualne kolekcje
CLARIN ERIC: usługi centralne Warsztaty
Wyszukiwanie zasobów po metadanych w formacie CMDI Warsztaty
Wyszukiwanie zasobów po metadanych w formacie CMDI Warsztaty Fasetowe wyszukiwanie Atrybuty i ich zakresy wartości są odczytywane z meta-danych Wspólny standard: CMDI (Componet Metadata Infrastructure)
Centralne przeszukiwanie treści Warsztaty
Centrum Technologii Językowych Warsztaty www.clarin-pl.eu Zlokalizowane na Politechnice skiej, w ramach Grupy Naukowej G4.19 Zapewnia funkcje sieciowe infrastruktury CLARIN Udostępnia repozytorium usługi do analizy tekstu (i mowy) w języku polskim zestaw wybranych aplikacji zbudowanych we współpracy z użytkownikami wsparcie dla użytkowników naukowców, jako Centrum Wiedzy
Funkcje CTJ Warsztaty Rozproszona identyfikacja i autoryzacja użytkowników oparta na federacjach narodowych zasada jednego konta i jednego logowania Odpowiedni system składowania (repozytoryjny) trwałość danych (system archiwizacji) jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers) metadane o złożonej strukturze (CMDI) zarządzanie metadanymi zgodnie z przyjętymi standardami, np. CCR (CLARIN Concept Registry), RELcat wirtualne kolekcje oparte na metadanych Integracja zasobów i usług w oparciu o usługi sieciowe (Web Services) dostęp poprzez aplikacje sieciowe brak konieczności ściągania i instalowania
Repozytorium DSpace Warsztaty Repozytorium cyfrowe Clarin-PL oparte jest o otwarty system DSpace. Zapisuje, przechowuje, opisuje, indeksuje i udostępnia materiały cyfrowe Platforma udostępnia otwarte zasoby naukowe oraz integruje narzędzia Clarin-PL z Clarin ERIC Wsparcie dla systemu CNRI Handle System [handle.net] pozwala na swobodną zmianę adresów/serwerów Zasoby są widoczne Virtual Language Observatory, który łączy repozytoria z różnych centrów w Europie https://catalog.clarin.eu/vlo/search?1&fq=collection:
Repozytorium DSpace Warsztaty Clarin-PL DSpace posiada liczne rozszerzenia pozwalające na udostępnianie zasobów instytucjom będącym w federacjach tożsamości (AAI) takich jak edugain AAI to proste logowanie za pomocą jednego loginu i hasła (autoryzuje jednostka macierzysta, nie potrzebne jest przechowywanie haseł) Polska federacja to https://aai.pionier.net.pl/
Polska federacja uwierzytelniania Warsztaty
Polska federacja uwierzytelniania Warsztaty Federacja PIONIER.Id adresowana jest do środowiska naukowo-akademickiego Połączenie z siecią PIONIER albo bezpośrednie, albo za pośrednictwem jednej z sieci członków Konsorcjum PIONIER Warunki techniczne Federacji: https://aai.pionier.net.pl/dokumenty/pionier_id_tech.pdf Istnieje możliwość przystąpienia do infrastruktury testowej, aby w praktyce sprawdzić działanie mechanizmów federacji Podpisanie Deklaracji Członkowskiej i przesłanie jej do Operatora Federacji Po zweryfikowaniu wszystkich warunków formalnych i technicznych, Operator podejmie decyzję o akceptacji Deklaracji
Usługi sieciowe Warsztaty Narzędzia językowe aplikacje zbudowane w różnorodnych technologiach złożony proces instalacji różnorodne interfejsy trudność w tworzeniu potoków przetwarzania Wszystko jest usługą sieciową Komponent oprogramowanie o ustandaryzowanym interfejsie, dostępny poprzez protokół internetowy UI przeglądarka internetowa Aplikacje dostępowe oparte o przeglądarki internetowe Łączenie usług w potoki Wizualizacja
Usługi sieciowe - architektura Warsztaty NFS NLPServices NLPWorkers Worker 1 (WCRFT2) Worker 3 (WSD) REST SOAP Worker 2 (Liner2) Worker n+1 (Serel) Serwer NLPEngine Monitoring G4.19 Web applications Internal network Wydajność przetwarzanie równoległe chmura prywatne, skalowanie Identyfikatory plików na wej./wyj. narzędzi 20
Usługi sieciowe - choreografia Warsztaty WCRFT LINER2 SEREL SuperMatrix WCRFT LINER2 SEREL Elastyczność złożone potoki przetwarzania narzędzia z obszaru maszynowego uczenia 21
Usługi sieciowe Warsztaty Zaimplementowane usługi Konwersja: any2txt Narzędzia NLP: wcrft2, chunker, chunkrel, serel, liner2, wosedon Generacja wektorów cech: fextor Klasyfikacja: stylo, cluto, SVM Komunikacja (pliki, URL, e-mail), integracja z DSpace Prace Konwertery, monitorowanie Aplikacje pod konkretne zastosowania Możliwości podpięcia innych narzędzi Wirtualna maszyna w centrum + proste API Przekierowanie do zewnętrznych usług (WebLicht, Multiservice) 22
Zintegrowane środowisko Warsztaty Repozytorium jest zintegrowane z narzędziami NLP Proste przygotowanie korpusu dla narzędzi typu Inforex Ten sam użytkownik do wszystkich narzędzi i do DSpace D-SPACE Inforex WS1 WS2 WS3 Narzędzia NLP API Wywołanie z DSpace Potok przetwarzania Dane tymczasowe Zasoby / dane Dane przygotowane
Zintegrowane środowisko Warsztaty Jak skorzystać z DSpace
Aplikacje badawcze Warsztaty
Aplikacje badawcze Warsztaty Narzędzia wysokiego poziomu nie wymagające wiedzy z dziedziny inżynierii języka lub technologii językowych Techniki załadowania własnych danych Bezpośrednie załadowanie plików w interfejsie webowym Lokalny plik, URL Różnorodność formatów txt różnorodne kodowanie znaków doc, docx (pptx, xlslx), odt, rtf, html, pdf zip Uprzednie załadowanie plików do repozytorium zalecane Identyfikacja poprzez trwały identyfikator Wstępnie przetworzone Zasoby obliczeniowe są zawsze ograniczone
Dziękuję bardzo za uwagę
Usługi sieciowe - chmura prywatna Warsztaty Zalety Konsolidacja serwerów Elastyczne wykorzystanie zasobów Ułatwione zarządzanie wieloma serwerami Zwiększenie niezawodności Szybkie tworzenie nowych środowisk testowych i deweloperskich Zapewnienie ciągłości działania Problemy Przetwarzanie NLP jest zasobożerne Źle współdzielone zasoby pamięć przepustowość sieci/dysków Sposób przetwarzania: centralizacja, przetwarzanie na żądanie
Repozytorium DSpace Warsztaty Metadane: CMDI w Clarin-PL