Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego



Podobne dokumenty
Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Repozytorium Centrum Technologii Językowych: deponowanie i upowszechnianie zasobów i narzędzi językowych, gromadzenie korpusów tekstowych

CLARIN infrastruktura naukowa technologii językowych

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

WebSty otwarty webowy system do analiz stylometrycznych

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

DSpace. Co to jest DSpace? Dostęp do danych. 1.Podstawowe informacje: Co to jest DSpace? Dostęp do danych

Zintegrowany system usług dla nauki etap II (ZSUN II)

Rola polskich bibliotek cyfrowych w zapewnianiu otwartego dostępu

Wykorzystanie regionalnej biblioteki cyfrowej do tworzenia repozytorium instytucjonalnego

EXSO-CORE - specyfikacja

Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT

System zarządzania i monitoringu

Program warsztatów CLARIN-PL

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

Europeana Cloud: Wykorzystanie technologii chmurowych do współdzielenia on-line baz danych dziedzictwa kulturowego

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Przetwarzanie i zabezpieczenie danych w zewnętrznym DATA CENTER

Grafika i Systemy Multimedialne (IGM)

Opis systemu CitectFacilities. (nadrzędny system sterowania i kontroli procesu technologicznego)

Jarosław Żeliński analityk biznesowy, projektant systemów

Usługi danych przestrzennych w GEOPORTAL-u. Marek Szulc , Warszawa

Marcin Heliński, Cezary Mazurek, Tomasz Parkoła, Marcin Werla

Wirtualizacja sieci - VMware NSX

Infrastruktura bibliotek cyfrowych

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

ERDAS TITAN środowisko 3D udostępniania danych przestrzennych

` Oxeris Anti-Theft Service Powered by Intel Anti-Theft Technology Usługa antykradzieżowa urządzeń

Oprogramowanie dostosowane do potrzeb użytkownika. Skrócenie czasu wejścia na rynek

Nowe usługi w infrastrukturze sieci MAN i PIONIER. Aleksandra Nowak Marcin Werla

Centrum Otwartej Nauki

Open Access w technologii językowej dla języka polskiego

Budowanie repozytorium dziedzinowego

Integracja ORPPD z uczelnianymi systemami antyplagiatowymi

Rozwój polskich bibliotek cyfrowych. Tomasz Parkoła Poznańskie Centrum Superkomputerowo-Sieciowe

Sekcja I: Instytucja zamawiająca/podmiot zamawiający

Federacja Bibliotek Cyfrowych w sieci PIONIER

Instrukcja konfiguracji funkcji skanowania

ZAŁOŻENIA TECHNICZNO-TECHNOLOGICZNE SYSTEMU BUDOWANEGO W RAMACH PROJEKTU

Dane bezpieczne w chmurze

MAREK NIEZGÓDKA ICM, UNIWERSYTET WARSZAWSKI

Usługi przechowywania danych KMD/PLATON-U4 dla bibliotek cyfrowych. Maciej Brzeźniak, Norbert Meyer, Rafał Mikołajczak, Maciej Stroiński

Inforex - zarządzanie korpusami i ich anotacja

Federacyjna e-infrastruktura dla europejskich środowisk naukowych rozwijających innowacyjne architektury sieciowe

Instrukcja zarządzania systemem informatycznym służącym do przetwarzania danych osobowych w Urzędzie Miasta Lublin

Infrastruktura PL-LAB2020

System Kancelaris. Zdalny dostęp do danych

Integracja APD z Ogólnopolskim Repozytorium Prac Dyplomowych i Otwartym Systemem Antyplagiatowym

Przetwarzanie w chmurze

LANGUAGE: CUSTOMER: NO_DOC_EXT: SOFTWARE VERSION: 9.6.5

Projekt e-repozytorium prac naukowych Uniwersytetu Warszawskiego. dr Aneta Pieniądz, KBSI Ewa Kobierska-Maciuszko, BUW

Zapewnienie dostępu do Chmury

Ogólnopolskie Repozytorium Prac Dyplomowych

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

Programowanie komponentowe

Przetwarzanie danych w chmurze

Nowa odsłona wyodrębnienie i kierunki jego rozwoju Łysomice

ZAŁĄCZNIK Nr 3 do CZĘŚCI II SIWZ

edziennik Ustaw Opis architektury

Jarosław Kuchta Administrowanie Systemami Komputerowymi. Internetowe Usługi Informacyjne

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Regulamin korzystania z Usługi INVO24 przez Odbiorcę i Użytkownika Odbiorcy

Tworzenie i obsługa wirtualnego laboratorium komputerowego

dlibra 3.0 Marcin Heliński

Federacja zarządzania tożsamością PIONIER.Id

Projekt epuap obecny stan realizacji i plany na przyszłość

Bank danych regionalnych Ukrainy

Serwery. Autorzy: Karol Czosnowski Mateusz Kaźmierczak

Koncepcja wirtualnej pracowni GIS w oparciu o oprogramowanie open source

Wirtualizacja zasobów IPv6 w projekcie IIP

Automatyzacja Testowania w WEB 2.0

Zarządzanie informacją i wiedzą w usługach o podwyŝszonym poziomie bezpieczeństwa. Poznań,

WEBCON BPS Instalacja Standalone

Firma Informatyczna ASDER. Prezentacja. Serwer danych lokalnych. Przemysław Kroczak ASDER

Skalowalna Platforma dla eksperymentów dużej skali typu Data Farming z wykorzystaniem środowisk organizacyjnie rozproszonych

TOPIT Załącznik nr 3 Programowanie aplikacji internetowych

System generacji raportów

Warsztaty KPRM-MF-MG-MPiPS MRR-MSWiA-MSZ 28 kwietnia 2011 r.

Systemy obiegu informacji i Protokół SWAP "CC"

Czytelnik w bibliotece cyfrowej

ZARZĄDZANIE DOKUMENTACJĄ. Tomasz Jarmuszczak PCC Polska

epuap Opis standardowych elementów epuap

Nowa odsłona wyodrębnienie i kierunki jego rozwoju

Serwery LDAP w środowisku produktów w Oracle

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

KOLEJNY PORTAL NA UCZELNI?

Zadania PCSS w Polskiej Platformie Bezpieczeństwa Wewnętrznego

Rozproszona biblioteka cyfrowa pacjenta w środowisku Prywatnej Sieci ezdrowie Rodziny

Struktury systemów operacyjnych

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

Część I -ebxml. UEK w Krakowie Janusz Stal & Grażyna Paliwoda-Pękosz. UEK w Krakowie Janusz Stal & Grażyna Paliwoda-Pękosz

Transkrypt:

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Maciej Piasecki, Tomasz Walkowiak Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Katedra Informatyki Technicznej maciej.piasecki@pwr.edu.pl 2015-05- 18

CLARIN Warsztaty CLARIN = Common Language Resources and Technology Infrastructure Wspólne zasoby językowe i infrastruktura technologiczna Część europejskiej mapy drogowej infrastruktury naukowej (European Roadmap for Research Infrastructures) ESFRI (European Strategy Forum on Research Infrastructures) Polskiej Mapy Drogowej Infrastruktury Badawczej Cel połączenie zasobów i narzędzi językowych dla wszystkich języków europejskich w ramach jednej wspólnej sieciowej infrastruktury naukowej Obszar działania: nauki humanistyczne i społeczne

CLARIN Warsztaty CLARIN ERIC konsorcjum naukowe typu ERIC (European Research Infrastructure Consortium) Członkowie założyciele Austria, Bułgaria, Czechy, Dania, Estonia, Holandia, Niemcy, Polska, Dutch Language Union (organizacja międzypaństwowa) Pozostali członkowie Grecja, Litwa, Portugalia, Słowenia, Szwecja Obserwatorzy Norwegia

Podstawowe pojęcia Warsztaty Zasoby językowe zbiory danych i bazy danych opisujące język naturalny oraz jego użycie sformalizowany opis wybranych aspektów języka naturalnego Narzędzia językowe programy komputerowe do przetwarzania tekstu i mowy na różnych poziomach analizy języka naturalnego automatyczna analiza struktur językowych, np. analiza składniowa zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw własnych Technologia językowa = zasoby + narzędzia + infrastruktura Infrastruktura językowa wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych

Bariery w dostępie Warsztaty Fizyczna narzędzia i zasoby nie są dostępne w sieci Informacyjna brak opisu narzędzi i zasobów brak katalogów i możliwości łatwego odnalezienia Technologiczna brak standardów, możliwości łączenia elementów technologii brak wspólnej platformy różnorodność rozwiązań technologicznych brak sprzętu o określonych parametrach Wiedzy wymagane umiejętności programistyczne wymagana wiedza z zakresu inżynierii języka naturalnego Prawna licencje ograniczające dostęp i wykorzystanie szczególnie w odniesieniu do korpusów

Infrastruktura językowa Warsztaty

Usługi CLARIN Warsztaty Wspólna europejska sieć technologii językowej tj. narzędzi i zasobów językowych oraz aplikacji Centrum Technologii Językowych repozytorium do przechowywania i udostępniania zasobów językowych usługi do analizy tekstów i mowy na różnych poziomach aplikacje badawcze, np. do półautomatycznej anotacji semantycznej tekstu lub semantycznego porównywania korpusów Aplikacje skojarzone z, np. rozszerzenia do przeszukiwania NKJP Centrum Wiedzy zapewniające wsparcie dla użytkowników CLARIN

Wspólna europejska sieć technologii językowych Warsztaty Jeden, własny login z macierzystej jednostki naukowej przy dostępie do całej sieci Jeden system trwałych identyfikatorów dla zasobów Połączona sieć centrów centralne przeszukiwanie treści: Federated Content Search bezpieczeństwo danych (certyfikaty i kopie danych) Wspólny standard metadanych centralne wyszukiwanie po wszystkich zasobach Virtual Language Observatory wspólny słownik atrybutów, wartości i relacji w meta-danych wirtualne kolekcje

CLARIN ERIC: usługi centralne Warsztaty

Wyszukiwanie zasobów po metadanych w formacie CMDI Warsztaty

Wyszukiwanie zasobów po metadanych w formacie CMDI Warsztaty Fasetowe wyszukiwanie Atrybuty i ich zakresy wartości są odczytywane z meta-danych Wspólny standard: CMDI (Componet Metadata Infrastructure)

Centralne przeszukiwanie treści Warsztaty

Centrum Technologii Językowych Warsztaty www.clarin-pl.eu Zlokalizowane na Politechnice skiej, w ramach Grupy Naukowej G4.19 Zapewnia funkcje sieciowe infrastruktury CLARIN Udostępnia repozytorium usługi do analizy tekstu (i mowy) w języku polskim zestaw wybranych aplikacji zbudowanych we współpracy z użytkownikami wsparcie dla użytkowników naukowców, jako Centrum Wiedzy

Funkcje CTJ Warsztaty Rozproszona identyfikacja i autoryzacja użytkowników oparta na federacjach narodowych zasada jednego konta i jednego logowania Odpowiedni system składowania (repozytoryjny) trwałość danych (system archiwizacji) jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers) metadane o złożonej strukturze (CMDI) zarządzanie metadanymi zgodnie z przyjętymi standardami, np. CCR (CLARIN Concept Registry), RELcat wirtualne kolekcje oparte na metadanych Integracja zasobów i usług w oparciu o usługi sieciowe (Web Services) dostęp poprzez aplikacje sieciowe brak konieczności ściągania i instalowania

Repozytorium DSpace Warsztaty Repozytorium cyfrowe Clarin-PL oparte jest o otwarty system DSpace. Zapisuje, przechowuje, opisuje, indeksuje i udostępnia materiały cyfrowe Platforma udostępnia otwarte zasoby naukowe oraz integruje narzędzia Clarin-PL z Clarin ERIC Wsparcie dla systemu CNRI Handle System [handle.net] pozwala na swobodną zmianę adresów/serwerów Zasoby są widoczne Virtual Language Observatory, który łączy repozytoria z różnych centrów w Europie https://catalog.clarin.eu/vlo/search?1&fq=collection:

Repozytorium DSpace Warsztaty Clarin-PL DSpace posiada liczne rozszerzenia pozwalające na udostępnianie zasobów instytucjom będącym w federacjach tożsamości (AAI) takich jak edugain AAI to proste logowanie za pomocą jednego loginu i hasła (autoryzuje jednostka macierzysta, nie potrzebne jest przechowywanie haseł) Polska federacja to https://aai.pionier.net.pl/

Polska federacja uwierzytelniania Warsztaty

Polska federacja uwierzytelniania Warsztaty Federacja PIONIER.Id adresowana jest do środowiska naukowo-akademickiego Połączenie z siecią PIONIER albo bezpośrednie, albo za pośrednictwem jednej z sieci członków Konsorcjum PIONIER Warunki techniczne Federacji: https://aai.pionier.net.pl/dokumenty/pionier_id_tech.pdf Istnieje możliwość przystąpienia do infrastruktury testowej, aby w praktyce sprawdzić działanie mechanizmów federacji Podpisanie Deklaracji Członkowskiej i przesłanie jej do Operatora Federacji Po zweryfikowaniu wszystkich warunków formalnych i technicznych, Operator podejmie decyzję o akceptacji Deklaracji

Usługi sieciowe Warsztaty Narzędzia językowe aplikacje zbudowane w różnorodnych technologiach złożony proces instalacji różnorodne interfejsy trudność w tworzeniu potoków przetwarzania Wszystko jest usługą sieciową Komponent oprogramowanie o ustandaryzowanym interfejsie, dostępny poprzez protokół internetowy UI przeglądarka internetowa Aplikacje dostępowe oparte o przeglądarki internetowe Łączenie usług w potoki Wizualizacja

Usługi sieciowe - architektura Warsztaty NFS NLPServices NLPWorkers Worker 1 (WCRFT2) Worker 3 (WSD) REST SOAP Worker 2 (Liner2) Worker n+1 (Serel) Serwer NLPEngine Monitoring G4.19 Web applications Internal network Wydajność przetwarzanie równoległe chmura prywatne, skalowanie Identyfikatory plików na wej./wyj. narzędzi 20

Usługi sieciowe - choreografia Warsztaty WCRFT LINER2 SEREL SuperMatrix WCRFT LINER2 SEREL Elastyczność złożone potoki przetwarzania narzędzia z obszaru maszynowego uczenia 21

Usługi sieciowe Warsztaty Zaimplementowane usługi Konwersja: any2txt Narzędzia NLP: wcrft2, chunker, chunkrel, serel, liner2, wosedon Generacja wektorów cech: fextor Klasyfikacja: stylo, cluto, SVM Komunikacja (pliki, URL, e-mail), integracja z DSpace Prace Konwertery, monitorowanie Aplikacje pod konkretne zastosowania Możliwości podpięcia innych narzędzi Wirtualna maszyna w centrum + proste API Przekierowanie do zewnętrznych usług (WebLicht, Multiservice) 22

Zintegrowane środowisko Warsztaty Repozytorium jest zintegrowane z narzędziami NLP Proste przygotowanie korpusu dla narzędzi typu Inforex Ten sam użytkownik do wszystkich narzędzi i do DSpace D-SPACE Inforex WS1 WS2 WS3 Narzędzia NLP API Wywołanie z DSpace Potok przetwarzania Dane tymczasowe Zasoby / dane Dane przygotowane

Zintegrowane środowisko Warsztaty Jak skorzystać z DSpace

Aplikacje badawcze Warsztaty

Aplikacje badawcze Warsztaty Narzędzia wysokiego poziomu nie wymagające wiedzy z dziedziny inżynierii języka lub technologii językowych Techniki załadowania własnych danych Bezpośrednie załadowanie plików w interfejsie webowym Lokalny plik, URL Różnorodność formatów txt różnorodne kodowanie znaków doc, docx (pptx, xlslx), odt, rtf, html, pdf zip Uprzednie załadowanie plików do repozytorium zalecane Identyfikacja poprzez trwały identyfikator Wstępnie przetworzone Zasoby obliczeniowe są zawsze ograniczone

Dziękuję bardzo za uwagę

Usługi sieciowe - chmura prywatna Warsztaty Zalety Konsolidacja serwerów Elastyczne wykorzystanie zasobów Ułatwione zarządzanie wieloma serwerami Zwiększenie niezawodności Szybkie tworzenie nowych środowisk testowych i deweloperskich Zapewnienie ciągłości działania Problemy Przetwarzanie NLP jest zasobożerne Źle współdzielone zasoby pamięć przepustowość sieci/dysków Sposób przetwarzania: centralizacja, przetwarzanie na żądanie

Repozytorium DSpace Warsztaty Metadane: CMDI w Clarin-PL