CLARINPL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych Jan Wieczorek Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Technologii Językowej i Lingwistyki Informatycznej
CLARIN CLARIN = Common Language Resources and Technology Infrastructure Wspólne zasoby językowe i infrastruktura technologiczna część europejskiej (ESFRI) i polskiej mapy drogowej infrastruktury naukowej Czym jest rozproszona infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych kilkadziesiąt centrów technologicznych w 19 krajach działających jako jeden wspólny system jednolity dostęp do zasobów językowych oraz narzędzi i aplikacji badawczych do analizy tekstu i mowy w wielu językach europejskich
CLARIN Członkowie
CLARIN-ERIC: członkowie Członkowie: Austria, Bułgaria, Czechy, Chorwacja, Dania, Dutch Language Union, Estonia, Finlandia, Grecja, Holandia, Łotwa, Litwa, Niemcy, Norwegia, Polska, Portugalia, Słowenia, Szwecja, Węgry, Włochy Obserwatorzy: Republika Południowej Afryki, Islandia, Francja, Wielka Brytania Kraje z Centrami współpracującymi z CLARIN-ERIC: Stany Zjednoczone Ameryki, Hiszpania
Podstawowe pojęcia Zasoby językowe zbiory danych i bazy danych opisujące język naturalny oraz jego użycie sformalizowany opis wybranych aspektów języka naturalnego Narzędzia językowe programy komputerowe do przetwarzania tekstu i mowy na różnych poziomach analizy języka naturalnego automatyczna analiza struktur językowych, np. analiza składniowa zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw własnych Technologia językowa = zasoby + narzędzia + infrastruktura Infrastruktura językowa wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych
Bariery w zastosowaniu technologii językowej Fizyczna narzędzia i zasoby nie są dostępne w sieci Informacyjna brak opisu narzędzi i zasobów brak katalogów i możliwości łatwego odnalezienia Technologiczna brak standardów, możliwości łączenia elementów technologii brak wspólnej platformy różnorodność rozwiązań technologicznych brak sprzętu o określonych parametrach Wiedzy wymagane umiejętności programistyczne wymagana wiedza z zakresu inżynierii języka naturalnego Prawna licencje ograniczające dostęp i wykorzystanie szczególnie w odniesieniu do korpusów
Bariery w zastosowaniu technologii językowej Fizyczna dostępność: www.clarin-pl.eu, www.clarin.eu, kcentre.clarin-pl.eu Informacyjna opis: metadane, dokumentacja katalog: Virtual Language Observatory, Federated Content Search, Platforma Leksykalna Technologiczna standardy: CMDI, unifikacja standardów dla narzędzi platforma WebLicht, platforma polska w ramach CTJ sprzęt: Centrum Technologii Językowych Wiedzy aplikacje badawcze rozwijane wspólnie z użytkownikami Centrum typu K (szerzenia wiedzy): PolLinguaTec - Centrum Wiedzy CLARIN Technologii Językowej dla Języka Polskiego
Bariery w zastosowaniu technologii językowej Prawna otwartość! otwarte rozwiązania! trudne w odniesieniu do korpusów, ale otwarte wyniki przetwarzania Finansowa: otwartość kosztuje, a kto płaci? MNiSW! (dziękujemy!)
Podstawowe funkcje CLARIN Ułatwienie dostępu do zasobów językowych federacja repozytoriów Virtual Language Observatory federacyjne przeszukiwanie korpusów Federated Content Search Wsparcie dla automatycznej analizy tekstu i mowy paleta gotowych do użycia narzędzi językowych usługi sieciowe (Web Services) i aplikacje narzędziowe dostęp poprzez repozytoria typowe zestawy, możliwość tworzenia własnych zestawów Aplikacje badawcze budowane pod konkretne potrzeby, często we współpracy z użytkownikami oparte na technologii językowej, ale nie `narzucające jej
Podstawowe funkcje CLARIN Infrastruktura Szerzenia Wiedzy (Knowledge Sharing Infrastructure) centra CLARIN typu K oferujące dostęp do wiedzy eksperckiej i wsparcie; fizyczne i wirtualne poradniki i punkty informacyjne, warsztaty, itd. Wymogi dla centrum typu K (wybrane) strona WWW z jasno określonym zakresem usług np. pomoc, wsparcie techniczne lub technologiczne, kursy, zapewniają reaktywne usługi, np. odpowiedzi na zapytania użytkowników w ciągu 2 dni roboczych dysponują odpowiednią kadrą Przykłady centrów typu K CLARIN Knowledge Centre for Treebanking (Univ. Bergen i LINDAT, Prague) Phonogrammarchiv Institute for audio-visual Research and Documentation (Austrian Academy of Science), Viena CLARIN Knowledge Centre for Speech Analysis (CLARIN-SPEECH), Stockholm PolLinguaTec - Centrum Wiedzy CLARIN Technologii Językowej dla Języka Polskiego (http://kcentre.clarin-pl.eu): applications of LT for Polish (mono and multilingual)
Podstawowe funkcje CLARIN
Podstawowe funkcje CLARIN
Virtual Language Observatory
Centralne przeszukiwanie treści
w pigułce Centrum Technologii Językowych http://clarin-pl.eu/pl/strona-glowna/ certyfikat centrum CLARIN typu B międzynarodowy certyfikat Data Seal of Approval w zakresie przechowywania i zarządzania danymi naukowymi Narzędzia i zasoby dla języka polskiego rozszerzone lub zbudowane od podstaw dostępne w CLARIN ERIC, w większości jako usługi sieciowe Unikatowy dwutorowy model budowy łączenie i uzupełnianie elementów infrastruktury technologii językowych proces budowy ukierunkowany na wymagania użytkowników Współpraca z użytkownikami: aplikacje oraz warsztaty
Wytwórcy Grupa Naukowa G4.19 Lingwistyki Informatycznej i Technologii Językowych, Katedra Inteligencji Obliczeniowej, Politechnika Wrocławska Zespół Inżynierii Lingwistycznej, Instytut Podstaw Informatyki PAN, Instytut Slawistyki, Polska Akademia Nauk Polsko-Japońska Akademia Technik Komputerowych Instytut Anglistyki, Uniwersytet Łódzki Uniwersytet Wrocławski Beneficjenci: Wszystkie jednostki naukowe i Naukowcy w Polsce, szczególnie z obszaru nauk humanistycznych i społecznych
Technologia przed 1. 2. 3. 4. Analiza morfologiczna: formy podstawowe, cechy morfologiczne Ujednoznacznienie opisów gramatycznych słów Płytka analiza składniowa, np. frazy i zależności Wydobywanie z tekstu słowników: terminów (w tym wielowyrazowych) nazw własnych tezaurusów 5. Ujednoznacznienie znaczeń słów w tekście 6. Rozpoznawanie odniesień do obiektów (bytów nazwanych) 7. Ocena nastawienia emocjonalnego i rozpoznanie opinii 8. Rozpoznawanie relacji semantycznych 9. Rozpoznawanie sytuacji 10. Rozpoznawanie relacji czasowych 11. Rozpoznanie relacji między fragmentami tekstu 12. Analiza struktury dyskursu 13. Pełna interpretacja znaczenia tekstu Architektura technologii językowych połączenie modułów
Technologia po 1. 2. 3. 4. Analiza morfologiczna: formy podstawowe, cechy morfologiczne Ujednoznacznienie opisów gramatycznych słów Płytka analiza składniowa, np. frazy i zależności Wydobywanie z tekstu słowników: terminów (w tym wielowyrazowych) nazw własnych tezaurusów 5. Ujednoznacznienie znaczeń słów w tekście 6. Rozpoznawanie odniesień do obiektów (bytów nazwanych) 7. Ocena nastawienia emocjonalnego i rozpoznanie opinii 8. Rozpoznawanie relacji semantycznych 9. Rozpoznawanie sytuacji 10. Rozpoznawanie relacji czasowych 11. Analiza struktury dyskursu 12. Rozpoznanie relacji między fragmentami tekstu 13. Pełna interpretacja znaczenia tekstu Architektura technologii językowych połączenie modułów
w ciągu 2018 i 2019 roku: Wsparcie dla użytkowników Warsztaty szkoleniowe: Poznań (kwiecień 18), Gdańsk (maj 18), Wrocław (czerwiec 18) Toruń (listopad 18) Poznań (marzec 19) Planowane: Kraków (lipiec 19), Lublin (wrzesień 19) W sumie ok. 200 uczestników
Zaproszone warsztaty i wykłady: Warszawa (lipiec 18) - warsztaty współorganizowane przez Stowarzyszenie Paragraf 61 (portal MamPrawoWiedziec.pl) dla organizacji pozarządowych Warszawa (listopad 18) - warsztaty na UW w ramach projektu Engaged Humanities dla badaczy małych języków Pretoria/Potchefstroom (RPA, luty/marzec 19) - warsztaty wprowadzające narzędzie WordnetLoom do prac nad Afrykańskim Wordnetem (6 języków: Setswana, isixhosa, isizulu, Tshiwenda, Sotho, isindebele + angielski) Seminaria, np. kilka w Warszawie, Wrocławiu, Swansea, w Singapurze
w ciągu 2017 roku: Wsparcie dla użytkowników Pomoc w realizacji projektów badawczych (ponad 70), np. Długotrwały kontakt językowy i jego skutki leksykalne oraz semantyczne na przykładzie polskich zapożyczeń leksykalnych w jidysz prof. Ewa Geller (UW) Przygotowanie korpusu artykułów z prasy kenijskiej, dr Monika Kopytowska (Instytut Anglistyki UŁ) Hiperkorpus czterech wieszczów, prof. Marek Troszyński (IBL PAN) Retrodigitalizacja Polskiej Bibliografii Literackiej, IBL PAN Analiza tekstów wieszczy literatury węgierskiej, Palkó Gábor, Petőfi Irodalmi Múzeum, Węgry Wykorzystanie w projektach badawczych Blisko 30 zidentyfikowanych zastosowań, np. Analiza nagrań słowiańskich, dr hab. Anna Cychnerska, UMK Wykorzystanie w korpusowych badaniach polszczyzny, Karolina Zuchewicz, Leibniz-Zentrum Allgemeine Sprachwissenschaft CloudNet - aplikacja umożliwiająca tworzenie polsko-angielskiej chmury słów, mgr Monika Madej (doktorat) Ponad pół miliona dostępów i przetwarzania danych
CLARINPL Dziękuję bardzo za uwagę www.clarin-pl.eu www.clarin.eu