wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych Maciej Piasecki Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Technologii J zykowej i Lingwistyki Informatycznej maciej.piasecki@pwr.edu.pl
CLARIN CLARIN = Common Language Resources and Technology Infrastructure Wspólne zasoby językowe i infrastruktura technologiczna część europejskiej (ESFRI) i polskiej mapy drogowej infrastruktury naukowej Czym jest rozproszona infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych kilkadziesiąt centrów technologicznych w 19 krajach działających jako jeden wspólny system jednolity dostęp do zasobów językowych oraz narzędzi i aplikacji badawczych do analizy tekstu i mowy w wielu językach europejskich
CLARIN Członkowie 19 członków: Austria Bułgaria Czechy Dania Dutch Language Union Estonia Finlandia Grecja Holandia Łotwa Litwa Niemcy Norwegia Polska Portugalia Słowenia Szwecja Węgry Włochy Obserwatorzy: Francja, Wielka Brytania
Podstawowe pojęcia Zasoby językowe zbiory danych i bazy danych opisujące język naturalny oraz jego użycie sformalizowany opis wybranych aspektów języka naturalnego Narzędzia językowe programy komputerowe do przetwarzania tekstu i mowy na różnych poziomach analizy języka naturalnego automatyczna analiza struktur językowych, np. analiza składniowa zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw własnych Technologia językowa = zasoby + narzędzia + infrastruktura Infrastruktura językowa wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych
Przykład: analiza pojęcia Problem: znalezienie w tekstach odwołań do pojęcia książka analiza przypisywanych cech i powiązań z innymi pojęciami Przykłady z sieci: W książce rękopiśmiennej najczęściej występowało ukształtowanie jedno- lub dwukolumnowe. (Wikipedia) W ciągu dziesięciu lat powstały cztery książki, nie jest to więc oszałamiający dorobek. (http://ksiazkioli.blogspot.com/) Jak napisać fascynującą książkę z intrygującą fabułą i odnieść sukces? (sites.google.com/site/pisarstwo/) Za książką kryje się autor. Jego pisanie jest więc zawsze listem do czytelnika. Piszemy zazwyczaj listy do przyjaciół. Książka jest listem autora do przyjaciela. [Jarosław Iwaszkiewicz] (za: http://www.sp21.lublin.pl/biblioteka/cytaty.htm)
Bariery w zastosowaniu technologii językowej Fizyczna narzędzia i zasoby nie są dostępne w sieci Informacyjna brak opisu narzędzi i zasobów brak katalogów i możliwości łatwego odnalezienia Technologiczna brak standardów, możliwości łączenia elementów technologii brak wspólnej platformy różnorodność rozwiązań technologicznych brak sprzętu o określonych parametrach Wiedzy wymagane umiejętności programistyczne wymagana wiedza z zakresu inżynierii języka naturalnego Prawna licencje ograniczające dostęp i wykorzystanie szczególnie w odniesieniu do korpusów
Bariery w zastosowaniu technologii językowej Fizyczna dostępność: www.clarin-pl.eu, www.clarin.eu Informacyjna opis: metadane, dokumentacja katalog: Virtual Language Observatory Technologiczna standardy: CMDI, unifikacja standardów dla narzędzi platforma WebLicht, platforma polska w ramach CTJ sprzęt: Centrum Technologii Językowych Wiedzy aplikacje badawcze rozwijane wspólnie z użytkownikami CTJ działające jako centrum typu K (szerzenia wiedzy) Prawna otwartość! (ang. Open source, open access) otwarte rozwiązania! trudne w odniesieniu do korpusów, ale model otwartości wyników przetwarzania Finansowa: otwartość kosztuje, a kto płaci? MNiSW! (dziękujemy!)
Podstawowe funkcje CLARIN Ułatwienie dostępu do zasobów językowych federacja repozytoriów Virtual Language Observatory federacyjne przeszukiwanie korpusów Federated Content Search Wsparcie dla automatycznej analizy tekstu i mowy paleta gotowych do użycia narzędzi językowych usługi sieciowe (Web Services) i aplikacje narzędziowe dostęp poprzez repozytoria typowe zestawy, możliwość tworzenia własnych zestawów Aplikacje badawcze budowane pod konkretne potrzeby, często we współpracy z użytkownikami oparte na technologii językowej, ale nie `narzucające jej
Podstawowe funkcje CLARIN Infrastruktura Szerzenia Wiedzy (Knowledge Sharing Infrastructure) centra CLARIN typu K oferujące dostęp do wiedzy eksperckiej i wsparcie; fizyczne i wirtualne poradniki i punkty informacyjne, warsztaty, itd. Wymogi dla centrum typu K (wybrane) strona WWW z jasno określonym zakresem usług np. pomoc, wsparcie techniczne lub technologiczne, kursy, zapewniają reaktywne usługi, np. odpowiedzi na zapytania użytkowników w ciągu 2 dni roboczych dysponują odpowiednią kadrą Przykłady centrów typu K CLARIN Knowledge Centre for Treebanking (Univ. Bergen i LINDAT, Prague) Phonogrammarchiv Institute for audio-visual Research and Documentation (Austrian Academy of Science), Viena CLARIN Knowledge Centre for Speech Analysis (CLARIN-SPEECH), Stockholm Planowane centrum typu K w ramach Centrum Technologii Językowych, kontakt: uzytkownicy.clarin-pl@pwr.edu.pl
CLARIN ERIC Centra
Podstawowe funkcje CLARIN
Podstawowe funkcje CLARIN
Virtual Language Observatory
VLO wyszukiwanie fasetowe Fasetowe wyszukiwanie Atrybuty i ich zakresy wartości są odczytywane z meta-danych Wspólny standard: CMDI (Componet Metadata Infrastructure)
Centralne przeszukiwanie treści
w pigułce Centrum Technologii Językowych http://clarin-pl.eu/pl/strona-glowna/ certyfikat centrum CLARIN typu B międzynarodowy certyfikat Data Seal of Approval w zakresie przechowywania i zarządzania danymi naukowymi Narzędzia i zasoby dla języka polskiego rozszerzone lub zbudowane od podstaw dostępne w CLARIN ERIC, w większości jako usługi sieciowe Unikatowy dwutorowy model budowy łączenie i uzupełnianie elementów infrastruktury technologii językowych proces budowy ukierunkowany na wymagania użytkowników Współpraca z użytkownikami: aplikacje oraz warsztaty
Wytwórcy Grupa Naukowa G4.19 Lingwistyki Informatycznej i Technologii Językowych, Katedra Inteligencji Obliczeniowej, Politechnika Wrocławska Zespół Inżynierii Lingwistycznej, Instytut Podstaw Informatyki PAN, Instytut Slawistyki, Polska Akademia Nauk Polsko-Japońska Akademia Technik Komputerowych Instytut Anglistyki, Uniwersytet Łódzki Uniwersytet Wrocławski Beneficjenci: Wszystkie jednostki naukowe i Naukowcy w Polsce, szczególnie z obszaru nauk humanistycznych i społecznych
Technologia przed 1. 2. 3. 4. Analiza morfologiczna: formy podstawowe, cechy morfologiczne Ujednoznacznienie opisów gramatycznych słów Płytka analiza składniowa, np. frazy i zależności Wydobywanie z tekstu słowników: terminów (w tym wielowyrazowych) nazw własnych tezaurusów 5. Ujednoznacznienie znaczeń słów w tekście 6. Rozpoznawanie odniesień do obiektów (bytów nazwanych) 7. Ocena nastawienia emocjonalnego i rozpoznanie opinii 8. Rozpoznawanie relacji semantycznych 9. Rozpoznawanie sytuacji 10. Rozpoznawanie relacji czasowych 11. Rozpoznanie relacji między fragmentami tekstu 12. Analiza struktury dyskursu 13. Pełna interpretacja znaczenia tekstu Architektura technologii językowych połączenie modułów
Technologia po 1. 2. 3. 4. Analiza morfologiczna: formy podstawowe, cechy morfologiczne Ujednoznacznienie opisów gramatycznych słów Płytka analiza składniowa, np. frazy i zależności Wydobywanie z tekstu słowników: terminów (w tym wielowyrazowych) nazw własnych tezaurusów 5. Ujednoznacznienie znaczeń słów w tekście 6. Rozpoznawanie odniesień do obiektów (bytów nazwanych) 7. Ocena nastawienia emocjonalnego i rozpoznanie opinii 8. Rozpoznawanie relacji semantycznych 9. Rozpoznawanie sytuacji 10. Rozpoznawanie relacji czasowych 11. Analiza struktury dyskursu 12. Rozpoznanie relacji między fragmentami tekstu 13. Pełna interpretacja znaczenia tekstu Architektura technologii językowych połączenie modułów
Podstawowe narzędzia językowe http://ws.clarin-pl.eu
Podstawowe narzędzia językowe http://ws.clarin.eu
Podstawowe narzędzia językowe http://inforex.clarin.eu
Wydobywanie statystyk z korpusów http://ws.clarin.eu
Wydobywanie statystyk z korpusów http://ws.clarin.eu Rezultat lematyzacji (Orzeszkowa, Kto winien) nie być już młody, lecz twarz on zachować delikatność rys i cer, kibić wysmukłość kształt, a oko z gorący źrenica ten zdolność do odbijać w siebie wewnętrzny wzruszenie, który oko ludzki nadać nazwa zwierciadło dusza. ciemny suknia on, łączyć w siebie wykwintność z prostota, skraj swój dotykać piękny kobierzec, rozesłać u stopa sprzęt, na który z ręka załamanemi opaść być przed chwila, wnet po wyjść stąd istota młodziutki, śliczny, szeleścić jedwab, roześmiany śmiech przykry, kolący. Charakterystyka czasownikowa czas Cza czas Cza bez czas Cza Cza Cza Cza s3os czas Cza 3os Cza s3os Cza Cza okoli Toke- owni s1os s1os s2os s3os lp_ 3osl s3os lm_ s3os lm_ s3os s2os czni ny ki lp lm lp lp m p_z lp_n m lm_z n lm lm k 1124 129 2 9 100 0 100 84 151 465 0 0 0 0 0 0 150
Wydobywanie statystyk z korpusów http://ws.clarin.eu Wyznaczanie części mowy (Orzeszkowa, Kto winien) Nie była już młodą, lecz twarz jej zachowała delikatność rysów i cery, kibić nie być już młody, lecz twarz on zachować delikatność rys i cer, kibić qub praet qub adj interp conj subst ppron3 praet subst subst conj subst interp subst
WebSty: załadowanie plików 26
WebSty: prezentacja wyników drzewo interaktywne 27
Korzyści z udziału w CLARIN CLARIN ERIC jest dynamicznie rozwijającą się infrastrukturą badawczą rosnąca liczba członków i czołowych ośrodków naukowych szereg stabilnych centralnych usług oraz narzędzi naukowych wyznacza standardy i budzi zainteresowanie w świecie nauki Transferu wiedzy i metod badawczych zarówno w dziedzinie technologii językowych, jak i NHiS Łatwiejszy dostęp do zasobów naukowych i narzędzi badawczych Szerzenia wiedzy o nowych cyfrowych metodach badawczych w NHiS Promocja polskiej nauki, kultury, zwiększenie możliwości prowadzenie badań nad materiałami w języku polskim Rozwój otwartej technologii dla języka polskiego
Wkrótce w Warszawa 2017-05-29 Rozszerzenie wybranych narzędzi językowych pod względem pokrycia i dokładności działania, np. nowy tager morfosyntaktyczny - oparty na czeskim MorphoDiTa rozszerzone parsery dla języka polskiego Przestrzeń do eksperymentów własna chmura do przechowywania danych Rozszerzenie WebSty o system uczący się podziału tekstów na klasy: autor, styl, kategorie semantyczne Prototypowa platformy do łączenia narzędzi językowych w aplikację badawczą Rozbudowa i budowa dalszych aplikacji do tekstu i mowy Narzędzia do porównywania korpusów w ramach LEM-a Platforma Leksykalna umożliwiająca przeglądanie zasobów lesksykalnych
Dziękuję bardzo za uwagę www.clarin-pl.eu www.clarin.eu