CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego Maciej Piasecki Politechnika Wrocławska Instytut Informatyki Grupa Naukowa G4.19 maciej.piasecki@pwr.wroc.pl 2013-04-17
Projekt CLARIN CLARIN = Common Language Resources and Technology Infrastructure Wspólne zasoby językowe i infrastruktura technologiczna Część europejskiej mapy drogowej infrastruktury naukowej (European Roadmap for Research Infrastructures) ESFRI (European Strategy Forum on Research Infrastructures) Polskiej Mapy Drogowej Infrastruktury Badawczej Cel połączenie zasobów i narzędzi językowych dla wszystkich języków europejskich w ramach jednej wspólnej sieciowej infrastruktury naukowej Obszar działania: nauki humanistyczne i społeczne
Projekt CLARIN CLARIN ERIC - konsorcjum naukowe typu ERIC (European Research Infrastructure Consortium) Członkowie Austria Bułgaria Czechy Dania Estonia Holandia Niemcy Polska Dutch Language Union (organizacja międzypaństwowa) Obserwatorzy Norwegia
Podstawowe pojęcia Zasoby językowe zbiory danych i bazy danych opisujące język naturalny oraz jego użycie sformalizowany opis wybranych aspektów języka naturalnego Narzędzia językowe programy komputerowe do przetwarzania tekstu i mowy na różnych poziomach analizy języka naturalnego automatyczna analiza struktur językowych, np. analiza składniowa zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw własnych Technologia językowa = zasoby + narzędzia + infrastruktura Infrastruktura językowa wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych
Zasoby językowe Korpusy (duże zbiory) dokumentów tekstowych i nagrań mowy: przykłady użycia (fragmenty, wypowiedzi lub całe dokumenty) anotowane - opisane pod względem lingwistycznym w sformalizowany sposób (np. pod względem gramatycznym, czy też znaczenia) Słowniki morfologiczne, własności gramatycznych słów, nazw własnych, leksykony semantyczne, leksykalne sieci semantyczne, wielojęzyczne słowniki itp. Gramatyki (sformalizowane) Inne zasoby np. schematy anotacji oraz metadanych, funkcje podobieństwa semantycznego słów, listy częstościowe, modele językowe itd.
Narzędzia językowe Analizatory morfologiczne rozpoznające znane słowa i przypisujące im opis własności gramatycznych Programy do ujednoznaczniania znaczeń słów w tekście Parsery (analizatory struktury) dokonujące analizy składniowej oraz semantycznej tekstu Programy do rozpoznawania mowy i pisma ręcznego Programy do analizy znaczenia i informacji wyrażonej w tekście rozpoznawanie i klasyfikacja nazw własnych rozpoznawanie powiązań anaforycznych rozpoznawanie sytuacji itp.
Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013)
Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. obiekty: miejscowości (Onet.pl za Deutsche Welle, 30 V 2013)
Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. obiekty: miejscowości, drogi (Onet.pl za Deutsche Welle, 30 V 2013)
Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. obiekty: miejscowości, drogi, części dróg (Onet.pl za Deutsche Welle, 30 V 2013)
Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby
Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe
Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie
Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna
Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne
Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(policja, Pas) (Onet.pl za Deutsche Welle, 30 V 2013)
Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(policja, Pas), przyczyna(syt:zagrożenie, Syt:zamknięcie)
Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(policja, Pas), przyczyna(syt:zagrożenie, Syt:zamknięcie), bliskość(pas, Laatzen)
Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(policja, Pas), przyczyna(syt:zagrożenie, Syt:zamknięcie), bliskość(pas, Laatzen), bliskość(pas, Hanower)
Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(policja, Pas), przyczyna(syt:zagrożenie, Syt:zamknięcie), bliskość(pas, Laatzen), bliskość(pas, Hanower) sytuacje: S1 (typ=stan, klasa=zagrożenie powodziowe, czas=??, miejsce=??, źródło=??) S2 (typ=zdarzenie, klasa=zamknięcie, sprawca= policja, przedmiot= boczny pas, czas=??) przyczyna(s1, S2), poprzedza(s1,s2)
Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(policja, Pas), przyczyna(syt:zagrożenie, Syt:zamknięcie), bliskość(pas, Laatzen), bliskość(pas, Hanower) sytuacje: S1 (typ=stan, klasa=zagrożenie powodziowe, czas=??, miejsce=??, źródło=??) S2 (typ=zdarzenie, klasa=zamknięcie, sprawca= policja, przedmiot= boczny pas, czas=??) przyczyna(s1, S2), poprzedza(s1,s2) wiedza nadawcy:??
Analiza tekstu przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(policja, Pas), przyczyna(syt:zagrożenie, Syt:zamknięcie), bliskość(pas, Laatzen), bliskość(pas, Hanower) sytuacje: S1 (typ=stan, klasa=zagrożenie powodziowe, czas=??, miejsce=??, źródło=??) S2 (typ=zdarzenie, klasa=zamknięcie, sprawca= policja, przedmiot= boczny pas, czas=??) przyczyna(s1, S2), poprzedza(s1,s2) wiedza nadawcy:?? powiązania z informacją w pozostałej części tekstu:??, np. uszczegółowienie
Analiza tekstu narzędzia Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) analiza morfologiczna: formy podstawowe, cechy morfologiczne <orth>zagrożenie</orth> <lex disamb="1"><base>zagrożenie</base><ctag>subst:sg:acc:n </ctag></lex> płytka analiza składniowa, np. frazy i zależności rozpoznawanie odniesień do obiektów (bytów nazwanych): miejscowości, drogi, części dróg, służby rozpoznawanie relacji semantycznych: przyczyna, przestrzenne elementy relacji: zamknięcie(policja, Pas), przyczyna(syt:zagrożenie, Syt:zamknięcie), bliskość(pas, Laatzen), bliskość(pas, Hanower) rozpoznawanie sytuacji: zagrożenie powodziowe, zamknięcie rozpoznawanie relacji czasowych rozpoznanie relacji między fragmentami tekstu odniesienie do bazy wiedzy kontekstowej
Analiza tekstu stan bieżący 1. Analiza morfologiczna: formy podstawowe, cechy morfologiczne 2. Ujednoznacznienie opisów gramatycznych słów 3. Płytka analiza składniowa, np. frazy i zależności 4. Wydobywanie z tekstu słowników: terminów (w tym wielowyrazowych) nazw własnych tezaurusów 5. Ujednoznacznienie znaczeń słów w tekście 6. Rozpoznawanie odniesień do obiektów (bytów nazwanych) 7. Ocena nastawienia emocjonalnego i rozpoznanie opinii 8. Rozpoznawanie relacji semantycznych 9. Rozpoznawanie sytuacji 10. Rozpoznawanie relacji czasowych 11. Rozpoznanie relacji między fragmentami tekstu 12. Analiza struktury dyskursu 13. Pełna interpretacja znaczenia tekstu Architektura technologii językowych połączenie modułów
Analiza tekstu 1. Analiza morfologiczna: formy podstawowe, cechy morfologiczne 2. Ujednoznacznienie opisów gramatycznych słów 3. Płytka analiza składniowa, np. frazy i zależności 4. Wydobywanie z tekstu słowników: terminów (w tym wielowyrazowych) nazw własnych tezaurusów 5. Ujednoznacznienie znaczeń słów w tekście 6. Rozpoznawanie odniesień do obiektów (bytów nazwanych) 7. Ocena nastawienia emocjonalnego i rozpoznanie opinii 8. Rozpoznawanie relacji semantycznych 9. Rozpoznawanie sytuacji 10. Rozpoznawanie relacji czasowych 11. Analiza struktury dyskursu 12. Rozpoznanie relacji między fragmentami tekstu 13. Pełna interpretacja znaczenia tekstu Architektura technologii językowych połączenie modułów
Analiza relacji znaczeniowych płaca wynagrodzenie 0,453229 pensja 0,370166 zarobek 0,359917 uposażenie 0,303791 emerytura 0,279672 zatrudnienie 0,270655 dochód 0,264029 renta 0,248828 wynagradzanie 0,239462 składka 0,227758 wydajność pracy 0,225918 czynsz 0,22524 stopa procentowa 0,224882 inflacja 0,219127 oprocentowanie 0,218563 zasiłek 0,216317 świadczenie 0,215161 podwyżka 0,213452 wydatek 0,210603 premia 0,210519
Analiza relacji znaczeniowych ojczyzna naród 0,168143 lud 0,132219 kraj 0,132182 rzeczpospolita 0,128922 kraina 0,118424 wolność 0,116838 królestwo 0,114325 ludzkość 0,111024 państwo 0,104643 religia 0,104022 państwowość 0,103556 chwała 0,102265 honor 0,101467 wiara 0,100979 potęga 0,0988643 potomek 0,0979 imperium 0,0976763 zbawiciel 0,0975855 patriotyzm 0,097074 bóg 0,0968453
Przykładowe zastosowania Wyszukiwanie wielowyrazowych terminów lub nazw w dowolnej formie gramatycznej w różnych wersjach (pełnej, skróconej, częściowych akronimów) powiązanie akronimów z terminami i nazwami z uwzględnieniem wszystkich odwołań do terminu ograniczenie wyszukiwania jedynie do tekstów określonego charakteru Poglądowa mapa kolekcji dokumentów grupy oparte na podobieństwie zawartości krótkie poglądowe streszczenia Wydobywanie cechy przypisywanych do obiektów, pojęć atrybuty opinie wartościujące
Przykładowe zastosowania Automatyczne wydobywanie słownika typowego dla danej dziedzinie wyrazy i wielowyrazowe terminy, zwroty, nazwy itd. rozpoznanie kontekstów znaczeniowych w jakich są używane wyrazy powiązania znaczeniowe grupy tematyczne powiązanie słownictwa z grupami ludzi Rozpoznawanie współwystępowania obiektów w związkach lub sytuacjach analiza statystyczna rozpoznanych powiązań i sytuacji w wielkiej skali na klastrach obliczeniowych automatyczne wydobywanie sieci społecznościowych Analiza struktury dyskursu rozpoznawanie aktów dialogu (mowy) schematy i odniesienia do stereotypów
Bariery w dostępie Fizyczna narzędzia i zasoby nie są dostępne w sieci Informacyjna brak opisu narzędzi i zasobów brak katalogów i możliwości łatwego odnalezienia Technologiczna brak standardów, możliwości łączenia elementów technologii brak wspólnej platformy różnorodność rozwiązań technologicznych brak sprzętu o określonych parametrach Wiedzy wymagane umiejętności programistyczne wymagana wiedza z zakresu inżynierii języka naturalnego Prawna licencje ograniczające dostęp i wykorzystanie szczególnie w odniesieniu do korpusów
Infrastruktura językowa
Funkcje infrastruktury Odpowiedni system składowania (repozytoryjny) trwałość danych (system archiwizacji) jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers) metadane o złożonej strukturze (CMDI) zarządzanie metadanymi zgodnie z przyjętymi standardami (np. ISOcat, RELcat) wirtualne kolekcje oparte na metadanych Rozproszona identyfikacja i autoryzacja użytkowników oparta na federacjach narodowych zasada jednego konta i jednego logowania Integracja zasobów i usług w oparciu o usługi sieciowe (Web Services) dostęp poprzez aplikacje sieciowe brak konieczności ściągania i instalowania
Aplikacje przykłady Ułatwienie dostępu połączony katalog metadanych federacyjne wyszukiwanie w korpusach tekstu i mowy Gromadzenie i zarządzanie danymi tworzenie własnych kolekcji rozszerzanie istniejących wykorzystanie istniejących archiwów Rozszerzenie wyszukiwania w zasobach automatyczna generacja metadanych w oparciu o narzędzia językowe Wydobywanie informacji i wiedzy automatyczna generacja zestawień analiza statystyczna oparta na faktach wydobytych z korpusu
Konsorcjum : polska część infrastruktury CLARIN Centrum Technologii Językowych www.clarin-pl.eu Politechnice Wrocławskiej, Grupa Naukowa G4.19 zapewniające funkcje sieciowe infrastruktury CLARIN udostępniające repozytorium zestaw wybranych aplikacji zbudowanych we współpracy z użytkownikami wsparcie dla użytkowników naukowców Korpusy Uzupełnienie brakujących elementów podstawowej technologii językowej dla języka polskiego Wybrane zasoby dwujęzyczne
: projekt Okres: 2013-2015 Partnerzy: Politechnika Wrocławska, Instytut Informatyki (lider) Instytut Podstaw Informatyki Polskiej Akademii Nauk Instytut Slawistyki Polskiej Akademii Nauk Polsko-Japońska Wyższa Szkoła Technik Komputerowych Uniwersytet Łódzki Uniwersytet Wrocławski
Dziękuję bardzo za uwagę