Narzędzia do automatycznego wydobywania kolokacji

Podobne dokumenty
Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do wydobywania słowników związków frazeologicznych i terminów

Program warsztatów CLARIN-PL

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania

Open Access w technologii językowej dla języka polskiego

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

WebSty otwarty webowy system do analiz stylometrycznych

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Inforex - zarządzanie korpusami i ich anotacja

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

Co wylicza Jasnopis? Bartosz Broda

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Publikacja w repozytorium i przetwarzanie w systemie DSpace

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Lokalizacja Oprogramowania

System Korekty Tekstu Polskiego

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Zastosowanie metod statystycznych do ekstrakcji słów kluczowych w kontekście projektu LT4eL. Łukasz Degórski

Spis treści tomu pierwszego

LEM wydobywanie statystyk z korpusów

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

W tym rozdziale książka opisuje kilka podejść do poszukiwania kolokacji.

Narzędzia do automatycznej analizy odniesień w tekstach

PRACA DYPLOMOWA MAGISTERSKA

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

Polskie korpusy równoległe i zasoby wielojęzyczne w projekcie CESAR

Semantyczna analiza języka naturalnego

SYLLABUS. Uniwersytet Przyrodniczo-Humanistyczny w Siedlcach Wydział Humanistyczny

TermoPL dopasowany do XML-owego wyjścia Korpusomatu

CLARIN infrastruktura naukowa technologii językowych

PRZEWODNIK PO PRZEDMIOCIE RODZAJ ZAJĘĆ LICZBA GODZIN W SEMESTRZE WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM 30

1. Ogólne ćwiczenia przygotowawcze

W poszukiwaniu sensu w świecie widzialnym

AUTOMATYKA INFORMATYKA

Część 1. Ekstrakcja informacji oraz stylometria na usługach psychologii CLARIN-PL. Tomasz Walkowiak

Metody selekcji cech

Spis treści. ROZDZIAŁ 2 Wzajemne oddziaływanie między leksykonem a innymi środkami służącymi kodowaniu informacji... 67

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Obrazkowy Test Słownikowy Rozumienie (OTSR): wystandaryzowane i znormalizowane narzędzie do oceny zasobu słownictwa dzieci w wieku 2-6 lat

Ekstrakcja terminologii dziedzinowej program TermoPL

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

SPIS TREŚCI. Wykaz skrótów Przedmowa... 11

Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i. Debiuty Naukowe. Leksykon tekst wyraz

Wyszukiwanie informacji

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Analiza danych tekstowych i języka naturalnego

Ekstrakcja terminologii z korpusów dziedzinowych

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Słowosiec leksykalna siec semantyczna języka polskiego i jej zastosowania

CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

Kryteria oceniania z języka angielskiego dla klas II-III

Prawdopodobieństwo i statystyka

Publiczne Gimnazjum nr 2 w Łańcucie

CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych

Bazy danych TERMINOLOGIA

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2014/2015

Badanie opinii Omniwatch. Oferta badawcza

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

PRZEDMIOTOWY SYSTEM OCENIANIA JĘZYK KASZUBSKI

Automatyczny dobór parametrów algorytmu genetycznego

O czym w Sejmie piszczy? Analiza tekstowa przemówień poselskich

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

PRZEWODNIK PO PRZEDMIOCIE I. KARTA PRZEDMIOTU: Praktyczna Nauka Języka Angielskiego: słownictwo CEL PRZEDMIOTU

Kryteria oceniania z języka angielskiego w klasie 2 według sprawności językowych GRAMATYKA I SŁOWNICTWO

Marek Świdziński Elementy gramatyki opisowej języka polskiego Uniwersytet Warszawski * Wydział Polonistyki Seria szósta, T. XXXIII Warszawa 1997

JEDNOSTKI WIELOWYRAZOWE. PROCEDURA SPRAWDZANIA LEKSYKALNOŚCI POŁĄCZEŃ WYRAZOWYCH. Seria: PRE nr 11

W obrębie polskiego języka narodowego należy wydzielić dwa systemy:

JĘZYK POLSKI WYMAGANIA EDUKACYJNE NA POSZCZEGÓLNE OCENY ORAZ SPOSOBY SPRAWDZANIA OSIĄGNIĘĆ UCZNIA KLASA V

SGJP Model odmiany Przymiotniki Rzeczowniki Czasowniki Podsumowanie

Języki deskryptorowe. Dr Marek Nahotko

MATERIAŁY DO ZAJĘĆ I. Podstawowe pojęcia. Algorytm. Spis treści Przepis

Publikacja sfinansowana z działalności statutowej Wydziału Filologicznego oraz Katedry Logopedii Uniwersytetu Gdańskiego

Semantyczne podobieństwo stron internetowych

Automatyczna ekstrakcja i klasyfikacja semantyczna wielosegmentowych jednostek leksykalnych języka naturalnego

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

Spis treści 3 SPIS TREŚCI

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Transkrypt:

Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl maciej.piasecki@pwr.edu.pl agnieszka.dziob@pwr.edu.pl jan.kocon@pwr.edu.pl

Wstęp Cel: Słownik wielowyrazowych jednostek leksykalnych Definicja: Wielowyrazowa jednostka leksykalna czym jest? Metoda: Dwie drogi kolokacje (związki frazeologiczne) kryteria Wychodzimy od kolokacji, które wydobywamy w sposób automatyczny, ale oceniamy za pomocą kryteriów lingwistycznych.

Schemat przetwarzania

Korpus tekstowy Zbiór tekstów wraz z zestawem metadanych. Pożądane cechy: reprezentatywność, zachowanie podziału na zdania, wyrazy i segmenty. Zawartość: formy bazowe, opis morfologiczny, dodatkowe anotacje.

Plik z korpusem (format CCL)

Definicja kolokacji Często zaobserwowane i nieprzypadkowe połączenie słów występujących w bliskim sąsiedztwie. Przykłady interesujących kolokacji: białe wino (ciągła), czerwona kartka (ciągła), nabić [komuś] guza (nieciągła).

Ocena nieprzypadkowości Nieprzypadkowość (siłę) kolokacji mierzyć można różnymi sposobami. Metody te różnią się od siebie podejściem do rozwiązania problemu, ilością potrzebnych danych, złożonością pamięciową i obliczeniową.

Miary do oceny siły powiązania Funkcje statystyczne: Pointwise Mutual Dependency, Mutual Dependency, Frequency Biased MD, Mutual Expectation, Unigram Subtuples... Testy statystyczne: X 2 Persona, Loglikelihood, TScore, ZScore... Miary szyku: W Order...

Miara połączona Różne miary promują różne cechy kolokacji, np. rzadkie połączenia częste występowanie ustalony lub zmienny szyk, itd. Miara połączona: wyliczamy dla poszczególnych kolokacji wartości różnych miar, łączymy miary częściowe różne sposoby łączenia, w miarę połączoną VAM (Vector Association Measure)

Zestawienie przykładowych wyników ekstrakcji kolokacji

Filtrowanie danych Filtry statystyczne: częstości, bardziej skomplikowane filtry (np.: entropia, wariancja). Filtry językowe: trudniejsze, wiedza dziedzinowa, mniejsza ogólność międzyjęzykowa, oparte o części mowy (typy strukturalne), np. operatory języka ograniczeń WCCL. Funkcje dyspersji (np. TF-IDF): względna prostota zastosowania, wymaga zbioru korpusów.

Funkcje dyspersji Zadania: zmiana rozkładu danych statystycznych, wstępne wyznaczenie potencjalnie interesujących kolokacji, element filtrowania,

MeWeX system do wydobywania kolokacji http://ws.clarin-pl.eu/mewex.shtml Warto też spojrzeć na system TermoPL wyspecjalizowany w wydobywaniu terminologii: http://ws.clarin-pl.eu/termopl.shtml Materiały warsztatowe o TermoPL, np.: http://clarin-pl.eu/wpcontent/uploads/2018/04/termopl-poznan.pdf http://clarin-pl.eu/wpcontent/uploads/2018/04/termopl-poz-cwicz.pdf

Słownik wielowyrazowych jednostek leksykalnych https://clarin-pl.eu/dspace/handle/11321/274 tiny.cc/clarinmwe

Słownik wielowyrazowych jednostek leksykalnych Clarinu Statystyki: 55 tys. haseł (prawie 1/3 Słowosieci) większość rzeczowników większość biogramów (tj. dwuelementowych kolokacji) większość w typie NA (rzeczownik + przymiotnik w postpozycji)

Słownik wielowyrazowych jednostek leksykalnych Clarinu Bigramy rzeczownikowe według typu strukturalnego karta debetowa żółta kartka mała czarna bać się matka Polka

Słownik wielowyrazowych jednostek leksykalnych Clarinu WJL z podziałem na część mowy Bigramy a trigramy

Słownik wielowyrazowych jednostek leksykalnych Clarinu część mowy schemat wydobycia typ strukturalny i zmienne szyk

Słownik wielowyrazowych jednostek leksykalnych Clarinu Przykłady typów strukturalnych (bigramy) Rzeczownikowe: dwa rzeczowniki szyk ustalony (fix) wymusza liczbę pojedynczą dla obu wyrazów wymusza uzgodnienie obu wyrazów pod względem przypadka

Słownik wielowyrazowych jednostek leksykalnych Clarinu Przykłady typów strukturalnych (bigramy) Przyimkowe: przyimek i rzeczownik (wyrażenie przyimkowe) szyk ustalony przyimek wymusza rzeczownik w bierniku

Wielowyrazowa jednostka leksykalna (WJL) Dwa podejścia DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 DEF. 2. takie połączenie wyrazowe, którego znaczenia nie jesteśmy w stanie zrekonstruować na podstawie znaczeń elementów składowych Sinclair 1998, Weigand 1998, Malmkjaer 1991

Wielowyrazowa jednostka leksykalna (WJL) Dwa podejścia DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 DEF. 2. takie połączenie wyrazowe, którego znaczenia nie jesteśmy w stanie zrekonstruować na podstawie znaczeń elementów składowych Sinclair 1998, Weigand 1998, Malmkjaer 1991

WJL system kryteriów System zbudowany na wielu kryteriach połączenie TAK NIE WJL? maszyna do szycia 13 1 a pies Marka 0 14 r

WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ a TERMINY TERMIN? r PARAFRAZA? nie-wjl r a N+Adj? a r JEDNOSTKI NIEKOMPO- ZYCYJNE SEPAROWALNOŚĆ? a SZYK USTALONY? r ZESTAWIENIA a ZESTAWIENIA r nie-wjl

MeWeX ćwiczenia warsztatowe Przetwarzanie korpusu Wybrane teksty z korpusu z zajęć z LEM Wydobycie kolokacji przy różnych ustawieniach miar i filtrowania Przegląd kolokacji http://ws.clarin-pl.eu/mewex.shtml

Dziękuję bardzo za uwagę