Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl maciej.piasecki@pwr.edu.pl agnieszka.dziob@pwr.edu.pl jan.kocon@pwr.edu.pl
Wstęp Cel: Słownik wielowyrazowych jednostek leksykalnych Definicja: Wielowyrazowa jednostka leksykalna czym jest? Metoda: Dwie drogi kolokacje (związki frazeologiczne) kryteria Wychodzimy od kolokacji, które wydobywamy w sposób automatyczny, ale oceniamy za pomocą kryteriów lingwistycznych.
Schemat przetwarzania
Korpus tekstowy Zbiór tekstów wraz z zestawem metadanych. Pożądane cechy: reprezentatywność, zachowanie podziału na zdania, wyrazy i segmenty. Zawartość: formy bazowe, opis morfologiczny, dodatkowe anotacje.
Plik z korpusem (format CCL)
Definicja kolokacji Często zaobserwowane i nieprzypadkowe połączenie słów występujących w bliskim sąsiedztwie. Przykłady interesujących kolokacji: białe wino (ciągła), czerwona kartka (ciągła), nabić [komuś] guza (nieciągła).
Ocena nieprzypadkowości Nieprzypadkowość (siłę) kolokacji mierzyć można różnymi sposobami. Metody te różnią się od siebie podejściem do rozwiązania problemu, ilością potrzebnych danych, złożonością pamięciową i obliczeniową.
Miary do oceny siły powiązania Funkcje statystyczne: Pointwise Mutual Dependency, Mutual Dependency, Frequency Biased MD, Mutual Expectation, Unigram Subtuples... Testy statystyczne: X 2 Persona, Loglikelihood, TScore, ZScore... Miary szyku: W Order...
Miara połączona Różne miary promują różne cechy kolokacji, np. rzadkie połączenia częste występowanie ustalony lub zmienny szyk, itd. Miara połączona: wyliczamy dla poszczególnych kolokacji wartości różnych miar, łączymy miary częściowe różne sposoby łączenia, w miarę połączoną VAM (Vector Association Measure)
Zestawienie przykładowych wyników ekstrakcji kolokacji
Filtrowanie danych Filtry statystyczne: częstości, bardziej skomplikowane filtry (np.: entropia, wariancja). Filtry językowe: trudniejsze, wiedza dziedzinowa, mniejsza ogólność międzyjęzykowa, oparte o części mowy (typy strukturalne), np. operatory języka ograniczeń WCCL. Funkcje dyspersji (np. TF-IDF): względna prostota zastosowania, wymaga zbioru korpusów.
Funkcje dyspersji Zadania: zmiana rozkładu danych statystycznych, wstępne wyznaczenie potencjalnie interesujących kolokacji, element filtrowania,
MeWeX system do wydobywania kolokacji http://ws.clarin-pl.eu/mewex.shtml Warto też spojrzeć na system TermoPL wyspecjalizowany w wydobywaniu terminologii: http://ws.clarin-pl.eu/termopl.shtml Materiały warsztatowe o TermoPL, np.: http://clarin-pl.eu/wpcontent/uploads/2018/04/termopl-poznan.pdf http://clarin-pl.eu/wpcontent/uploads/2018/04/termopl-poz-cwicz.pdf
Słownik wielowyrazowych jednostek leksykalnych https://clarin-pl.eu/dspace/handle/11321/274 tiny.cc/clarinmwe
Słownik wielowyrazowych jednostek leksykalnych Clarinu Statystyki: 55 tys. haseł (prawie 1/3 Słowosieci) większość rzeczowników większość biogramów (tj. dwuelementowych kolokacji) większość w typie NA (rzeczownik + przymiotnik w postpozycji)
Słownik wielowyrazowych jednostek leksykalnych Clarinu Bigramy rzeczownikowe według typu strukturalnego karta debetowa żółta kartka mała czarna bać się matka Polka
Słownik wielowyrazowych jednostek leksykalnych Clarinu WJL z podziałem na część mowy Bigramy a trigramy
Słownik wielowyrazowych jednostek leksykalnych Clarinu część mowy schemat wydobycia typ strukturalny i zmienne szyk
Słownik wielowyrazowych jednostek leksykalnych Clarinu Przykłady typów strukturalnych (bigramy) Rzeczownikowe: dwa rzeczowniki szyk ustalony (fix) wymusza liczbę pojedynczą dla obu wyrazów wymusza uzgodnienie obu wyrazów pod względem przypadka
Słownik wielowyrazowych jednostek leksykalnych Clarinu Przykłady typów strukturalnych (bigramy) Przyimkowe: przyimek i rzeczownik (wyrażenie przyimkowe) szyk ustalony przyimek wymusza rzeczownik w bierniku
Wielowyrazowa jednostka leksykalna (WJL) Dwa podejścia DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 DEF. 2. takie połączenie wyrazowe, którego znaczenia nie jesteśmy w stanie zrekonstruować na podstawie znaczeń elementów składowych Sinclair 1998, Weigand 1998, Malmkjaer 1991
Wielowyrazowa jednostka leksykalna (WJL) Dwa podejścia DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 DEF. 2. takie połączenie wyrazowe, którego znaczenia nie jesteśmy w stanie zrekonstruować na podstawie znaczeń elementów składowych Sinclair 1998, Weigand 1998, Malmkjaer 1991
WJL system kryteriów System zbudowany na wielu kryteriach połączenie TAK NIE WJL? maszyna do szycia 13 1 a pies Marka 0 14 r
WJL system kryteriów System zbudowany na wielu kryteriach Połączenie XYZ a TERMINY TERMIN? r PARAFRAZA? nie-wjl r a N+Adj? a r JEDNOSTKI NIEKOMPO- ZYCYJNE SEPAROWALNOŚĆ? a SZYK USTALONY? r ZESTAWIENIA a ZESTAWIENIA r nie-wjl
MeWeX ćwiczenia warsztatowe Przetwarzanie korpusu Wybrane teksty z korpusu z zajęć z LEM Wydobycie kolokacji przy różnych ustawieniach miar i filtrowania Przegląd kolokacji http://ws.clarin-pl.eu/mewex.shtml
Dziękuję bardzo za uwagę