Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl maciej.piasecki@pwr.edu.pl agnieszka.dziob@pwr.edu.pl jan.kocon@pwr.edu.pl
Wstęp Warsztaty 12-13.04.2018 Cel: Słownik wielowyrazowych jednostek leksykalnych Definicja: Wielowyrazowa jednostka leksykalna czym jest? Metoda: Dwie drogi kolokacje kryteria Wychodzimy od kolokacji, które wydobywamy w sposób automatyczny, ale oceniamy za pomocą kryteriów lingwistycznych.
Schemat przetwarzania Warsztaty
Korpus tekstowy Zbiór tekstów wraz z zestawem metadanych. Pożądane cechy: reprezentatywność, zachowanie podziału na zdania, wyrazy i segmenty. Zawartość: formy bazowe, opis morfologiczny, dodatkowe anotacje. Warsztaty
Plik z korpusem (format CCL) Warsztaty
Definicja kolokacji Warsztaty Często zaobserwowane i nieprzypadkowe połączenie słów występujących w bliskim sąsiedztwie. Przykłady interesujących kolokacji: białe wino (ciągła), czerwona kartka (ciągła), nabić [komuś] guza (nieciągła).
Ocena nieprzypadkowości Warsztaty Nieprzypadkowość (siłę) kolokacji mierzyć można różnymi sposobami. Metody te różnią się od siebie podejściem do rozwiązania problemu, ilością potrzebnych danych, złożonością pamięciową i obliczeniową.
Filtrowanie danych Warsztaty Filtry statystyczne: częstości, bardziej skomplikowane filtry (np.: entropia, wariancja). Filtry językowe: trudniejsze, wiedza dziedzinowa, mniejsza ogólność międzyjęzykowa, oparte o części mowy (typy strukturalne), np. operatory języka ograniczeń WCCL. Funkcje dyspersji (np. TF-IDF): względna prostota zastosowania, wymaga zbioru korpusów.
Funkcje dyspersji Zadania: zmiana rozkładu danych statystycznych, wstępne wyznaczenie potencjalnie interesujących kolokacji, element filtrowania, Warsztaty
Słownik wielowyrazowych jednostek leksykalnych https://clarin-pl.eu/dspace/handle/11321/274 tiny.cc/clarinmwe Warsztaty
Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty Statystyki: 55 tys. haseł (prawie 1/3 Słowosieci) większość rzeczowników większość bigramów większość w typie NA (rzeczownik + przymiotnik w postpozycji)
Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty Bigramy rzeczownikowe według typu strukturalnego karta debetowa bać się żółta kartka matka Polka mała czarna
Słownik wielowyrazowych jednostek leksykalnych Clarinu WJL z podziałem na część mowy Warsztaty Bigramy a trigramy
Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty schemat wydobycia część mowy typ strukturalny i zmienne szyk
Słownik wielowyrazowych jednostek leksykalnych Clarinu Przykłady typów strukturalnych (bigramy) Rzeczownikowe: dwa rzeczowniki szyk ustalony (fix) wymusza liczbę pojedynczą dla obu wyrazów wymusza uzgodnienie obu wyrazów pod względem przypadka Warsztaty
Słownik wielowyrazowych jednostek leksykalnych Clarinu Przykłady typów strukturalnych (bigramy) Przyimkowe: przyimek i rzeczownik (wyrażenie przyimkowe) szyk ustalony przyimek wymusza rzeczownik w bierniku Warsztaty
Wielowyrazowa jednostka leksykalna (WJL) Warsztaty Dwa podejścia DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 DEF. 2. takie połączenie wyrazowe, którego znaczenia nie jesteśmy w stanie zrekonstruować na podstawie znaczeń elementów składowych Sinclair 1998, Weigand 1998, Malmkjaer 1991
Wielowyrazowa jednostka leksykalna (WJL) Warsztaty Dwa podejścia DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 DEF. 2. takie połączenie wyrazowe, którego znaczenia nie jesteśmy w stanie zrekonstruować na podstawie znaczeń elementów składowych Sinclair 1998, Weigand 1998, Malmkjaer 1991
Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach połączenie TAK NIE WJL? maszyna do szycia 13 1 pies Marka 0 14
Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach TERMIN? Połączenie XYZ PARAFRAZA? TERMINY N+Adj? nie-wjl JEDNOSTKI NIEKOMPOZYCYJNE SEPAROWALNOŚĆ? SZYK USTALONY? ZESTAWIENIA nie-wjl ZESTAWIENIA
MeWeX ćwiczenia warsztatowe Przetwarzanie korpusu Przegląd kolokacji tiny.cc/mewex tiny.cc/mewexnew Warsztaty
Dziękuję bardzo za uwagę