Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 marek.maziarz@pwr.edu.pl maciej.piasecki@pwr.edu.pl agnieszka.dziob@pwr.edu.pl
Warsztaty Wstęp 4 II 2017 Cel: Słownik wielowyrazowych jednostek leksykalnych Definicja: Wielowyrazowa jednostka leksykalna czym jest? Metoda: Dwie drogi Zachód to kolokacje, Wschód - kryteria Wychodzimy od kolokacji, które wydobywamy w sposób automatyczny, ale oceniamy za pomocą kryteriów lingwistycznych.
Warsztaty Schemat przetwarzania 4 II 2017
Warsztaty Korpus tekstowy Zbiór tekstów wraz z zestawem metadanych. Pożądane cechy: reprezentatywność, zachowanie podziału na zdania, wyrazy i segmenty. Zawartość: formy bazowe, napotkane, opis morfologiczny, dodatkowe anotacje. 4 II 2017
Warsztaty Plik z korpusem (format CCL) 4 II 2017
Warsztaty Definicja kolokacji Często zaobserwowane i nieprzypadkowe połączenie słów występujących w bliskim sąsiedztwie. Przykłady interesujących kolokacji: białe wino (ciągła), czerwona kartka (ciągła), nabić [komuś] guza (nieciągła, 1, 2,...) 4 II 2017
Warsztaty Ocena nieprzypadkowości Nieprzypadkowość (siłę) kolokacji mierzyć można różnymi sposobami. Metody te różnią się od siebie podejściem do rozwiązania problemu, ilością potrzebnych danych, złożonością pamięciową i obliczeniową. 4 II 2017
Warsztaty Więcej o miarach Funkcje statystyczne: Pointwise Mutual Dependency, Mutual Dependency, Frequency Biased MD, Mutual Expectation, Unigram Subtuples... Testy statystyczne: X2 Persona, Loglikelihood, TScore, ZScore... Miary szyku: W Order... 4 II 2017
Warsztaty Więcej o miarach cz. 2 Miary kontekstowe: więcej informacji, dane pochodzące także z otoczenia kolokacji, funkcje wykorzystujące także kontekst oprócz danych statystycznych dotyczących częstości. Funkcje wektorowe: kombinacje miar, dobór miar, sposób łączenia rankingów, metody przepunktowywania, możliwość stosowania innych miar wektorowych lub klasyfikatorów jako składowych. Metody maszynowego uczenia: dobór cech wyniki miar, sposób przygotowania cech do klasyfikacji. 4 II 2017
Warsztaty Więcej o miarach cz. 3 4 II 2017
Warsztaty Optymalizacja Przeprowadzona na Korpusie IPI PAN Parametry miary złożonej Mutual Expectation: 0.21 T-Score: 0.97 Loglikelihood: 0.68 Jaccard: 0.57 Sorgenfrei: 0.39 Unigram Subtuples: 0.46 SEC(E = 2.8): 0.77 WSEC(E = 1.1): 0.65 W Order: 0.04 W Term Frequency Order: 0.52, Contonni T1: 0.63 Contonni T2: 0.58 4 II 2017
Warsztaty Filtrowanie danych 4 II 2017 Filtry statystyczne: częstości, bardziej skomplikowane filtry (entropia, wariancja, ) jeśli zachowane są konteksty. Filtry językowe: trudniejsze, wiedza dziedzinowa, mniejsza ogólność międzyjęzykowa, oparte o części mowy (typy strukturalne), np. operatory języka ograniczeń WCCL. Funkcje dyspersji: względna prostota zastosowania, wymaga zbioru korpusów.
Warsztaty 4 II 2017 Operator języka WCCL Grupa operatorów Rozmiar operatora
Warsztaty 4 II 2017 Funkcje dyspersji Zadania: zmiana rozkładu danych statystycznych, wstępne wyznaczenie potencjalnie interesujących kolokacji, element filtrowania, Przykład popularnej funkcji: TF-IDF. F w korpusie 1 F w korpusie 2 F w korpusie 3 Suma Nowa częstość 3 29 1 33 0 7 17 0 24 4,23 17 0 0 17 8,11 0 37 31 68 11,97
Zestawienie przykładowych wyników ekstrakcji kolokacji Warsztaty 4 II 2017
Warsztaty Słownik wielowyrazowych jednostek leksykalnych Clarinu https://clarin-pl.eu/dspace/handle/11321/274
Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty Zbiór tekstów wraz z zestawem metadanych. Struktura hasła: lemat typ strukturalny ścieżka w drzewie decyzyjnym opis semantyczny (w Słowosieci) Statystyki: 55 tys. haseł (prawie 1/3 Słowosieci) większość rzeczowników większość bigramów większość w typie NA (rzeczownik + przymiotnik w postpozycji)
Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty Bigramy rzeczownikowe według typu strukturalnego karta debetowa bać się żółta kartka matka Polka mała czarna
Słownik wielowyrazowych jednostek leksykalnych Clarinu WJL z podziałem na część mowy Warsztaty Bigramy a trigramy
Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty pełny opis typu WJL operator WCCL opis WJL
Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty schemat wydobycia część mowy typ strukturalny i zmienne szyk
Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty przykład WJL Przykład WJL I zmienna (przymiotnik) II zmienna (rzeczownik) uzgodnienie algorytm szukający WJL w korpusie
Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty forma podstawowa WJL forma podstawowa II wyrazu forma podstawowa I wyrazu
Słownik wielowyrazowych jednostek leksykalnych Clarinu Przykłady typów strukturalnych (bigramy) Rzeczownikowe: dwa rzeczowniki szyk ustalony (fix) wymusza liczbę pojedynczą dla obu wyrazów wymusza uzgodnienie obu wyrazów pod względem przypadka Warsztaty
Słownik wielowyrazowych jednostek leksykalnych Clarinu Przykłady typów strukturalnych (bigramy) Przymiotnikowe: przyimek i rzeczownik (wyrażenie przyimkowe) szyk ustalony przyimek wymusza rzeczownik w bierniku Warsztaty
Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty Przykłady typów strukturalnych (bigramy) Przysłówkowe: przyimek + forma ustalona rzeczownika, przymiotnika lub przymiotnik poprzyimkowy szyk ustalony wyraz uwięziony (brak zgodności, konieczność opisu każdej formy)
Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty Przykłady typów strukturalnych (trigramy) Rzeczownikowe: dwa rzeczowniki rozdzielone przyimkiem przyimek wymusza dopełniacz dla drugiego rzeczownika schemat wymusza liczbę mnogą dla pierwszego rzeczownika i pojedynczą dla drugiego szyk ustalony
Wielowyrazowa jednostka leksykalna (WJL) Warsztaty Dwa podejścia DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 DEF. 2. takie połączenie wyrazowe, którego znaczenia nie jesteśmy w stanie zrekonstruować na podstawie znaczeń elementów składowych Sinclair 1998, Weigand 1998, Malmkjaer 1991
Wielowyrazowa jednostka leksykalna (WJL) Warsztaty Dwa podejścia DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 DEF. 2. takie połączenie wyrazowe, którego znaczenia nie jesteśmy w stanie zrekonstruować na podstawie znaczeń elementów składowych Sinclair 1998, Weigand 1998, Malmkjaer 1991
Warsztaty WJL kryteria Kryteria (Zgusta 1971) semantyczna niekompozycyjność ([On jest jego] prawą ręką), metaforyczność/ obrazowość/ ekspresywność (pies ogrodnika), zawężenie znaczenia (maszyna do pisania), wariant: jednostka nazwą jednego pojęcia (bardzo zawężony zakres), wyrazy uwięzione (zbić z pantałyku), zamkniętość substytucyjna (*przemysł nielekki), składniowe i fleksyjne nieregularności: nieseparowalność (*przemysł bardzo ciężki), ustalony szyk (jaszczurka zielona 'Lacerta viridis' ~ zielona jaszczurka), swoista odmiana lub brak odmiany (nabić guza, wyjść za mąż, do sucha), swoisty akcent (náraz 'nagle' na ráz [dwa, trzy]),
Warsztaty WJL kryteria Kryteria cd. (Zgusta 1971) analogia: podobieństwo strukturalne i semantyczne do jednostki, którą wg jaśniejszych kryteriów uznaliśmy za WJL (maszyna do szycia <maszyna do pisania, pociąg pośpieszny <- pociąg osobowy), występowanie jednowyrazowego synonimu (kobieta lekkich obyczajów ~ prostytutka), występowanie krótkiej serii połączeń wyrazowych i wyrazów (szkoła podstawowa ~ szkoła średnia ~ uniwersytet), is t n i e n i e j e d n o w y ra z o w eg o d e r y w at u (u n iw e r b iz a c j a : podstawówka < szkoła podstawowa), istnienie w innym języku odpowiednika jednowyrazowego (zachód słońca sunset), bycie terminem (jaszczurka zielona), występowanie w słownikach (hala maszyn jest notowana w USJP).
Warsztaty WJL kryteria Kryteria nie są niezależne od siebie, nie tworzą spójnego systemu klasyfikacji, silnie zależą od intuicji, są argumentami post hoc gdy decyzja już została podjęta.
Warsztaty WJL kryteria Kryteria nie są niezależne od siebie, nie tworzą spójnego systemu klasyfikacji, silnie zależą od intuicji, są argumentami post hoc gdy decyzja już została podjęta. System zbudowany na niekompozycyjności jedyno kryterium (zamiast systemu kryteriów), zależy od definicji niekompozycyjności, decyzja podejmowana jest na podstawie analizy semantycznej, założenie a priori: leksykalność = niekompozycyjność.
Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997
Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach połączenie TAK NIE WJL? maszyna do szycia 13 1 pies Marka 0 14
Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach DEF. 1. 150 połączeń (varia) pies Marka (14 x NIE) autor Wyraz uwięziony Separowalność Szyk swobodny Specjalistyczność Termin Metaforyczność Kompozycyjność Parafraza #1 #2 maszyna do szycia (13 x TAK, 1 x NIE) autor Wyraz uwięziony Separowalność Szyk swobodny Specjalistyczność Termin Metaforyczność Kompozycyjność Parafraza #1 #2
Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach DEF. 1. 150 połączeń (varia) pies Marka (14 x NIE) autor Wyraz uwięziony Separowalność Szyk swobodny Specjalistyczność Termin Metaforyczność Kompozycyjność Parafraza #1 #2 maszyna do szycia (13 x TAK, 1 x NIE) autor Wyraz uwięziony Separowalność Szyk swobodny Specjalistyczność Termin Metaforyczność Kompozycyjność Parafraza #1 #2
Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach TERMIN? Połączenie XYZ PARAFRAZA? TERMINY nie-wjl N+Adj? JEDNOSTKI NIEKOMPOZYCYJNE SEPAROWALNOŚĆ? SZYK USTALONY? ZESTAWIENIA nie-wjl ZESTAWIENIA
Warsztaty Podsumowanie dwie drogi Językoznawstwo korpusowe i frazeologia Punkt wyjścia: korpus i kolokacje Cel: jednostki leksykalne frazeologizmy terminy zestawienia Środek: aplikacja MeWeX
Warsztaty MeWeX ćwiczenia warsztatowe Przetwarzanie korpusu Przegląd kolokacji Przydzielanie zadań anotatorom Przegląd zadań użytkownika Przegląd ocenionych kolokacji
Warsztaty MeWeX ćwiczenia warsztatowe Przetwarzanie korpusu: Logujemy się na DSpace Wybieramy (prawe menu): All of the Repository Type następnie: Corpus oraz tytuł korpusu, który chcemy przetworzyć UWAGA! Korpus musi być zapisany w formacie CCL. Przy korzystaniu własnego korpusu prosimy o kontakt: clarin-pl@pwr.edu.pl
Warsztaty Przetwarzanie korpusu Widok korpusu w DSpace
Warsztaty Przetwarzanie korpusu Wybór cech strukturalnych wydobywanych połączeń Wybór algorytmu wydobycia (miary)
Warsztaty Przegląd kolokacji Ocena anotatora Kolokacja Typ strukturalny przydzielony automatycznie
Warsztaty Przydzielanie zadań anotatorom Wybór anotatora Wybór trybu badania (np. Główne, Ocena) Wybór paczki z zadaniami Uwaga! W celu dodania nowych anotatorów, trybów zadaniowych oraz podziału kolokacji na paczki prosimy o kontakt: clarin-pl@pwr.edu.pl
Warsztaty Przegląd zadań użytkownika Ocena Kolokacji przydzielonego z zadania
Warsztaty Ocena kolokacji Możliwość przejścia przez drzewo decyzyjne Możliwość podjęcia szybkiej decyzji
Warsztaty Przegląd ocenionych kolokacji KLIK Przegląd ocenionych kolokacji KLIK
Warsztaty Przegląd ocenionych kolokacji Lemat jednostki wielowyrazowej (do uzupełnienia) Typ strukturalny (do uzupełnienia) KLIK
Warsztaty Przegląd ocenionych kolokacji Ocena jednostki przez koordynatora anotatorów Możliwość oceny tempa pracy KLIK
Warsztaty Przegląd ocenionych kolokacji KLIK Ocena koordynatora WJL (badanie kontrolne) Ocena anotatora nie-wjl (badanie główne)
Dziękujemy bardzo za uwagę