Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 marek.maziarz@pwr.edu.pl maciej.piasecki@pwr.edu.pl agnieszka.dziob@pwr.edu.pl
Warsztaty Wstęp Cel: Słownik wielowyrazowych jednostek leksykalnych Definicja: Wielowyrazowa jednostka leksykalna czym jest? Metoda: Dwie drogi Zachód to kolokacje, Wschód - kryteria Wychodzimy od kolokacji, które wydobywamy w sposób automatyczny, ale oceniamy za pomocą kryteriów lingwistycznych.
Schemat przetwarzania Warsztaty
Korpus tekstowy Zbiór tekstów wraz z zestawem metadanych. Pożądane cechy: reprezentatywność, zachowanie podziału na zdania, wyrazy i segmenty. Zawartość: formy bazowe, napotkane, opis morfologiczny, dodatkowe anotacje. Warsztaty
Plik z korpusem (format CCL) Warsztaty
Definicja kolokacji Warsztaty Często zaobserwowane i nieprzypadkowe połączenie słów występujących w bliskim sąsiedztwie. Przykłady interesujących kolokacji: białe wino (ciągła), czerwona kartka (ciągła), nabić [komuś] guza (nieciągła, 1, 2,...)
Ocena nieprzypadkowości Warsztaty Nieprzypadkowość (siłę) kolokacji mierzyć można różnymi sposobami. Metody te różnią się od siebie podejściem do rozwiązania problemu, ilością potrzebnych danych, złożonością pamięciową i obliczeniową.
Filtrowanie danych Warsztaty Filtry statystyczne: częstości, bardziej skomplikowane filtry (entropia, wariancja, ) jeśli zachowane są konteksty. Filtry językowe: trudniejsze, wiedza dziedzinowa, mniejsza ogólność międzyjęzykowa, oparte o części mowy (typy strukturalne), np. operatory języka ograniczeń WCCL. Funkcje dyspersji: względna prostota zastosowania, wymaga zbioru korpusów.
Operator języka WCCL Grupa operatorów Warsztaty Rozmiar operatora
Warsztaty Funkcje dyspersji Zadania: zmiana rozkładu danych statystycznych, wstępne wyznaczenie potencjalnie interesujących kolokacji, element filtrowania, Przykład popularnej funkcji: TF-IDF. F w korpusie 1 F w korpusie 2 F w korpusie 3 Suma Nowa częstość 3 29 1 33 0 7 17 0 24 4,23 17 0 0 17 8,11 0 37 31 68 11,97
Zestawienie przykładowych wyników ekstrakcji kolokacji Warsztaty
Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty https://clarin-pl.eu/dspace/handle/11321/274
Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty Zbiór tekstów wraz z zestawem metadanych. Struktura hasła: lemat typ strukturalny ścieżka w drzewie decyzyjnym opis semantyczny (w Słowosieci) Statystyki: 55 tys. haseł (prawie 1/3 Słowosieci) większość rzeczowników większość bigramów większość w typie NA (rzeczownik + przymiotnik w postpozycji)
Warsztaty Słownik wielowyrazowych jednostek leksykalnych Clarinu Bigramy rzeczownikowe według typu strukturalnego karta debetowa bać się żółta kartka matka Polka mała czarna
Słownik wielowyrazowych jednostek leksykalnych Clarinu WJL z podziałem na część mowy Warsztaty Bigramy a trigramy
Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty schemat wydobycia część mowy typ strukturalny i zmienne szyk
Słownik wielowyrazowych jednostek leksykalnych Clarinu Przykłady typów strukturalnych (bigramy) Rzeczownikowe: dwa rzeczowniki szyk ustalony (fix) wymusza liczbę pojedynczą dla obu wyrazów wymusza uzgodnienie obu wyrazów pod względem przypadka Warsztaty
Słownik wielowyrazowych jednostek leksykalnych Clarinu Przykłady typów strukturalnych (bigramy) Przymiotnikowe: przyimek i rzeczownik (wyrażenie przyimkowe) szyk ustalony przyimek wymusza rzeczownik w bierniku Warsztaty
Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty Przykłady typów strukturalnych (bigramy) Przysłówkowe: przyimek + forma ustalona rzeczownika, przymiotnika lub przymiotnik poprzyimkowy szyk ustalony wyraz uwięziony (brak zgodności, konieczność opisu każdej formy)
Słownik wielowyrazowych jednostek leksykalnych Clarinu Warsztaty Przykłady typów strukturalnych (trigramy) Rzeczownikowe: dwa rzeczowniki rozdzielone przyimkiem przyimek wymusza dopełniacz dla drugiego rzeczownika schemat wymusza liczbę mnogą dla pierwszego rzeczownika i pojedynczą dla drugiego szyk ustalony
Wielowyrazowa jednostka leksykalna (WJL) Warsztaty Dwa podejścia DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 DEF. 2. takie połączenie wyrazowe, którego znaczenia nie jesteśmy w stanie zrekonstruować na podstawie znaczeń elementów składowych Sinclair 1998, Weigand 1998, Malmkjaer 1991
Wielowyrazowa jednostka leksykalna (WJL) Warsztaty Dwa podejścia DEF. 1. takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 DEF. 2. takie połączenie wyrazowe, którego znaczenia nie jesteśmy w stanie zrekonstruować na podstawie znaczeń elementów składowych Sinclair 1998, Weigand 1998, Malmkjaer 1991
Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach połączenie TAK NIE WJL? maszyna do szycia 13 1 pies Marka 0 14
Warsztaty WJL system kryteriów System zbudowany na wielu kryteriach TERMIN? Połączenie XYZ PARAFRAZA? TERMINY nie-wjl N+Adj? JEDNOSTKI NIEKOMPOZYCYJNE SEPAROWALNOŚĆ? SZYK USTALONY? ZESTAWIENIA nie-wjl ZESTAWIENIA
Podsumowanie dwie drogi Warsztaty Językoznawstwo korpusowe i frazeologia Punkt wyjścia: korpus i kolokacje Cel: jednostki leksykalne frazeologizmy terminy zestawienia Środek: aplikacja MeWeX
MeWeX ćwiczenia warsztatowe Przetwarzanie korpusu Przegląd kolokacji Przydzielanie zadań anotatorom Przegląd zadań użytkownika Przegląd ocenionych kolokacji Warsztaty
MeWeX ćwiczenia warsztatowe Warsztaty Przetwarzanie korpusu: Logujemy się na DSpace Wybieramy (prawe menu): All of the Repository Type następnie: Corpus oraz tytuł korpusu, który chcemy przetworzyć UWAGA! Korpus musi być zapisany w formacie CCL. Jeśli nie ma, musimy go przetworzyć za pomocą repozytorium
Przetwarzanie korpusu Warsztaty Widok korpusu w DSpace
Przetwarzanie korpusu Warsztaty Wybór cech strukturalnych wydobywanych połączeń Wybór algorytmu wydobycia (miary)
Warsztaty Przegląd kolokacji Ocena anotatora Kolokacja Typ strukturalny przydzielony automatycznie
Przydzielanie zadań anotatorom Wybór anotatora Warsztaty Wybór trybu badania (np. Główne, Ocena) Wybór paczki z zadaniami Uwaga! W celu dodania nowych anotatorów, trybów zadaniowych oraz podziału kolokacji na paczki prosimy o kontakt: clarin-pl@pwr.edu.pl
Przegląd zadań użytkownika Warsztaty Ocena Kolokacji przydzielonego z zadania
Ocena kolokacji Warsztaty Możliwość przejścia przez drzewo decyzyjne Możliwość podjęcia szybkiej decyzji
Przegląd ocenionych kolokacji Warsztaty KLIK Przegląd ocenionych kolokacji KLIK
Warsztaty Przegląd ocenionych kolokacji Lemat jednostki wielowyrazowej (do uzupełnienia) Typ strukturalny (do uzupełnienia) KLIK
Przegląd ocenionych kolokacji Warsztaty Ocena jednostki przez koordynatora anotatorów Możliwość oceny tempa pracy KLIK
Warsztaty Przegląd ocenionych kolokacji KLIK Ocena koordynatora WJL (badanie kontrolne) Ocena anotatora nie-wjl (badanie główne)
Dziękujemy bardzo za uwagę