Word sense disambiguation dokończenie 1. Krótkie przypomnienie: a) Podejście intuicyjne : podział słowa na znaczenia według słownika oraz przypisywanie każdemu wystąpieniu tego słowa jednego ze znaczeń słownikowych - wada: brak jednoznaczności definicji słownikowych b) Inna natura problemu: to samo słowo, inne części mowy - pozornie ta sama natura problemu - w praktyce dwa różne podejścia: * lokalna analiza kontekstu dla rozpoznawania części mowy * analiza szerszego kontekstu dla rozpoznawania znaczenia słów c) Trzy podstawowe podejścia: - supervised disambiguation (nadzorowane ujednoznacznienie) na podstawie etykietowanego korpusu - dictionary-based disambiguation - ujednoznacznienie bazujące na słownikach - unsupervised disambiguation (nienadzorowane ujednoznacznienie) na podstawie nieetykietowanego korpusu d) Podtawowe pojęcia: - nadzorowane i nienadzorowane ujednoznacznienie * podejście hybrydowe - pseudowords - dolne i górne oszacowanie wyników (wyniki osiągane przez najprostszy algorytm i przez człowieka) e) Supervised disambiguation: Gale (1992) - algorytm oparty na klasyfikacji Bayesowskiej (założenie Naive Bayes słowa są niezależne) - traktuje kontekst zdarzenia jako bag of words - BoW worek ze słowami - zbiera informacje z całego kontekstu (ze wszystkich słów) Brown (1991) - algorytm oparty na teorii informacji - bierze pod uwagę jedynie specjalną cechę, która niesie ze sobą informację o znaczeniu słowa, tzw. informant f) Szukanie znaczenia oparte na słownikach: Lesk (1986) - bezpośrednie wykorzystanie definicji słownikowych Yarowsky (1992) - wykorzystanie tezaurusa Rogeta z 1946 (podział znaczeń na kategorie subject codes) - wykorzystanie Naive Bayes do aktualizacji danych Dagan, Itai (1994) algorytm oparty na dwujęzycznym korpusie
c.d. One sense per discourse, one sense per collocation Yarowsky (1995) praca oparta na dwóch zauważonych ograniczeniach w doborze znaczenia słowa: One sense per discourse sensy docelowych słów są ze sobą zgodne wewnątrz pojedynczego dokumentu One sense per collocation pobliskie słowa dają logiczne wskazówki co do znaczenia słowa docelowego, zależnie od względnej odległości, porządku i zależności syntaktycznych - Pierwsze ograniczenie jest szczególnie przydatne, gdy ujednoznaczniany materiał jest kolekcją małych dokumentów lub może być podzielony na mniejsze dyskursy za pomocą metod przedstawionych w podrozdziale 15.5 - Drugie ograniczenie wykorzystuje założenie, że znaczenia sów są silnie powiązane z pewnymi cechami kontekstu, jak inne słowa w tej samej frazie. To założenie jest również wykorzystywane w algorytmie Browna (metoda oparta na teorii informacji, gdzie wyznaczany był pojedynczy informant ). Yarowsky wyznacza najbardziej charakterystyczną cechę (kolokację) dla wybranego kontekstu, następnie ujednoznacznia słowo tylko na podstawie tej cechy. Ranking cech: Ilość wystąpień sensu sk1 z kolokacją f dzielona przez ilość wystąpień sensu sk2 z kolokacją f - ZALETA WYBORU NAJSILNIEJSZEJ CECHY: Nie jest konieczne branie pod uwagę wielu różnych czynników (np. wszystkich słów w oknie kontekstu) do określenia znaczenia słowa. Przykładowo algorytm 7.2.1 był oparty o założenie Naive Bayes, które mówiło, że czynniki te są od siebie niezależne, co w praktyce bardzo rzadko jest prawdą. Lepiej jest unikać tego założenia poprzez wybór najsilniejszej cechy determinującej znaczenie słowa. Bardziej złożoną alternatywą jest określenie zależności pomiędzy tymi cechami (rozdział 16).
Algorytm Yarowskiego (wykorzystujący obydwa ograniczenia: one sense per discourse; one sense per collocation): - iterowana budowa dwóch współzależnych zbiorów: F k zbiór charakterystycznych kolokacji dla sensu s k E k zbiór kontekstów wieloznacznego słowa, które są w danym momencie przypisane do sensu s k - linia 3: zbiór F k inicjalizowany ze słownikowej definicji sensu s k słowa w - linia 6: zbiór E k na początku pusty - linia 11: wypełnianie zbioru E k kontekstami, w których występują kolokacje występujące w definicji słownikowej F k - linia 14: zmniejszenie zbioru kolokacji do tych najsilniejszych - iteracja trwa, dopóki zmienia się zbiór kontekstów E k - linie 18 21: wybór przeważającego sensu słowa w w całym dyskursie d m Skuteczność: 90,6% - 96,5% Dodanie założenia one sense per discourse (linie 18 21) zmniejsza ilość błędów o 27%.
UNSUPERVISED DISAMBIGUATION NIENADZOROWANE UJEDNOZNACZNIENIE 1. Potrzeba wprowadzenia nienadzorowanego ujednoznacznienia: - Wszystkie przedstawione do tej pory algorytmy bazowały na wcześniej przygotowanych źródłach leksykalnych (typu słownik, tezaurus), danych treningowych (dwujęzyczny korpus) lub znanych kolokacjach. - Jest jednak mnóstwo sytuacji, w których nawet tak małe ilości danych nie są dostępne. Szczególnie trudno dostępne mogą być gotowe źródła treningowe dla wyspecjalizowanych dziedzin, podczas gdy mechanizmy takie jak wyszukiwarki internetowe muszą zwracać dobre wyniki dla zapytań z każdej dziedziny. - Ogólne słowniki są mało użyteczne dla dokumentów z wyspecjalizowanej dziedziny. - Mechanizmy oparte na określaniu dziedziny za pomocą tezaurusów też się nie sprawdzają ze względu na fakt, iż np. w wyspecjalizowanym dokumencie chemicznym przeważającą kategorią będzie chemia. - Nie można oczekiwać od użytkownika systemu określającego sens słów, aby przygotowywał on specjalny zbiór treningowy dla każdego nowego tekstu. 2. Inne podejście do ujednoznaczniania: - Należy zdać sobie sprawę, że w nienadzorowanym ujednoznacznianiu nie da się wprost wprowadzić metody określającej bezpośrednio sens słowa (sense tagging). Nie posiadamy bowiem wejściowej charakterystyki sensów. - Można jednak w zupełnie nienadzorowany sposób przeprowadzić rozróżnienie sensów (sense discrimination). Polega ono na podziale poszczególnych wystąpień danego słowa na zbiory tak, aby wystąpienia należące do tego samego zbioru miały to samo znaczenie oraz wystąpienia należące do różnych zbiorów miały inne znaczenie, jednak bez bezpośredniego określenia, jakie znaczenie jest przypisane do każdego zbioru. 3. Schutze (1998) - Algorytm określany mianem context group discrimination - Podobieństwo do wcześniej omawianego algorytmu Browna (7.2.2) opartego na teorii informacji. - Brown klasteryzuje tłumaczenia wieloznacznych słów, o czym można myśleć jak o procesie podziału na zbiory ze względu na znaczenia, przed określeniem tych znaczeń. - Poniższy algorytm dokonuje właśnie takiej klasteryzacji, jednak w związku z tym, że jest ona nienadzorowana, nie odbywa się etap bezpośredniego etykietowania znaczeń. - Algorytm używa probabilistycznego podejścia, wprowadzonego przy okazji omawiania algorytmu Gale a, czyli korzysta z Bayesian Decision Rule do określenia, w którym zbiorze znaczeniowym dane wystąpienie słowa ma zostać umieszczone, a w trakcie dokonywania decyzji wykorzystuje Naive Bayes Assumption. - Różnica polega na tym, że w przypadku algorytmu Gale a estymujemy prawdopodobieństwo warunkowe wystąpienia słowa v j występującego w kontekście, w
którym słowo w zostało użyte w podanym sensie s k : P(v j s k ), używając do tej estymacji etykietowanego zbioru treningowego. - Tutaj nie posiadamy zbioru treningowego, nie możemy więc z góry określić sensu s k. Taka estymacja początkowa P(v j s k ) jest więc niemożliwa. Zamiast tego inicjalizujemy algorytm losowymi wartościami P(v j s k ). Otrzymujemy w ten sposób pewien model rzeczywistych prawdopodobieństw, dla którego można obliczyć jego zgodność z rzeczywistością (log of likelihood). Następnie estymujemy ponownie P(v j s k ) za pomocą algorytmu EM. - Po losowej inicjalizacji P(v j s k ), obliczamy dla każdego kontekstu c i prawdopodobieństwo P(c i s k ), a następnie zgodność wektora tych prawdopodobieństw z korpusem, estymujemy ponownie prawdopodobieństwa P(v j s k ) w celu zwiększenia tej zgodności, aż do momentu, kiedy nie zmienia się ona znacząco.
- produkujemy losowy wektor prawdopodobieństw P(v j s k ) oray P(s k ) dla określonego z góry K - obliczamy jego log of likelihood - dopóki log of likelihood znacząco rośnie, wykonujemy algorytm EM: - krok E: estymujemy dla wszystkich sensów i wszystkich kontekstów późniejsze prawdopodobieństwo h ik, że sens s k został wygenerowany przez kontekst c i - krok M: na podstawie prawdopodobieństw h ik ponownie estymujemy P(v j s k ) oraz P(s k )
4. Kiedy już odpowiedni wektor prawdopodobieństw zostanie wyestymowany, powracamy do metody ujednoznacznienia użytej w algorytmie Gale a, czyli Bayes Decision Rule wykorzystującej Naive Bayes Assumption. 5. Ziarnistość klasyfikacji znaczeń może być wyznaczona przez uruchomienie algorytmu dla wielu wartości K (z góry określona ilość znaczeń). Im więcej znaczeń, tym lepiej model opisuje rzeczywistość. W związku z tym z każdym nowym znaczeniem wzrasta log of likelihood. Kiedy wzrasta on znacząco, nowo dodany sens opisuje ważną część danych. W pewnym momencie jednak dodawanie nowych sensów powoduje nieznaczny wzrost tego wskaźnika, co oznacza, że wprowadzanie ich nie jest uzasadnione. - Można też uzależnić liczbę K od wielkości treningowego materiału (Schutze, Pedersen 1995) 6. Zalety Łatwość wprowadzenia dużej ziarnistości w określaniu znaczeń słów (można ustawić ilość zbiorów znaczeniowych dużo większą, niż ilość znaczeń jakiegokolwiek słownika czy etykietowanego tekstu). W ten sposób wychwytywane są różnice w znaczeniach, które w rzeczywistości istnieją w tekstach, a są trudne do wychwycenia w sposób empiryczny. Powstały model używania znaczeń słów jest bardziej zgodny z rzeczywistością, niż słownikowy, ponieważ rozróżnia znaczenia nie zawarte w słownikach (jak civil suit, criminal suit proces cywilny, proces kryminalny), a pomija rozróżnienia nieistotne w rzeczywistych tekstach. 7. Tabela skuteczności algorytmu: Ostatni przykład: problem topic-independence. Skuteczność mała, ale i tak większa, niż dla metod opartych o wcześniej przygotowane źródła.
CZYM JEST ZNACZENIE SŁOWA? 1. Pytanie to jest bardzo ważne z punktu widzenia rozpatrywanego zagadnienia głównie w kontekście oceny poprawności algorytmów ujednoznaczniających sens słowa. Aby ocenić ich skuteczność, należy przeprowadzić test na tekście, w którym sens każdego wystąpienia wieloznacznego słowa jest znany, określony przez człowieka. Okazuje się to być zadaniem niełatwym, gdyż człowiek rozróżnia sensy słów bardziej na podstawie intuicji, niż na podstawie świadomych przemyśleń. Dopasowanie sensu słów przez samego człowieka bywa czasami niejednoznaczne. 2. Naturalna definicja: mentalna reprezentacja różnych znaczeń słowa. Jednakże mało wiemy o tym, czym właściwie ta reprezentacja jest, w związku z tym trudnym zadaniem jest przeprowadzić eksperyment określający, jak znaczenia są reprezentowane przez badanych. 3. Jedna z metod : postawienie badanych przed zadaniem klasteryzacji kontekstów. Badani otrzymują zbiór zdań zawierających słowo umieszczone w różnych kontekstach, użyte w różnych znaczeniach oraz mają za zadanie pogrupować te zdania wg znaczeń. Nie jest jasne, czy ta metoda dobrze obrazuje rzeczywisty model używania słów w języku. Jest ona bowiem oparta na ludzkich intuicjach i własnej, świadomej ocenie znaczenia słowa. Dopasowywanie zdań wg podobieństw znaczeniowych nie jest zadaniem, jakie na co dzień staje przed człowiekiem używającym danego języka. Metoda ta nie wymaga bezpośredniego określenia sensu słowa przez badanego. 4. Najbardziej powszechna metoda: użycie słownikowych definicji poszczególnych znaczeń danego słowa. Badani mają za zadanie dopasować znaczenia słów użytych w korpusie do wcześniej podanych definicji słownikowych. Metoda ta sprawdza się w przypadkach, gdy w korpusie występuje wiele wieloznacznych słów użytych w ich typowych znaczeniach (ang. skewed distribution ). Uważa się, że jest to najczęstsza sytuacja, z jaką ma się do czynienia w naturalnym języku. 5. Metoda słownikowa wykazuje jednak dużą niezgodność w ocenie pomiędzy badanymi również dla wielu często występujących słów. Uważa się, że przyczyną takiego stanu rzeczy są niejasne definicje słownikowe, które nie odpowiadają rzeczywistym użyciom słowa w korpusie. 6. Trudności w tworzeniu bardziej jednoznacznych słowników oraz skuteczniejszych algorytmów: Niektórzy uważają, że typową właściwością wieloznacznego słowa jest fakt, iż można dopasować wiele jego sensów jednocześnie, gdyż nie są one całkowicie oddzielone od siebie, są w pewnej relacji ze sobą (polysemy). Wiele słów (w j. angielskim) oznacza jednocześnie robienie czegoś i ludzi robiącyc coś, np. słowo competition w sensie competition rywalizacja, lub competitors ludzie rywalizujący ze sobą. Algorytmom trudno jest rozpoznawać nazwy własne, np. Bush, Brown. Podsumowanie podrozdziału: Najważniejszym zadaniem na przyszłe badania jest stworzenie reprezentatywnego zbioru testowego z niejednoznacznymi słowami, aby móc uzyskiwać
wiarygodne oszacowania powstających algorytmów. Tylko z dokładnym oszacowaniem można określić ich słabe strony.