Word sense disambiguation dokończenie

Podobne dokumenty
Rozdział przedstawia kilka najważniejszych algorytmów rozpoznających znaczenie słów w zależności od użytego kontekstu.

Elementy modelowania matematycznego

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Propensity score matching (PSM)

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Pętla for. Wynik działania programu:

Metody probabilistyczne klasyfikatory bayesowskie

AiSD zadanie trzecie

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Bazy danych. Zachodniopomorski Uniwersytet Technologiczny w Szczecinie. Wykład 3: Model związków encji.

ALHE. prof. Jarosław Arabas semestr 15Z

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

Spacery losowe generowanie realizacji procesu losowego

Aproksymacja funkcji a regresja symboliczna

Algorytmy genetyczne

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Algorytm grupowania danych typu kwantyzacji wektorów

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Wyszukiwanie binarne

Wnioskowanie bayesowskie

Agnieszka Nowak Brzezińska Wykład III

Testowanie hipotez statystycznych

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Agnieszka Nowak Brzezińska Wykład III

ECDL Podstawy programowania Sylabus - wersja 1.0

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH

Optymalizacja ciągła

Najprostszy schemat blokowy

CLUSTERING. Metody grupowania danych

Algorytm genetyczny (genetic algorithm)-

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

0 + 0 = 0, = 1, = 1, = 0.

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

WHILE (wyrażenie) instrukcja;

Psychometria PLAN NAJBLIŻSZYCH WYKŁADÓW. Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. TEN SLAJD JUŻ ZNAMY

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Proces informacyjny. Janusz Górczyński

Analiza danych tekstowych i języka naturalnego

dr inż. Jarosław Forenc

Metody numeryczne I Równania nieliniowe

W tym rozdziale książka opisuje kilka podejść do poszukiwania kolokacji.

O czym w Sejmie piszczy? Analiza tekstowa przemówień poselskich

Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego

4. Funkcje. Przykłady

Dopasowywanie modelu do danych

TEORETYCZNE PODSTAWY INFORMATYKI

Co to jest grupowanie

AUTOMATYKA INFORMATYKA

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

Sympozjum Trwałość Budowli

Agnieszka Nowak Brzezińska

Algorytmy genetyczne. Paweł Cieśla. 8 stycznia 2009

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

7. Pętle for. Przykłady

Spis treści. Definicje prawdopodobieństwa. Częstościowa definicja prawdopodobieństwa. Wnioskowanie_Statystyczne_-_wykład

Prawdopodobieństwo czerwonych = = 0.33

5. WNIOSKOWANIE PSYCHOMETRYCZNE

Rozpoznawanie obrazów

Klasyfikacja metodą Bayesa

Technologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15

Definicje. Najprostszy schemat blokowy. Schemat dokładniejszy

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu

Podstawy programowania. Wykład Funkcje. Krzysztof Banaś Podstawy programowania 1

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

6.4 Podstawowe metody statystyczne

Analiza i projektowanie obiektowe 2017/2018. Wykład 3: Model wiedzy dziedzinowej

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu dla odczytu Australia Employment Change

REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH

WHILE (wyrażenie) instrukcja;

Jazda autonomiczna Delphi zgodna z zasadami sztucznej inteligencji

11 Probabilistic Context Free Grammars

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)

Sortowanie Shella Shell Sort

System bonus-malus z mechanizmem korekty składki

Testowanie modeli predykcyjnych

Języki programowania zasady ich tworzenia

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Sztuczna inteligencja stan wiedzy, perspektywy rozwoju i problemy etyczne. Piotr Bilski Instytut Radioelektroniki i Technik Multimedialnych

Analiza danych. TEMATYKA PRZEDMIOTU

Ćwiczenia nr 7. TEMATYKA: Krzywe Bézier a

Instytut Informatyki Uniwersytet Wrocławski. Dane w sieciach. (i inne historie) Marcin Bieńkowski

Metody systemowe i decyzyjne w informatyce

Pętla for. Matematyka dla ciekawych świata -19- Scilab. for i=1:10... end. for k=4:-1:1... end. k=3 k=4. k=1. k=2

Rozpoznawanie obrazów

Metody selekcji cech

Cel normalizacji. Tadeusz Pankowski

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Badania sondażowe. Schematy losowania. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

Oszacowanie umiejętności teta oraz wyskalowanie osi w metodzie IRT dla potrzeb obliczania parametrów zadań

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Transkrypt:

Word sense disambiguation dokończenie 1. Krótkie przypomnienie: a) Podejście intuicyjne : podział słowa na znaczenia według słownika oraz przypisywanie każdemu wystąpieniu tego słowa jednego ze znaczeń słownikowych - wada: brak jednoznaczności definicji słownikowych b) Inna natura problemu: to samo słowo, inne części mowy - pozornie ta sama natura problemu - w praktyce dwa różne podejścia: * lokalna analiza kontekstu dla rozpoznawania części mowy * analiza szerszego kontekstu dla rozpoznawania znaczenia słów c) Trzy podstawowe podejścia: - supervised disambiguation (nadzorowane ujednoznacznienie) na podstawie etykietowanego korpusu - dictionary-based disambiguation - ujednoznacznienie bazujące na słownikach - unsupervised disambiguation (nienadzorowane ujednoznacznienie) na podstawie nieetykietowanego korpusu d) Podtawowe pojęcia: - nadzorowane i nienadzorowane ujednoznacznienie * podejście hybrydowe - pseudowords - dolne i górne oszacowanie wyników (wyniki osiągane przez najprostszy algorytm i przez człowieka) e) Supervised disambiguation: Gale (1992) - algorytm oparty na klasyfikacji Bayesowskiej (założenie Naive Bayes słowa są niezależne) - traktuje kontekst zdarzenia jako bag of words - BoW worek ze słowami - zbiera informacje z całego kontekstu (ze wszystkich słów) Brown (1991) - algorytm oparty na teorii informacji - bierze pod uwagę jedynie specjalną cechę, która niesie ze sobą informację o znaczeniu słowa, tzw. informant f) Szukanie znaczenia oparte na słownikach: Lesk (1986) - bezpośrednie wykorzystanie definicji słownikowych Yarowsky (1992) - wykorzystanie tezaurusa Rogeta z 1946 (podział znaczeń na kategorie subject codes) - wykorzystanie Naive Bayes do aktualizacji danych Dagan, Itai (1994) algorytm oparty na dwujęzycznym korpusie

c.d. One sense per discourse, one sense per collocation Yarowsky (1995) praca oparta na dwóch zauważonych ograniczeniach w doborze znaczenia słowa: One sense per discourse sensy docelowych słów są ze sobą zgodne wewnątrz pojedynczego dokumentu One sense per collocation pobliskie słowa dają logiczne wskazówki co do znaczenia słowa docelowego, zależnie od względnej odległości, porządku i zależności syntaktycznych - Pierwsze ograniczenie jest szczególnie przydatne, gdy ujednoznaczniany materiał jest kolekcją małych dokumentów lub może być podzielony na mniejsze dyskursy za pomocą metod przedstawionych w podrozdziale 15.5 - Drugie ograniczenie wykorzystuje założenie, że znaczenia sów są silnie powiązane z pewnymi cechami kontekstu, jak inne słowa w tej samej frazie. To założenie jest również wykorzystywane w algorytmie Browna (metoda oparta na teorii informacji, gdzie wyznaczany był pojedynczy informant ). Yarowsky wyznacza najbardziej charakterystyczną cechę (kolokację) dla wybranego kontekstu, następnie ujednoznacznia słowo tylko na podstawie tej cechy. Ranking cech: Ilość wystąpień sensu sk1 z kolokacją f dzielona przez ilość wystąpień sensu sk2 z kolokacją f - ZALETA WYBORU NAJSILNIEJSZEJ CECHY: Nie jest konieczne branie pod uwagę wielu różnych czynników (np. wszystkich słów w oknie kontekstu) do określenia znaczenia słowa. Przykładowo algorytm 7.2.1 był oparty o założenie Naive Bayes, które mówiło, że czynniki te są od siebie niezależne, co w praktyce bardzo rzadko jest prawdą. Lepiej jest unikać tego założenia poprzez wybór najsilniejszej cechy determinującej znaczenie słowa. Bardziej złożoną alternatywą jest określenie zależności pomiędzy tymi cechami (rozdział 16).

Algorytm Yarowskiego (wykorzystujący obydwa ograniczenia: one sense per discourse; one sense per collocation): - iterowana budowa dwóch współzależnych zbiorów: F k zbiór charakterystycznych kolokacji dla sensu s k E k zbiór kontekstów wieloznacznego słowa, które są w danym momencie przypisane do sensu s k - linia 3: zbiór F k inicjalizowany ze słownikowej definicji sensu s k słowa w - linia 6: zbiór E k na początku pusty - linia 11: wypełnianie zbioru E k kontekstami, w których występują kolokacje występujące w definicji słownikowej F k - linia 14: zmniejszenie zbioru kolokacji do tych najsilniejszych - iteracja trwa, dopóki zmienia się zbiór kontekstów E k - linie 18 21: wybór przeważającego sensu słowa w w całym dyskursie d m Skuteczność: 90,6% - 96,5% Dodanie założenia one sense per discourse (linie 18 21) zmniejsza ilość błędów o 27%.

UNSUPERVISED DISAMBIGUATION NIENADZOROWANE UJEDNOZNACZNIENIE 1. Potrzeba wprowadzenia nienadzorowanego ujednoznacznienia: - Wszystkie przedstawione do tej pory algorytmy bazowały na wcześniej przygotowanych źródłach leksykalnych (typu słownik, tezaurus), danych treningowych (dwujęzyczny korpus) lub znanych kolokacjach. - Jest jednak mnóstwo sytuacji, w których nawet tak małe ilości danych nie są dostępne. Szczególnie trudno dostępne mogą być gotowe źródła treningowe dla wyspecjalizowanych dziedzin, podczas gdy mechanizmy takie jak wyszukiwarki internetowe muszą zwracać dobre wyniki dla zapytań z każdej dziedziny. - Ogólne słowniki są mało użyteczne dla dokumentów z wyspecjalizowanej dziedziny. - Mechanizmy oparte na określaniu dziedziny za pomocą tezaurusów też się nie sprawdzają ze względu na fakt, iż np. w wyspecjalizowanym dokumencie chemicznym przeważającą kategorią będzie chemia. - Nie można oczekiwać od użytkownika systemu określającego sens słów, aby przygotowywał on specjalny zbiór treningowy dla każdego nowego tekstu. 2. Inne podejście do ujednoznaczniania: - Należy zdać sobie sprawę, że w nienadzorowanym ujednoznacznianiu nie da się wprost wprowadzić metody określającej bezpośrednio sens słowa (sense tagging). Nie posiadamy bowiem wejściowej charakterystyki sensów. - Można jednak w zupełnie nienadzorowany sposób przeprowadzić rozróżnienie sensów (sense discrimination). Polega ono na podziale poszczególnych wystąpień danego słowa na zbiory tak, aby wystąpienia należące do tego samego zbioru miały to samo znaczenie oraz wystąpienia należące do różnych zbiorów miały inne znaczenie, jednak bez bezpośredniego określenia, jakie znaczenie jest przypisane do każdego zbioru. 3. Schutze (1998) - Algorytm określany mianem context group discrimination - Podobieństwo do wcześniej omawianego algorytmu Browna (7.2.2) opartego na teorii informacji. - Brown klasteryzuje tłumaczenia wieloznacznych słów, o czym można myśleć jak o procesie podziału na zbiory ze względu na znaczenia, przed określeniem tych znaczeń. - Poniższy algorytm dokonuje właśnie takiej klasteryzacji, jednak w związku z tym, że jest ona nienadzorowana, nie odbywa się etap bezpośredniego etykietowania znaczeń. - Algorytm używa probabilistycznego podejścia, wprowadzonego przy okazji omawiania algorytmu Gale a, czyli korzysta z Bayesian Decision Rule do określenia, w którym zbiorze znaczeniowym dane wystąpienie słowa ma zostać umieszczone, a w trakcie dokonywania decyzji wykorzystuje Naive Bayes Assumption. - Różnica polega na tym, że w przypadku algorytmu Gale a estymujemy prawdopodobieństwo warunkowe wystąpienia słowa v j występującego w kontekście, w

którym słowo w zostało użyte w podanym sensie s k : P(v j s k ), używając do tej estymacji etykietowanego zbioru treningowego. - Tutaj nie posiadamy zbioru treningowego, nie możemy więc z góry określić sensu s k. Taka estymacja początkowa P(v j s k ) jest więc niemożliwa. Zamiast tego inicjalizujemy algorytm losowymi wartościami P(v j s k ). Otrzymujemy w ten sposób pewien model rzeczywistych prawdopodobieństw, dla którego można obliczyć jego zgodność z rzeczywistością (log of likelihood). Następnie estymujemy ponownie P(v j s k ) za pomocą algorytmu EM. - Po losowej inicjalizacji P(v j s k ), obliczamy dla każdego kontekstu c i prawdopodobieństwo P(c i s k ), a następnie zgodność wektora tych prawdopodobieństw z korpusem, estymujemy ponownie prawdopodobieństwa P(v j s k ) w celu zwiększenia tej zgodności, aż do momentu, kiedy nie zmienia się ona znacząco.

- produkujemy losowy wektor prawdopodobieństw P(v j s k ) oray P(s k ) dla określonego z góry K - obliczamy jego log of likelihood - dopóki log of likelihood znacząco rośnie, wykonujemy algorytm EM: - krok E: estymujemy dla wszystkich sensów i wszystkich kontekstów późniejsze prawdopodobieństwo h ik, że sens s k został wygenerowany przez kontekst c i - krok M: na podstawie prawdopodobieństw h ik ponownie estymujemy P(v j s k ) oraz P(s k )

4. Kiedy już odpowiedni wektor prawdopodobieństw zostanie wyestymowany, powracamy do metody ujednoznacznienia użytej w algorytmie Gale a, czyli Bayes Decision Rule wykorzystującej Naive Bayes Assumption. 5. Ziarnistość klasyfikacji znaczeń może być wyznaczona przez uruchomienie algorytmu dla wielu wartości K (z góry określona ilość znaczeń). Im więcej znaczeń, tym lepiej model opisuje rzeczywistość. W związku z tym z każdym nowym znaczeniem wzrasta log of likelihood. Kiedy wzrasta on znacząco, nowo dodany sens opisuje ważną część danych. W pewnym momencie jednak dodawanie nowych sensów powoduje nieznaczny wzrost tego wskaźnika, co oznacza, że wprowadzanie ich nie jest uzasadnione. - Można też uzależnić liczbę K od wielkości treningowego materiału (Schutze, Pedersen 1995) 6. Zalety Łatwość wprowadzenia dużej ziarnistości w określaniu znaczeń słów (można ustawić ilość zbiorów znaczeniowych dużo większą, niż ilość znaczeń jakiegokolwiek słownika czy etykietowanego tekstu). W ten sposób wychwytywane są różnice w znaczeniach, które w rzeczywistości istnieją w tekstach, a są trudne do wychwycenia w sposób empiryczny. Powstały model używania znaczeń słów jest bardziej zgodny z rzeczywistością, niż słownikowy, ponieważ rozróżnia znaczenia nie zawarte w słownikach (jak civil suit, criminal suit proces cywilny, proces kryminalny), a pomija rozróżnienia nieistotne w rzeczywistych tekstach. 7. Tabela skuteczności algorytmu: Ostatni przykład: problem topic-independence. Skuteczność mała, ale i tak większa, niż dla metod opartych o wcześniej przygotowane źródła.

CZYM JEST ZNACZENIE SŁOWA? 1. Pytanie to jest bardzo ważne z punktu widzenia rozpatrywanego zagadnienia głównie w kontekście oceny poprawności algorytmów ujednoznaczniających sens słowa. Aby ocenić ich skuteczność, należy przeprowadzić test na tekście, w którym sens każdego wystąpienia wieloznacznego słowa jest znany, określony przez człowieka. Okazuje się to być zadaniem niełatwym, gdyż człowiek rozróżnia sensy słów bardziej na podstawie intuicji, niż na podstawie świadomych przemyśleń. Dopasowanie sensu słów przez samego człowieka bywa czasami niejednoznaczne. 2. Naturalna definicja: mentalna reprezentacja różnych znaczeń słowa. Jednakże mało wiemy o tym, czym właściwie ta reprezentacja jest, w związku z tym trudnym zadaniem jest przeprowadzić eksperyment określający, jak znaczenia są reprezentowane przez badanych. 3. Jedna z metod : postawienie badanych przed zadaniem klasteryzacji kontekstów. Badani otrzymują zbiór zdań zawierających słowo umieszczone w różnych kontekstach, użyte w różnych znaczeniach oraz mają za zadanie pogrupować te zdania wg znaczeń. Nie jest jasne, czy ta metoda dobrze obrazuje rzeczywisty model używania słów w języku. Jest ona bowiem oparta na ludzkich intuicjach i własnej, świadomej ocenie znaczenia słowa. Dopasowywanie zdań wg podobieństw znaczeniowych nie jest zadaniem, jakie na co dzień staje przed człowiekiem używającym danego języka. Metoda ta nie wymaga bezpośredniego określenia sensu słowa przez badanego. 4. Najbardziej powszechna metoda: użycie słownikowych definicji poszczególnych znaczeń danego słowa. Badani mają za zadanie dopasować znaczenia słów użytych w korpusie do wcześniej podanych definicji słownikowych. Metoda ta sprawdza się w przypadkach, gdy w korpusie występuje wiele wieloznacznych słów użytych w ich typowych znaczeniach (ang. skewed distribution ). Uważa się, że jest to najczęstsza sytuacja, z jaką ma się do czynienia w naturalnym języku. 5. Metoda słownikowa wykazuje jednak dużą niezgodność w ocenie pomiędzy badanymi również dla wielu często występujących słów. Uważa się, że przyczyną takiego stanu rzeczy są niejasne definicje słownikowe, które nie odpowiadają rzeczywistym użyciom słowa w korpusie. 6. Trudności w tworzeniu bardziej jednoznacznych słowników oraz skuteczniejszych algorytmów: Niektórzy uważają, że typową właściwością wieloznacznego słowa jest fakt, iż można dopasować wiele jego sensów jednocześnie, gdyż nie są one całkowicie oddzielone od siebie, są w pewnej relacji ze sobą (polysemy). Wiele słów (w j. angielskim) oznacza jednocześnie robienie czegoś i ludzi robiącyc coś, np. słowo competition w sensie competition rywalizacja, lub competitors ludzie rywalizujący ze sobą. Algorytmom trudno jest rozpoznawać nazwy własne, np. Bush, Brown. Podsumowanie podrozdziału: Najważniejszym zadaniem na przyszłe badania jest stworzenie reprezentatywnego zbioru testowego z niejednoznacznymi słowami, aby móc uzyskiwać

wiarygodne oszacowania powstających algorytmów. Tylko z dokładnym oszacowaniem można określić ich słabe strony.