Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Podobne dokumenty

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa

Elementy modelowania matematycznego

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Open Access w technologii językowej dla języka polskiego

AUTOMATYKA INFORMATYKA

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Program warsztatów CLARIN-PL

Spis treści tomu pierwszego

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Rozwiązywanie dysambiguacji za pomocą lingwistycznej sieci symantycznych relacji leksykalnych na przykładzie systemu WordNet

TEORETYCZNE PODSTAWY INFORMATYKI

Inforex - zarządzanie korpusami i ich anotacja

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Word sense disambiguation dokończenie

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Optymalizacja ciągła

Testowanie modeli predykcyjnych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Analiza danych tekstowych i języka naturalnego

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Optymalizacja. Przeszukiwanie lokalne

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Rozdział przedstawia kilka najważniejszych algorytmów rozpoznających znaczenie słów w zależności od użytego kontekstu.

Wstęp do przetwarzania języka naturalnego

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

3. Macierze i Układy Równań Liniowych

Wprowadzenie do uczenia maszynowego

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

2) R stosuje w obliczeniach wzór na logarytm potęgi oraz wzór na zamianę podstawy logarytmu.

Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene

ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ.

W poszukiwaniu sensu w świecie widzialnym

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Tytuł rozprawy: Metody semantycznej kategoryzacji w zadaniach analizy dokumentów tekstowych.

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

Zastosowanie Wikipedii w przetwarzaniu języka naturalnego

Dlaczego należy uwzględniać zarówno wynik maturalny jak i wskaźnik EWD?

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

Co wylicza Jasnopis? Bartosz Broda

Rozwiązywanie układów równań liniowych metody dokładne Materiały pomocnicze do ćwiczeń z metod numerycznych

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Jazda autonomiczna Delphi zgodna z zasadami sztucznej inteligencji

Szablony funkcji i szablony klas

POD- I NADOKREŚLONE UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Algorytm grupowania danych typu kwantyzacji wektorów

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Uczenie sieci radialnych (RBF)

Zapytanie ofertowe nr 1/2016

Ruch jednostajnie zmienny prostoliniowy

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań

Funkcjonowanie systemu antyplagiatowego (OSA) na Uniwersytecie Jagiellońskim

Metody nadzorowane w ujednoznacznianiu sensów s lów korpusu ekonomicznego

Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych

Systemy uczące się wykład 2

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Szkoła Podstawowa Nr 45 z Oddziałami Integracyjnymi im. Jana Pawła II w Białymstoku Przedmiotowy system oceniania JĘZYK ANGIELSKI

Uczenie nienadzorowane w wydobywaniu znaczeń leksykalnych słów

LUBELSKA PRÓBA PRZED MATURĄ 09 MARCA Kartoteka testu. Maksymalna liczba punktów. Nr zad. Matematyka dla klasy 3 poziom podstawowy

Rozwiazywanie układów równań liniowych. Ax = b

Kodowanie i kompresja Streszczenie Studia dzienne Wykład 6

Wymagania edukacyjne z języka angielskiego dla klasy II gimnazjum. Ocenę dopuszczającą otrzymuje uczeń, który: OSIĄGNIĘCIA

Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun

Wprowadzenie do metod numerycznych Wykład 3 Metody algebry liniowej I Wektory i macierze

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Problem ujednoznaczniania sensu w kontekście ekstrakcji relacji semantycznych

Załącznik nr 2 Wymagania programowe w klasie V

Lokalizacja Oprogramowania

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Metody klasyfikacji danych - część 1 p.1/24

SPECYFIKA PRZYWÓDZTWA EDUKACYJNEGO I KOMPETENCJE POLSKICH DYREKTORÓW

KLASYFIKACJA. Słownik języka polskiego

Kodowanie i kompresja Tomasz Jurdziński Studia Wieczorowe Wykład Kody liniowe - kodowanie w oparciu o macierz parzystości

O czym w Sejmie piszczy? Analiza tekstowa przemówień poselskich

System wspomagania harmonogramowania przedsięwzięć budowlanych

Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych

SEMANTYCZNE ZNACZNIKOWANIE ARTYKUŁÓW WIKIPEDII SYNSETAMI SŁOWNIKA WORDNETA 1

ROZKŁAD MATERIAŁU NAUCZANIA KLASA 2, ZAKRES PODSTAWOWY

W tym rozdziale książka opisuje kilka podejść do poszukiwania kolokacji.

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy

SPIS TREŚCI WSTĘP LICZBY RZECZYWISTE 2. WYRAŻENIA ALGEBRAICZNE 3. RÓWNANIA I NIERÓWNOŚCI

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Analiza dynamiki zjawisk STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 28 września 2018

Transkrypt:

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska Seminarium przetwarzania języka naturalnego Mateusz Kopeć Instytut Podstaw Informatyki Polskiej Akademii Nauk 6 lutego 2012

Plan 1 Zadanie WSD Problem WSD Wybór tematu pracy 2 Opis rozwiazania Algorytm Leska Rozszerzony algorytm Leska 3 Ewaluacja Miary ewaluacji Dane testowe Eksperymenty Najlepsze metody 4 Wnioski i porównanie Trudne przypadki Porównanie z innymi metodami i możliwe rozszerzenia

Plan 1 Zadanie WSD Problem WSD Wybór tematu pracy 2 Opis rozwiazania Algorytm Leska Rozszerzony algorytm Leska 3 Ewaluacja Miary ewaluacji Dane testowe Eksperymenty Najlepsze metody 4 Wnioski i porównanie Trudne przypadki Porównanie z innymi metodami i możliwe rozszerzenia

Word Sense Disambiguation Rozróżnianie Sensów Słów - Word Sense Disambiguation Problem: wieloznaczność słów Zadanie: wybór właściwego znaczenia w danym kontekście wejście: zbiór możliwych sensów i kontekst wyjście: odpowiedni sens Przykład Zamek może oznaczać (m.in.): 1 budowlę, 2 zamek do drzwi. Przykład 1 Przed nimi widać było ogromny zamek 1. 2 Długo się zastanawiał, czy zamkn ał zamek 2 po wyjściu z domu.

Zastosowania WSD Rozwiazenie przydatne w: Tłumaczeniu maszynowym, Question answering, Wyszukiwaniu informacji, Klasyfikacji tekstów, itp. Przykład Tłumaczenie: polski angielski. Słowo piłka: piłka ball? piłka small saw? Seminaria tutejsze: Mechanizm budowy streszczeń dokumentów w wyszukiwarce NEKST Metody nadzorowane w ujednoznacznianiu sensów słów korpusu dziedzinowego

Zastosowania WSD przykład

Pokrycie tekstu Możliwe sa dwa podejścia do WSD: Rozróżnianie sensów wybranego słowa lub małej liczby słów w kontekście (lexical sample), Rozróżnianie sensów wszystkich słów w kontekście (all-words).

Słownik sensów Wybór słownika sensów i jego cechy zależa od zastosowania: W tłumaczeniach trzeba rozróżniać sensy różnie przekładane, W syntezie mowy wystarczy rozróżniać homografy, W praktyce najczęściej podział jest gruboziarnisty.

Sposoby rozwiazywania Klasyfikacja z nadzorem Zalety: + Wysoka skuteczność. Wady: - Duży koszt ręcznej anotacji przykładów treningowych. Klasyfikacja bez nadzoru Zalety: + Niski koszt. + Szeroka stosowalność. Wady: - Mniejsza skuteczność.

Temat pracy Pierwszy plan: Rozróżnianie sensów wszystkich słów w kontekście (all-words), Uczenie z minimalnym nadzorem, oparte na idei boostrapingu, Tym samym metoda możliwie ogólna. Problemy: Brak testowego zbioru do ewaluacji. Brak odpowiedniego słownika sensów. Trudności w stworzeniu samodzielnie takich zasobów.

Temat pracy Co udało się znaleźć: Odpowiedni dla WSD słownik dla 106 często występujacych słów wieloznacznych, Duży (>1 mln słów) zbiór tekstów do ewaluacji, oznaczony sensami z powyższego słownika. Drugi plan: Potencjalne rozróżnianie sensów wszystkich słów w kontekście (all-words), w praktyce tylko wybrane słowa, dla których istnieja wpisy w słowniku. Brak fazy uczenia, algorytm opiera się na porównaniu definicji sensów z kontekstem słowa.

Plan 1 Zadanie WSD Problem WSD Wybór tematu pracy 2 Opis rozwiazania Algorytm Leska Rozszerzony algorytm Leska 3 Ewaluacja Miary ewaluacji Dane testowe Eksperymenty Najlepsze metody 4 Wnioski i porównanie Trudne przypadki Porównanie z innymi metodami i możliwe rozszerzenia

Algorytm Leska Jeden z pierwszych algorytmów (1986) opartych na wiedzy. Porównywane sa definicje wielu sensów wielu słów. Niech słowa W 1 i W 2 występuja we wspólnym kontekście. Wtedy działanie jest następujace: dla każdego sensu i słowa W 1, dla każdego sensu j słowa W 2, oblicz Przecięcie(i, j), równe liczbie słów wspólnych w definicji sensu i oraz j, znajdź i i j, dla których Przecięcie(i, j) jest największe, przypisz sens i słowu W 1 i sens j słowu W 2.

Uproszczony algorytm Leska Uproszczony algorytm Leska porównuje kontekst z definicja dla pojedynczego słowa wieloznacznego. Działa następujaco: dla każdego sensu i słowa W w kontekście c, oblicz Przecięcie(i, c), które jest równe ilości wspólnych słów w definicji i oraz kontekście c, znajdź i, dla którego Przecięcie(i, c) jest największe, przypisz sens i słowu W.

Jak to działa? - przykład Słowo: zamek 1 Obronna budowla z kamienia. 2 Urzadzenie pozwalajace na zamykanie czegoś, np. zamek w drzwiach. Kontekst... po czym zamknał zamek w drzwiach, kilkukrotnie się upewniajac, czy z pewnościa... Działanie algorytmu: Porównanie definicji 1. z kontekstem, Porównanie definicji 2. z kontekstem, Wybór bardziej podobnej definicji sensu.

Rozszerzony algorytm Leska Rozszerzony algorytm Leska porównuje kontekst z definicja dla pojedynczego słowa wieloznacznego. Różni się wyłacznie tym, że używa bardziej wyszukanej funkcji podobieństwa zamiast zwykłego przecięcia tekstowego. Działa następujaco: dla każdego sensu i słowa W w kontekście c, oblicz Podobieństwo(i, c), znajdź i, dla którego Podobieństwo(i, c) jest największe, przypisz sens i słowu W.

Obliczanie podobieństwa kontekstu i definicji W skrócie: 1 Z kontekstu jest tworzony wektor: współrzędne słowa z kontekstu, wartości pewne wagi tychże słów. 2 Z definicji sensu jest tworzony analogiczny wektor. 3 Wektory s a porównywane poprzez np. ich przemnożenie przez siebie.

Obliczanie podobieństwa kontekstu i definicji I Parametryzacja tego obliczenia: Rozmiar definicji krótka, długa. Rozmiar kontekstu 1-50. Lematyzacja tak/nie. Binaryzacja tak/nie. IDF tak/nie. IGF tak/nie. Dolne wartości skrajne między 0 a 1. Górne wartości skrajne między 0 a 1. Normalizacja definicji tak/nie. Normalizacja kontekstu brak/liniowa/kwadratowa.

Obliczanie podobieństwa kontekstu i definicji II Rozszerzenie 7 możliwości: brak rozszerzenia, naiwne, za pomoca synonimów ze słownika synonimy.ux.pl, ostrożne, za pomoca synonimów ze słownika synonimy.ux.pl, naiwne, za pomoca synonimów ze Słowosieci, pobieranych z synsetów zawierajacych słowo bazowe, ostrożne, za pomoca synonimów ze Słowosieci, pobieranych z synsetów zawierajacych słowo bazowe, naiwne, za pomoca synonimów ze Słowosieci, pobieranych z synsetów zawierajacych słowo bazowe oraz synsetów znajdujacych się w określonej relacji (hiperonimii, części, bliskoznaczności i fuzzynimii synsetów) z nimi, za pomoca słów znajdujacych się najbliżej wg miary korpusowego podobieństwa znaczeniowego.

Obliczanie podobieństwa kontekstu i definicji III Porównanie wektorów produkt kartezjański cosinus odległość euklidesowa (odwrócona) współczynnik Jaccarda współczynnik Pearsona (przesunięty) uśredniona dywergencja Kullbacka-Leiblera (odwrócona)

Plan 1 Zadanie WSD Problem WSD Wybór tematu pracy 2 Opis rozwiazania Algorytm Leska Rozszerzony algorytm Leska 3 Ewaluacja Miary ewaluacji Dane testowe Eksperymenty Najlepsze metody 4 Wnioski i porównanie Trudne przypadki Porównanie z innymi metodami i możliwe rozszerzenia

Miary ewaluacji Zadanie polega na wybraniu dla każdego wystapienia słowa ze słownika jednego pasujacego sensu. Najprostsza miara skuteczność ACC. Obliczania jako stosunek ilości dobrych odpowiedzi do wszystkich odpowiedzi. Ale czy to odpowiednia miara? Przykład: ciało 127 razy w 1. sensie, 6 razy w drugim.

Dodatkowe miary ewaluacji Miara IMPROVE: Oznacza liczbę słów wieloznacznych, dla których metoda pokonała MFS. Miara RARE: Promuje poprawne rozpoznawanie rzadszych sensów. 1 Waga odpowiedzi: 1 + ln częstość danego sensu. W przypadku ciała: częstszy sens ma wagę ok. 1, rzadki ok. 4.

Dane testowe Dane z ręcznie anotowanej części NKJP, tym samym zrównoważone. Korpus podzielony na dwie części (na poziomie tekstów): rozwojowa i testowa. Statystyki użytych tekstów Liczba tekstów Liczba segmentów Cały korpus Część rozwojowa Część testowa 3889 1944 1945 1217822 592420 625402

Słownik sensów Słownik stworzony na potrzeby NKJP. 106 słów wieloznacznych, od 2 do 7 sensów na słowo. 50 rzeczowników, 48 czasowników oraz 8 przymiotników. Średnia ilość sensów/słowo: 2,85.

Słownik sensów Statystyki wystapień słów wieloznacznych w części rozwojowej Części mowy Liczba wyst. w słowniku Liczba wyst. w korpusie MFS Random Rzeczowniki 50 8096 0,809 0,397 Czasowniki 48 7054 0,753 0,313 Przymiotniki 8 1653 0,796 0,362 Wszystkie 106 16803 0,784 0,358

Słownik sensów

Przestrzeń poszukiwań Parametr Liczba Przyjmowane wartości Wartości Rozmiar definicji 2 pełna, krótka Rozmiar kontekstu 7 1, 2, 5, 10, 20, 30, 50 Lematyzacja 2 tak, nie Binaryzacja 2 tak, nie IGF 2 tak, nie IDF 2 tak, nie Dolne wartości skrajne 5 0,00, 0,01, 0,05, 0,10, 0,20 Górne wartości skrajne 5 0,80, 0,90, 0,95, 0,99, 1,00 Normalizacja definicji 2 tak, nie Normalizacja kontekstu 3 brak, liniowa, kwadratowa Rozszerzenie 7 brak, słowosieć-naiwne, słowosiećostrożne, synonimy.ux-naiwne, synonimy.ux-ostrożne, słowosieć-relacje, słowosieć-podobieństwo semantyczne Porównanie wektorów 6 product, cosine, euclidean, jaccard, pearson, kullback

Przeprowadzone eksperymenty 6 zestawów: Zestaw I - rozmiar definicji, kontekstu, lematyzacja - 112 metod, Zestaw II - IDF, IGF, binaryzacja - 64 metody, Zestaw III - normalizacja definicji, kontekstu, wielkość kontekstu - 672 metody, Zestaw IV - rozszerzanie kontekstu - 84 metody, Zestaw V - przecięcie wektorów - 96 metod, Zestaw VI - odrzucanie skrajnych wartości - 150 metod.

Najlepsze metody Parametr Najlepsza względem: ACC RARE IMPROVE Rozmiar definicji pełna Rozmiar kontekstu 30 Lematyzacja tak Binaryzacja nie IGF tak IDF tak Dolne wartości skrajne 0,01 Górne wartości skrajne 1 0,99 Normalizacja definicji nie tak Normalizacja kontekstu liniowa kwadratowa Rozszerzenie słowosieć-podobieństwo semantyczne Porównanie wektorów product jaccard

Skuteczność wybranych trzech najlepszych metod Miara ACC RARE IMPROVE Wynik na części rozwojowej 0,658 15307,483 29 Wynik na części testowej 0,661 15895,4 27 Wynik na całym korpusie 0,66 31253,203 (/2 = 15626,602) 31

10 najłatwiejszych słów 1 najlepsza względem ACC 2 najlepsza względem RARE 3 najlepsza względem IMPROVE Słowo Liczba Rozkład MFS Random 1 2 3 punkt 163 60/53/27/23 0,368 0,250 0,325 0,386 0,392 stanać 75 31/28/16 0,413 0,333 0,533 0,546 0,546 składać 82 34/31/9/5/2/1 0,414 0,166 0,439 0,463 0,463 zwrócić 90 39/37/14/0 0,433 0,250 0,588 0,500 0,500 strona 374 166/108/100 0,443 0,333 0,459 0,483 0,473 grać 110 50/30/25/5 0,454 0,250 0,672 0,600 0,518 góra 137 63/52/13/6/3 0,459 0,200 0,540 0,518 0,510 stosunek 83 41/38/4 0,493 0,333 0,566 0,566 0,614 brać 152 76/56/10/6/2/1/1 0,500 0,142 0,493 0,421 0,407 stać 412 207/183/19/3 0,502 0,250 0,466 0,502 0,509

10 najtrudniejszych słów 1 najlepsza względem ACC 2 najlepsza względem RARE 3 najlepsza względem IMPROVE Słowo Liczba Rozkład MFS Random 1 2 3 rola 115 114/1/0 0,991 0,333 0,973 0,965 0,973 kultura 118 117/1 0,991 0,500 0,974 0,940 0,940 zasada 188 187/1 0,994 0,500 0,978 0,962 0,962 nastapić 65 65/0 1,000 0,500 0,169 0,323 0,353 powstać 122 122/0/0 1,000 0,333 0,237 0,163 0,172 podstawa 144 144/0 1,000 0,500 0,965 0,958 0,965 piłka 43 43/0 1,000 0,500 1,000 1,000 1,000 członek 170 170/0/0 1,000 0,333 0,835 0,882 0,876 czuć 176 176/0 1,000 0,500 0,994 0,982 0,988 prowadzenie 2 2/0/0 1,000 0,333 0,500 0,500 0,500

Plan 1 Zadanie WSD Problem WSD Wybór tematu pracy 2 Opis rozwiazania Algorytm Leska Rozszerzony algorytm Leska 3 Ewaluacja Miary ewaluacji Dane testowe Eksperymenty Najlepsze metody 4 Wnioski i porównanie Trudne przypadki Porównanie z innymi metodami i możliwe rozszerzenia

Trudne przypadki Powstać sensy: 1 zaczać istnieć w rzeczywistości lub w świadomości (122 wystapienia), 2 zmienić pozycję na stojac a (0 wystapień), 3 sprzeciwić się lub wystapić zbrojnie (0 wystapień). Nastapić sensy: 1 wejść na coś stopa, atakować (65 wystapień), 2 zdarzyć się (0 wystapień).

Trudne przypadki cd. Udać sensy: 1 zakończyć się powodzeniem (150 wystapień), 2 pójść, pojechać (21 wystapień), 3 udawać: sprawiać wrażenie, że coś robimy (3 wystapienia). Zostać sensy: 1 ulec (do tworzenia strony biernej) (633 wystapienia), 2 stać się kimś (64 wystapienia), 3 być/trwać w jakimś stanie/miejscu, nie zmienić się (51 wystapień), 4 ostać się z całości (28 wystapień).

Trudne przypadki cd. Metoda Rzeczowniki Czasowniki Przymiotniki Najlepsza względem ACC 0,726 0,574 0,676

Porównanie z metodami z nadzorem W danych testowych MFS niemal 80%. Zatem trywialny system z nadzorem osiaga taka skuteczność! Specyfika: oddzielna metoda dla każdego słowa. Skuteczność: 91,46% na podkorpusie NKJP, z walidacja krzyżowa.

Porównanie z metodami bez nadzoru Brak prób rozróżniania sensu polskich słów metodami bez nadzoru. Semeval 2007: All-words dla języka angielskiego. Gruboziarniste sensy poprzez pogrupowanie sensów Wordnetu. 5377 wystapień, 30% wystapień słów monosemicznych. 3,06 sensu/słowo (w Wordnecie: 6,18), 78,89% MFS, 52,43% Random. Najlepszy system oparty na wiedzy: ok. 60% F1. Semeval 2010: All-words dziedzinowe dla języka angielskiego. Drobniejszy podział na sensy: 23,2% Random. Najlepszy system oparty na wiedzy: ok. 50% F1.

Możliwe rozszerzenia systemu Metoda jest niestabilna wymaga analizy trudnych przypadków. Pożadane było zagwarantowanie skuteczności prawie zawsze powyżej heurystyki Random. Rozszerzenie metody na klasyfikację w sposób zależny dla wielu słów wieloznacznych w kontekście. Wymaga to jednak stworzenia kosztownych zasobów: słownika oraz korpusu.

To już wszystko Dziękuję za uwagę!