Metody nadzorowane w ujednoznacznianiu sensów s lów korpusu ekonomicznego

Podobne dokumenty
Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Zastosowanie metod statystycznych do problemu ujednoznaczniania struktury zdania w języku polskim

Statystyka w analizie i planowaniu eksperymentu

Elementy modelowania matematycznego

Jeden przyk lad... czyli dlaczego warto wybrać MIESI.

Statystyka w analizie i planowaniu eksperymentu

Rachunek zdań - semantyka. Wartościowanie. ezyków formalnych. Semantyka j. Logika obliczeniowa. Joanna Józefowska. Poznań, rok akademicki 2009/2010

czyli co można poprawić w NKJP?

Statystyka w analizie i planowaniu eksperymentu lista nr 7

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Wyk lad 3 Wyznaczniki

WYK LAD 2: PODSTAWOWE STRUKTURY ALGEBRAICZNE, PIERWIASTKI WIELOMIANÓW, ROZK LAD FUNKCJI WYMIERNEJ NA U LAMKI PROSTE

Jak matematyka pomaga w wyszukiwanie wzorca

Uproszczony dowod twierdzenia Fredricksona-Maiorany

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Zastosowanie Robotów. Ćwiczenie 6. Mariusz Janusz-Bielecki. laboratorium

Projekty Zaliczeniowe Laboratorium Sieci Komputerowych

Ćwiczenie nr 520: Metody interpolacyjne planowania ruchu manipulatorów

PoliTa multitager morfosyntaktyczny dla j. ezyka polskiego

Automatyczne przetwarzanie recenzji konsumenckich dla oceny użyteczności produktów i usług

Analiza zrekonstruowanych śladów w danych pp 13 TeV

Oddzia lywania miedzycz. jony molekularne lub atomy. edzy A i B:

Statystyka w analizie i planowaniu eksperymentu

Uczenie nienadzorowane

Zastosowanie Robotów. Ćwiczenie 4. Mariusz Janusz-Bielecki. laboratorium

Plan wyk ladu. Kodowanie informacji. Systemy addytywne. Definicja i klasyfikacja. Systemy liczbowe. prof. dr hab. inż.

Metody klasyfikacji danych - część 1 p.1/24

Wyk lad 4 Warstwy, dzielniki normalne

Grupy i cia la, liczby zespolone

Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2015/2016. Forma studiów: Niestacjonarne Kod kierunku: 06.

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

20PLN dla pierwszych 50 sztuk oraz 15PLN dla dalszych. Zysk ze sprzedaży biurka wynosi 40PLN dla pierwszych 20 sztuk oraz 50PLN dla dalszych.

WYK LAD 5: GEOMETRIA ANALITYCZNA W R 3, PROSTA I P LASZCZYZNA W PRZESTRZENI R 3

Program warsztatów CLARIN-PL

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Organizacja zaj. Organizacja zaj. et i oprogramowanie. szeregowanie zadań, Interfejsy i komunikacja. Systemy wieloprocesorowe. sztuczna inteligencja,

Pochodne cz ¾astkowe i ich zastosowanie.

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2013/2014. Forma studiów: Stacjonarne Kod kierunku: 06.

Wyk lad 7 Baza i wymiar przestrzeni liniowej

Aproksymacja kraw. Od wielu lokalnych cech (edge elements) do spójnej, jednowymiarowej. epnej aproksymacji

Normy wektorów i macierzy

Przyk ladowe Zadania z MSG cz

Architektura systemów komputerowych

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Systemy decyzyjne Wyk lad 4: Drzewa decyzyjne

SYSTEM DIAGNOSTYCZNY OPARTY NA LOGICE DOMNIEMAŃ. Ewa Madalińska. na podstawie prac:

Paradygmaty programowania. Paradygmaty programowania

Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2014/2015

Niezmienniki i pó lniezmienniki w zadaniach

Drzewa decyzyjne. Nguyen Hung Son. Nguyen Hung Son () DT 1 / 34

Wprowadzenie do uczenia maszynowego

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Technologie Informacyjne

Software Achitecture Document Pó l-internetowy System Obs lugi Turystyki Gminnej

po lożenie cz astki i od czasu (t). Dla cz astki, która może poruszać siȩ tylko w jednym wymiarze (tu x)

Rotacje i drgania czasteczek

Statystyka w analizie i planowaniu eksperymentu

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Wyk lad 12. (ii) najstarszy wspó lczynnik wielomianu f jest elementem odwracalnym w P. Dowód. Niech st(f) = n i niech a bedzie

Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2015/2016. Forma studiów: Stacjonarne Kod kierunku: 12.

Statystyka w analizie i planowaniu eksperymentu

Wyk lad 14 Cia la i ich w lasności

po lożenie cz astki i od czasu (t). Dla cz astki, która może poruszać siȩ tylko w jednym wymiarze (tu x)

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Mnożniki funkcyjne Lagrange a i funkcje kary w sterowaniu optymalnym

Uruchamianie SNNS. Po uruchomieniu. xgui & lub snns & pojawia si e okno. programu. Symulator sztucznych sieci neuronowych SNNS 1

Stany atomu wieloelektronowego o określonej energii. być przypisywane elektrony w tym stanie atomu.

Wyk lad 7 Metoda eliminacji Gaussa. Wzory Cramera

Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2014/2015

Statystyka w analizie i planowaniu eksperymentu

Rozdzia l 11. Przestrzenie Euklidesowe Definicja, iloczyn skalarny i norma. iloczynem skalarnym.

Gramatyka generatywno-transformacyjna

Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2014/2015. Przedmioty podstawowe

w modelu równowagi Zaawansowana Makroekonomia: Pieniadz 1 Model z ograniczeniem CIA Krzysztof Makarski Wprowadzenie Wst ep Model z pieniadzem.

Testowanie hipotez statystycznych

i elektronów w czasteczkach (laboratoryjnym) operator Hamiltona dla czasteczki dwuatomowej (jadra 2M b a i b; m -masa elektronu e 2 r ij

Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2015/2016. Forma studiów: Niestacjonarne Kod kierunku: 11.

Grzegorz Mazur. Zak lad Metod Obliczeniowych Chemii UJ. 14 marca 2007

Drzewa AVL definicje

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA. Spis pojȩċ teoretycznych

Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2016/2017. Forma studiów: Stacjonarne Kod kierunku: 022

Organizacja systemu plików

Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2015/2016. Forma studiów: Stacjonarne Kod kierunku: 06.

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

Rachunek lambda CBN i CBV

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

1 Rozk ad normalny. Szczególnym przypadkiem jest standardowy rozk ad normalny N (0; 1), wartości

Wyk lad 2 Podgrupa grupy

Zarządzanie projektami. wykład 1 dr inż. Agata Klaus-Rosińska

Zadania. kwiecień Ćwiczenia IV. w laściwe dla rotatora sztywnego hetoronuklearnej moleku ly. Rozwiazanie E JM = 2 J(J + 1).

Mnożniki funkcyjne Lagrange a i funkcje kary w sterowaniu optymalnym

Algorytm określania symetrii czasteczek

Modelowanie rynków finansowych

Indeks odwzorowania zmiennej zespolonej wzgl. krzywej zamknietej

Transkrypt:

Metody nadzorowane w ujednoznacznianiu sensów s lów korpusu ekonomicznego Lukasz Kobyliński Instytut Podstaw Informatyki Polskiej Akademii Nauk ul. J. K. Ordona 21, 01-237 Warszawa 21 listopada 2011 Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 1 / 31

Na czym polega zadanie? Projekt NEKST zadanie 1 podzadanie 1.4 przeglad i przystosowanie do jezyka polskiego metod uczenia nadzorowanego w zastosowaniu do automatycznego ujednoznaczniania sensów s lów, podzadanie 1.5 przygotowanie zasobów niezb ednych do trenowania i testowania algorytmów w Z1.4. Dodatkowe za lożenia trenowanie i testowanie metod odbywa si e na korpusie dziedzinowym o tematyce ekonomicznej. ostateczna metoda ujednoznaczniania powinna wykorzystywać formalizm, wyrażajacy regu ly ujednoznaczniania sensów s lów. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 2 / 31

Plan 1 Zasoby S lownik hase l ekonomicznych Korpus tekstów 2 Automatyczne ujednoznacznianie Analiza danych Metody uczenia maszynowego Metody regu lowe Wykorzystanie zewn etrznych zasobów lingwistycznych do poprawy skuteczności metod uczenia maszynowego 3 Podsumowanie wyników Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 3 / 31

Zasoby S lownik hase l ekonomicznych S lownik hase l ekonomicznych Opracowano s lownik 52 hase l z dziedziny ekonomicznej agent[n] akcja[n] baza[n] cena[n] dochód[n] efekt[n] firma[n] fundusz[n] gospodarka[n] granica[n] inwestycja[n] jednostka[n] kontrola[n] koszt[n] linia[n] ochrona[n] opcja[n] pieniadz[n] podatek[n] podstawa[n] polityka[n] pomoc[n] post epowanie[n] praca[n] prawo[n] projekt[n] punkt[n] rachunek[n] rynek[n] rzad[n] sad[n] si la[n] spó lka[n] stan[n] stopa[n] stopień[n] system[n] środek[n] świadczenie[n] ubezpieczenie[n] udzia l[n] umowa[n] unia[n] wartość[n] warunek[n] zasada[n] zmiana[n] zysk[n] czarny[a] specjalny[a] wolny[a] z loty[a] Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 4 / 31

Zasoby S lownik hase l ekonomicznych S lownik hase l ekonomicznych Statystyki s lownika 52 has la najmniejsza liczba sensów: 2 najwieksza liczba sensów: 6 suma liczby sensów: 188 średnia liczba sensów: 3,62 średnia liczba definicji każdego sensu: 2,78 Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 5 / 31

Zasoby Korpus tekstów Korpus dane źród lowe Korpus NKJP econo wybrano paragrafy, które dotycza dziedziny ekonomicznej liczba segmentów: 87 816 Rozk lad liczby hase l ze s lownika w korpusie Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 6 / 31

Zasoby Korpus tekstów Korpus dane źród lowe Korpus GPW (raporty gie ldowe) dodano anotacje morfosyntaktyczna za pomoca TAKIPI 1.8 liczba segmentów: 282 366 Rozk lad liczby hase l ze s lownika w korpusie Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 7 / 31

Korpus dane źród lowe Zasoby Korpus tekstów Korpus Wiki econo wybrano artyku ly, które dotycza dziedziny ekonomicznej dodano anotacje morfosyntaktyczna za pomoca TAKIPI 1.8 liczba segmentów: 408 221 Rozk lad liczby hase l ze s lownika w korpusie Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 8 / 31

Zasoby Korpus tekstów Korpus Wiki econo pozyskanie Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 9 / 31

Zasoby Korpus Wiki econo przyk lad Korpus tekstów Przyk lad Rynek pierwotny rynek kapita lowy, na którym nastepuje sprzedaż nowych papierów wartościowych bezpośrednio przez emitenta akcji i obligacji dopuszczonych do obrotu przez Komisje Nadzoru Finansowego. Cene papierów wartościowych w tym wypadku ustala emitent, czyli instytucja wystawiajaca akcje lub obligacje we w lasnym imieniu. Emisja i zakup papierów wartościowych na rynku pierwotnym odbywa sie za pośrednictwem domów maklerskich lub banków prowadzacych dzia lalność maklerska. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 10 / 31

Korpus Wiki econo Zasoby Korpus tekstów Korpus zosta l uzyskany poprzez: wybranie kategorii ekonomicznych najwyższego rzedu, dodanie kategorii potomnych, które również by ly ekonomiczne, pobranie wszystkich artyku lów z wynikowej listy kategorii, usuniecie z nich fragmentów poza g lówna treścia artyku lu (odnośniki, bibliografia, inne jezyki, itp.) za pomoca biblioteki jwpl, przetworzenie za pomoca TaKIPI 1.8, przekonwertowanie do formatu TEI, ostateczna lista kategorii obejmowa la 81 kategorii i ok. 3200 stron (artyku lów), dane pochodza z końca kwietnia 2011. Kategorie wyjściowe: Ekonomia, Ekonometria, Makroekonomia, Polityka cenowa, Mikroekonomia, Mi edzynarodowe stosunki gospodarcze, Problemy ekonomiczne, Rynki, Rachunkowość, Finanse, Prawo gospodarcze, Gospodarka, Handel, Produkcja, Us lugi. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 11 / 31

Korpus anotacja Automatyczne ujednoznacznianie Analiza danych Przebieg anotacji wykorzystane narz edzie AnotEk, te same transze przypisywane sa do dwóch anotatorów, w przypadku konfliktu anotacji, transza wraca do anotatorów z prośba o skomentowanie podjetej decyzji, transze skomentowane trafiaja do superanotatora, który przypisuje anotacje ostateczna. Podzi ekowania Lukasz Sza lkiewicz SuperAnotator, Izabela Will utworzenie pierwszej wersji s lownika, wszyscy anotatorzy. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 12 / 31

Analiza danych Wyniki anotacji korpusów Korpus NKJP econo zaanotowano 3 821 segmentów. Korpus GPW zaanotowano 18 719 segmentów. Korpus WIKI econo zaanotowano 23 269 segmentów. L acznie zaanotowano 45 809 segmentów. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 13 / 31

Analiza danych Wyniki anotacji korpusów Korpus NKJP econo zaanotowano 3 821 segmentów. Korpus GPW zaanotowano 18 719 segmentów. Korpus WIKI econo zaanotowano 23 269 segmentów. L acznie zaanotowano 45 809 segmentów. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 13 / 31

Analiza danych Wyniki anotacji korpusów Korpus NKJP econo zaanotowano 3 821 segmentów. Korpus GPW zaanotowano 18 719 segmentów. Korpus WIKI econo zaanotowano 23 269 segmentów. L acznie zaanotowano 45 809 segmentów. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 13 / 31

Analiza danych Wyniki anotacji korpusów Korpus NKJP econo zaanotowano 3 821 segmentów. Korpus GPW zaanotowano 18 719 segmentów. Korpus WIKI econo zaanotowano 23 269 segmentów. L acznie zaanotowano 45 809 segmentów. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 13 / 31

Analiza danych Wyniki anotacji korpusów (2) Oczekiwane rezultaty metod automatycznych pomi edzy dolnym a górnym ograniczeniem ograniczenie dolne MFS (Most Frequent Sense), ograniczenie górne ITA (Inter-Annotator Agreement). Statystyki korpusu Korpus NKJP econo MFS = 77,65%, ITA = 91,97%. Korpus GPW MFS = 94,31%, ITA = 96,82%. Korpus WIKI econo MFS = 74,76%, ITA = 90,58%. L acznie MFS = 81,80%, ITA = 93,25%. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 14 / 31

Analiza danych Wyniki anotacji korpusów (2) Oczekiwane rezultaty metod automatycznych pomi edzy dolnym a górnym ograniczeniem ograniczenie dolne MFS (Most Frequent Sense), ograniczenie górne ITA (Inter-Annotator Agreement). Statystyki korpusu Korpus NKJP econo MFS = 77,65%, ITA = 91,97%. Korpus GPW MFS = 94,31%, ITA = 96,82%. Korpus WIKI econo MFS = 74,76%, ITA = 90,58%. L acznie MFS = 81,80%, ITA = 93,25%. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 14 / 31

Analiza danych Wyniki anotacji korpusów (2) Oczekiwane rezultaty metod automatycznych pomi edzy dolnym a górnym ograniczeniem ograniczenie dolne MFS (Most Frequent Sense), ograniczenie górne ITA (Inter-Annotator Agreement). Statystyki korpusu Korpus NKJP econo MFS = 77,65%, ITA = 91,97%. Korpus GPW MFS = 94,31%, ITA = 96,82%. Korpus WIKI econo MFS = 74,76%, ITA = 90,58%. L acznie MFS = 81,80%, ITA = 93,25%. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 14 / 31

Analiza danych Wyniki anotacji korpusów (2) Oczekiwane rezultaty metod automatycznych pomi edzy dolnym a górnym ograniczeniem ograniczenie dolne MFS (Most Frequent Sense), ograniczenie górne ITA (Inter-Annotator Agreement). Statystyki korpusu Korpus NKJP econo MFS = 77,65%, ITA = 91,97%. Korpus GPW MFS = 94,31%, ITA = 96,82%. Korpus WIKI econo MFS = 74,76%, ITA = 90,58%. L acznie MFS = 81,80%, ITA = 93,25%. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 14 / 31

Analiza danych Wyniki anotacji korpusów (2) Oczekiwane rezultaty metod automatycznych pomi edzy dolnym a górnym ograniczeniem ograniczenie dolne MFS (Most Frequent Sense), ograniczenie górne ITA (Inter-Annotator Agreement). Statystyki korpusu Korpus NKJP econo MFS = 77,65%, ITA = 91,97%. Korpus GPW MFS = 94,31%, ITA = 96,82%. Korpus WIKI econo MFS = 74,76%, ITA = 90,58%. L acznie MFS = 81,80%, ITA = 93,25%. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 14 / 31

Metody uczenia maszynowego Metody uczenia maszynowego Przebadanie metod uczenia maszynowego, uzyskujacych najlepsze wyniki dla jezyka angielskiego wykorzystujemy implementacje znanych metod uczenia maszynowego i narz edzia WSDDE do przeprowadzenia eksperymentów, budujemy klasyfikatory dla każdego ujednoznacznianego has la, określamy skuteczność klasyfikacji w podejściu 10CV (dziesi eciokrotna walidacja krzyżowa), dla każdego has la przegladamy przestrzeń metod określenia istotności atrybutów, metod klasyfikacji oraz parametrów reprezentacji danych (np. wielkości okna). Rezultat istotna poprawa wyniku wzgl edem MFS (wyboru najcz estszego sensu). Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 15 / 31

Metody uczenia maszynowego Zastosowanie metod uczenia maszynowego reprezentacja danych W jaki sposób reprezentować ujednoznaczniane has lo w pewnym kontekście za pomoca wektora cech liczbowych? Przyk lad P lacac np. z lotówke za kilogram sprowadzonego miesa, przetwarzajac go wraz z innym obniży ly sobie koszty surowca, a wiec zwiekszy ly swoje dochody. wystepowanie s lów w dużym oknie wokó l has la, p lacić cena z lotówka moralność kilogram przetwarzać 1 0 1 0 1 1 wyst epowanie s lów na pewnej pozycji, w niewielkiej odleg lości od has la, wyst epowanie form gramatycznych w niewielkiej odleg lości od has la, forma gramatyczna has la. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 16 / 31

Metody uczenia maszynowego Zastosowanie metod uczenia maszynowego reprezentacja danych W jaki sposób reprezentować ujednoznaczniane has lo w pewnym kontekście za pomoca wektora cech liczbowych? Przyk lad P lacac np. z lotówke za kilogram sprowadzonego miesa, przetwarzajac go wraz z innym obniży ly sobie koszty surowca, a wiec zwiekszy ly swoje dochody. wyst epowanie s lów w dużym oknie wokó l has la, wystepowanie s lów na pewnej pozycji, w niewielkiej odleg lości od has la, obniżyć-2 obniżyć-1 siebie-1 surowiec+1 praca+1 1 0 1 1 0 wyst epowanie form gramatycznych w niewielkiej odleg lości od has la, forma gramatyczna has la. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 16 / 31

Metody uczenia maszynowego Zastosowanie metod uczenia maszynowego reprezentacja danych W jaki sposób reprezentować ujednoznaczniane has lo w pewnym kontekście za pomoca wektora cech liczbowych? Przyk lad P lacac np. z lotówke za kilogram sprowadzonego miesa, przetwarzajac go wraz z innym obniży ly sobie koszty surowca, a wiec zwiekszy ly swoje dochody. wyst epowanie s lów w dużym oknie wokó l has la, wyst epowanie s lów na pewnej pozycji, w niewielkiej odleg lości od has la, wystepowanie form gramatycznych w niewielkiej odleg lości od has la, praet-2 subst-1 adj-1 subst+1 1 0 0 1 forma gramatyczna has la. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 16 / 31

Metody uczenia maszynowego Zastosowanie metod uczenia maszynowego reprezentacja danych W jaki sposób reprezentować ujednoznaczniane has lo w pewnym kontekście za pomoca wektora cech liczbowych? Przyk lad P lacac np. z lotówke za kilogram sprowadzonego miesa, przetwarzajac go wraz z innym obniży ly sobie koszty surowca, a wiec zwiekszy ly swoje dochody. wyst epowanie s lów w dużym oknie wokó l has la, wyst epowanie s lów na pewnej pozycji, w niewielkiej odleg lości od has la, wyst epowanie form gramatycznych w niewielkiej odleg lości od has la, forma gramatyczna has la. subst pl dat acc 1 1 0 1 Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 16 / 31

Eksperymenty wst epne Metody uczenia maszynowego Istotnie wp lywaja na wynik klasyfikacji (leksem praca): liczba wykorzystanych atrybutów (d lugość wektora cech), szerokość okna, w którym badamy wyst epowanie s lów. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 17 / 31

Metody uczenia maszynowego Eksperymenty wst epne Istotnie wp lywaja na wynik klasyfikacji (leksem praca): liczba wykorzystanych atrybutów (d lugość wektora cech), szerokość okna, w którym badamy wyst epowanie s lów. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 17 / 31

Metody uczenia maszynowego Wnioski z eksperymentów na pojedynczych has lach Wnioski ogólne dla każdego has la optymalny dobór atrybutów i ich liczby jest inny, metody trzeba uczyć indywidualnie dla każdego has la, zwi ekszanie liczby atrybutów poprawia wyniki, do pewnej wartości granicznej, dobre rezultaty daja metody bayesowskie. Najlepsze uśrednionione wyniki uzyskano: wykorzystujac formy bazowe s lów w analizowanym oknie, biorac pod uwage wystepowanie s lów oraz form gramatycznych bezpośrednio przed i po haśle ujednoznacznianym, uwzgledniaj ac interpretacje morfosyntaktyczna has la ujednoznacznianego. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 18 / 31

Metody uczenia maszynowego Wnioski z eksperymentów na pojedynczych has lach Wnioski ogólne dla każdego has la optymalny dobór atrybutów i ich liczby jest inny, metody trzeba uczyć indywidualnie dla każdego has la, zwi ekszanie liczby atrybutów poprawia wyniki, do pewnej wartości granicznej, dobre rezultaty daja metody bayesowskie. Najlepsze uśrednionione wyniki uzyskano: wykorzystujac formy bazowe s lów w analizowanym oknie, biorac pod uwage wystepowanie s lów oraz form gramatycznych bezpośrednio przed i po haśle ujednoznacznianym, uwzgledniaj ac interpretacje morfosyntaktyczna has la ujednoznacznianego. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 18 / 31

Metody uczenia maszynowego Wyniki Otrzymane wyniki skuteczności klasyfikacji (vs MFS) korpus NKJP econo acc = 90,37%, dla 46 hase l poprawa wyniku korpus GPW acc = 99,13%, dla 36 hase l poprawa wyniku korpus Wiki econo acc = 90,38%, dla 49 hase l poprawa wyniku Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 19 / 31

Metody uczenia maszynowego Wyniki Otrzymane wyniki skuteczności klasyfikacji (vs MFS) korpus NKJP econo acc = 90,37%, dla 46 hase l poprawa wyniku korpus GPW acc = 99,13%, dla 36 hase l poprawa wyniku korpus Wiki econo acc = 90,38%, dla 49 hase l poprawa wyniku Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 19 / 31

Metody uczenia maszynowego Wyniki Otrzymane wyniki skuteczności klasyfikacji (vs MFS) korpus NKJP econo acc = 90,37%, dla 46 hase l poprawa wyniku korpus GPW acc = 99,13%, dla 36 hase l poprawa wyniku korpus Wiki econo acc = 90,38%, dla 49 hase l poprawa wyniku Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 19 / 31

Metody uczenia maszynowego Wnioski z eksperymentów Skuteczność metod klasyfikacji uzyskana dok ladność dla każdej z metod, przedzia l maksymalnej skuteczności przetestowanych metod, liczba zwyci estw poszczególnych metod. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 20 / 31

Metody uczenia maszynowego Wnioski z eksperymentów Skuteczność metod klasyfikacji uzyskana dok ladność dla każdej z metod, przedzia l maksymalnej skuteczności przetestowanych metod, liczba zwyci estw poszczególnych metod. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 20 / 31

Metody uczenia maszynowego Wnioski z eksperymentów Skuteczność metod klasyfikacji uzyskana dok ladność dla każdej z metod, przedzia l maksymalnej skuteczności przetestowanych metod, liczba zwyciestw poszczególnych metod. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 20 / 31

Metody uczenia maszynowego Wnioski z eksperymentów Wp lyw liczby atrybutów w uj eciu ogólnym: liczba wykorzystanych atrybutów (d lugość wektora cech), liczba zwyciestw metody, wykorzystujacej poszczególne liczby cech. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 21 / 31

Metody uczenia maszynowego Wnioski z eksperymentów Wp lyw liczby atrybutów w uj eciu ogólnym: liczba wykorzystanych atrybutów (d lugość wektora cech), liczba zwyciestw metody, wykorzystujacej poszczególne liczby cech. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 21 / 31

Metody regu lowe Automatyczne ujednoznacznianie Metody regu lowe Metody wykorzystujace jezyk regu lowy w projekcie NEKST zaplanowano wykorzystanie formalizmu w postaci logiki pierwszego rzedu, umożliwiajacego wyrażanie regu l klasyfikacyjnych, s luż acych do ujednoznaczniania sensów s lów. Wykorzystanie regu l asocjacyjnych do klasyfikacji wśród przyk ladów treningowych szukamy regu l asocjacyjnych, których nast epnikiem jest etykieta klasy (numer sensu), zbiór znalezionych regu l, posortowanych wzgledem zaufania (odsetek pasujaych do poprzednika regu ly przyk ladów w zbiorze treningowym, dla których regu la jest prawdziwa) stanowi klasyfikator, podczas klasyfikacji przyk ladu ze zbioru testowego przegladamy regu ly w klasyfikatorze od pierwszej do ostatniej i przypisujemy mu klase pierwszej pasujacej regu ly. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 22 / 31

Metody regu lowe Rozszerzenie metody regu lowej Uwzglednianie krotności wystapień poszczególnych leksemów w kontekście zwiekszenie skuteczności metody regu lowej poprzez odkrywanie klasyfikacyjnych regu l asocjacyjnych z elementami powtarzajacymi sie. korpus MFS ITA CAR rcar NKJP econo 77,65% 91,97% 84,14% 85,16% GPW 94,31% 96,82% 97,26% 97,86% Przyk lad pl KFG=0 pos+1 SFG2=0 noun-1 SFG2=1 noun+1 SFG2=0 ZNACZENIE=praca.2 miejsce TFG=2 noun-1 SFG2=1 noun+1 SFG2=0 ZNACZENIE=praca.2 Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 23 / 31

Wykorzystanie zasobów zewn etrznych Wykorzystanie zewn etrznych zasobów lingwistycznych do poprawy skuteczności metod uczenia maszynowego Problem algorytmiczna metoda dezambiguacji sensów jest zbyt silnie zwiazana z konkretnymi leksemami decyzja podejmowana jest na podstawie dok ladnie tych s lów, które wystepuj a w tekście, brak konkretnego leksemu w zbiorze treningowym uniemożliwia podjecie prawid lowej decyzji w zbiorze testowym, cz lowiek analizuje kontekst i uogólnia wystepuj ace w nim s lowa, aby stwierdzić jaki jest jego sens. Przyk lad Cena jednego kilograma maki wynosi... Cena 1 kg kaszy wynosi... Jaka by la wówczas cena funta pszenicy? Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 24 / 31

Wykorzystanie zasobów zewn etrznych Wykorzystanie zewn etrznych zasobów lingwistycznych do poprawy skuteczności metod uczenia maszynowego Pomys l wykorzystać funkcj e podobieństwa semantycznego do rozszerzenia kontekstów s lów dezambiguowanych o leksemy podobne dażymy do tego, żeby konkretne leksemy zamienić na ogólne pojecia, funkcje podobieństwa semantycznego umożliwiaja wygenerowanie nowych kontekstów na podstawie istniejacych w zbiorze treningowym, co przek lada sie na potencjalnie lepsze wytrenowanie metod uczenia maszynowego. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 25 / 31

Wykorzystanie zasobów zewn etrznych Funkcje podobieństwa semantycznego Funkcje odzworowujace pary leksemów w liczbe rzeczywista W W R, liczba określa stopień podobieństwa pomi edzy leksemami. Funkcje oparte na zasoboach ustrukturalizowanych niezbedny zasób typu WordNet z duża liczba relacji, stopień podobieństwa miedzy leksemami określany na podstawie stopnia powiazania w grafie WordNetu, np. jako odwrotność odleg lości najkrótszej ścieżki pomiedzy nimi. Funkcje oparte na korpusie tekstowym stopień podobieństwa mi edzy leksemami określany na podstawie cz estości ich wspó lwyst epowania w korpusie, dla j ezyka polskiego: RWF (Piasecki et al., 2007): korpus IPI PAN, korpus Rzeczpospolitej oraz dokumentów internetowych. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 26 / 31

Wykorzystanie zasobów zewn etrznych Korpusowa funkcja podobieństwa semantycznego http://plwordnet.pwr.wroc.pl/wordnet/msr/kilogram Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 27 / 31

Wykorzystanie zasobów zewn etrznych Wykorzystanie funkcji do rozszerzenia wektora cech p lacić cena z lotówka moralność kilogram przetwarzać 1 0 1 0 1 1... kilogram kg kilo tona gram przetwarzać... 1 1 1 1 1 0 Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 28 / 31

Wykorzystanie zasobów zewn etrznych Wyniki Otrzymane wyniki skuteczności klasyfikacji metodami uczenia nadzorowanego z użyciem FPS (vs bez użycia FPS i MFS) korpus NKJP acc = 91,73%, dla 22 hase l poprawa wyniku korpus GPW acc = 99,28%, dla 10 hase l poprawa wyniku po l aczone korpusy acc = 97,52%, dla 19 hase l poprawa wyniku Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 29 / 31

Wykorzystanie zasobów zewn etrznych Wyniki Otrzymane wyniki skuteczności klasyfikacji metodami uczenia nadzorowanego z użyciem FPS (vs bez użycia FPS i MFS) korpus NKJP acc = 91,73%, dla 22 hase l poprawa wyniku korpus GPW acc = 99,28%, dla 10 hase l poprawa wyniku po l aczone korpusy acc = 97,52%, dla 19 hase l poprawa wyniku Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 29 / 31

Wykorzystanie zasobów zewn etrznych Wyniki Otrzymane wyniki skuteczności klasyfikacji metodami uczenia nadzorowanego z użyciem FPS (vs bez użycia FPS i MFS) korpus NKJP acc = 91,73%, dla 22 hase l poprawa wyniku korpus GPW acc = 99,28%, dla 10 hase l poprawa wyniku po l aczone korpusy acc = 97,52%, dla 19 hase l poprawa wyniku Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 29 / 31

Podsumowanie wyników Podsumowanie wyników Wytworzone oprogramowanie edytor s lownika sensów, narz edzie do anotacji korpusu tekstowego sensami ze s lownika, narz edzie do dezambiguacji (do końca roku). Wytworzone zasoby tekstowe s lownik sensów, korpus tekstowy z dziedziny ekonomicznej, anotowany tekstami s lów, sk ladajacy sie z podkorpusów NKJP econo, GPW i Wiki econo. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 30 / 31

Podsumowanie wyników Podsumowanie wyników Otrzymane wyniki eksperymentalne metoda bazowa przypisanie s lowom wieloznacznym najcz estszego sensu, uczenie maszynowe (1) statystyczne metody klasyfikacji na korpusie podzielonym zgodniem z metodyka 10CV, uczenie maszynowe (2) klasyfikator regu lowy z rozszerzeniem o elementy powtarzajace sie. uczenie maszynowe (3) wykorzystanie zasobów lingwistycznych do poprawy skuteczności dezambiguacji. Lukasz Kobyliński (IPI PAN) Metody ujednoznaczniania sensów s lów 21 listopada 2011 31 / 31