Problem ujednoznaczniania sensu w kontekście ekstrakcji relacji semantycznych

Podobne dokumenty
Zastosowanie Wikipedii w przetwarzaniu języka naturalnego

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Lokalizacja Oprogramowania

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

AUTOMATYKA INFORMATYKA

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa

PROLOG WSTĘP DO INFORMATYKI. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

Ontologie, czyli o inteligentnych danych

Projekt i implementacja systemu wspomagania planowania w języku Prolog

Rozszerzanie ontologii nazw geograficznych

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Analiza danych tekstowych i języka naturalnego

Transformacja wiedzy w budowie i eksploatacji maszyn

Pattern Classification

Program warsztatów CLARIN-PL

Narzędzia do automatycznej analizy odniesień w tekstach

Systemy uczące się Lab 4

Porównywanie tagerów dopuszczajacych niejednoznaczności

Modelowanie krzywych i powierzchni

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

ANALIZA DANYCH ZE ŹRÓDEŁ OTWARTYCH CENNE ŹRÓDŁO INFORMACJI DR INŻ. MARIUSZ DZIECIĄTKO

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Algorytm. Krótka historia algorytmów

Wykład Ćwiczenia Laboratorium Projekt Seminarium

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

Co wylicza Jasnopis? Bartosz Broda

Modulacja i kodowanie. Labolatorium. Kodowanie źródłowe Kod Huffman a

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Systemy uczące się wykład 2

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Przedstawiona do recenzji rozprawa doktorska Pana mgra inż. Adama Dudka pt. :

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Wykład XII. optymalizacja w relacyjnych bazach danych

SPIS TREŚCI CZĘŚĆ I : PRZEZNACZENIE, PROCES I PODSTAWY METODOLOGICZNE BADAŃ MARKETINGOWYCH...17

METODY INŻYNIERII WIEDZY

INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE

Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0

Języki programowania zasady ich tworzenia

Od e-materiałów do e-tutorów

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

Teoria informacji i kodowania Ćwiczenia

Kartoteka testu Oblicza miłości

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II

Systemy Wspomagania Decyzji

Cel i zawartość prezentacji

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Logika dla socjologów Część 2: Przedmiot logiki

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

Nazwa wariantu modułu (opcjonalnie): Laboratorium programowania w języku C++

!!!!!!!!!!! PORTFOLIO: Analiza zachowań użytkowników serwisów internetowych. Autorzy: Marek Zachara

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Sprzętowo wspomagane metody klasyfikacji danych

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

W tym rozdziale książka opisuje kilka podejść do poszukiwania kolokacji.

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Wprowadzenie do szablonów szablony funkcji

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Myśl w języku Python! : nauka programowania / Allen B. Downey. Gliwice, cop Spis treści

Wprowadzenie do szablonów szablony funkcji

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

Zaawansowane programowanie w języku C++

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

Ewaluacja w polityce społecznej

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KL.I -III W PUBLICZNYM GIMNAZJUM SIÓSTR SALEZJANEK IM. ŚW. JANA BOSKO W OSTROWIE WIELKOPOLSKIM

STUDIA NIESTACJONARNE I STOPNIA Przedmioty kierunkowe

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Podobieństwo semantyczne w ontologiach biomedycznych

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania

Kraków, 14 marca 2013 r.

Drzewa decyzyjne i lasy losowe

Semantyczne Wiki na przykładzie Semantic MediaWiki

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

SZTUCZNA INTELIGENCJA

Aproksymacja funkcji a regresja symboliczna

Programowanie. programowania. Klasa 3 Lekcja 9 PASCAL & C++

Bartosz Kulawik Koordynator Projektu Centrum Badań Kosmicznych PAN Zespół Obserwacji Ziemi

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Semantyczne Wiki! na przykładzie! Semantic MediaWiki!

Widzenie komputerowe (computer vision)

Rozkład materiału nauczania

Matura z języka polskiego

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań

Uniwersytet Jagielloński Interfejsy graficzne. Wykład 6. Style interfejsu. Barbara Strug

Transkrypt:

Problem ujednoznaczniania sensu w kontekście ekstrakcji relacji semantycznych Instytut Podstaw Informatyki Polskiej Akademii Nauk 16 kwietnia 2012

Plan prezentacji Ekstrakcja informacji Zasoby językowe Ekstrakcja relacji Ujednoznacznianie sensu

Plan prezentacji Ekstrakcja informacji Zasoby językowe Ekstrakcja relacji Ujednoznacznianie sensu

Czym jest ekstrakcja informacji? Intuicyjnie ekstrakcja informacji polega na wydobyciu faktów opisanych (w tekście) w języku naturalny i przekształceniu ich do wybranej reprezentacji (relacyjnej, grafowej, ontologicznej), tak aby mogłoby być przetwarzane automatycznie w systemach komputerowych.

Zadania w obrębie ekstrakcji informacji Tradycyjnie wyróżnia się następujace zadania w obrębie ekstrakcji informacji (Jurafsky et al., Moens): rozpoznawanie wyrażeń nazwowych (Named Entity Recognition) rozpoznawanie koreferencji (wyrażeń współodnoszacych się) (Coreference Resolution) rozpoznawanie i klasyfikacja relacji semantycznych (Relation Detection and Classification) rozpoznawanie wyrażeń temporalnych oraz ekstrakcja zdarzeń (Temporal and Even Processing) wypełnianie szablonów (Template Filling)

Przykłady ekstrakcji informacji (1) Przykłady (D. Jurafsky et al.): Turing jest często uznawany za ojca współczesnej informatyki. rozpoznanie wyrażenia Turing jako odnoszacego się do osoby. American Airlines posiadaja węzeł lotniczy w San Juan. rozpoznawanie i klasyfikacja relacji zachodzacej pomiędzy obiektami do których odnosza się wyrażenia American Airlines oraz San Juan.

Przykłady ekstrakcji informacji (2) Organizacja Czarny Wrzesień próbowała zdetonować trzy samochody pułapki w Nowym Jorku w marcu 1973 roku. rozpoznawanie zdarzeń. Wypełnianie szablonów: DETONATION-ATTEMPT BOMBER Czarny Wrzesień PLACE Nowy Jork DATE marzec 1973 BOMB-COUNT 3 BOMB-TYPE samochód pułapka

Definicja ekstrakcji informacji M. F. Moens Information extraction is the identification and consequent or concurrent classification and structuring into semantic classes, of specific information found in unstructured data sources, such as natural language text, making the information more suitable for information processing tasks. M. F. Moens 2006

Definicja Moens uwagi Sformułowania nieustrukturyzowane źródła danych oraz bardziej zdatne do przetwarzania sa mało precyzyjne. Struktura tekstu w języku naturalnym: dokumenty/teksty paragrafy zdania słowa Odnalezienie dokumentów zawierajacych określone słowa kluczowe nie stanowi większego problemu z punktu widzenia przetwarzania informacji. Problem pojawia się jeśli np. chcemy odnaleźć zdania posiadajace określona strukturę składniowa.

Język przedmiotowy i meta-język A. Tarski [...] we have to use two different languages in discussing the problem of the definition of truth and, more generally, any problems in the field of semantics. The first of these languages is the language which is talked about and which is the subject matter of the whole discussion; [...]. The second is the language in which we talk about the first language [...]. We shall refer to the first language as the object language, and to the second as the meta-language. A. Tarski 1944, The Semantic Conception of Truth and the Foundations of Semantics

Propozycja definicji A. Pohl Proces ekstrakcji informacji jest procesem nadawania znaczenia (interpretacji), w którym przechodzi się od opisu danych w terminach meta-języka, do opisu w terminach języka przedmiotowego, dzięki czemu dane źródłowe moga być bezpośrednio interpretowane w zadaniach przetwarzania informacji.

Problemy zwiazane z ekstrakcja informacji nieprzezroczystość danych tekstowych wszechobecna wieloznaczność: form wyrazowych, struktur składniowych, semantyczna wieloznaczność wyrażeń, itp. ograniczona dostępność zasobów językowych/wysoki koszt ich wytworzenia wyrażenia wielosegmentowe wyrażenia metaforyczne

Plan prezentacji Ekstrakcja informacji Zasoby językowe Ekstrakcja relacji Ujednoznacznianie sensu

Wykorzystywane zasoby językowe i źródła wiedzy korpusy tekstów: : 250 mln. segmentów notatki PAP AGH: 3,6 mln. segmentów słowniki fleksyjne: biblioteka CLP AGH: 138 tys. leksemów Morfologik przekształcony do formalizmu CLP: 270 tys. leksemów semantyczne źródła wiedzy: polska Wikipedia, ok. 800 tys. artykułów ontologia Research Cyc, ok. 542 tys. symboli

Korpusy tekstów Korpus : wykorzystany jako źródło przykładów uczacych przy konstrukcji formalnych szablonów ekstrakcyjnych zalety: język zapytań, tagowanie wady: niewystarczajaca wydajność, niezbalansowany Korpus PAP AGH: wykorzystany jako źródło przykładów uczacych przy konstrukcji semantycznych szablonów ekstrakcyjnych wykorzystany do testowania skuteczności algorytmu zalety: wysoka wydajność 1, wysoka jakość artykułów wady: brak tagowania, brak narzędzi wspomagajacych, niewielki rozmiar 1 Po umieszczeniu tekstów w dedykowanej, obiektowej bazie danych ROD.

Słowniki fleksyjne CLP AGH: zalety: dobra znajomość rozwiazania, jednoznaczna identyfikacja leksemów posiadajacych homonimiczne formy bazowe, możliwość zastosowania interfejsu obiektowego, wysoka jakość danych wady: brak wielu popularnych leksemów, brak istotnych relacji morfosyntaktycznych, słaba dokumentacja Morfologik: zalety: występowanie wielu leksemów będacych składnikami nazw własnych, dość dobrze znany zestaw znaczników bazujacych na tagach korpusu wady: średnia jakość danych, brak jednoznacznej identyfikacji leksemów o homonimicznych formach bazowych, konieczność dostosowanie do formalizmu CLP

Wikipedia zastosowania: określenie semantycznego powinowactwa wyrażeń ujednoznacznianie wyrażeń rozpoznawanie wyrażeń wielosegmentowych określanie kategorii semantycznej wyrażeń zalety: duża ilość reprezentowanych wyrażeń (w szczególności nazw własnych), obecność niejawnej informacji morfologicznej wady: niejednorodna jakość materiału, trudności w automatycznym przekształceniu w wysokiej jakości słownik semantyczny

Ontologia ResearchCyc zastosowania: źródło par uczacych źródło wiedzy na temat relacji generalizacji uogólnianie ograniczeń semantycznych w szablonach ekstrakcyjnych zalety: wysokiej jakości dane pozwalajace na prowadzenie niezawodnych wnioskowań, duża liczba gotowych do wykorzystania par uczacych wady: niejednorodne pokrycie obszarów wiedzy, stosunkowo niewielka ilość danych dotyczacych wyrażeń będacych nazwami własnymi, skomplikowanie, brak (wystarczajaco bogatego) polskiego leksykonu

Plan prezentacji Ekstrakcja informacji Zasoby językowe Ekstrakcja relacji Ujednoznacznianie sensu

Cel algorytmu ekstrakcji relacji Ponad 10 tys. antylop uciekło z wyjatkowo silnie zaśnieżonych stepów Mongolii i przedostało się w poszukiwaniu jedzenia do wschodniej Syberii stepów oraz Mongolii rozpoznanie dwóch wyrażeń odnoszacych się do obszarów geograficznych rozpoznanie relacji część-całość zachodzacej pomiędzy wyrażeniami chodzi o rozpoznanie instancji relacji, tak by określony fragment tekstu mógł zostać oznakowany semantycznie nie chodzi o budowanie ontologii celem jest tworzenie bazy wiedzy z danymi wyekstrahowanymi z tekstów z zachowaniem informacji o źródle

Koncepcja algorytmu cel: budowana szablonów ekstrakcyjnych wykorzystanie danych z wielu źródeł wiedzy w celu maksymalizacji liczby rozpoznawanych wyrażeń hybrydowy algorytm oparty o przykładu uczace: cechy morfosyntaktyczne określane automatycznie z wykorzystaniem algorytmów uczenia maszynowego cechy semantyczne określane na podstawie ontologii ontologia wykorzystywana również do zwiększenia różnorodności przykładów uczacych

Struktura algorytmu ekstrakcji relacji 1. wybór relacji (np. całość-część) 2. wygenerowanie par uczacych (np. rekin-płetwa) 3. odnalezienie par uczacych w korpusie tekstów 4. utworzenie formalnych szablonów ekstrakcyjnych (np. *-dat płetwa rekina, płetwy rekina, etc.) 5. statystyczna analiza szablonów 6. podział szablonów na grupy (na podstawie odległości argumentów) 7. odnalezienie zdań pasujacych do szablonów w korpusie tekstów 8. określenie typu relacji w odnalezionych przykładach 9. uogólnienie ograniczeń semantycznych dla odnalezionych przykładów uczacych 10. utworzenie semantycznych szablonów ekstrakcyjnych

Kluczowe zadanie dodatkowe Określenie kategorii semantycznych wyrażeń występujacych w tekście: rozpoznanie wyrażeń jedno i wielosegmentowych, np. Spotkanie odbyło się w Zamku Królewskim ujednoznacznienie sensu wyrażeń, np.: Zamek Królewski w Warszawie Zamek Królewski na Wawelu Zamek Królewski w Poznaniu... określenie kategorii semantycznej zdefiniowanej w ontologii Cyc dla rozpoznanych wyrażeń, np. #$Castle

Plan prezentacji Ekstrakcja informacji Zasoby językowe Ekstrakcja relacji Ujednoznacznianie sensu

Struktura algorytmu ujednoznaczniania sensu Algorytm ujednoznaczniania wyrażeń oparty o Wikipedię (D. Milne, I. H. Witten 2008) rozpoznanie wyrażeń jednoznacznych określenie wagi wyrażeń jednoznacznych na podstawie: powinowactwa semantycznego z pozostałymi wyrażeniami jednoznacznymi statystycznej częstości wykorzystania tych wyrażeń do tworzenia linków do innych artykułów w Wikipedii ujednoznacznienie sensu wyrażeń wieloznacznych na podstawie drzewa decyzyjnego zbudowanego z wykorzystaniem algorytmu C4.5

Miara powinowactwa semantycznego Oparta o Wikipedię miara powinowactwa semantycznego (I. H. Witten, D. Milne 2008) wykorzystujaca odległość Google sr google (a, b) = 1 log(max( A, B )) log( A B ) log( W ) log(min( A, B )) (1) A moc zbioru artykułów posiadajacych odnośniki do artykułu a A B moc zbioru artykułów posiadajacych odnośniki jednocześnie do a i do b W moc zbioru wszystkich artykułów w Wikipedii w praktyce miara ta może być mniejsza od 0!

Określanie wagi artykułów/wyrażeń Dla każdego jednoznacznego artykułu/wyrażenia: w I iteracji: określenie średniego powinowactwa semantycznego z pozostałymi artykułami w II iteracji: określenie wagi artykułu jako średniej arytmetycznej powinowactwa semantycznego z pozostałymi artykułami oraz miary link probability link probability częstość z jaka określone wyrażenie, które reprezentuje artykuł jest wykorzystywane w Wikipedii jako odnośnik do innych artykułów

Cechy wykorzystane do indukcji drzewa decyzyjnego średnia ważona powinowactwa semantycznego artykułu (reprezentujacego sens wyrażenia) z pozostałymi artykułami (relatedness) prawdopodobieństwo określonego sensu, obliczone jako proporcja odnośników, których treść stanowi dane wyrażenie, prowadzacych do danego artykułu w stosunku do liczby wszystkich odnośników zarejestrowanych dla tego wyrażenia (sense probability) jakość kontekstu danego wyrażenia, określona jako suma wag wyrażeni określonych wcześniej (goodness)

Przykłady uczace Indykcja drzewa decyzyjnego odbywa się na podstawie artykułów Wikipedii: wybierane sa artykuły zawierajace odpowiednia liczbę odnośników wewnętrznych (w oryginalnym artykule > 50) z artykułów ekstrahowane sa pary treść odnośnika wyrażenie, np. jadro systemu operacyjnego charakteryzowało się... cel odnośnika artykuł Wikipedii, np. Jadro systemu dla tej pary obliczane sa cechy przedstawione wcześniej, stanowi ona pozytywny przykład uczacy negatywne przykłady uczace generowane sa na podstawie wszystkich pozostałych artykułów, do których tworzone sa odnośniki o tej samej treści

Wyniki działania algorytmu Tablica: Skuteczność algorytmu Milne i Wittena precision recall f-measure Losowy sens 50,2 56,4 53,1 Najczęstszy sens 89,3 92,2 90,7 Milne i Witten 98,4 95,7 97,1 Uwagi: w eksperymencie użyto około 1 mln. przykładów uczacych wyniki uwzględniaja również wyrażenia jednoznaczne (!) wyniki sa obliczane na podstawie ewaluacji wewnętrznej (tzn. na podstawie danych wygenerowanych z Wikipedii) założona jest dostępność dużej liczby ujednoznacznionych wyrażeń (ponad 50)

Wprowadzone modyfikacje użycie innej miary powinowactwa semantycznego Jaccard wprowadzenie dodatkowych cech w procesie uczenia ewaluacja uwzględniajaca wyłacznie wieloznaczne odnośniki bardziej realistyczne dane testowe (5-100 odnośników) ewaluacja zrealizowana również dla polskiej Wikipedii

Ulepszona miara Podobnie jak w Wikipedia Minerze miara wykorzystuje informację dotyczac a odnośników do artykułów, oparta jest jednak na szeroko wykorzystywanej mierze Jaccarda: ( 1 ) A B A B > 0 1 log A B sr jaccard (a, b) = 0 a b 1 a = b A moc zbioru artykułów posiadajacych odnośniki do artykułu a A B moc zbioru artykułów posiadajacych odnośniki jednocześnie do a i do b A B moc zbioru artykułów posiadajacych odnośniki do a lub do b (2)

Dodatkowe cechy pozycja artykułu obliczona na podstawie ważonego powinowactwa semantycznego (relatedness position) pozycja sensu obliczona na podstawie prawdopodobieństwa jego wystapienia (sense position) link probability określone wcześniej

Wyniki dla języka angielskiego Tablica: Porównanie skuteczności dla języka angielskiego precision recall F 1 -measure Losowy sens 39.1 20.8 27.2 Losowy sens o P > 0.5% 44.2 45.1 44.6 Najczęstszy sens 82.8 84.6 83.7 sr G 83.5 84.4 84.0 sr G + nowe cechy 83.3 85.0 84.1 sr J 87.2 93.0 90.0 sr J + nowe cechy 90.5 94.4 92.4 Uwagi: liczba przykładów uczacych: 3 mln. liczba przykładów testowych: 1 mln

Wyniki dla języka polskiego Tablica: Porównanie skuteczności dla języka polskiego precision recall F 1 -measure Losowy sens 39.7 26.4 31.7 Losowy sens o P > 0.5% 47.0 47.3 47.2 Najczęstszy sens 81.6 82.2 81.9 sr G 82.5 83.5 83.0 sr G + nowe cechy 84.9 83.2 84.0 sr J 85.4 89.8 87.6 sr J + nowe cechy 90.4 93.0 91.7 Uwagi: liczba przykładów uczacych: 1,16 mln. liczba przykładów testowych: 390 tys.

Dziękuję!