Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Podobne dokumenty
Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Program warsztatów CLARIN-PL

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji

WebSty otwarty webowy system do analiz stylometrycznych

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Inforex - zarządzanie korpusami i ich anotacja

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Open Access w technologii językowej dla języka polskiego

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Narzędzia do automatycznej analizy odniesień w tekstach

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Narzędzia do automatycznej analizy odniesień w tekstach

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Co wylicza Jasnopis? Bartosz Broda

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

CLARIN infrastruktura naukowa technologii językowych

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

LEM wydobywanie statystyk z korpusów

Text mining w programie RapidMiner Michał Bereta

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

Wprowadzenie do uczenia maszynowego

Zapytanie ofertowe nr 1/2016

Systemy uczące się wykład 2

Widzenie komputerowe (computer vision)

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Procesy integracji modeli danych do jednolitej struktury WBD. Tadeusz Chrobak, Krystian Kozioł, Artur Krawczyk, Michał Lupa

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Analiza danych tekstowych i języka naturalnego

AUTOMATYKA INFORMATYKA

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

Bazy danych TERMINOLOGIA

W poszukiwaniu sensu w świecie widzialnym

Semantyczny Monitoring Cyberprzestrzeni

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

Lokalizacja Oprogramowania

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Bydgoskie Centrum Archiwizacji Cyfrowej sp. z o.o.

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Elementy modelowania matematycznego

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Laboratorium technik optymalizacji: układanie uniwersyteckiego planu zajęć

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

Systemy Wspomagania Decyzji

Zastosowanie Wikipedii w przetwarzaniu języka naturalnego

Ujednoznacznianie sensów słów

2

Agnieszka Nowak Brzezińska

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

Semantyczne podobieństwo stron internetowych

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

Asocjacyjna reprezentacja danych i wnioskowanie

Metody Sztucznej Inteligencji II

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

Narzędzia do automatycznej analizy odniesień w tekstach

Diagramy obiegu dokumentów a UML w modelowaniu procesów biznesowych. Stanisław Niepostyn, Ilona Bluemke Instytut Informatyki, Politechnika Warszawska

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen

EXSO-CORE - specyfikacja

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

3 grudnia Sieć Semantyczna

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do wydobywania słowników związków frazeologicznych i terminów

Co to jest znaczenie? Współczesne koncepcje znaczenia i najważn. i najważniejsze teorie semantyczne

KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLASY VI

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Funkcjonalność słów kluczowych pozwala na przypisanie zestawu słów do wykładowców, grup i sal, w celach wyszukiwania danych.

WYKŁAD 6. Reguły decyzyjne

Systemy uczące się Lab 4

Składowanie i dostęp do danych w rozproszonym systemie ochrony własności intelektualnej ANDRZEJ SOBECKI, POLITECHNIKA GDAŃSKA INFOBAZY 2014

Podstawy Informatyki. Algorytmy i ich poprawność

Semantyczna analiza języka naturalnego

Systemy uczące się wykład 1

Recenzja rozprawy doktorskiej

Spis treści tomu pierwszego

Wydobywanie informacji oraz cech tekstów: analiza frekwencyjna

UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji

Wydobywanie informacji oraz cech tekstów: tworzenie prostych statystyk Część 1

Testowanie modeli predykcyjnych

METODY INŻYNIERII WIEDZY

SI w procesach przepływu i porządkowania informacji. Paweł Buchwald Wyższa Szkoła Biznesu

Technologie Informacyjne

Świat rzeczywisty i jego model

Transkrypt:

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur Maciej Piasecki, Paweł Kędzia Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19

Plan prezentacji Cel Ujednoznacznianie sensów słów (znaczeń leksykalnych) Wykrywanie ról semantycznych wewnątrz frazy NP System do ekstrakcyjnego streszczania tekstu System do wydobywania tekstowych słów kluczowych Relacje semantyczne między fragmentami tekstów

Cel Założenia: istniejące głębokie parsery semantyczne nie dają wyczerpującego pokrycia i nie radzą sobie z błędami językowymi wzbogacenie tekstu o częściowy opis semantyczny będzie korzystne dla wielu zastosowań, np. klasyfikacji semantycznej Cel zbudowanie zespołu narzędzi, które będą wzbogacać tekst o warstwy anotacji opisujące wybrane aspekty semantyki tekstu poziom zadań i poziom tekstu Realizacja punkt wyjścia: znaczenia leksykalne jako łącznik do zasobów wiedzy rozszerzenie opisu na frazy nominalne

Ujednoznacznianie sensów słów Proces polegający na przypisaniu słowu odpowiedniego znaczenia wybranego ze zbioru znaczeń słów, odpowiedniego dla tego słowa w danym kontekście.?

Ujednoznacznianie sensów słów stosowane podejścia Uczenie na podstawie oznaczeń w tekstach: Wymagane duże zasoby ręcznie oznaczonych tekstów Czasochłonność ręcznego oznaczania tekstów (koszty) - każde słowo z osobna posiada swoje anotacje Uczenie bez wstępnego oznaczania w tekście: Nie jest wymagane wstępne znakowanie znaczeń w tekstach Wykorzystanie istniejących struktur opisujących zależności między znaczeniami słów (Słowosieć)

WoSeDon - główna idea Nienadzorowane podejście oparte o przetwarzanie grafu. Wykorzystana idea algorytmu PageRank z własnymi modyfikacjami. Jako zasób znaczeń do przypisania wykorzystana została Słowosieć. Po powrocie z pracy zepsułem zamek w drzwiach. graf dla słowa zamek.

WoSeDon - udostępnianie Dostęp przez przeglądarkę: http://ws.clarin-pl.eu/demo/wsd.html Możliwość instalacji lokalnie: git clone git@nlp.pwr.wroc.pl:wosedon WebWoSeDon: Narzędzie do generowania list frekwencyjnych znaczeń: http://wosedon.clarin-pl.eu/

WebWoSeDon - DSpace

WebWoSeDon podstawowa funkcjonalność

WoSeDon - wyniki Ocena tylko na słowach polisemicznych Najlepsza precyzja osiągnięta na KPWr i Składnicy: KPWr Czas. Rzecz. Składnica Średnia Czas. Rzecz. Średnia 1 32,61 52,22 45,52 49,02 64,02 58,48 2 42,66 47,91 46,12 47,51 61,67 56,16 3 39,76 39,3 39,46 49,28 61,12 56,51 1: PPR, plwordnet 2.3synset+SUMO 2: Static, plwordnet 2.3LU-0.3 + plwordnet 2.3Synset-0.7 + re-ranking 10% 3: Static, plwordnet 2.3 + re-ranking 40%

Wykrywanie ról semantycznych Proces polegający na przypisywaniu do par słów z tekstu ról semantycznych jakie pełnią te słowa w strukturze semantycznej tekstu.

Wykrywanie ról semantycznych Role semantyczne wewnątrz frazy rzeczownikowej (NP) i przymiotnikowej (AdjP) Atrybut - łączy rzeczownik z jego cechą żółtyatrybut koc Ilość - jak liczny jest zbiór, bądź ilość niepoliczalnego dwadzieścia dwailość domy

Wykrywanie ról semantycznych Aktor - inicjator akcji, byt oddziałowujący na inny byt Pisanie Jankaaktor po tablicy Sposób - sposób wykonywania czynności np. Szybkisposób bieg Obiekt - byty lub sytuacje, które są w jakimś stanie, bądź ulegają zmianie stanu Złapanie piłkiobiekt

NPSemRel - przykładowa reguła Podejście regułowe: 101 wzorców WCCL dwuetapowe wykrywanie: określanie miejsca wykrywanie roli 200 losowych fraz z KPWr 331 instancji ról

NPSemRel - wyniki Ocena: na 26 tekstach KPWr na 100 tekstach NKJP 2+1 P R KPWr NKJP KPWr NKJP F KPWr NKJP aktor 58,3 91,5 30,4 34,4 40,0 50,0 obiekt 84,9 91,4 39,8 44,0 54,2 49,4 atrybut 43,8 44,6 58,3 75,8 50,0 56,2 ilość 83,3 62,4 55,6 43,6 66,7 51,4

MLNpSemRel Wykorzystanie maszynowego uczenia do wykrywania ról

MLNpSemRel Dwuetapowy proces klasyfikacji (+ generowanie par): a. Wyszukanie pary wyrazów, między który może zajść rola b. Wykrycie roli semantycznej

MLNpSemRel - wyniki Korpus: KPWr Ocena: walidacja krzyżowa, 10-cio krotna P R F aktor 0,758 0,715 0,736 obiekt 0,856 0,898 0,877 sposób 0,703 0,561 0,624 atrybut 0,856 0,919 0,886 ilość 0,904 0,789 0,843

Wykrywanie ról semantycznych NpSemRel oraz MLNpSemRel do pobrania: git clone git@nlp.pwr.wroc.pl:npsemrel

Streszczanie tekstu Ekstrakcyjne streszczanie tekstu polega na wyborze z tekstu tych zdań, które w najistotniejszy sposób opisują jego tematykę.

Ekstrakcyjne streszczanie tekstu Cel narzędzie do przeglądania wyników wyszukiwania lub przybliżonego porównywania dokumentów Założenia streszczanie ekstrakcyjne wybór z tekstu ograniczonej liczby zdań niosących najważniejsze informacje i zbudowanie z nich spójnego tekstu dostosowanie sprawdzonego systemu do języka polskiego i polskich narzędzi językowych

Streszczanie: system Schemat wstępne przetwarzanie tekstu ocena istotności zdań dla danego znaczenia danego tekstu wybór najistotniejszych zdań konwersja formatu, eliminacja słów o niskiej informacji utworzenie streszczenia zadanej długości połączenie najwyżej ocenionych zdań wg kolejności występowania w tekście Podstawa: system MEAD znany o modułowej konstrukcji, łatwy do dostosowania otwarta licencja

Zmodyfikowany system MEAD Charakterystyka MEAD Dostosowanie do języka polskiego (Tretter, 2015) cechy do oceny zdań: pozycja, długość, wartość centroidu, miara LexRank klasyfikator - funkcja z wartości cech pełne wsparcie dla kodowania UTF8 baza wag TF.IDF dla polskich lematów (Wikipedia) segmentacja - MACA lematyzacja - tager WCRFT zbudowanie korpusu streszczeń (crowdsourcing) Rozszerzenie rozpoznanie nazw własnych (Liner2)

Streszczanie tekstu http://ws.clarin-pl.eu/demo2/summarize.shtml git clone git@nlp.pwr.wroc.pl:summary

Wydobywanie słów kluczowych Proces polegający na wydobyciu z tekstu słów, bądź ciągów słów charakteryzujących dany tekst.

Wydobywanie słów kluczowych Założenia ekstrakcyjne wydobywanie - słowa kluczowe z dokumentu nienadzorowane podejście - szerokie zastosowanie Podstawa - TextRank (Mihalcea i Tarau, 2004) graf powiązań słów na podstawie współwystępowania węzły - słowa znaczące (rzeczowniki i przymiotniki) granice współwystępowania: okno tekstowe lub zdanie ustalenie oceny węzłów za pomocą algorytmu PageRank wydobycie wielowyrazowych słów w oparciu o analizę wag węzłów TextRank dostosowany do języka polskiego segmentacja i lematyzacja - MACA i WCRFT wagi TF.IDF dla lematów policzone w oparciu o korpus Słowosieci problem: lematyzacja wielowyrazowych słów kluczowych

Relacje semantyczne między fragmentami tekstów Proces, podczas którego dla pary zdań przypisywana jest relacja zachodząca między nimi.

Relacje semantyczne Krzyżowanie się: Część informacji z S2 pokrywa się z S1. S1 przedstawia informacje X i Y, S2 przedstawia informacje X i Z S1: Samolot rozbił się, uderzając w 25 piętro budynku Pirelli znajdującego się w centrum miasta Milan. S2: Mały turystyczny samolot zderzył się z najwyższym budynkiem w Milanie. Parafraza: Dwa fragmenty tekstu zawierają dokładnie takie same informacje, ale wyrażone różnymi słowami S1: Wałęsa był agentem SB. S2: Lechu współpracował jako agent z SB.

Relacje semantyczne Zawieranie: S1 zawiera wszystkie informacje z S2, oraz dodatkowe informacje niewystępujące w S2. Oznacza to, że zdanie S1 ma bogatszą treść niż zdanie S2 S1: Z trzema zwycięstwami w tym roku Green Bay ma najlepszy wynik w lidze NFL. S2: Green Bay trzy razy osiągnął zwycięstwo w tym roku. Tożsamość: Dokładnie takie same zdania występują w dwóch różnych miejscach S1: Zgodnie z doniesieniami dym wydobywał się z dziury. S2: Zgodnie z doniesieniami dym wydobywał się z dziury.

Relacje semantyczne między fragmentami tekstów

Relacje semantyczne - statystyki Korpus uczący: Wikinewsy Automatyczna propozycja dokumentów podobnych (3) Wyszukiwanie podobnych zdań w paczkach 5 klasyfikatorów binarnych 4+1 Krzyżowanie się 4(3) 3(3) Suma 270 244 764 1278 Parafraza 6 5 22 33 Tożsamość 6 3 38 47 Zawieranie 14 27 87 128 296 279 911 1486

Relacje semantyczne - wyniki Zbiór uczący Zbiór testowy R 0,784 0,721 Negative 0,738 0,608 0,667 Positive 0,643 0,818 0,739 0,531 R F-Measure Klasa 0,727 0,783 Negative 0,761 0,869 0,811 Positive 0,819 0,756 0,786 Negative 0,776 0,835 0,804 Positive R F-Measure Klasa 0,846 0,892 0,868 Negative 0,886 0,838 0,861 Positive 0,75 0,818 0,783 Negative 0,778 0,7 0,737 Positive Parafraza Zbiór testowy 0,618 Positive 0,847 P Zbiór uczący 0,72 Negative Krzyżowanie się Zbiór testowy Klasa 0,667 P Zbiór uczący F-Measure Brak relacji P

Relacje semantyczne - wyniki Zbiór uczący Zbiór testowy R 0,778 0,739 Negative 0,752 0,673 0,71 Positive 0,786 0,825 0,805 Negative 0,811 0,769 0,789 Positive R F-Measure 1 0,979 0,98 1 1 0,923 0,923 1 Klasa 0,989 Negative 0,99 Positive 0,96 Negative 0,96 Positive Tożsamość Zbiór testowy Klasa 0,704 P Zbiór uczący F-Measure Zawieranie P

Relacje semantyczne między fragmentami tekstów http://156.17.135.6:9000/sentsform git clone git@nlp.pwr.wroc.pl:entailment

Podsumowanie - zastosowania Role jako cechy semantyczne: wykonawcy, obiekty czynności, atrybuty Znaczenia jako cechy semantyczne - hiperonimy itp. Relacje semantyczne - wykorzystanie w podobieństwie Słowa kluczowe - automatyczny opis słowami dokumentu Streszczanie - pomoc przy streszczaniu

Dziękujemy za uwagę!