Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur Maciej Piasecki, Paweł Kędzia Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19
Plan prezentacji Cel Ujednoznacznianie sensów słów (znaczeń leksykalnych) Wykrywanie ról semantycznych wewnątrz frazy NP System do ekstrakcyjnego streszczania tekstu System do wydobywania tekstowych słów kluczowych Relacje semantyczne między fragmentami tekstów
Cel Założenia: istniejące głębokie parsery semantyczne nie dają wyczerpującego pokrycia i nie radzą sobie z błędami językowymi wzbogacenie tekstu o częściowy opis semantyczny będzie korzystne dla wielu zastosowań, np. klasyfikacji semantycznej Cel zbudowanie zespołu narzędzi, które będą wzbogacać tekst o warstwy anotacji opisujące wybrane aspekty semantyki tekstu poziom zadań i poziom tekstu Realizacja punkt wyjścia: znaczenia leksykalne jako łącznik do zasobów wiedzy rozszerzenie opisu na frazy nominalne
Ujednoznacznianie sensów słów Proces polegający na przypisaniu słowu odpowiedniego znaczenia wybranego ze zbioru znaczeń słów, odpowiedniego dla tego słowa w danym kontekście.?
Ujednoznacznianie sensów słów stosowane podejścia Uczenie na podstawie oznaczeń w tekstach: Wymagane duże zasoby ręcznie oznaczonych tekstów Czasochłonność ręcznego oznaczania tekstów (koszty) - każde słowo z osobna posiada swoje anotacje Uczenie bez wstępnego oznaczania w tekście: Nie jest wymagane wstępne znakowanie znaczeń w tekstach Wykorzystanie istniejących struktur opisujących zależności między znaczeniami słów (Słowosieć)
WoSeDon - główna idea Nienadzorowane podejście oparte o przetwarzanie grafu. Wykorzystana idea algorytmu PageRank z własnymi modyfikacjami. Jako zasób znaczeń do przypisania wykorzystana została Słowosieć. Po powrocie z pracy zepsułem zamek w drzwiach. graf dla słowa zamek.
WoSeDon - udostępnianie Dostęp przez przeglądarkę: http://ws.clarin-pl.eu/demo/wsd.html Możliwość instalacji lokalnie: git clone git@nlp.pwr.wroc.pl:wosedon WebWoSeDon: Narzędzie do generowania list frekwencyjnych znaczeń: http://wosedon.clarin-pl.eu/
WebWoSeDon - DSpace
WebWoSeDon podstawowa funkcjonalność
WoSeDon - wyniki Ocena tylko na słowach polisemicznych Najlepsza precyzja osiągnięta na KPWr i Składnicy: KPWr Czas. Rzecz. Składnica Średnia Czas. Rzecz. Średnia 1 32,61 52,22 45,52 49,02 64,02 58,48 2 42,66 47,91 46,12 47,51 61,67 56,16 3 39,76 39,3 39,46 49,28 61,12 56,51 1: PPR, plwordnet 2.3synset+SUMO 2: Static, plwordnet 2.3LU-0.3 + plwordnet 2.3Synset-0.7 + re-ranking 10% 3: Static, plwordnet 2.3 + re-ranking 40%
Wykrywanie ról semantycznych Proces polegający na przypisywaniu do par słów z tekstu ról semantycznych jakie pełnią te słowa w strukturze semantycznej tekstu.
Wykrywanie ról semantycznych Role semantyczne wewnątrz frazy rzeczownikowej (NP) i przymiotnikowej (AdjP) Atrybut - łączy rzeczownik z jego cechą żółtyatrybut koc Ilość - jak liczny jest zbiór, bądź ilość niepoliczalnego dwadzieścia dwailość domy
Wykrywanie ról semantycznych Aktor - inicjator akcji, byt oddziałowujący na inny byt Pisanie Jankaaktor po tablicy Sposób - sposób wykonywania czynności np. Szybkisposób bieg Obiekt - byty lub sytuacje, które są w jakimś stanie, bądź ulegają zmianie stanu Złapanie piłkiobiekt
NPSemRel - przykładowa reguła Podejście regułowe: 101 wzorców WCCL dwuetapowe wykrywanie: określanie miejsca wykrywanie roli 200 losowych fraz z KPWr 331 instancji ról
NPSemRel - wyniki Ocena: na 26 tekstach KPWr na 100 tekstach NKJP 2+1 P R KPWr NKJP KPWr NKJP F KPWr NKJP aktor 58,3 91,5 30,4 34,4 40,0 50,0 obiekt 84,9 91,4 39,8 44,0 54,2 49,4 atrybut 43,8 44,6 58,3 75,8 50,0 56,2 ilość 83,3 62,4 55,6 43,6 66,7 51,4
MLNpSemRel Wykorzystanie maszynowego uczenia do wykrywania ról
MLNpSemRel Dwuetapowy proces klasyfikacji (+ generowanie par): a. Wyszukanie pary wyrazów, między który może zajść rola b. Wykrycie roli semantycznej
MLNpSemRel - wyniki Korpus: KPWr Ocena: walidacja krzyżowa, 10-cio krotna P R F aktor 0,758 0,715 0,736 obiekt 0,856 0,898 0,877 sposób 0,703 0,561 0,624 atrybut 0,856 0,919 0,886 ilość 0,904 0,789 0,843
Wykrywanie ról semantycznych NpSemRel oraz MLNpSemRel do pobrania: git clone git@nlp.pwr.wroc.pl:npsemrel
Streszczanie tekstu Ekstrakcyjne streszczanie tekstu polega na wyborze z tekstu tych zdań, które w najistotniejszy sposób opisują jego tematykę.
Ekstrakcyjne streszczanie tekstu Cel narzędzie do przeglądania wyników wyszukiwania lub przybliżonego porównywania dokumentów Założenia streszczanie ekstrakcyjne wybór z tekstu ograniczonej liczby zdań niosących najważniejsze informacje i zbudowanie z nich spójnego tekstu dostosowanie sprawdzonego systemu do języka polskiego i polskich narzędzi językowych
Streszczanie: system Schemat wstępne przetwarzanie tekstu ocena istotności zdań dla danego znaczenia danego tekstu wybór najistotniejszych zdań konwersja formatu, eliminacja słów o niskiej informacji utworzenie streszczenia zadanej długości połączenie najwyżej ocenionych zdań wg kolejności występowania w tekście Podstawa: system MEAD znany o modułowej konstrukcji, łatwy do dostosowania otwarta licencja
Zmodyfikowany system MEAD Charakterystyka MEAD Dostosowanie do języka polskiego (Tretter, 2015) cechy do oceny zdań: pozycja, długość, wartość centroidu, miara LexRank klasyfikator - funkcja z wartości cech pełne wsparcie dla kodowania UTF8 baza wag TF.IDF dla polskich lematów (Wikipedia) segmentacja - MACA lematyzacja - tager WCRFT zbudowanie korpusu streszczeń (crowdsourcing) Rozszerzenie rozpoznanie nazw własnych (Liner2)
Streszczanie tekstu http://ws.clarin-pl.eu/demo2/summarize.shtml git clone git@nlp.pwr.wroc.pl:summary
Wydobywanie słów kluczowych Proces polegający na wydobyciu z tekstu słów, bądź ciągów słów charakteryzujących dany tekst.
Wydobywanie słów kluczowych Założenia ekstrakcyjne wydobywanie - słowa kluczowe z dokumentu nienadzorowane podejście - szerokie zastosowanie Podstawa - TextRank (Mihalcea i Tarau, 2004) graf powiązań słów na podstawie współwystępowania węzły - słowa znaczące (rzeczowniki i przymiotniki) granice współwystępowania: okno tekstowe lub zdanie ustalenie oceny węzłów za pomocą algorytmu PageRank wydobycie wielowyrazowych słów w oparciu o analizę wag węzłów TextRank dostosowany do języka polskiego segmentacja i lematyzacja - MACA i WCRFT wagi TF.IDF dla lematów policzone w oparciu o korpus Słowosieci problem: lematyzacja wielowyrazowych słów kluczowych
Relacje semantyczne między fragmentami tekstów Proces, podczas którego dla pary zdań przypisywana jest relacja zachodząca między nimi.
Relacje semantyczne Krzyżowanie się: Część informacji z S2 pokrywa się z S1. S1 przedstawia informacje X i Y, S2 przedstawia informacje X i Z S1: Samolot rozbił się, uderzając w 25 piętro budynku Pirelli znajdującego się w centrum miasta Milan. S2: Mały turystyczny samolot zderzył się z najwyższym budynkiem w Milanie. Parafraza: Dwa fragmenty tekstu zawierają dokładnie takie same informacje, ale wyrażone różnymi słowami S1: Wałęsa był agentem SB. S2: Lechu współpracował jako agent z SB.
Relacje semantyczne Zawieranie: S1 zawiera wszystkie informacje z S2, oraz dodatkowe informacje niewystępujące w S2. Oznacza to, że zdanie S1 ma bogatszą treść niż zdanie S2 S1: Z trzema zwycięstwami w tym roku Green Bay ma najlepszy wynik w lidze NFL. S2: Green Bay trzy razy osiągnął zwycięstwo w tym roku. Tożsamość: Dokładnie takie same zdania występują w dwóch różnych miejscach S1: Zgodnie z doniesieniami dym wydobywał się z dziury. S2: Zgodnie z doniesieniami dym wydobywał się z dziury.
Relacje semantyczne między fragmentami tekstów
Relacje semantyczne - statystyki Korpus uczący: Wikinewsy Automatyczna propozycja dokumentów podobnych (3) Wyszukiwanie podobnych zdań w paczkach 5 klasyfikatorów binarnych 4+1 Krzyżowanie się 4(3) 3(3) Suma 270 244 764 1278 Parafraza 6 5 22 33 Tożsamość 6 3 38 47 Zawieranie 14 27 87 128 296 279 911 1486
Relacje semantyczne - wyniki Zbiór uczący Zbiór testowy R 0,784 0,721 Negative 0,738 0,608 0,667 Positive 0,643 0,818 0,739 0,531 R F-Measure Klasa 0,727 0,783 Negative 0,761 0,869 0,811 Positive 0,819 0,756 0,786 Negative 0,776 0,835 0,804 Positive R F-Measure Klasa 0,846 0,892 0,868 Negative 0,886 0,838 0,861 Positive 0,75 0,818 0,783 Negative 0,778 0,7 0,737 Positive Parafraza Zbiór testowy 0,618 Positive 0,847 P Zbiór uczący 0,72 Negative Krzyżowanie się Zbiór testowy Klasa 0,667 P Zbiór uczący F-Measure Brak relacji P
Relacje semantyczne - wyniki Zbiór uczący Zbiór testowy R 0,778 0,739 Negative 0,752 0,673 0,71 Positive 0,786 0,825 0,805 Negative 0,811 0,769 0,789 Positive R F-Measure 1 0,979 0,98 1 1 0,923 0,923 1 Klasa 0,989 Negative 0,99 Positive 0,96 Negative 0,96 Positive Tożsamość Zbiór testowy Klasa 0,704 P Zbiór uczący F-Measure Zawieranie P
Relacje semantyczne między fragmentami tekstów http://156.17.135.6:9000/sentsform git clone git@nlp.pwr.wroc.pl:entailment
Podsumowanie - zastosowania Role jako cechy semantyczne: wykonawcy, obiekty czynności, atrybuty Znaczenia jako cechy semantyczne - hiperonimy itp. Relacje semantyczne - wykorzystanie w podobieństwie Słowa kluczowe - automatyczny opis słowami dokumentu Streszczanie - pomoc przy streszczaniu
Dziękujemy za uwagę!