Narzędzia do ekstrakcji informacji z tekstu

CLARIN-PL Narzędzia do ekstrakcji informacji z tekstu Politechnika Wrocławska, 2016-04-26 Michał Marcińczuk Jan Kocoń Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl jan.kocon@pwr.edu.pl

Agenda Część I Część II Rozpoznawanie wyrażeń przestrzennych (SpatialPL) Wykrywanie czasowników z podmiotem domyślnym (Minos) Część III Rozpoznawanie wyznaczników sytuacji (EventsPL) 2

I. SpatialPL» Czym są wyrażenia przestrzenne? Wyrażenie przestrzenne wyrażenie językowe, które opisuje względne położenie dwóch obiektów fizycznych względem siebie, np. książka na stole" obiekt książka znajduje się na powierzchni obiektu stół. Przykłady z korpusu KPWr: kompleks handlowo-kulturowy w mieście Toronto 6 odpoczywających krów z brązu na którym (koreferencja do dziedziniec ) wielkie krzesło pomiędzy budynkami 4

I. SpatialPL» Wytyczne Wytyczne zostały opracowane w oparciu o Spatial Role Labeling (SemEval-2013 Task 3) https://www.cs.york.ac.uk/semeval-2013/task3/ Wytyczne dla j. angielskiego wyróżniają następujące elementy: Trajector (TR) obiekt lokalizowany Landmark (LM) lokalizator Spatial Indicator (SI) przyimek lokatywny Region (RE) obszar/fragment lokalizatora CLARIN-PL Motion Indicator Path Direction planowane w CLARIN-PL 2 Distance [Restauracja] TR [na] SI [końcu] RE [ul. Wita Stwosza] LM 5

I. SpatialPL» Realizacja Podejście regułowe wykorzystujące różne źródła wiedzy Tekst Przetwarzanie wstępne WCRFT Liner2 Spejd Iobber MaltParser WoSeDon Generowanie kandydatów Wzorce Filtrowanie semantyczne Schematy semantyczne Słowosieć SUMO Serdel mapowanie słów na ontologię SUMO Mapowanie kategorii jednostek na Słowosieć i SUMO Zbiór wyrażeń przestrzennych 6

I. SpatialPL» Wzorce i schematy Wzorce sekwencyjne i zależnościowe: wewnątrz pojedynczej frazy rzeczownikowej (NP) NG + Prep + NG NG +. + Prep + NG NG + Ppas + Prep + NG NG + Pact + Prep + NG ścieżka w drzewie zależnościowym NG -(obj) Verbfin (comp)- Prep (comp)- NG Schematy semantyczne (121 schematów) Przyimek Na #1 Przypadek LM Opis Przykład Klasa TR (SUMO) Klasa LM (SUMO) miejscownik TR znajduje się na zewnątrz LM, zazwyczaj styka się z zewnętrzną granicą LM, wywierając nacisk swym ciężarem, LM znajduje się dalej od bieguna dodatniego osi wertykalnej niż TR książka na stole Artifact, ContentBearingObject, Device, Animal, Plant, Pottery, Meat, PreparedFood, Chain Artifact, LandTransitway, BoardOrBlock, Boatdeck, Shipdeck, StationaryArtifact 7

I. SpatialPL» Korpus wzorcowy Zbiór dokumentów z KPWr oznaczony wyrażeniami przestrzennymi został podzielony na trzy części: Część ucząca (ok 50%) - analiza danych, definiowanie wzorców, dostrajanie schematów semantycznych, Część pomocnicza (ok 25%) - dostrajanie parametrów, Część testowa (ok 25%) - ocena ostatecznego modelu. Kategoria Uczący Pomocniczy Testowy Razem KPWr ~50% ~25% ~25% 100% Dokumenty 768 384 384 1 526 Wyrażenia 1 033 608 527 2 168* * rzeczywista liczba wyrażeń jest wyższa, na tym etapie pomijamy wyrażenia, w których TR lub LM nie jest frazą nominalną (np. przyimki, podmiot zerowy). Korpus 50 tekstów geograficznych z Wikipedii (WGT) zawierający 484 wyrażenia przestrzenne (duże zagęszczenie wyrażeń - prawie 10 wyrażeń na dokument w porównaniu do 1,5 wyrażeń/dokument w KPWr) użyty w początkowych pracach. 8

I. SpatialPL» Skuteczność działania Skuteczność rozpoznawania wyrażeń przestrzennych na części testowej korpusu KPWr przed i po filtrowaniu semantycznym. Filtrowanie Precyzja Kompletność Miara F Nie 11,12% 44,58% 17,80% Tak 66,67% 29,81% 41,20% Dlaczego precyzja nie osiągnęła 100%? propagacja błędów ze wstępnego przetwarzania (ok. 46% błędów), brak uwzględnienia znaczenia czasowników podczas filtrowania (ok. 17%), zbyt ogólne klasy SUMO w schematach semantycznych (ok. 13%), wyrażenia dynamiczne (motion) (ok. 8%). 9

I. SpatialPL» Przykłady z książek T. Pratchetta [Na] SI [końcu] RE [Żadnejtakiej] LM stała [szubienica] TR, gdzie złoczyńców a przynajmniej ludzi uznanych za winnych czynienia zła wieszano. Będę na ciebie czekał w [komnacie] TR#1 [pod] SI#1 [dzwonnicą] LM#1,TR#2 [na] SI#2 [rogu] RE#2 [Alei Audytu] LM#2 [Maleńkie państewka] TR [w] SI [tej części] RE [Ramtopów] LM były normalne. (...) widywała [Hodgesaargha] TR [na] SI [skraju] RE [lasu] LM i na wrzosowiskach 10

I. SpatialPL» IEViewer http://inforex.clarin-pl.eu/ieviewer 11

II. MINOS» Czasowniki z podmiotem domyślnym Wykrycie czasowników z podmiotem domyślnym jest istotne w zadaniu rozwiązywania koreferencji standardowo koreferencja rozwiązywana jest pomiędzy odniesieniami do obiektów, którego nie ma jawnie w tekście dla podmiotu zerowego. Jan Nowak mieszka we Wrocławiu. Jest on studentem PWr. Jan Nowak mieszka we Wrocławiu. Od dwóch lat studiuje na PWr. Przykłady z korpusu KPWr: 13

II. MINOS» Metoda MINOS - Mention IdentificatioN for Omitted Subjects (Kaczmarek i Marcińczuk, 2015) Metoda regułowa łącząca następujące heurystyki: filtrowanie czasowników: lista czasowników bez podmiotu na podstawie słownika ram walencyjnych (Hajnicz i inni), reguły, np. czasowniki w pierwszej i drugiej osobie niepoprzedzone zaimkiem osobowym sprawdzenie obecności podmiotu dla czasownika: parser zależnościowy (MaltParser) (Wróblewska i Woliński, 2012) relacje między frazami składniowymi (ChunkRel) (Radziszewski i Pawlaczek, 2012) kontekstowe wyszukiwanie podmiotu weryfikacja podmiotu sprawdzenie uzgodnienia między czasownikiem, a możliwym podmiotem wskazanym przez parser zależnościowy 14

II. MINOS» Wyniki Skuteczność rozpoznawania czasowników z podmiotem domyślnym: PCC (Polish Coreference Corpus) (Ogrodniczuk i inni, 2013), KPWr (Korpus Politechniki Wrocławskiej) MentionDetector (Kopeć, 2014) Czaso wniki Narzędzie PCC (test) KPWr Precyzja Kompletność Miara F Precyzja Kompletność Miara F 1,2,3 os. Minos 72,33% 84,69% 78,02% 82,25% 69,55% 75,48% MentionDetector 71,79% 67,39% 69,60% 88,74% 53,77% 66,97% 3 os. Minos 55,47% 69,49% 61,69% 70,32% 50,87% 59,03% MentionDetector 62,56% 33,62% 43,74% 78,51% 27,42% 40,65% 15

II. MINOS» Wpływ na wyniki dla koreferencji Jakość rozpoznawania koreferencji między czasownikiem z podmiotem domyślnym a nazwami własnymi na korpusie KPWr dla narzędzia IKAR* (Broda, Burdka i Maziarz, 2012) przy użyciu metryki BLANC. Precyzja Kompletność Miara F Wszystkie czasowniki 11,93% 43,52% 18,72% MINOS 61,37% 50,16% 55,20% Wzorcowe 61,17% 59,29% 60,22% * Oryginalna wersja narzędzia IKAR została rozszerzona o rozpoznawanie koreferencji dla czasowników z podmiotem domyślnym. 16

II. MINOS» Demo http://tools.clarin-pl.eu/inforex/index.php?page=ner 17

I. EventsPL» Czym są wyznaczniki sytuacji? Sytuacja odzwierciedla zmianę stanu w rzeczywistości i w którą zaangażowane są określone byty. Przykładowo zdanie: Jan Kowalski urodził się 3 czerwca 1947 roku w Krakowie zawiera opis sytuacji przyjścia na świat osoby w określonym miejscu i czasie. (Marcińczuk i inni, 2015) Wyznacznik sytuacji inaczej opis sytuacji lub językowy wykładnik sytuacji, formalna reprezentacja sytuacji, do której można odnieść się w tekście, fragment tekstu denotujący pewną sytuację. Przykłady z korpusu KPWr: 19

I. EventsPL» Wytyczne Wytyczne zostały opracowane w oparciu o Temporal Annotation (SemEval-2013 Task 1) https://www.cs.york.ac.uk/semeval-2013/task1/ Wytyczne wyróżniają następujące elementy: Raportowanie mówić, raportować, opowiadać, wyjaśniać, Percepcja zobaczyć, patrzeć, spoglądać, słyszeć,... Aspektowość rozpocząć, zaczynać, inicjować, Akcja intensjonalna próbować, kazać, prosić, Stan intensjonalny wierzyć, lękać (się), potrzebować,... Stan spać, stać, istnieć,... Akcja budować, tańczyć, skakać, biegać, Pomocniczy przeprowadzić, dokonać, powodować, Relacje między jednostkami temporalnymi O 9:00 Marysia wróciła do domu i zdjęła buty. zawieranie następstwo CLARIN-PL planowane w CLARIN-PL 2 20

I. EventsPL» Anotacja analiza zgodności Dwóch ekspertów (A,B), 100 losowych dokumentów z KPWr, miara pozytywnej specyficznej zgodności (PSA) 21

I. EventsPL» Przygotowanie modelu 540 anotowanych dokumentów dwukrotnie podzielony na zbiory: pierwszy: uczący (50%), testowy (25%), pomocniczy (25%) drugi: uczący1 (40%) uczący2 (40%), testowy2 (20%) Pierwszy podział: selekcja cech z pełnego zbioru cech dostępnych dla narzędzia Liner2 w celu uzyskania zestawu bazowego cech i ocena Drugi podział: tworzenie dziedzinowych cech słownikowych w oparciu o Słowosieć i ocena Hipoteza: Uogólnienie pewnych wyrazów (w tym przypadku opisów sytuacji) w podzbiorze dokumentów z korpusu umożliwia zlokalizowanie tych synsetów w Słowosieci, dla których możliwe jest odtworzenie słowników opisujących obserwowane zjawisko i ułatwia rozróżnienie pomiędzy kategoriami semantycznymi wyrazów (w naszym przypadku kategoriami opisów sytuacji) dla innej części tego podzbioru. 22

I. EventsPL» Wyniki 1 Porównanie wyników (miara F) otrzymanych na dwóch częściach zbioru uczącego: cz1 oraz cz2. Te podzbiory były różnymi źródłami dla cech słownikowych, które razem z cechami bazowymi tworzą zestaw cech bazowe+słowniki. Wyniki są porównywane z otrzymanymi dla zestawu bazowego. Przeprowadzono dwa typy oceny: CV10 (10-krotna walidacja krzyżowa na części zbioru uczącego) oraz testowy2 (model uczony na części zbioru uczącego i testowany na zbiorze testowym2): 23

I. EventsPL» Wyniki 2 Miary P, R, F. Suma przykładów TP, FP i FN dla 10-krotnej walidacji krzyżowej na zbiorze uczący1 oraz uczący2. Ostatnia kolumna zawiera wartość zgodności PSA. 24

CLARIN-PL Dziękuję bardzo za uwagę

Bibliografia Broda, B., Burdka, L., Maziarz, M.: IKAR: An improved kit for anaphora resolution for Polish. In: Proceedings of COLING 2012: Demonstration Papers, Mumbai, India, The COLING 2012 Organizing Committee (December 2012) 25 32 Kaczmarek, A. & Marcińczuk, M (2015). Heuristic algorithm for zero subject detection in Polish. In Král, P. & Matoušek, V. (editors), Text, Speech, and Dialogue, 18th International Conference, TSD 2015, Pilsen,Czech Republic, September 14-17, 2015, Proceedings, pages 378-386. Springer International Publishing. Kopeć, M.: Zero subject detection for Polish. In: Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, volume 2: Short Papers, Gothenburg, Sweden, Association for Computational Linguistics (2014) 221 225 Marcińczuk, M., Oleksy, M., Bernaś, T., Kocoń, J. & Wolski, M. (2015). Towards an event annotated corpus of Polish. Cognitive Studies Études cognitives, (15), 253-267. Ogrodniczuk, M., Głowińska, K., Kopeć, M., Savary, A., Zawisławska, M.: Polish Coreference Corpus. W: Proceedings of the 6th Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics. 494 498 Wróblewska A., Woliński M. (2012). Preliminary Experiments in Polish Dependency Parsing, w: Bouvry P. et al. (Eds.): Security and Intelligent Information Systems International Joint Conferences, SIIS 2011, Warsaw, Poland, June 13-14, 2011, Revised Selected Papers, Lecture Notes in Computer Science, Vol. 7053, 2012, Springer, pp. 279-292 26