Narzędzia do ekstrakcji informacji z tekstu

Podobne dokumenty
Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Narzędzia do automatycznej analizy odniesień w tekstach

Inforex - zarządzanie korpusami i ich anotacja

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Narzędzia do automatycznej analizy odniesień w tekstach

Maszynowe tłumaczenie Polskiego Języka Migowego

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych

Program warsztatów CLARIN-PL

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

Narzędzia do automatycznej analizy odniesień w tekstach

Narzędzia do automatycznego wydobywania kolokacji

Automatyczne wspomaganie tworzenia słowników fleksyjnych jednostek wieloczłonowych

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Open Access w technologii językowej dla języka polskiego

Gramatyka TAG dla języka polskiego

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Zapytanie ofertowe nr 1/2016

AUTOMATYKA INFORMATYKA

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Zastosowanie Wikipedii w przetwarzaniu języka naturalnego

Modelowanie interakcji helis transmembranowych

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Lokalizacja Oprogramowania

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

METODY INŻYNIERII WIEDZY

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

WebSty otwarty webowy system do analiz stylometrycznych

W tym rozdziale książka opisuje kilka podejść do poszukiwania kolokacji.

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

GML w praktyce geodezyjnej

Wstęp do Językoznawstwa

Jakość uczenia i generalizacja

j INSTYTUT PODSTAW INFORMATYKI

Elementy modelowania matematycznego

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

EGZAMIN GIMNAZJALNY 2013 W SZKOŁACH DLA DOROSŁYCH W WOJEWÓDZTWIE ŚLĄSKIM. sesja wiosenna

Kategorialny Parser Składniowo-Semantyczny dla języka polskiego

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

W poszukiwaniu sensu w świecie widzialnym

WYKŁAD 6. Reguły decyzyjne

Funkcjonalność oprogramowania Bazy Wiedzy i Repozytorium Politechniki Warszawskiej

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Wprowadzenie do uczenia maszynowego

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Inspiracje kognitywne w procesie analizy pozycji szachowej

Systemy uczące się wykład 2

Bank częściowo ujednoznacznionych struktur LFG

O-MaSE Organization-based Multiagent System Engineering. MiASI2, TWO2,

Hybrydowa analiza transformat w rozpoznawaniu wysokości dźwięków w polifonicznych nagraniach instrumentów muzycznych

Metody automatycznego wykrywania błędów w bankach drzew

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

Rozpoznawanie obrazów

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

Kompetencja komunikacyjna a interpretowanie obrazów

Uwaga wstępna: Kognitywne Systemy Wspomagające Zarządzanie

Wyciągnięcie po linii prostej w ujęciu powierzchniowym w NX firmy Siemens Industry Software

CLARIN infrastruktura naukowa technologii językowych

Autoreferat. 2. Posiadane dyplomy i stopnie naukowe z podaniem nazwy, miejsca i roku ich uzyskania oraz tytułu rozprawy doktorskiej

Normalizacja baz danych

Obiekty Badawcze długoterminowe przechowywanie eksperymentów naukowych. Piotr Hołubowicz, Raúl Palma Poznańskie Centrum Superkomputerowo-Sieciowe

Grafika i Systemy Multimedialne (IGM)

Agenda: Ocena efektów uczenia się -przykłady dobrych praktyk. Uznanie efektów uczenia się poza edukacją formalną

Maciej Oleksy Zenon Matuszyk

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO KLASA IV. ocena

Omówienie wzorców wykorzystywanych w Prism 5.0. Dominika Różycka

Od e-materiałów do e-tutorów

Szkolenie systemu POL-on

BOC INFORMATION TECHNOLOGIES CONSULTING. Zadania. Przykład bankowy

SZTUCZNA INTELIGENCJA

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

Procesowa specyfikacja systemów IT

Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy

PRZEWODNIK PO PRZEDMIOCIE RODZAJ ZAJĘĆ LICZBA GODZIN W SEMESTRZE WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM 30

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Analiza znaczeniowa sterowana składnią

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Elementy kognitywistyki II: Sztuczna inteligencja. WYKŁAD IX: Agent przetwarza język naturalny

Model zaszumionego kanału

Z poprzedniego wykładu

Pozyskiwanie przykładów błędów językowych z historii edycji tekstu - Roman Grundkiewicz r. Roman Grundkiewicz. 1 z 31

Detekcja punktów zainteresowania

Transkrypt:

CLARIN-PL Narzędzia do ekstrakcji informacji z tekstu Politechnika Wrocławska, 2016-04-26 Michał Marcińczuk Jan Kocoń Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl jan.kocon@pwr.edu.pl

Agenda Część I Część II Rozpoznawanie wyrażeń przestrzennych (SpatialPL) Wykrywanie czasowników z podmiotem domyślnym (Minos) Część III Rozpoznawanie wyznaczników sytuacji (EventsPL) 2

Agenda Część I Część II Rozpoznawanie wyrażeń przestrzennych (SpatialPL) Wykrywanie czasowników z podmiotem domyślnym (Minos) Część III Rozpoznawanie wyznaczników sytuacji (EventsPL) 3

I. SpatialPL» Czym są wyrażenia przestrzenne? Wyrażenie przestrzenne wyrażenie językowe, które opisuje względne położenie dwóch obiektów fizycznych względem siebie, np. książka na stole" obiekt książka znajduje się na powierzchni obiektu stół. Przykłady z korpusu KPWr: kompleks handlowo-kulturowy w mieście Toronto 6 odpoczywających krów z brązu na którym (koreferencja do dziedziniec ) wielkie krzesło pomiędzy budynkami 4

I. SpatialPL» Wytyczne Wytyczne zostały opracowane w oparciu o Spatial Role Labeling (SemEval-2013 Task 3) https://www.cs.york.ac.uk/semeval-2013/task3/ Wytyczne dla j. angielskiego wyróżniają następujące elementy: Trajector (TR) obiekt lokalizowany Landmark (LM) lokalizator Spatial Indicator (SI) przyimek lokatywny Region (RE) obszar/fragment lokalizatora CLARIN-PL Motion Indicator Path Direction planowane w CLARIN-PL 2 Distance [Restauracja] TR [na] SI [końcu] RE [ul. Wita Stwosza] LM 5

I. SpatialPL» Realizacja Podejście regułowe wykorzystujące różne źródła wiedzy Tekst Przetwarzanie wstępne WCRFT Liner2 Spejd Iobber MaltParser WoSeDon Generowanie kandydatów Wzorce Filtrowanie semantyczne Schematy semantyczne Słowosieć SUMO Serdel mapowanie słów na ontologię SUMO Mapowanie kategorii jednostek na Słowosieć i SUMO Zbiór wyrażeń przestrzennych 6

I. SpatialPL» Wzorce i schematy Wzorce sekwencyjne i zależnościowe: wewnątrz pojedynczej frazy rzeczownikowej (NP) NG + Prep + NG NG +. + Prep + NG NG + Ppas + Prep + NG NG + Pact + Prep + NG ścieżka w drzewie zależnościowym NG -(obj) Verbfin (comp)- Prep (comp)- NG Schematy semantyczne (121 schematów) Przyimek Na #1 Przypadek LM Opis Przykład Klasa TR (SUMO) Klasa LM (SUMO) miejscownik TR znajduje się na zewnątrz LM, zazwyczaj styka się z zewnętrzną granicą LM, wywierając nacisk swym ciężarem, LM znajduje się dalej od bieguna dodatniego osi wertykalnej niż TR książka na stole Artifact, ContentBearingObject, Device, Animal, Plant, Pottery, Meat, PreparedFood, Chain Artifact, LandTransitway, BoardOrBlock, Boatdeck, Shipdeck, StationaryArtifact 7

I. SpatialPL» Korpus wzorcowy Zbiór dokumentów z KPWr oznaczony wyrażeniami przestrzennymi został podzielony na trzy części: Część ucząca (ok 50%) - analiza danych, definiowanie wzorców, dostrajanie schematów semantycznych, Część pomocnicza (ok 25%) - dostrajanie parametrów, Część testowa (ok 25%) - ocena ostatecznego modelu. Kategoria Uczący Pomocniczy Testowy Razem KPWr ~50% ~25% ~25% 100% Dokumenty 768 384 384 1 526 Wyrażenia 1 033 608 527 2 168* * rzeczywista liczba wyrażeń jest wyższa, na tym etapie pomijamy wyrażenia, w których TR lub LM nie jest frazą nominalną (np. przyimki, podmiot zerowy). Korpus 50 tekstów geograficznych z Wikipedii (WGT) zawierający 484 wyrażenia przestrzenne (duże zagęszczenie wyrażeń - prawie 10 wyrażeń na dokument w porównaniu do 1,5 wyrażeń/dokument w KPWr) użyty w początkowych pracach. 8

I. SpatialPL» Skuteczność działania Skuteczność rozpoznawania wyrażeń przestrzennych na części testowej korpusu KPWr przed i po filtrowaniu semantycznym. Filtrowanie Precyzja Kompletność Miara F Nie 11,12% 44,58% 17,80% Tak 66,67% 29,81% 41,20% Dlaczego precyzja nie osiągnęła 100%? propagacja błędów ze wstępnego przetwarzania (ok. 46% błędów), brak uwzględnienia znaczenia czasowników podczas filtrowania (ok. 17%), zbyt ogólne klasy SUMO w schematach semantycznych (ok. 13%), wyrażenia dynamiczne (motion) (ok. 8%). 9

I. SpatialPL» Przykłady z książek T. Pratchetta [Na] SI [końcu] RE [Żadnejtakiej] LM stała [szubienica] TR, gdzie złoczyńców a przynajmniej ludzi uznanych za winnych czynienia zła wieszano. Będę na ciebie czekał w [komnacie] TR#1 [pod] SI#1 [dzwonnicą] LM#1,TR#2 [na] SI#2 [rogu] RE#2 [Alei Audytu] LM#2 [Maleńkie państewka] TR [w] SI [tej części] RE [Ramtopów] LM były normalne. (...) widywała [Hodgesaargha] TR [na] SI [skraju] RE [lasu] LM i na wrzosowiskach 10

I. SpatialPL» IEViewer http://inforex.clarin-pl.eu/ieviewer 11

Agenda Część I Część II Rozpoznawanie wyrażeń przestrzennych (SpatialPL) Wykrywanie czasowników z podmiotem domyślnym (Minos) Część III Rozpoznawanie wyznaczników sytuacji (EventsPL) 12

II. MINOS» Czasowniki z podmiotem domyślnym Wykrycie czasowników z podmiotem domyślnym jest istotne w zadaniu rozwiązywania koreferencji standardowo koreferencja rozwiązywana jest pomiędzy odniesieniami do obiektów, którego nie ma jawnie w tekście dla podmiotu zerowego. Jan Nowak mieszka we Wrocławiu. Jest on studentem PWr. Jan Nowak mieszka we Wrocławiu. Od dwóch lat studiuje na PWr. Przykłady z korpusu KPWr: 13

II. MINOS» Metoda MINOS - Mention IdentificatioN for Omitted Subjects (Kaczmarek i Marcińczuk, 2015) Metoda regułowa łącząca następujące heurystyki: filtrowanie czasowników: lista czasowników bez podmiotu na podstawie słownika ram walencyjnych (Hajnicz i inni), reguły, np. czasowniki w pierwszej i drugiej osobie niepoprzedzone zaimkiem osobowym sprawdzenie obecności podmiotu dla czasownika: parser zależnościowy (MaltParser) (Wróblewska i Woliński, 2012) relacje między frazami składniowymi (ChunkRel) (Radziszewski i Pawlaczek, 2012) kontekstowe wyszukiwanie podmiotu weryfikacja podmiotu sprawdzenie uzgodnienia między czasownikiem, a możliwym podmiotem wskazanym przez parser zależnościowy 14

II. MINOS» Wyniki Skuteczność rozpoznawania czasowników z podmiotem domyślnym: PCC (Polish Coreference Corpus) (Ogrodniczuk i inni, 2013), KPWr (Korpus Politechniki Wrocławskiej) MentionDetector (Kopeć, 2014) Czaso wniki Narzędzie PCC (test) KPWr Precyzja Kompletność Miara F Precyzja Kompletność Miara F 1,2,3 os. Minos 72,33% 84,69% 78,02% 82,25% 69,55% 75,48% MentionDetector 71,79% 67,39% 69,60% 88,74% 53,77% 66,97% 3 os. Minos 55,47% 69,49% 61,69% 70,32% 50,87% 59,03% MentionDetector 62,56% 33,62% 43,74% 78,51% 27,42% 40,65% 15

II. MINOS» Wpływ na wyniki dla koreferencji Jakość rozpoznawania koreferencji między czasownikiem z podmiotem domyślnym a nazwami własnymi na korpusie KPWr dla narzędzia IKAR* (Broda, Burdka i Maziarz, 2012) przy użyciu metryki BLANC. Precyzja Kompletność Miara F Wszystkie czasowniki 11,93% 43,52% 18,72% MINOS 61,37% 50,16% 55,20% Wzorcowe 61,17% 59,29% 60,22% * Oryginalna wersja narzędzia IKAR została rozszerzona o rozpoznawanie koreferencji dla czasowników z podmiotem domyślnym. 16

II. MINOS» Demo http://tools.clarin-pl.eu/inforex/index.php?page=ner 17

Agenda Część I Część II Rozpoznawanie wyrażeń przestrzennych (SpatialPL) Wykrywanie czasowników z podmiotem domyślnym (Minos) Część III Rozpoznawanie wyznaczników sytuacji (EventsPL) 18

I. EventsPL» Czym są wyznaczniki sytuacji? Sytuacja odzwierciedla zmianę stanu w rzeczywistości i w którą zaangażowane są określone byty. Przykładowo zdanie: Jan Kowalski urodził się 3 czerwca 1947 roku w Krakowie zawiera opis sytuacji przyjścia na świat osoby w określonym miejscu i czasie. (Marcińczuk i inni, 2015) Wyznacznik sytuacji inaczej opis sytuacji lub językowy wykładnik sytuacji, formalna reprezentacja sytuacji, do której można odnieść się w tekście, fragment tekstu denotujący pewną sytuację. Przykłady z korpusu KPWr: 19

I. EventsPL» Wytyczne Wytyczne zostały opracowane w oparciu o Temporal Annotation (SemEval-2013 Task 1) https://www.cs.york.ac.uk/semeval-2013/task1/ Wytyczne wyróżniają następujące elementy: Raportowanie mówić, raportować, opowiadać, wyjaśniać, Percepcja zobaczyć, patrzeć, spoglądać, słyszeć,... Aspektowość rozpocząć, zaczynać, inicjować, Akcja intensjonalna próbować, kazać, prosić, Stan intensjonalny wierzyć, lękać (się), potrzebować,... Stan spać, stać, istnieć,... Akcja budować, tańczyć, skakać, biegać, Pomocniczy przeprowadzić, dokonać, powodować, Relacje między jednostkami temporalnymi O 9:00 Marysia wróciła do domu i zdjęła buty. zawieranie następstwo CLARIN-PL planowane w CLARIN-PL 2 20

I. EventsPL» Anotacja analiza zgodności Dwóch ekspertów (A,B), 100 losowych dokumentów z KPWr, miara pozytywnej specyficznej zgodności (PSA) 21

I. EventsPL» Przygotowanie modelu 540 anotowanych dokumentów dwukrotnie podzielony na zbiory: pierwszy: uczący (50%), testowy (25%), pomocniczy (25%) drugi: uczący1 (40%) uczący2 (40%), testowy2 (20%) Pierwszy podział: selekcja cech z pełnego zbioru cech dostępnych dla narzędzia Liner2 w celu uzyskania zestawu bazowego cech i ocena Drugi podział: tworzenie dziedzinowych cech słownikowych w oparciu o Słowosieć i ocena Hipoteza: Uogólnienie pewnych wyrazów (w tym przypadku opisów sytuacji) w podzbiorze dokumentów z korpusu umożliwia zlokalizowanie tych synsetów w Słowosieci, dla których możliwe jest odtworzenie słowników opisujących obserwowane zjawisko i ułatwia rozróżnienie pomiędzy kategoriami semantycznymi wyrazów (w naszym przypadku kategoriami opisów sytuacji) dla innej części tego podzbioru. 22

I. EventsPL» Wyniki 1 Porównanie wyników (miara F) otrzymanych na dwóch częściach zbioru uczącego: cz1 oraz cz2. Te podzbiory były różnymi źródłami dla cech słownikowych, które razem z cechami bazowymi tworzą zestaw cech bazowe+słowniki. Wyniki są porównywane z otrzymanymi dla zestawu bazowego. Przeprowadzono dwa typy oceny: CV10 (10-krotna walidacja krzyżowa na części zbioru uczącego) oraz testowy2 (model uczony na części zbioru uczącego i testowany na zbiorze testowym2): 23

I. EventsPL» Wyniki 2 Miary P, R, F. Suma przykładów TP, FP i FN dla 10-krotnej walidacji krzyżowej na zbiorze uczący1 oraz uczący2. Ostatnia kolumna zawiera wartość zgodności PSA. 24

CLARIN-PL Dziękuję bardzo za uwagę

Bibliografia Broda, B., Burdka, L., Maziarz, M.: IKAR: An improved kit for anaphora resolution for Polish. In: Proceedings of COLING 2012: Demonstration Papers, Mumbai, India, The COLING 2012 Organizing Committee (December 2012) 25 32 Kaczmarek, A. & Marcińczuk, M (2015). Heuristic algorithm for zero subject detection in Polish. In Král, P. & Matoušek, V. (editors), Text, Speech, and Dialogue, 18th International Conference, TSD 2015, Pilsen,Czech Republic, September 14-17, 2015, Proceedings, pages 378-386. Springer International Publishing. Kopeć, M.: Zero subject detection for Polish. In: Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, volume 2: Short Papers, Gothenburg, Sweden, Association for Computational Linguistics (2014) 221 225 Marcińczuk, M., Oleksy, M., Bernaś, T., Kocoń, J. & Wolski, M. (2015). Towards an event annotated corpus of Polish. Cognitive Studies Études cognitives, (15), 253-267. Ogrodniczuk, M., Głowińska, K., Kopeć, M., Savary, A., Zawisławska, M.: Polish Coreference Corpus. W: Proceedings of the 6th Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics. 494 498 Wróblewska A., Woliński M. (2012). Preliminary Experiments in Polish Dependency Parsing, w: Bouvry P. et al. (Eds.): Security and Intelligent Information Systems International Joint Conferences, SIIS 2011, Warsaw, Poland, June 13-14, 2011, Revised Selected Papers, Lecture Notes in Computer Science, Vol. 7053, 2012, Springer, pp. 279-292 26