j INSTYTUT PODSTAW INFORMATYKI

Podobne dokumenty
Program warsztatów CLARIN-PL

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Open Access w technologii językowej dla języka polskiego

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Polski Korpus Koreferencyjny wersja wstępna. Maciej Ogrodniczuk, Magdalena Zawisławska, Katarzyna Głowińska, Mateusz Kopeć, Agata Savary

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

Automatyczne wykrywanie nominalnych zależności referencyjnych w polskich tekstach współczesnych

Narzędzia do automatycznej analizy odniesień w tekstach

Lokalizacja Oprogramowania

Ontologie, czyli o inteligentnych danych

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

KRYTERIA OCEN Z JĘZYKA POLSKIEGO W KLASIE V

Wstęp do Językoznawstwa

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Walenty. słownik walencyjny języka polskiego z kontrolą i koordynacją. Filip Skwarski. 5 listopada 2012 r. IPI PAN

Obróbka po realnej powierzchni o Bez siatki trójkątów o Lepsza jakość po obróbce wykańczającej o Tylko jedna tolerancja jakości powierzchni

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

AUTOMATYKA INFORMATYKA

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Monitoring procesów z wykorzystaniem systemu ADONIS

Analiza znaczeniowa sterowana składnią

Tomasz Grześ. Systemy zarządzania treścią

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

Wykład I. Wprowadzenie do baz danych

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Prof. Stanisław Jankowski

Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy

Analiza i projektowanie obiektowe 2017/2018. Wykład 3: Model wiedzy dziedzinowej

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Konotacja składniowajako podstawowy mechanizm zdaniotwórczy

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Klasyfikacja tradycyjna Klasyfikacja Zygmunta Saloniego Przykład analizy. Części mowy. Anna Kozłowska. Uniwersytet Kardynała Stefana Wyszyńskiego

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

PLAN ZARZĄDZANIA KONFIGURACJĄ OPROGRAMOWANIA PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

Model przestrzenny Diagramu Obiegu Dokumentów. Stanisław Niepostyn, Ilona Bluemke Instytut Informatyki, Politechnika Warszawska

KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLASY VI

Nowości oraz trendy w obszarze BPM nurty i kierunki rozwoju. Jarosław Żeliński analityk biznesowy, projektant systemów

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Marcin Miłkowski IFiS PAN

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Inforex - zarządzanie korpusami i ich anotacja

Organizacyjny aspekt projektu

Inspiracje kognitywne w procesie analizy pozycji szachowej

2. Zdanie z orzeczeniem przymiotnikowym (model podstawowy, negacja, pytania) Przysłówki stopnia (,,,,, ) Inne formy wyrażające stopień Zaimek

2

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

Efekt kształcenia. Wiedza

Bezpieczne miasto. koncepcja i rozwiązania w projekcie Mayday Euro 2012

Usługa: Testowanie wydajności oprogramowania

KATEDRA INFORMATYKI STOSOWANEJ PŁ ANALIZA I PROJEKTOWANIE SYSTEMÓW INFORMATYCZNYCH

POZYCJONOWANIE STRONY SKLEPU

Kategorialny Parser Składniowo-Semantyczny dla języka polskiego

Architektura Systemu. Architektura systemu umożliwia kontrolowanie iteracyjnego i przyrostowego procesu tworzenia systemu.

Dokument Detaliczny Projektu Temat: Księgarnia On-line Bukstor

Co wylicza Jasnopis? Bartosz Broda

Świat rzeczywisty i jego model

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Optymalizacja Automatycznych Testów Regresywnych

PROGRAM OPERACYJNY KAPITAŁ LUDZKI Priorytet III, Działanie 3.2 Rozwój systemu egzaminów zewnętrznych

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

Uniwersytet Mikołaja Kopernika w Toruniu Wydział Matematyki i Informatyki Wydział Fizyki, Astronomii i Informatyki Stosowanej Instytut Fizyki

Korpus Dyskursu Parlamentarnego

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa

Nowa podstawa programowa a Europejski System Opisu Kształcenia Językowego

Kategorie imienne polszczyzny

I. Raport wykonywalności projektu

POL-index Polska Baza Cytowań

AKSES - SYSTEM AKREDYTACJI I STANDARDÓW DZIAŁANIA INSTYTUCJI WSPARCIA EKONOMII SPOŁECZNEJ PODSUMOWANIE ETAPU TESTOWANIA

i INSTYTUT PODSTAW INFORMATYKI

STUDIA STACJONARNE I STOPNIA Przedmioty kierunkowe

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Interaktywne ustawianie narzędzia Kątowe ustawienie narzędzia Narzędzie pod kątem w obróbce zgrubnej i pośredniej

Standard określania klasy systemu informatycznego resortu finansów

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Kategorie gramatyczne polszczyzny

WOJSKOWA AKADEMIA TECHNICZNA

Bazy danych. Zachodniopomorski Uniwersytet Technologiczny w Szczecinie. Wykład 3: Model związków encji.

Język angielski kl. 6

Bank częściowo ujednoznacznionych struktur LFG

ROZWIĄZANIA WIZYJNE PRZEMYSŁOWE. Rozwiązania WIZYJNE. Capture the Power of Machine Vision POZYCJONOWANIE IDENTYFIKACJA WERYFIKACJA POMIAR DETEKCJA WAD

Projektowanie Graficznych Interfejsów Użytkownika Robert Szmurło

Zmieniająca się szkoła nowy model kształcenia nauczycieli Jesień 2010

Przepływy danych. Oracle Designer: Modelowanie przepływów danych. Diagramy przepływów danych (1) Diagramy przepływów danych (2)

Analiza danych tekstowych i języka naturalnego

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Narzędzia do ekstrakcji informacji z tekstu

Transkrypt:

Wstępna weryfikacja typologii i strategii anotacji koreferencji w tekstach polskich Maciej Ogrodniczuk, Katarzyna Głowińska, Magdalena Zawisławska, Mateusz Kopeć, Agata Savary j INSTYTUT PODSTAW INFORMATYKI POLSKIEJ AKADEMII NAUK ul. Jana Kazimierza 5, 01-248 Warszawa Seminarium Przetwarzanie języka naturalnego Instytut Podstaw Informatyki PAN 5 marca 2012, Warszawa

Spis treści Opowiemy: 1 jak rozumiemy pojęcie koreferencji, 2 o projekcie CORE (którego celem jest wykrywanie koreferencji w tekstach polskich) jego założeniach, zadaniach i spodziewanych wynikach, 3 o tym, co już zrobiliśmy w ramach rozpoznawania terenu: narzędziu regułowym, eksperymentach z narzędziami RARE i BART, 4 o sposobach ewaluacji jakości systemów do wykrywania koreferencji, 5 o tworzeniu korpusu nawiązań instrukcji anotacyjnej, środowisku anotacyjnym, 6 o pierwszych wnioskach z rozpoczętego właśnie procesu anotacji. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 2/46

Słowniczek pojęć Anafora: relacja między wystąpieniami, której istotą jest uczytelnienie danego wyrażenia w tekście. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 3/46

Słowniczek pojęć Anafora: relacja między wystąpieniami, której istotą jest uczytelnienie danego wyrażenia w tekście. Referencja: odwołanie do obiektu pozatekstowego. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 3/46

Słowniczek pojęć Anafora: relacja między wystąpieniami, której istotą jest uczytelnienie danego wyrażenia w tekście. Referencja: odwołanie do obiektu pozatekstowego. Koreferencja: relacja między wystąpieniami, której istotą jest odwołanie się do tego samego obiektu pozatekstowego. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 3/46

Słowniczek pojęć Anafora: relacja między wystąpieniami, której istotą jest uczytelnienie danego wyrażenia w tekście. Referencja: odwołanie do obiektu pozatekstowego. Koreferencja: relacja między wystąpieniami, której istotą jest odwołanie się do tego samego obiektu pozatekstowego. Wystąpienia koreferencyjne tworzą klaster. Wystąpienia, które nie są koreferencyjne, są singletonami. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 3/46

Anafora i koreferencja nie są tym samym! Anafora bez koreferencji: (1) Chcę być architektem i będę nim! Koreferencja bez anafory: (2) W niedzielę w powietrze wzbił się jeden z największych samolotów pasażerskich świata, Boeing 747-8. Boeing 747-8 będzie konkurentem innego olbrzyma Airbusa A380. (3) Duszą towarzystwa był zięć Kowalskich. Młody prawnik właśnie wrócił ze Stanów. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 4/46

CORE w pigułce Projekt CORE Komputerowe metody identyfikacji nawiązań w tekstach polskich Projekt jest finansowany przez Narodowe Centrum Nauki (nr kontraktu 6505/B/T02/2011/40). Ramy czasowe: kwiecień 2011 kwiecień 2014. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 5/46

CORE w pigułce Projekt CORE Komputerowe metody identyfikacji nawiązań w tekstach polskich Projekt jest finansowany przez Narodowe Centrum Nauki (nr kontraktu 6505/B/T02/2011/40). Ramy czasowe: kwiecień 2011 kwiecień 2014. Główny cel projektu: Opracowanie technik, narzędzi oraz zasobów do automatycznej identyfikacji nawiązań w języku polskim o jakości porównywalnej z uzyskiwaną dla innych języków. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 5/46

Zespół projektu CORE Wykonawcy: Maciej Ogrodniczuk kierownik projektu, Barbara Dunin-Kęplicz nadzór merytoryczny i doradztwo w zadaniach lingwistycznych, Adam Przepiórkowski ekspertyza lingwistyczna i informatyczna, współpraca projektowa z NKJP, Agata Savary ekspertyza dotycząca anotacji korpusu, jednostek nazewniczych i wielowyrazowych oraz narzędzi do anotacji koreferencji, Łukasz Dębowski udział w tworzeniu i rozbudowie narzędzi statystycznych, Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 6/46

Zespół projektu CORE Wykonawcy: Mateusz Kopeć główny informatyk, autor środowiska anotacyjnego, Katarzyna Głowińska ekspertyza lingwistyczna oraz w zakresie organizacji pracy anotacyjnej, Magdalena Zawisławska ekspertyza lingwistyczna i semantyczna, organizacja pracy anotacyjnej, superanotacja korpusu nawiązań, Piotr Batko, Anna Grzeszak, Emilia Kubicka, Paulina Rosalska, Sebastian Żurowski anotacja koreferencji. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 7/46

Główne zadania Opracowanie: 1 typologii nawiązań na bazie dostępnych prac lingwistycznych, 2 korpusu nawiązań, identyfikującego możliwie szeroki zbiór typów nawiązań występujących w Narodowym Korpusie Języka Polskiego, 3 narzędzi informatycznych: metod automatycznej identyfikacji nawiązań, narzędzi realizujących te metody, ocena efektywności różnych algorytmów (statystycznego i regułowego) w porównaniu z narzędziami podobnych typów dla innych języków. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 8/46

Plan pracy Zadanie 1 Zadanie 2 Zadanie 3 Zadanie 4 Zadanie 5 Zadanie 6 Zadanie 7 Określenie zakresu reprezentacji nawiązań, przygotowanie instrukcji dla anotatorów Uzupełnienie typologii na bazie wyników projektu LUNA Stworzenie korpusu nawiązań na bazie NKJP Ewaluacja algorytmów i narzędzi obcojęzycznych do wykrywania nawiązań (BART, RARE, Reconcile itp.; ocena ich przydatności dla języka polskiego) Stworzenie prototypu narzędzia regułowego do wykrywania nawiązań dla języka polskiego Stworzenie prototypu narzędzia statystycznego do wykrywania nawiązań; ew. narzędzie hybrydowe Ewaluacja powstałych narzędzi Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 9/46

Plan pracy Zadanie 8 Zadanie 9 Zadanie 10 Zadanie 11 Rozbudowa narzędzi o moduł wykorzystujący sieć semantyczną (plwordnet) do poprawy jakości wykrywania nawiązań (hiperonimia i hiponimia; antonimia do wykluczania potencjalnych nawiązań) Rozbudowa narzędzi o moduł wykorzystujący dostępne narzędzia i bazy faktów (Wikipedia) do poprawy jakości wykrywania nawiązań Badanie stopnia ew. poprawy jakości streszczeń wynikającej z użycia modułu koreferencyjnego (współpraca z projektem ATLAS) Analiza i weryfikacja uzyskanych wyników wraz z publikacją monografii Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 10/46

Typologia koreferencji w CORE Interesują nas wyłącznie grupy nominalne (rozumiane szerzej niż w NKJP) powiązane relacjami: identyczności (ang. identity of reference), Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 11/46

Typologia koreferencji w CORE Interesują nas wyłącznie grupy nominalne (rozumiane szerzej niż w NKJP) powiązane relacjami: identyczności (ang. identity of reference), quasi-identyczności (ang. near-identity), która może być realizowana np. poprzez: rozmycie cech obiektu (ang. neutralization): (4) Nie widziała Przeminęło z wiatrem, ale czytała je. skupienie się na określonej cesze obiektu, jego aspekcie czasowym itp. (ang. refocusing): (5) Warszawa jest pięknym miastem, ale przedwojenna Warszawa była jeszcze piękniejsza. ew. inne środki, które chcemy dopiero wykryć, np. (6) Zdjął z półki wino i włożył je do koszyka. (7) Wyjął wino z lodówki i wypił je z gwinta. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 11/46

Jeszcze o związkach koreferencji i anafory Wyrazem koreferencji jest m.in. istnienie w tekście wskaźników nawiązania: jawnych, zerowych w CORE ograniczonych do tzw. podmiotów niezrealizowanych: (8) Janek widział dziś w teatrze Michała. ØMiał długą, rozwichrzoną brodę. Interesuje nas: zarówno anafora, jak i katafora: (9) Chodzi mi o to centrum handlowe. O Arkadię ci chodzi? quasi-anafora: (10) Dwa lata pracowałam z Maryśką, ale już mam dość kretynki! Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 12/46

Koreferencyjne środki wyrazu Koreferencja może być wyrażana za pomocą różnych środków leksykalnych, gramatycznych i stylistycznych; oprócz zaimków wskazujących i osobowych są to np. synonim: (11) Przed gabinetem lekarza zawsze kolejki. Bo doktor to taki miły, zagada, pożartuje. uogólnienie: (12) Owczarki niemieckie dobrze pilnują posesji. Psy te nie wpuszczą obcego za bramę. uszczegółowienie: (13) Sklep z ubraniami znajduje się w centrum miasta. Butik jest otwarty od 10 do 18. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 13/46

Typologia koreferencji w CORE cd. Nie oznaczamy natomiast nawiązań: pośrednich (ang. bridging anaphora) do części obiektu, elementu zbioru, nawiązań typu klasa/egzemplarz: (14) Dom był maleńki. Mała kuchnia, mały pokoik. kwantyfikowanych (ang. bound anaphora): (15) Każdy prelegent musi przedstawić swój artykuł. eliptycznych: (16) Kupił pudełko czekoladek, ale niewiele Ø już zostało. predykatywnych: (17) Ewa jest nauczycielką. między obiektami tego samego rodzaju (ang. identity of sense): (18) Człowiek, który dał kwiaty swojej żonie, był milszy niż ten, który odmówił kupienia ich swojej. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 14/46

Strategie anotacyjne Anotujemy: wszystkie frazy zagnieżdżone: (19) Dyrektor departamentu firmy... koordynację, grupy nominalne połączone przyimkiem: (20) Jan z Marią przyszli na obiad. Oni są przemili, zwłaszcza Maria. nieciągłości: (21) Tylko takie książki kupuję, które mają dużo obrazków. Dla każdego wystąpienia oznaczamy głowę semantyczną, a dla każdego klastra wyrażenie dominujące: wymagane w każdym klastrze, wybrane spośród wystąpień lub podane przez anotatora. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 15/46

Granice frazy nominalnej Centrum frazy nominalnej jest rzeczownik, zaimek rzeczowny lub skrót. Podrzędnikami mogą być: rzeczowniki: (22) kolega brata (23) malarz pejzażysta przymiotniki i imiesłowy, np.: (24) duży czerwony tramwaj (25) nadchodzące zmiany frazy liczebnikowe, np.: (26) zabójca pięciu kobiet kubliki, np.: (27) prawie cud Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 16/46

Granice frazy nominalnej Inaczej niż w NKJP podrzędnikami mogą być także: frazy przyimkowo-nominalne, np. (28) ustawa o podatku dochodowym zdania względne, np.: (29) dziewczyna, o której rozmawiamy nadrzędnikami zaś także: liczebniki, np. (30) trzy rowery przymiotniki (w przypadku elipsy rzeczownika), np.: (31) [Podobają mi się] te niebieskie. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 17/46

Granice frazy nominalnej Inne frazy nominalne: frazy opisujące daty lub godziny, np. (32) 12 lipca br. (33) 12.07.1998 frazy nominalne skoordynowane, także ze spójnikiem przecinkowym, np. (34) dyrektor i sekretarka (35) albo Jan, albo Maria (36) krzesło, stół i fotel Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 18/46

Nowa gramatyka do wykrywania wystąpień Gramatyka dostosowana do potrzeb projektu: ma wykrywać jedynie frazy nominalne (usunięcie innych grup, wydobycie fraz nominalnych z fraz przyimkowo-nominalnych), ma szerzej definiować frazę nominalną (zmiana fraz liczebnikowych na nominalne, włączenie zdań względnych), ma widzieć frazy zagnieżdżone (przebudowa całej gramatyki). Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 19/46

Środowisko anotacji Składa się z dwóch programów: manager do wymiany tekstów między własnym komputerem a serwerem, powstały do dystrybucji tekstów podczas anotacji nazw własnych NKJP, zmodyfikowany na potrzeby projektu, MMAX2 do faktycznej anotacji pojedynczych tekstów, jedna z wielu dostępnych aplikacji do anotacji tekstu, program desktopowy, zmodyfikowany na potrzeby projektu. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 20/46

Manager: rola Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 21/46

Manager: interfejs użytkownika Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 22/46

Manager: operacje Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 23/46

Manager: założenia Manager zapewnia: losowe przyznawanie tekstów do anotacji anotatorom, kontrolę ilości tekstów anotowanych w danym momencie przez anotatora, kontrolę wersji wszystkich tekstów, automatyczne przekazywanie tekstów do superanotacji. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 24/46

MMAX2: interfejs użytkownika Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 25/46

MMAX2: główne okno Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 26/46

MMAX2: atrybuty wystąpienia Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 27/46

MMAX2: przeglądarka klastrów Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 28/46

Praca z programem MMAX2 Dwie fazy pracy: 1 korekta wystąpień: usunięcie wystapień błędnie wykrytych przez automat, poprawienie błędnie oznaczonych granic wystąpień, dodanie brakujących wystąpień ustawienie prawidłowej głowy każdego wystąpienia. 2 korekta klastrów wystąpień: usunięcie z klastrów wystąpień dodanych błędnie, dodanie do istniejących klastrów wystąpień, które powinny się w nich znaleźć, połączenie osobnym linkiem wystąpień quasi-identycznych, oznaczenie wyrażeń dominujących. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 29/46

Droga do automatycznej preanotacji Stworzone narzędzia/zasoby: 1 Korpusik do ewaluacji 2 Prosty system regułowy do rozpoznawania klastrów 3 Moduł automatycznie rozpoznający wystąpienia Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 30/46

Korpusik do ewaluacji Dane testowe: 15 fragmentów tekstów, 1737 wystąpień, 1262 klastrów, średnia wielkość klastra: 1,37 wystąpienia. Rozmiar klastra 1 2 3 4 5 6 7..10 11..27 Liczba klastrów 1079 88 43 20 9 6 2..5 1 Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 31/46

Miary ewaluacji systemów wykrywania koreferencji 4 główne miary MUC, B 3, CEAF, BLANC. Wszystkie porównują samo łączenie w klastry, przy założeniu dobrze wykrytych wystąpień. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 32/46

MUC Idea Rozpatrywanie minimalnej liczby brakujących/nadmiarowych połączeń w grupach. Złoty standard Wynik systemu 1 2 3 4 5 1 2 3 4 5 6 7 8 9 10 6 7 8 9 10 11 12 13 14 15 11 12 13 14 15 Kompletność: 6 7 = 0, 86 Dokładność: 6 8 = 0, 75 Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 33/46

B 3 Idea Dokładność, jak i kompletność obliczane są jako średnia z naturalnych wyników dla każdego wystąpienia. Złoty standard 1 2 3 4 5 Wynik systemu 1 2 3 4 5 6 7 8 9 10 6 7 8 9 10 11 12 13 14 15 11 12 13 14 15 Kompletność: 63 75 = 0, 84 Dokładność: 50 60 = 0, 833 Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 34/46

CEAF Idea Przypisanie jeden-do-jednego klastrów wynikowych i złotego standardu podczas ich porównywania. Złoty standard 1 2 3 4 5 Wynik systemu 1 2 3 4 5 6 7 8 9 10 6 7 8 9 10 11 12 13 14 15 11 12 13 14 15 Kompletność: 11 15 = 0, 73 Dokładność: 11 15 = 0, 73 Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 35/46

BLANC I GOLD SYS Koreferentne Niekoreferentne Koreferentne rc wn Niekoreferentne wc rn Wynik Koreferencja Niekoreferencja rc P P c = rc + wc rc R R c = rc + wn F1 F c = 2P cr c P c + R c rn P n = rn + wn rn R n = rn + wc F n = 2P nr n P n + R n BLANC-P = P c + P n 2 BLANC-R = R c + R n 2 BLANC-F = F c + F n 2 Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 36/46

BLANC II Idea Liczenie połączenia oraz braku połączenia między wszystkimi parami wystąpień. Złoty standard 1 2 3 4 5 Wynik systemu 1 2 3 4 5 6 7 8 9 10 6 7 8 9 10 11 12 13 14 15 11 12 13 14 15 Kompletność: 139 182 = 0, 76 Dokładność: 149 186 = 0, 80 Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 37/46

Eksperyment 1: system regułowy detekcji klastrów Wykorzystujemy nieliczne bogate cechy lingwistyczne (na bazie założeń Haghighiego i Kleina): 1 ograniczenia składniowe (wykluczanie zagnieżdżonych grup nominalnych), 2 filtry składniowe (eliminacja niezgodności składniowej głów), 3 filtry semantyczne (na bazie Słowosieci), 4 wybór (na podstawie wag). Efekt: zaprezentowany na konferencji DAARC 2011, wykorzystany do preanotacji aktualnie tworzonego korpusu. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 38/46

Eksperyment 1: zestaw reguł Użyte reguły: 1 eliminujemy wystąpienia o niezgodnym rodzaju/liczbie głów, 2 eliminujemy zagnieżdżenia fraz rzeczownikowych, 3 promujemy wystąpienia o zgodnych lematach głów, 4 badamy wordnet: synonimy, hiperonimy, alternimy i fuzzynimy, 5 promujemy zgodne zaimki. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 39/46

Eksperyment 1: prototyp wizualizacji Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 40/46

Eksperyment 1: wyniki Zbiór reguł MUC CEAF R P F1 R P F1 All-singletons 93,10% 67,64% 78,35% All-sing. + head m. 50,73% 61,16% 55,46% 84,22% 79,14% 81,60% 5 rules 75,36% 59,46% 66,48% 78,62% 87,42% 82,79% 4 rules (no wordnet) 74,73% 65,13% 69,60% 83,45% 88,36% 85,84% B 3 BLANC R P F1 R P F1 All-singletons 72,65% 100,00% 84,16% 50,00% 49,18% 49,58% All-sing. + head m. 84,17% 90,05% 87,01% 69,64% 84,54% 74,97% 5 rules 90,56% 82,56% 86,37% 81,99% 78,39% 80,08% 4 rules (no wordnet) 90,35% 86,66% 88,47% 81,94% 83,92% 82,90% Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 41/46

Eksperyment 2: Moduł automatycznie rozpoznający wystąpienia Użyte narzędzia i zasoby: Pantera/Morfeusz SGJP przejęcie informacji morfoskładniowej, Spejd/gramatyka Kasi Głowińskiej frazy rzeczownikowe, NERF nazwy własne. Efekt: W połączeniu z systemem regułowym: zaprezentowany na konferencji LTC 2011, wykorzystany do preanotacji korpusu. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 42/46

Eksperyment 2: wyniki (bez anafory zerowej) Zbiór reguł MUC CEAF R P F1 R P F1 All-singletons 85,93% 58,15% 69,36% All-singl. + head m. 58,24% 48,08% 52,68% 76,61% 69,42% 72,84% 5 rules 65,20% 43,32% 52,05% 71,49% 70,59% 71,03% 4 rules (no wordnet) 64,43% 47,34% 54,58% 75,70% 71,60% 73,59% B 3 BLANC R P F1 R P F1 All-singletons 69,58% 80,92% 74,82% 50,00% 46,45% 48,16% All-singl. + head m. 81,15% 71,14% 75,81% 53,95% 79,34% 55,54% 5 rules 82,64% 65,91% 73,33% 54,20% 72,48% 55,86% 4 rules (no wordnet) 82,42% 69,24% 75,26% 54,26% 77,60% 56,03% Wykrywanie wystąpień in vitro Z zerową anaforą: R: 83,82%, P: 78,71%, F1: 81,18% Bez zerowej anafory: R: 88,86%, P: 78,71%, F1: 83,48% Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 43/46

Eksperyment 3: system statystyczny Cel: Stworzyć system do wykrywania wystąpień i koreferencji w tekstach polskich oparty na zasadach maszynowego uczenia się (z wykorzystaniem jednego z dostępnych środowisk). Działania: wybór systemu: BART, dostosowanie go do języka polskiego. Efekt: będzie prezentowany na konferencji LREC 2012, wyniki systemu bliskie rezulatom systemu regułowego. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 44/46

Współpraca międzyprojektowa Możliwości współpracy: NKJP dołączenie koreferencji jako kolejnego poziomu anotacji, ATLAS udział w zadaniu dotyczącym streszczania (którego częścią jest identyfikacja nawiązań), CLARIN włączenie narzędzia do identyfikacji nawiązań w infrastrukturę webserwisową, CESAR zamieszczenie korpusu nawiązań i powstałych narzędzi w repozytorium META-SHARE. Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 45/46

Dziękujemy! Maciej Ogrodniczuk et al. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) 46/46