Narzędzia do automatycznej analizy odniesień w tekstach

Podobne dokumenty
Narzędzia do automatycznej analizy odniesień w tekstach

Narzędzia do automatycznej analizy odniesień w tekstach

Wykorzystanie narzędzi do automatycznego przetwarzania języka w badaniach onomastycznych

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Inforex - zarządzanie korpusami i ich anotacja

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Instrukcja. opracował Marcin Oleksy

Program warsztatów CLARIN-PL

Wytyczne KPWr. Wyrażenia temporalne. Marcin Oleksy (od 2013 do teraz) Michał Marcińczuk (od 2013 do teraz), Tomasz Bernaś (od 2013 do teraz)

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Instrukcja użytkownika

Narzędzia do automatycznego wydobywania kolokacji

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Open Access w technologii językowej dla języka polskiego

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do ekstrakcji informacji z tekstu

Narzędzia do automatycznego wydobywania kolokacji

WebSty otwarty webowy system do analiz stylometrycznych

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

DSpace. Co to jest DSpace? Dostęp do danych. 1.Podstawowe informacje: Co to jest DSpace? Dostęp do danych

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Wrota Parsęty II o bazie danych przestrzennych - wprowadzenie

P.2.1 WSTĘPNA METODA OPISU I

Repozytorium Centrum Technologii Językowych: deponowanie i upowszechnianie zasobów i narzędzi językowych, gromadzenie korpusów tekstowych

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Testowy dokument raz dwa trzy

Prof. Stanisław Jankowski

Wymagania edukacyjne niezbędne do uzyskania śródrocznych ocen klasyfikacyjnych z języka niemieckiego w klasie VII-ej w roku szkolnym 2017/2018

CLARIN infrastruktura naukowa technologii językowych

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Rynek finansowy wobec starzejącego się społeczeństwa

Wymagania edukacyjne niezbędne do uzyskania śródrocznych i rocznych ocen klasyfikacyjnych z języka niemieckiego w klasie I.

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

PLAN ZARZĄDZANIA KONFIGURACJĄ OPROGRAMOWANIA PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Kolekcja prac KOMPUTEROWE PRZETWARZANIE WIEDZY

Text mining w programie RapidMiner Michał Bereta

Ontologie, czyli o inteligentnych danych

MODELOWANIE OBCIĄŻEŃ ZIAREN AKTYWNYCH I SIŁ W PROCESIE SZLIFOWANIA

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Zagadnienia: wprowadzenie podstawowe pojęcia. Doświadczalnictwo. Anna Rajfura

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

OTWARTY SYSTEM ARCHIWIZACJI narzędzie dla archiwów społecznych

Kodowanie produktów - cz. 1

Składowanie i dostęp do danych w rozproszonym systemie ochrony własności intelektualnej ANDRZEJ SOBECKI, POLITECHNIKA GDAŃSKA INFOBAZY 2014

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Uwagi Ewaluatora. Prof. Teresa Zielińska Politechnika Warszawska Wydział Mechaniczny Energetyki i Lotnictwa

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Pytania i wyjaśnienia treści Specyfikacji Istotnych Warunków Zamówienia

Realizacja koncepcji nowej generacji map topograficznych w Polsce

SZTUCZNA INTELIGENCJA

Wielowymiarowa analiza regionalnego zróżnicowania rolnictwa w Polsce

Prezentacja Wniosek o dofinansowanie projektu.

Rowerowa sieć partycypacji społecznej w polityce transportowej. Polityka rowerowa w polskich miastach Wnioski i rekomendacje

OFERTA SZKOLEŃ DLA BIBLIOTEKARZY

Zastosowanie teorii detekcji sygnałów do analizy rzetelności systemu obserwacyjnego ARGOS Michał Modzelewski Jolanta Pisarek

Wspomaganie zarządzania zbiornikami zaporowymi

Emapa GeoMarketing. Opis produktu

Dziennik Urzędowy Unii Europejskiej L 274/9

Ćwiczenia technik efektywnego uczenia się Spotkanie 4

Przegląd platform systemowych typu OpenSource dla wspomagania kształcenia na odległość

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

Gdzieś w bibliotece jeleniogórskiej, 14 grudnia Wirtualna biblioteka e-pogranicze

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Rola polskich bibliotek cyfrowych w zapewnianiu otwartego dostępu

Wstęp do Informatyki. Klasyfikacja oprogramowania

BADANIE I OCENA ZGODNOŚCI Z INSPIRE

Malware: złośliwe oprogramowanie. Marek Zachara. 1/18

Ziemia we Wszechświecie lekcja powtórzeniowa

Analiza statystyczna trudności tekstu

Realizacja zobowiązań wynikających z ustawy o infrastrukturze informacji przestrzennej w statystyce publicznej

Automatyczna ocena uszkodzeń nawierzchni z wykorzystaniem technologii LCMS

Europejska Baza Produktów (European Shared Treasure)

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Modelowanie interakcji helis transmembranowych

Geoportal monitoringu środowiska województwa lubelskiego, jako forma informowania społeczeństwa o stanie środowiska w województwie

Rodzaje badań statystycznych

System SINUS otwarte narzędzie do budowy bibliograficznych baz danych

Szkolenie: Dobry Przypadek Testowy

PORTAL GEOSTATYSTYCZNY - GIS jako źródło informacji o terytorium i społeczeństwie

Zalecenia dotyczące kształtowania polityki wynagrodzeń w urzędach z uwzględnieniem wyników wartościowania stanowisk pracy w służbie cywilnej

Wzrost przychodów i optymalne koszty sprzedaży. Zarządzanie terytorium sprzedaży z iq GIS

BANK DANYCH LOKALNYCH

Transkrypt:

CLARIN-PL Narzędzia do automatycznej analizy odniesień w tekstach Michał Marcińczuk Jan Kocoń Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl jan.kocon@pwr.edu.pl 2015-04-13

Czym są odniesienia Odniesienia to fragmenty tekstu reprezentujące pojęcia określonych kategorii. Rozważane kategorie odniesień: Jednostki identyfikacyjne, Wyrażenia temporalne. 2

Jednostki identyfikacyjne Jednostki identyfikacyjne to fragmenty tekstu odnoszące się do pewnych obiektów lub grup obiektów określonych kategorii. Do jednostek identyfikacyjnych zaliczamy: nazwy (nazwy własne i nazwy ogólne, generalne), przymiotniki pochodzące od nazw własnych, określone wyrażenia liczbowe. 3

Schemat jednostek identyfikacyjnych (1/2) Wśród jednostek identyfikacyjnych wyróżniamy dziewięć głównych grup: nam_adj przymiotniki pochodzące od nazw własnych, nam_eve wydarzenia organizowane lub ustalone przez ludzi oraz klęski żywiołowe, nam_fac konstrukcje (budowle, budynki, pomniki) stworzone przez ludzi. nam_liv istoty żywe (ludzie, postacie, zwierzęta), nam_loc toponimy (lokalizacje, jednostki geopolityczne i geograficzne), nam_num wyrażenia liczbowe, nam_org organizacje, instytucje, zespoły, zorganizowane grupy itd. nam_oth nazwy technologii, walut, adres e-mail, strony www, itd. nam_pro chrematonimy (wytwory ludzkie). 4

Schemat jednostek identyfikacyjnych (2/2) W obrębie każdej grupy wyszczególnione są kategorie szczegółowe ułożone w strukturę hierarchiczną. Pełna lista kategorii znajduje się w pliku http://tools.clarin-pl.eu/warsztaty/wytycznekpwr-jednostkiidentyfikacyjne.pdf. Kategorie szczegółowe dla nam_loc: nam_loc_astronomical naturalne ciała niebieskie, nam_loc_country_region regiony geograficzne w obrębie kraju, nam_loc_gpe jednostki geopolityczne. nam_loc_gpe_admin podział administracyjny,, nam_loc_gpe_city miasta I 4 pozostałe podkategorie nam_loc_gpe_* nam_loc_hydronym naturalne obiekty wodne, nam_loc_hydronym_river rzeki, nam_loc_hydronym_lake jeziora, i 4 pozostałe podkategorie nam_loc_hydronym_* nam_loc_land ziemne obiekty geograficzne, nam_loc_land_cape przylądki. nam_loc_land_continent kontynenty. I 8 pozostałych podkategorii nam_loc_land_* 5

Wyrażenia temporalne Wyrażenia temporalne to fragmenty tekstu odnoszące się do czasu. Wyrażenia te mówią nam kiedy coś się stało, jak długo coś trwało albo jak często coś się wydarza. Wyróżniamy trzy rodzaje wyrażeń temporalnych jasne precyzyjne, jasne nieprecyzyjne i niejasne. Wyróżniamy cztery główne (na bazie wytycznych TimeML): kategorie wyrażeń temporalnych Kategoria Anotacja Opis Data t3_date Wyrażenie opisujące termin zgodnie z kalendarzem. Jest to jednostka czasu większa lub równa jednemu dniowi (rozumianemu jako doba). Odpowiada na kluczowe pytanie: kiedy. Pora t3_time Typ wyrażenia lokalizującego. Określenie to odnosi się do pory dnia (nocy). Nie musi ono być bardzo precyzyjne. Odpowiada na kluczowe pytanie: kiedy. Trwanie t3_duration Wyrażenie opisujące czas trwania jakiejś sytuacji, wyodrębniony przedział czasowy, w którym coś się dzieje. Odpowiada na kluczowe pytanie: jak długo. Seria t3_set Wyrażenie opisujące serię zdarzeń. Odpowiada na kluczowe pytanie: jak często. 6

Liner2 Cechy narzędzia do automatycznego rozpoznawania odniesień: wykorzystuje model statystyczny, dedykowane metody regułowo-słownikowe, klasyfikacja w oparciu o cechy z lokalnego kontekstu. Procedura konstrukcji modelu: 1) Opracowanie wytycznych. 2) Oznakowanie korpusu treningowo-testowego. 3) Definicja potencjalnych cech do opisu tokenów w tekście. 4) Eksperymentalna selekcja cech istotnych i optymalizacja parametrów modelu statystycznego. 5) Uczenie modelu statystycznego. 6) Uzupełnienie modelu statystycznego regułami i metodami słownikowymi. 7

Korpus KPWr 171 Modele statystyczne do rozpoznawania jednostek identyfikacyjnych i wyrażeń temporalnych zostały skonstruowane na korpusie KPWr. 358 132 91 Charakterystyka KPWr: Kolekcja dokumentów na licencji Creative Commons, 123 221 80 Fragmenty długości do 200 słów, Teksty zróżnicowane tematycznie i gatunkowo 62 17 87 73 Liczba dokumentów w Kpwr: Kategoria Uczący Pomocniczy Testowy Razem Wyrażenia temporalne 819 408 408 1635 Jednostki identyfikacyjne 600 300 305 1205 86 42 15 79 blogi dap dialog kap nauka popularno-naukowe i podręczniki proza dawna proza współczesna religijne stenogramy techniczne urzędowe ustawy wikinews wikipedia 8

Modele danych Dostępne modele danych: 1) Jednostki identyfikacyjne granice jednostek Named Entities (nam) główne kategorie Named Entities (top9) szczegółowe kategorie Named Entities (n82) 2) Wyrażenia temporalne granice wyrażeń Temporal Expressions (1class) cztery kategorie Temporal Expressions (4classes) 9

Jednostki identyfikacyjne» jakość rozpoznawania (1/3) Model top9 Precyzja Kategoria Precyzja Kompletność nam_adj 74% 61% nam_adj nam_eve 55% 28% nam_eve nam_fac 69% 37% nam_fac nam_liv 79% 78% nam_liv nam_loc 82% 87% nam_loc nam_num 100% 64% nam_num nam_org 65% 68% nam_org nam_oth 75% 48% nam_oth nam_pro 57% 50% nam_pro Łącznie 73% 69% Łącznie Granice 85% 80% Granice 0 10 20 30 40 Kompletność 50 60 70 80 90 100 10

Jednostki identyfikacyjne» jakość rozpoznawania (2/3) Model n82 (wybrane kategorie) Precyzja Precyzja Kompletność nam_adj_country 73% 66% nam_adj_country nam_fac_road 74% 61% nam_fac_road nam_liv_person 71% 79% nam_liv_person nam_loc_gpe_admin1 79% 65% nam_loc_gpe_admin1 nam_loc_gpe_admin2 86% 72% nam_loc_gpe_admin2 nam_loc_gpe_city 69% 81% nam_loc_gpe_city nam_loc_gpe_country 91% 94% nam_loc_gpe_country nam_loc_hydronym_river 89% 50% nam_loc_hydronym_river nam_loc_land_continent 92% 78% nam_loc_land_continent nam_org_group_team 78% 68% nam_org_group_team nam_org_nation 81% 59% nam_org_nation nam_org_political_party 89% 74% nam_org_political_party nam_oth_currency 100% 74% nam_oth_currency Łącznie 67% 59% Łącznie Granice 86% 75% Granice Kategoria 0 10 Kompletność 20 30 40 50 60 70 80 90 11 100

Jednostki identyfikacyjne» jakość rozpoznawania (3/3) Model nam Kategoria Precyzja Precyzja Kompletność nam 85% 83% Granice (top9) 85% 80% Granice (top9) Granice (n82) 86% 75% Granice (n82) Kompletność nam 0 10 20 30 40 50 60 70 80 90 100 12

Wyrażenia temporalne» jakość rozpoznawania Modele 1class i 4classes Precyzja Kompletność t3_date 90% 86% t3_date t3_time 77% 54% t3_time t3_duration 72% 70% t3_duration t3_set 68% 34% t3_set Łącznie 86% 79% Łącznie timex 86% 83% timex Kategoria Precyzja 0 10 20 30 Kompletność 40 50 60 70 80 90 100 13

Automatyczne rozpoznawanie odniesień (Dspace, Inforex) 14

Inforex Demo Liner2 http://inforex.clarin-pl.eu/index.php?page=ner 15

Automatyczne rozpoznawanie odniesień Dokumenty użytkownika D-Space any2txt wcrft2 Liner2 WoSeD on 1) Jednostki identyfikacyjne (nam) 2) Jednostki identyfikacyjne (top9) 3) Jednostki identyfikacyjne (n82) 4) Wyrażenia temporalne (timex1) 5) Wyrażenia temporalne (timex4) Przeglądanie anotacji w dokumencie (Preview) Weryfikacja anotacji (Bootstrapping) Przeglądanie anotacji po kategoriach (Annotation browser ) Eskport listy anotacji do plikucsv (Annotation browser ) 16

Weryfikacja i przeglądanie odniesień (Inforex) 17

Inforex Preview 18

Inforex Bootstrapping 19

Inforex Annotations 20

Inforex Annotation browser 21

Eksport do pliku CSV 22

CLARIN-PL Pytania i odpowiedzi

CLARIN-PL Dziękuję bardzo za uwagę