Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Podobne dokumenty
Narzędzia do automatycznej analizy odniesień w tekstach

Inforex - zarządzanie korpusami i ich anotacja

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Narzędzia do automatycznej analizy odniesień w tekstach

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Narzędzia do automatycznej analizy odniesień w tekstach

Publikacja w repozytorium i przetwarzanie w systemie DSpace

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Narzędzia do automatycznego wydobywania kolokacji

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Narzędzia do automatycznego wydobywania kolokacji

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Opis: Instrukcja warunkowa Składnia: IF [NOT] warunek [AND [NOT] warunek] [OR [NOT] warunek].

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Instrukcja. opracował Marcin Oleksy

Metody Kompilacji Wykład 1 Wstęp

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Pętla for. Matematyka dla ciekawych świata -19- Scilab. for i=1:10... end. for k=4:-1:1... end. k=3 k=4. k=1. k=2

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Skrypty i funkcje Zapisywane są w m-plikach Wywoływane są przez nazwę m-pliku, w którym są zapisane (bez rozszerzenia) M-pliki mogą zawierać

Korpus Dyskursu Parlamentarnego

Informatyka I. Wykład 3. Sterowanie wykonaniem programu. Instrukcje warunkowe Instrukcje pętli. Dr inż. Andrzej Czerepicki

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Operatory cd. Relacyjne: ==!= < > <= >= bool b; int i =10, j =20; dzielenie całkowitych wynik jest całkowity! Łączenie tekstu: + string s = "Ala ma ";

Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

Instrukcja użytkownika

Bash - wprowadzenie. Bash - wprowadzenie 1/39

Wstęp do Informatyki i Programowania (kierunek matematyka stosowana)

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Mechanika i Budowa Maszyn I stopień ogólnoakademicki studia stacjonarne wszystkie Wydziałowe Laboratorium Języków Obcych mgr Małgorzata Laczek

średniozaawansowanym; pozytywnie zaliczone moduły Język Angielski (1), (2) i (3) Egzamin

Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Definicje. Algorytm to:

Personalizacja oraz treści dynamiczne w szablonach

Wykorzystanie narzędzi do automatycznego przetwarzania języka w badaniach onomastycznych

Wydział Zarządzania AGH. Katedra Informatyki Stosowanej. Podstawy VBA cz. 1. Programowanie komputerowe

Przewodnik po systemie Antyplagiat dla Użytkownika Indywidualnego

WebSty otwarty webowy system do analiz stylometrycznych

Matematyczne Podstawy Informatyki

Indukcja reguł gramatyki j. polskiego

29. Poprawność składniowa i strukturalna dokumentu XML

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Open Access w technologii językowej dla języka polskiego

PRZEWODNIK PO PRZEDMIOCIE RODZAJ ZAJĘĆ LICZBA GODZIN W SEMESTRZE WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM 30

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Wydział Zarządzania AGH. Katedra Informatyki Stosowanej. Podstawy VBA cz. 2. Programowanie komputerowe

KORPORACYJNE SYSTEMY ZARZĄDZANIA INFORMACJĄ

Bydgoskie Centrum Archiwizacji Cyfrowej sp. z o.o.

Wykład 2. Relacyjny model danych

Program warsztatów CLARIN-PL

Właściwości i metody obiektu Comment Właściwości

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Wprowadzenie do baz danych

Swift (pol. jerzyk) nowy język programowania zaprezentowany latem 2014 r. (prace od 2010 r.)

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania

SQL - Structured Query Language -strukturalny język zapytań SQL SQL SQL SQL

Narzędzia NLP Wzmocniona ekstrakcja relacji IS-A na bazie przypadka gramatycznego. System NEKST - wykorzystanie narzędzi NLP

Uwagi dotyczące notacji kodu! Moduły. Struktura modułu. Procedury. Opcje modułu (niektóre)

Definicje wyższego poziomu

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

średniozaawansowanym; pozytywnie zaliczone moduły Język Angielski (1), (2) i (3) Egzamin

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Swift (pol. jerzyk) nowy język programowania zaprezentowany latem 2014 r. (prace od 2010 r.)

MATEMATYKA DYSKRETNA, PODSTAWY LOGIKI I TEORII MNOGOŚCI

Marcin Miłkowski IFiS PAN

Podstawy Programowania Podstawowa składnia języka C++

XPath XML Path Language. XPath. XSLT część 1. XPath data model. Wyrażenia XPath. Location paths. Osie (axes)

TermoPL dopasowany do XML-owego wyjścia Korpusomatu

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

Rozdział 8. Wykorzystanie funkcji logicznych i warunkowych do analizy danych

SWIFT. Zaawansowane Programowanie Obiektowe

NAKŁADKA KORPUSOWA (NKJP, KORBA) OPARTA O TRADYCYJNĄ KLASYFIKACJĘ CZĘŚCI MOWY. Emanuel Modrzejewski.

Metody Kompilacji Wykład 7 Analiza Syntaktyczna

Java EE produkcja oprogramowania

Wstęp do Językoznawstwa

Algorytmika i Programowanie VBA 1 - podstawy

Programowanie. programowania. Klasa 3 Lekcja 9 PASCAL & C++

Efektywna analiza składniowa GBK

Semantyczne podobieństwo stron internetowych

Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, Spis treści

Ekstrakcja terminologii z korpusów dziedzinowych

Schematy blokowe I. 1. Dostępne bloki: 2. Prosty program drukujący tekst.

PL/SQL. Część 1 Bloki PL/SQL. Piotr Medoń

Lokalizacja Oprogramowania

Modelowanie interakcji helis transmembranowych

SQL Server i T-SQL w mgnieniu oka : opanuj język zapytań w 10 minut dziennie / Ben Forta. Gliwice, Spis treści

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

D D L S Q L. Co to jest DDL SQL i jakie s jego ą podstawowe polecenia?

Informatyka wprowadzenie do algorytmów (II) dr hab. inż. Mikołaj Morzy

Systemy uczące się wykład 2

POLITECHNIKA LUBELSKA. Walidacja Modeli Xtext

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Instrukcja warunkowa i wyboru

Wstęp do informatyki- wykład 5 Instrukcja selekcji if-else Operatory arytmetyczne i logiczne

Transkrypt:

CLARIN-PL Zaawansowane narzędzie do analizy korpusu w oparciu o reguły Michał Marcińczuk Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl 2015-04-13

WCCL i Wccl Match Formalizm WCCL WCCL (Wrocław Corpus Constraint Language to formalizm pozwalający na pisanie wyrażeń funkcyjnych wartościowanych na tekście oznakowanym morfo-syntaktycznie. Takie wyrażenie mogą być użyte bezpośrednio jako cechy dla algorytmów maszynowego uczenia przy tworzeniu systemów przetwarzania języka naturalnego. Formalizm powstał z myślą o języku polskim. Formalizm Wccl Match Wccl Match to formalizm pozwalający na pisanie reguł dopasowania sekwencji tokenów i/lub anotacji w obrębie zdania. Dopasowanie pozwala na naniesienie nowych anotacji na wskazane fragmenty oraz usunięcie istniejących anotacji. 2

Składnia reguł Wccl Match» sekcja match match_rules ( apply( match( is("person_nam", in("w", base[0], is("city_nam", cond( not( annsub(:1, "possessive", actions( mark(m, "person_in_city" Wewnątrz match_rules znajduje się lista reguł (apply. Reguły wykonywane są sekwencyjne w kolejności wystąpienia w match_rules. 3

Składnia reguł Wccl Match» sekcja match match_rules ( apply( match( is("person_nam", in("w", base[0], is("city_nam", cond( not( annsub(:1, "possessive", actions( mark(m, "person_in_city" Sekcja match opisuje poszukiwaną sekwencję tokenów i/lub anotacji. 4

Operatory dopasowania Operatory w sekcji match pozwalają na dopasowanie: Tokenu po wartościach morfo-syntaktycznych tokenu (forma bazowa, przypadek, liczba, rodzaj, rodzaj, itd. po anotacjach semantycznych (test sprawdzający, czy token jest częścią anotacji, rozpoczyna lub kończy anotację określonego typu możliwość łączenia warunków przy pomocy operatorów i/lub oraz negacji. Anotacji dopasowanie anotacji określonego typu (operator is Wektora dopasowań powtarzające się sekwencje tokenów/anotacji, opcjonalne dopasowanie, dopasowanie jednej z możliwych sekwencji (pierwsze lub najdłuższe. 5

Operatory dopasowania tokenów Warunki dla wartości atrybutu Zgodność wartości (equal Zawieranie się zbiorów wartości (in Przecięcie zbiorów wartości (inter Dopasowanie formy tekstowej/bazowej wyrażeniem regularnym (regex Warunki sprawdzające oznakowanie anotacją Token jest częścią anotacji (isannpart Token rozpoczyna anotację (isannbeg Token kończy anotację (isannend 6

Atrybuty tokenów Forma tekstowa (orth Forma bazowa (base Atrybuty morfologiczne (tagset NKJP Klasa gramatyczna (class Liczba (nmb Przypadek (cas Rodzaj (gnd Osoba (per Stopień (deg Aspekt (asp Negacja (ngt Akomodacyjność (acm Akcentowość (acn Poprzyikmowość (ppr Agrultynacyjność (agg Wokaliczność (vcl Wymaganie kropki (dot http://nkjp.pl/poliqarp/help/ense2.html 7

Łączenie operatorów i negacja Koniunkcja operatorów (and np., rzeczownik w mianowniku: and( equal(class[0], subst, equal(cas[0], nom Alternatywa operatorów (or np., przymiotnik lub dowolny token w mianowniku: or( equal(class[0], adj, equal(cas[0], nom Negacja (not np., dowolny token nie będący rzeczownikiem not(equal(class[0], subst 8

Operatory dopasowania wektorów Dopasowanie sekwencji tokenów o określonej formie tekstowej (text Opcjonalne dopasowanie (optional Wielokrotne dopasowanie (repeat Dopasowanie najdłuższego wektora z listy możliwych (longest, Dopasowanie pierwszego pasującego wektora (oneof 9

Składnia reguł Wccl Match» sekcja cond match_rules ( apply( match( is("person_nam", in("w", base[0], is("city_nam", cond( not( annsub(:1, "possessive", actions( mark(m, "person_in_city" Sekcja cond zawiera dodatkowe warunki, jakie muszą spełnić elementy dopasowanej sekwencji. 10

Dodatkowe warunki Operatory w sekcji conds pozwalają na: sprawdzenie wartości atrybutu tokenu (in, inter, equal, porównanie wartości atrybutów dwóch tokenów (in, inter, equal sprawdzenie oznaczenia tokenu anotacją semantyczną określonej kategorii (ann, annsub, sprawdzenie zgodności przypadku, liczby i rodzaju sekwencji tokenów (agr, agrpp, sprawdzenie czy pozycja znajduje się w obrębie zdania (inside, outside, łączenia i negacji operatorów (and, or, not, konstrukcja warunkowa (if, szukanie tokenu względem określonej pozycji (skip. 11

Referencja do dopasowania Referencja do dopasowanych elementów w sekcji cond i actions: symbol M reprezentuje cały wektor dopasowania, symbol :n reprezentuje n-ty element dopasowania, np. :2 to element dopasowany przez drugi operator w match, dla dopasowania typu wektor możliwe jest odwołanie się do elementów zagnieżdżonych poprzez indeks wewnątrz wektora, np. :2:1 wyłuskanie pozycji tokenu (dla operatorów wymagających pozycji tokenu: first(dopasowanie pozycja pierwszego tokenu dopasowania, np. first(m, last(dopasowanie pozycja ostatniego tokenu dopasowania, np. last(m, 12

Składnia reguł Wccl Match» sekcja actions match_rules ( apply( match( is("person_nam", in("w", base[0], is("city_nam", cond( not( annsub(:1, "possessive", actions( mark(m, "person_in_city" Sekcja actions zawiera listę akcji, które zostaną wykonane na dopasowanej sekwencji. 13

Akcje Operatory w sekcji actions pozwalają na: oznaczenie wskazanego fragmentu anotacją określonego typu, oznaczenie wskazanego fragmentu anotacją określonego typu z wymuszeniem nadpisania istniejącej anotacji, usunięcie dopasowanej anotacji, przypisanie wartości do tokenu. 14

Zastosowanie Wccl Match 1 Do wykrywania i kategoryzacji jednostek identyfikacyjnych. 2 Do wykrywania i kategoryzacji wyrażeń temporalnych. 3 W systemie odpowiedzi na pytania do kategoryzacji pytań i analizy ich struktury. 4 Do wykrywania relacji semantycznych między jednostkami identyfikacyjnymi. 15

Jednostki identyfikacyjne apply( match( equal(base[0], "stolica", is("dict_country_name", equal(base[0], "być", is("dict_city_name", actions( mark(:2, "nam_loc_gpe_country", mark(:4, "nam_loc_gpe_city" Reguła dopasowuje wyrażenie stolicą [nazwa] jest [nazwa] i znakuje drugi element jako nazwę państwa oraz czwarty element jako nazwę miasta. 16

Analiza pytań apply( match( optional(in({prep}, class[0], in(["ile"], base[0], optional( and( in({subst}, class[0], in({gen}, cas[0], cond( if(skip(first(m, $L, inter(class[$l], {interp, qub, adv, interj}, -1, not(inter(class[$l], {praet,fin,bedzie,imps,impt, inf,pant,pcon,aglt,winien}, True, actions( mark(m, M, M:2, "qphrase", setprop(m:2, "question", "yes" Opcjonalny przyimek. Opcjonalny rzeczownik w dopełniaczu.. Sprawdzenie, czy przed dopasowaniem znajduje się token nie będący znakiem interpunkcyjnym, kublikiem, przysłówkiem bądź wykrzyknikiem. Jeżeli jest to sprawdzamy jego klasę gramatyczną. Dla określonych klas zwracamy False, a wpp True. Jeżeli nie ma, to jest to początek zdania więc zwracamy True. 17

Narzędzia wykorzystujące język reguł Wccl Match 20

Wccl Match Tester Narzędzie do testowania reguł Wccl Match na znakowanym korpusie. Wymagania: Otagowany i anotowany korpus w formacie ccl, Lista kategorii anotacji. Funkcje: Kolorowanie składni reguł Wccl Match, Statystyki liczone w czasie rzeczywistym: Liczba rozpoznanych, nierozpoznanych i błędnie rozpoznanych anotacji dla określonych kategorii. Precyzja, kompletność i średnia harmoniczna. Podgląd rozpoznanych i nierozpoznanych anotacji oraz anotacji pomocniczych. Możliwość filtrowania anotacji. Demo: Korpus KPWr 1.2.2 znakowany wyrażeniami temporalnymi. 21

Wccl Match Tester 22

Wccl Match Tester» pole do edycji reguł 23

Wccl Match Tester» wybór korpusu 24

Wccl Match Tester» ocena reguł 25

Wccl Match Tester» podgląd anotacji 26

Wccl Match (Corpus Narzędzie do wyszukiwania fraz przy użyciu reguł Wccl Match. Wymagania: Korpus zaimportowany z DSpace. Funkcje: Przybornik z operatorami Wccl Match, Kolorowanie składni reguł Wccl Match, Opis anotacji do wyświetlenia. Podgląd rozpoznanych anotacji. Demo: Korpus zaimportowany z DSpace. 27

Wccl Match (Corpus 28

Wccl Match (Corpus» Przybornik 29

Wccl Match (Corpus» 30

Wccl Match (Corpus» 31

Wccl Match (Corpus» 32

CLARIN-PL Pytania i odpowiedzi

CLARIN-PL Dziękuję bardzo za uwagę