KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów) Marcin Oleksy Michał Marcińczuk Politechnika ska Instytut Informatyki Grupa Naukowa G4.19 marcin.oleksy@pwr.wroc.pl michal.marcinczuk@pwr.wroc.pl 20160526

KPWr Konferencja CLARINPL 2526.05.2016 KPWr Korpus Języka Polskiego Politechniki skiej zawierający dokumenty tekstowe z różnych źródeł otagowany przy pomocy narzędzia wcrft2 ręcznie anotowany różnymi typami informacji, częściowo w systemie 2+1: role semantyczne 100 dokumentów sytuacje 150 dokumentów udostępniany na licencji Creative Commons (CC BYSA 3.0)

Konferencja CLARINPL 2526.05.2016 KPWr struktura Podkorpus blogi dap (dłuższe artykuły prasowe) dialog kap (krótsze artykuły prasowe) nauka popularnonaukowe i podręczniki proza dawna proza współczesna religijne stenogramy techniczne urzędowe ustawy wikinews wikipedia Dokumenty liczba % 171 10,48% 132 8,09% 91 5,58% 221 13,55% 87 5,33% 73 4,48% 86 5,27% 42 2,58% 9 0,55% 79 4,84% 17 1,04% 62 3,80% liczba 52793 41181 30070 34284 28269 22463 36094 19101 5357 32297 4373 18890 % 11,80% 9,20% 6,72% 7,66% 6,32% 5,02% 8,06% 4,27% 1,20% 7,22% 0,98% 4,22% 80 123 358 1631 31620 28264 62520 447576 7,06% 6,31% 13,97% 4,90% 7,54% 21,95% Tokeny

KPWr struktura Konferencja CLARINPL 2526.05.2016

KPWr style funkcjonalne Konferencja CLARINPL 2526.05.2016

Konferencja CLARINPL 2526.05.2016 KPWr statystyki anotacji Indeks Liczba Nazwa Zawartość dokumentów anotacji relacji lematów index_chunks.list Frazy składniowe 307 94831 5772 index_chunks_rel.list Relacje między frazami składniowymi 305 11029 index_names.list Jednostki identyfikacyjne/nazwy własne 1343 28816 index_names_lemma.list Lematyzacja jednostek identyfikacyjnych 1343 28697 index_names_rel.list Relacje semantyczne między jednostkami identyfikacyjnymi 1118 3512 index_wsd_nv.list Ujednoznacznione znaczenia słów 1179 13555 index_spatial.list Wyrażenia przestrzenne (wyznaczniki) 1526 7873 index_spatial_rel.list Wyrażenia przestrzenne (połączenia) 1531 5695 index_zero_verb.list Czasowniki z podmiotem domyślnym 969 7111 index_keywords.list Tekstowe słowa kluczowe 1629 10552

Konferencja CLARINPL 2526.05.2016 KPWr statystyki anotacji Indeks Liczba Nazwa Zawartość dokumentów anotacji relacji lematów index_timex.list Wyrażenia temporalne 1630 12726 index_timex_local.list Lokalna normalizacja wyrażeń temporalnych 1606 5967 index_timex_global.list Globalna normalizacja wyrażeń temporalnych 1630 5789 index_events.list Sytuacje (wyznaczniki) 333 8686 index_events_g0.list Sytuacje (wyznaczniki) zbiór gold #0 101 3077 index_events_g1.list Sytuacje (wyznaczniki) zbiór gold #1 50 2357 index_events_g2.list Sytuacje (wyznaczniki) zbiór gold #2 50 2364 index_events_g3.list Sytuacje (wyznaczniki) zbiór gold #3 34 1321 index_serol.list Role semantyczne 1037 2199 1401 index_coref.list= Koreferencja 50 4868 8926

KPWr statystyki anotacji Konferencja CLARINPL 2526.05.2016

KPWr nowe warstwy anotacji Konferencja CLARINPL 2526.05.2016 wyrażenia przestrzenne (Spatial Role Labeling) sytuacje (TimeML) wyrażenia temporalne (TimeML) lokalna i globalna normalizacja wyrażeń temporalnych tekstowe słowa kluczowe role semantyczne wewnątrz fraz rzeczownikowych (RRG) czasowniki z podmiotem domyślnym

Konferencja CLARINPL 2526.05.2016 KPWr zgodność anotacji sytuacje Zakresy action aspectual perception 0,95 0,9 0,88 0,9 reporting 0,93 i_action 0,68 i_state 0,85 State 0,75 Light predicate 0,67

Konferencja CLARINPL 2526.05.2016 KPWr zgodność anotacji role semantyczne wewnątrz fraz rzeczownikowych actor 0,89 agent 0,89 cause 0,89 undergoer 0,91 patient 0,92 theme 0,78 manner 0,84 attribute 0,92 amount 0,80

Konferencja CLARINPL 2526.05.2016 Inforex historia Inforex system do budowania, anotowania i przeszukiwania korpusów tekstowych inforex Historia: rozwijany na Politechnice skiej od 2010, wykorzystany: w projektach naukowych: NEKST, SyNaT, CLARINPL w habilitacji: M. ZaśkoZielińska (Listy pożegnalne samobójców) w rozprawach doktorskich: B. Broda (WSD), M. Marcińczuk (NER, relacje semantyczne), A. Radziszewski (frazy składniowe), J. Kocoń (wyrażenia temporalne, wyznaczniki sytuacji) w innych pracach naukowych: E. Kaczmarz (konwersacje z Facebooka), Bernaś (teksty w j. hebrajskim). dostęp do korpusów: KPWr Korpus Politechniki skiej CEN korpus wiadomości ekonomicznych z Wikinews PCSN Polski korpus listów pożegnalnych samobójców

Inforex główne cechy Konferencja CLARINPL 2526.05.2016 http://inforex.clarinpl.eu/ dostęp dla użytkowników posiadających konto w DSpace dostęp przez przeglądarkę internetową (sugerowany Firefox) nie wymaga instalacji u użytkownika, wymaga stałego dostępu do Internetu, zintegrowany z DSpace (import/eksport danych), umożliwia współdzielenie danych między użytkownikami, autoryzowany dostęp do danych na poziomie korpusu i warstw anotacji, wspierane pracę na dokumentach zarówno otagowanych (podział na tokeny i zdania) jak i nieotagowanych pozwala na wizualizację struktury dokumentów podczas anotacji

Inforex wizualizacja struktury dokumentu (1/2) KPWr Konferencja CLARINPL 2526.05.2016 Rozmowy z Facebooka (E. Kaczmarz)

Inforex wizualizacja struktury dokumentu (2/2) PCSN (M. ZaśkoZielińska) Konferencja CLARINPL 2526.05.2016 Teksty w j. hebrajskim (T. Bernaś)

Inforex kontrola postępu prac (1/2) Konferencja CLARINPL 2526.05.2016

Inforex kontrola postępu prac (2/2) Konferencja CLARINPL 2526.05.2016

Inforex metadane Konferencja CLARINPL 2526.05.2016

Inforex historia edycji treści Konferencja CLARINPL 2526.05.2016

Inforex anotacje, schematy anotacji Konferencja CLARINPL 2526.05.2016

Inforex dodawanie anotacji do tekstu Konferencja CLARINPL 2526.05.2016

Inforex weryfikacja anotacji Konferencja CLARINPL 2526.05.2016

Inforex lematyzacja anotacji Konferencja CLARINPL 2526.05.2016

Inforex tłumaczenie fraz Konferencja CLARINPL 2526.05.2016

Inforex normalizacja wyrażeń temporalnych Konferencja CLARINPL 2526.05.2016

Inforex dodawanie relacji między anotacjami Konferencja CLARINPL 2526.05.2016

Inforex relacje > koreferencja Konferencja CLARINPL 2526.05.2016

Inforex sensy słów (WSD) Konferencja CLARINPL 2526.05.2016

Inforex statystyki > frekwencja słów Konferencja CLARINPL 2526.05.2016

Inforex przeglądarka anotacji (tłumaczenia) Konferencja CLARINPL 2526.05.2016

Inforex przeglądarka relacji między anotacjami Konferencja CLARINPL 2526.05.2016

Dziękujemy za uwagę