KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Podobne dokumenty
Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Inforex - zarządzanie korpusami i ich anotacja

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Narzędzia do automatycznej analizy odniesień w tekstach

Narzędzia do automatycznej analizy odniesień w tekstach

Program warsztatów CLARIN-PL

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Narzędzia do ekstrakcji informacji z tekstu

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Narzędzia do automatycznej analizy odniesień w tekstach

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Open Access w technologii językowej dla języka polskiego

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Co wylicza Jasnopis? Bartosz Broda

Instrukcja użytkownika

Instrukcja. opracował Marcin Oleksy

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Narzędzia do automatycznego wydobywania kolokacji

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

CLARIN infrastruktura naukowa technologii językowych

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Towards Events Annotated Corpus of Polish

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

DSpace. Co to jest DSpace? Dostęp do danych. 1.Podstawowe informacje: Co to jest DSpace? Dostęp do danych

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Wykorzystanie narzędzi do automatycznego przetwarzania języka w badaniach onomastycznych

Narzędzia do automatycznego wydobywania kolokacji

Temat: InViTO - narzędzie wspomagające uczestnictwo społeczne

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Wytyczne KPWr. Wyrażenia temporalne. Marcin Oleksy (od 2013 do teraz) Michał Marcińczuk (od 2013 do teraz), Tomasz Bernaś (od 2013 do teraz)

Rola polskich bibliotek cyfrowych w zapewnianiu otwartego dostępu

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

tel. fax

Kategorialny Parser Składniowo-Semantyczny dla języka polskiego

Dziedzinowa Baza Wiedzy w zakresie Nauk Technicznych

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Baza Wiedzy Politechniki Warszawskiej uregulowania prawne, organizacja. Jolanta Stępniak Biblioteka Główna Politechniki Warszawskiej

Realizacja założeń polityki otwartości na Politechnice Krakowskiej.

Repozytorium Uniwersytetu Jagiellońskiego

Jak przeglądać publikacje w formacie DjVu?

Jednolity System Antyplagiatowy podstawowe informacje

Materiał dystrybuowany na licencji CC-BY-SA

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

Biblioteka Politechniki Krakowskiej Zarządzanie e-zbiorami w Bibliotece Politechniki Krakowskiej

Jednolity System Antyplagiatowy. Jak interpretować wynik?

Micro CMS e-science.pl Podręcznik użytkownika

Repozytorium Centrum Technologii Językowych: deponowanie i upowszechnianie zasobów i narzędzi językowych, gromadzenie korpusów tekstowych

Czytelnik w bibliotece cyfrowej

Aplikacja Novell Filr 2.0 Web Szybki start

CYRENA czyli Cyfrowe Repozytorium Nauki Politechniki Łódzkiej

UNIWERSYTET ŚLĄSKI W KATOWICACH

Zapytanie ofertowe nr 1/2016

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

DSpace. Podstawowe informacje: Co to jest DSpace? Dostęp do danych

AUTOMATYKA INFORMATYKA

OPIS JAKOŚCIOWY (wymagania minimalne) ZESTAWIENIE PARAMETRÓW GRANICZNYCH

Wytyczne KPWr. Sytuacje (EVENT) Osoba odpowiedzialna (technologia) Michał Marcińczuk Marcin Oleksy



RFP. Wymagania dla projektu. sklepu internetowego B2C dla firmy Oplot

Wykorzystanie platformy Maple T.A. w nauczaniu matematyki wyższej na kierunkach niematematycznych

Humanistyka cyfrowa w Katedrze Lingwistyki Formalnej UW

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Laboratorium przez Internet w modelu studiów inżynierskich

Klęska urodzaju czyli alternatywne źródła danych przestrzennych w zarządzaniu kryzysowym. Piotr Gomułkiewicz, koordynator programu, UM Wrocławia

Twórz, zarządzaj i dziel się wiedzą z zespołem!

Rola bibliotek cyfrowych w budowaniu gospodarki opartej o wiedzę. Cezary Mazurek

WOJEWÓDZTWO DOLNOŚLĄSKIE W PROJEKCIE VIA REGIA PLUS

Jednolity System Antyplagiatowy. Jak interpretować wynik?

PODRĘCZNIK UŻYTKOWNIKA

Lokalizacja Oprogramowania

Nie tylko kod jak jeszcze możesz wspierać wolne oprogramowanie

Spis treści Wstęp 1. Językoznawstwo sądowe

Wirtualna przestrzeń edukacyjna i jej zasoby

Wymagania edukacyjne z informatyki w klasie IIIa gimnazjum

RSIP. Krok w stronę integracji

Jak zacząć przygotowania do wprowadzenia instytucjonalnej polityki otwartego dostępu?

Model referencyjny doboru narzędzi Open Source dla zarządzania wymaganiami

Rejestr CLiO2 Instrukcja obsługi. dr n. med. Michał Skrzypek

O czym w Sejmie piszczy? Analiza tekstowa przemówień poselskich

Polska Bibliografia Naukowa jako krajowe repozytorium publikacji naukowych

Analiza danych tekstowych i języka naturalnego

Rozwiązanie GIS dla mniejszego. miasta: model Miasta Stalowa Wola. Janusz JEśAK. Jacek SOBOTKA. Instytut Rozwoju Miast. ESRI Polska Sp. z o. o.

Rozkład materiału realizacji informatyki w szkole podstawowej w wymiarze 1;1;2 godziny w cyklu trzyletnim

Katalog Oracle PartnerNetwork Solutions Catalog

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

STRATEG podstawowe informacje

Prezentacja jest dostępna na licencji. Uznanie autorstwa - użycie niekomercyjne 3.0 Polska

Część I Rozpoczęcie pracy z usługami Reporting Services

epodreczniki.pl od strony technologii (1) Damian Niemir, Poznańskie Centrum Superkomputerowo-Sieciowe Poznań, 30 maja 2014 r.

Transkrypt:

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów) Marcin Oleksy Michał Marcińczuk Politechnika ska Instytut Informatyki Grupa Naukowa G4.19 marcin.oleksy@pwr.wroc.pl michal.marcinczuk@pwr.wroc.pl 20160526

KPWr Konferencja CLARINPL 2526.05.2016 KPWr Korpus Języka Polskiego Politechniki skiej zawierający dokumenty tekstowe z różnych źródeł otagowany przy pomocy narzędzia wcrft2 ręcznie anotowany różnymi typami informacji, częściowo w systemie 2+1: role semantyczne 100 dokumentów sytuacje 150 dokumentów udostępniany na licencji Creative Commons (CC BYSA 3.0)

Konferencja CLARINPL 2526.05.2016 KPWr struktura Podkorpus blogi dap (dłuższe artykuły prasowe) dialog kap (krótsze artykuły prasowe) nauka popularnonaukowe i podręczniki proza dawna proza współczesna religijne stenogramy techniczne urzędowe ustawy wikinews wikipedia Dokumenty liczba % 171 10,48% 132 8,09% 91 5,58% 221 13,55% 87 5,33% 73 4,48% 86 5,27% 42 2,58% 9 0,55% 79 4,84% 17 1,04% 62 3,80% liczba 52793 41181 30070 34284 28269 22463 36094 19101 5357 32297 4373 18890 % 11,80% 9,20% 6,72% 7,66% 6,32% 5,02% 8,06% 4,27% 1,20% 7,22% 0,98% 4,22% 80 123 358 1631 31620 28264 62520 447576 7,06% 6,31% 13,97% 4,90% 7,54% 21,95% Tokeny

KPWr struktura Konferencja CLARINPL 2526.05.2016

KPWr style funkcjonalne Konferencja CLARINPL 2526.05.2016

Konferencja CLARINPL 2526.05.2016 KPWr statystyki anotacji Indeks Liczba Nazwa Zawartość dokumentów anotacji relacji lematów index_chunks.list Frazy składniowe 307 94831 5772 index_chunks_rel.list Relacje między frazami składniowymi 305 11029 index_names.list Jednostki identyfikacyjne/nazwy własne 1343 28816 index_names_lemma.list Lematyzacja jednostek identyfikacyjnych 1343 28697 index_names_rel.list Relacje semantyczne między jednostkami identyfikacyjnymi 1118 3512 index_wsd_nv.list Ujednoznacznione znaczenia słów 1179 13555 index_spatial.list Wyrażenia przestrzenne (wyznaczniki) 1526 7873 index_spatial_rel.list Wyrażenia przestrzenne (połączenia) 1531 5695 index_zero_verb.list Czasowniki z podmiotem domyślnym 969 7111 index_keywords.list Tekstowe słowa kluczowe 1629 10552

Konferencja CLARINPL 2526.05.2016 KPWr statystyki anotacji Indeks Liczba Nazwa Zawartość dokumentów anotacji relacji lematów index_timex.list Wyrażenia temporalne 1630 12726 index_timex_local.list Lokalna normalizacja wyrażeń temporalnych 1606 5967 index_timex_global.list Globalna normalizacja wyrażeń temporalnych 1630 5789 index_events.list Sytuacje (wyznaczniki) 333 8686 index_events_g0.list Sytuacje (wyznaczniki) zbiór gold #0 101 3077 index_events_g1.list Sytuacje (wyznaczniki) zbiór gold #1 50 2357 index_events_g2.list Sytuacje (wyznaczniki) zbiór gold #2 50 2364 index_events_g3.list Sytuacje (wyznaczniki) zbiór gold #3 34 1321 index_serol.list Role semantyczne 1037 2199 1401 index_coref.list= Koreferencja 50 4868 8926

KPWr statystyki anotacji Konferencja CLARINPL 2526.05.2016

KPWr statystyki anotacji Konferencja CLARINPL 2526.05.2016

KPWr nowe warstwy anotacji Konferencja CLARINPL 2526.05.2016 wyrażenia przestrzenne (Spatial Role Labeling) sytuacje (TimeML) wyrażenia temporalne (TimeML) lokalna i globalna normalizacja wyrażeń temporalnych tekstowe słowa kluczowe role semantyczne wewnątrz fraz rzeczownikowych (RRG) czasowniki z podmiotem domyślnym

Konferencja CLARINPL 2526.05.2016 KPWr zgodność anotacji sytuacje Zakresy action aspectual perception 0,95 0,9 0,88 0,9 reporting 0,93 i_action 0,68 i_state 0,85 State 0,75 Light predicate 0,67

Konferencja CLARINPL 2526.05.2016 KPWr zgodność anotacji role semantyczne wewnątrz fraz rzeczownikowych actor 0,89 agent 0,89 cause 0,89 undergoer 0,91 patient 0,92 theme 0,78 manner 0,84 attribute 0,92 amount 0,80

Konferencja CLARINPL 2526.05.2016 Inforex historia Inforex system do budowania, anotowania i przeszukiwania korpusów tekstowych inforex Historia: rozwijany na Politechnice skiej od 2010, wykorzystany: w projektach naukowych: NEKST, SyNaT, CLARINPL w habilitacji: M. ZaśkoZielińska (Listy pożegnalne samobójców) w rozprawach doktorskich: B. Broda (WSD), M. Marcińczuk (NER, relacje semantyczne), A. Radziszewski (frazy składniowe), J. Kocoń (wyrażenia temporalne, wyznaczniki sytuacji) w innych pracach naukowych: E. Kaczmarz (konwersacje z Facebooka), Bernaś (teksty w j. hebrajskim). dostęp do korpusów: KPWr Korpus Politechniki skiej CEN korpus wiadomości ekonomicznych z Wikinews PCSN Polski korpus listów pożegnalnych samobójców

Inforex główne cechy Konferencja CLARINPL 2526.05.2016 http://inforex.clarinpl.eu/ dostęp dla użytkowników posiadających konto w DSpace dostęp przez przeglądarkę internetową (sugerowany Firefox) nie wymaga instalacji u użytkownika, wymaga stałego dostępu do Internetu, zintegrowany z DSpace (import/eksport danych), umożliwia współdzielenie danych między użytkownikami, autoryzowany dostęp do danych na poziomie korpusu i warstw anotacji, wspierane pracę na dokumentach zarówno otagowanych (podział na tokeny i zdania) jak i nieotagowanych pozwala na wizualizację struktury dokumentów podczas anotacji

Inforex wizualizacja struktury dokumentu (1/2) KPWr Konferencja CLARINPL 2526.05.2016 Rozmowy z Facebooka (E. Kaczmarz)

Inforex wizualizacja struktury dokumentu (2/2) PCSN (M. ZaśkoZielińska) Konferencja CLARINPL 2526.05.2016 Teksty w j. hebrajskim (T. Bernaś)

Inforex kontrola postępu prac (1/2) Konferencja CLARINPL 2526.05.2016

Inforex kontrola postępu prac (2/2) Konferencja CLARINPL 2526.05.2016

Inforex metadane Konferencja CLARINPL 2526.05.2016

Inforex historia edycji treści Konferencja CLARINPL 2526.05.2016

Inforex anotacje, schematy anotacji Konferencja CLARINPL 2526.05.2016

Inforex dodawanie anotacji do tekstu Konferencja CLARINPL 2526.05.2016

Inforex weryfikacja anotacji Konferencja CLARINPL 2526.05.2016

Inforex lematyzacja anotacji Konferencja CLARINPL 2526.05.2016

Inforex tłumaczenie fraz Konferencja CLARINPL 2526.05.2016

Inforex normalizacja wyrażeń temporalnych Konferencja CLARINPL 2526.05.2016

Inforex dodawanie relacji między anotacjami Konferencja CLARINPL 2526.05.2016

Inforex relacje > koreferencja Konferencja CLARINPL 2526.05.2016

Inforex sensy słów (WSD) Konferencja CLARINPL 2526.05.2016

Inforex statystyki > frekwencja słów Konferencja CLARINPL 2526.05.2016

Inforex przeglądarka anotacji (tłumaczenia) Konferencja CLARINPL 2526.05.2016

Inforex przeglądarka relacji między anotacjami Konferencja CLARINPL 2526.05.2016

Dziękujemy za uwagę