Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Podobne dokumenty
Inforex - zarządzanie korpusami i ich anotacja

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Narzędzia do automatycznej analizy odniesień w tekstach

Program warsztatów CLARIN-PL

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Instrukcja. opracował Marcin Oleksy

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Instrukcja użytkownika

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Narzędzia do automatycznej analizy odniesień w tekstach

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Open Access w technologii językowej dla języka polskiego

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Narzędzia do automatycznego wydobywania kolokacji

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Wykorzystanie narzędzi do automatycznego przetwarzania języka w badaniach onomastycznych

Narzędzia do automatycznej analizy odniesień w tekstach

Narzędzia do automatycznego wydobywania kolokacji

CLARIN infrastruktura naukowa technologii językowych

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

Narzędzia do ekstrakcji informacji z tekstu

Spis treści Wstęp 1. Językoznawstwo sądowe

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

DSpace. Co to jest DSpace? Dostęp do danych. 1.Podstawowe informacje: Co to jest DSpace? Dostęp do danych

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Jednolity System Antyplagiatowy. Jak interpretować wynik?

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Jednolity System Antyplagiatowy. Jak interpretować wynik?

Instrukcja obsługi Zaplecza epk w zakresie zarządzania tłumaczeniami opisów procedur, publikacji oraz poradników przedsiębiorcy

Kategorialny Parser Składniowo-Semantyczny dla języka polskiego

ISDP w systemach geoinformatycznych dla Parków Narodowych

DSpace. Podstawowe informacje: Co to jest DSpace? Dostęp do danych

Jednolity System Antyplagiatowy

Zarządzanie korespondencją

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Odkrywanie CAQDAS : wybrane bezpłatne programy komputerowe wspomagające analizę danych jakościowych / Jakub Niedbalski. Łódź, 2013.

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

System Wniosków DWZ AGH

Bydgoskie Centrum Archiwizacji Cyfrowej sp. z o.o.

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Praca z ebay. Dokumentacja Użytkownika Systemu. od wersji

Czytelnik w bibliotece cyfrowej

Repozytorium Centrum Technologii Językowych: deponowanie i upowszechnianie zasobów i narzędzi językowych, gromadzenie korpusów tekstowych

KONKURS Ostatnia Imię i nazwisko Zakres wprowadzanych zmian aktualizacja

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

WebSty otwarty webowy system do analiz stylometrycznych

Korpusy językowe podstawowa terminologia i metody tworzenia. Natalia Kotsyba IBI AL Uniwersytet Warszawski 12 i 26 stycznia 2011 r.

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Telesprzedaż by CTI Instrukcja

Wytyczne KPWr. Wyrażenia temporalne. Marcin Oleksy (od 2013 do teraz) Michał Marcińczuk (od 2013 do teraz), Tomasz Bernaś (od 2013 do teraz)

ul. Pogodna Olsztyn codeit@codeit.pl

WPROWADZANIE ZLECEŃ POPRZEZ STRONĘ INSTRUKCJA UŻYTKOWNIKA

LEM wydobywanie statystyk z korpusów

System SINUS otwarte narzędzie do budowy bibliograficznych baz danych

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

EAP XML Legislator Opis zmian w wersji Service Pack 41 ABC PRO Sp. z o.o.

OPIS PRZEDMIOTU ZAMÓWIENIA

Załącznik nr 1. Specyfikacja. Do tworzenia Mapy Kompetencji

BalticBottomBase. Instytut Morski w Gdańsku Gdańsk,

Humanistyka cyfrowa w Katedrze Lingwistyki Formalnej UW

Podstawowe możliwości programu Spectro Market Faktura

Semantyczna analiza języka naturalnego

System Informacji dla Linii Kolejowych narzędziem wspomagającym podejmowanie decyzji w PKP Polskie Linie Kolejowe S.A.

OGÓLNOPOLSKI SPRAWDZIAN KOMPETENCJI TRZECIOKLASISTY OPERON 2015

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

Logowanie do systemu. Rys. 1 Strona logowania

Instrukcja obsługi. Generatora CSV

Horde. Wojciech Myszka

SCENARIUSZE ĆWICZEŃ DLA UŻYTKOWNIKÓW WEWNĘTRZNYCH SYSTEMU INFORMATYCZNEGO NAWIKUS

Repozytoria uczelniane i ich rola w projekcie SYNAT

Wykonawca systemu: Dr inż. Andrzej Łysko

Grafika i Systemy Multimedialne (IGM)

Wymagania dla modułu Pracownia Diagnostyczna załącznik A.2

DOBRE PRAKTYKI W PROCESIE BUDOWY INFRASTRUKTURY INFORMACJI PRZESTRZENNEJ DLA TEMATU ZAGOSPODAROWANIE PRZESTRZENNE.

Otwarty System Antyplagiatowy

Wykonawca systemu: Dr inż. Andrzej Łysko

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Dokumentacja Użytkownika Systemu

Dokumenty planistyczne Gminy Opinogóra Górna

Ujednoznacznianie sensów słów

Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu

CLARIN-PL w praktyce badawczej

Dokumentacja Użytkownika Systemu

Rozwój polskich bibliotek cyfrowych. Tomasz Parkoła Poznańskie Centrum Superkomputerowo-Sieciowe

KATEGORIA OBSZAR WIEDZY

Instrukcja składania wniosku o dofinansowanie w systemie informatycznym IP na potrzeby konkursu nr 1/1.1.2/2015

Spis treści tomu pierwszego

Transkrypt:

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.19

Historia Historia: Webowy system do budowania, anotowania, przeszukiwania i analizowania korpusów tekstowych rozwijany na Politechnice Wrocławskiej od 2009, wykorzystany: w projektach naukowych: NEKST, SyNaT, CLARIN-PL w habilitacjach: M. Zaśko-Zielińska (językoznawstwo - listy pożegnalne samobójców), Ł. Damurski (urbanistyka - dokumenty dotyczące polityki terytorialnej UE) w rozprawach doktorskich: B. Broda (WSD), M. Marcińczuk (NER, relacje semantyczne), A. Radziszewski (frazy składniowe), J. Kocoń (wyrażenia temporalne, wyznaczniki sytuacji) w innych pracach naukowych: E. Kaczmarz (konwersacje z Facebooka), Bernaś (teksty w j. hebrajskim). dostęp do korpusów: KPWr - Korpus Politechniki Wrocławskiej CEN - korpus wiadomości ekonomicznych z Wikinews PCSN - Polski korpus listów pożegnalnych samobójców

Główne cechy Inforex służy przede wszystkim do tworzenia jakościowych danych językowych dostęp przez przeglądarkę internetową nie wymaga instalacji u użytkownika, a jedynie dostępu do Internetu http://inforex.clarin-pl.eu/ (dostęp dla użytkowników posiadających konto w DSpace) integracja z DSpace import korpusu z DSpace do Inforexa, współdzielenie danych między użytkownikami dane przechowywane są na serwerze, autoryzowany dostęp na poziomie korpusu oraz warstw danych i operacji, praca na dokumentach otagowanych (podział na tokeny i zdania) i nieotagowanych wizualizacja struktury dokumentów podczas anotacji, wsparcie dla anotacji typu 2+1.

Poziomy opisu/edycji dokumentów 1. Metadane (tytuł, autor, gatunek, data publikacji, podkorpus) 2. Edycja treści, np. na potrzeby oczyszczania lub anonimizacji dokumentów 3. Opis struktury 4. Anotacje (kategoria, atrybuty, lemat) 5. Relacje między anotacjami (kategoria, kierunek) 6. Znaczenia sensów słów (jako szczególny przypadek anotacji)

Dotychczasowe wykorzystanie 1. Korpus Politechniki Wrocławskiej (KPWr) [PWr, współpraca IPI PAN] frazy składniowe i ich lematyzacja (płytki parsing), jednostki identyfikacyjne (nazwy własne), wyrażenia temporalne (wyznaczniki i normalizacja), relacje semantyczne między jednostkami identyfikacyjnymi), sytuacje, wyrażenia przestrzenne, ujednoznacznianie sensów słów, role semantyczne wewnątrz fraz rzeczownikowych, słowa kluczowe. 2. Korpus Listów Pożegnalnych (PCSN) [UWr, M. Zaśko-Zielińska] transkrypcja skanów, opis struktury listów, anonimizacja, 3. Korpus dokumentów dot. polityki terytorialnej UE [PWr, Ł. Damurski] listy frekwencyjne, znakowanie kategoriami związanymi z polityką terytorialną, 4. Korpus tekstów hebrajskich [UWr, T. Bernaś] znakowanie pojęciami i ich tłumaczenie 5. Korpus konwersacji z Facebooka [UWr, E. Kaczmarz] statystyki błędów językowych i korelacje między nimi

Struktura korpusu

Lista korpusów

Strona startowa korpusu

Strona startowa korpusu

Lista dokumentów

Widok treści dokumentu

Wizualizacja struktury dokumentu (1/2) KPWr Rozmowy z Facebooka (E. Kaczmarz)

Wizualizacja struktury dokumentu (2/2) PCSN (M. Zaśko-Zielińska) Teksty w j. hebrajskim (T. Bernaś)

Ćwiczenie Import korpusu ćwiczeniowego z DSpace do Inforex https://clarin-pl.eu/dspace/handle/11321/335 Korpus wiadomości z pl.wikinews.org (Polska) lata 2013-2015

Zarządzanie korpusem

Dodawanie użytkowników

Role użytkowników

Perspektywy

Statystyki korpusu

Podstawowe statystyki

Frekwencja słów

Lista anotacji

Przeglądanie anotacji - kategorie

Przeglądanie anotacji - lematy

Frekwencja anotacji - kategorie

Frekwencja anotacji - frazy

Lista relacji

Ćwiczenia 1. Określ liczbę wyrazów w zaimportowanym korpusie i jego podkorpusach 2. Wygeneruj i zapisz listę frekwencyjną dla rzeczowników 3. Wygeneruj i zapisz listę frekwencyjną dla wybranej kategorii anotacji

Opisywanie dokumentów

Metadane

Kategorie anotacji

Lematy

Anafora

Sensy słów (WSD)

Anotacja fragmentów tekstu

Bootstrapping

Ćwiczenie 1. Zweryfikuj automatycznie rozpoznane anotacje nazw własnych dla wybranego dokumentu 2. Oznacz i zlematyzuj słowa kluczowe w wybranym dokumencie 3. przeglądanie anotacji nowych i zweryfikowanych

Anotacja 2+1 badanie zgodności

Wybór trybu znakowania

Badanie zgodności Dziękujemy za uwagę

Usuwanie niejednoznaczności

Porównanie zgodności na przykładzie kategoryzacji wyznaczników obiektów

Transkrypcja skanów

Transkrypcja skanów

Dziękujemy za uwagę!