Inforex - zarządzanie korpusami i ich anotacja

Podobne dokumenty
Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Instrukcja. opracował Marcin Oleksy

Instrukcja użytkownika

Narzędzia do automatycznej analizy odniesień w tekstach

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Wykorzystanie narzędzi do automatycznego przetwarzania języka w badaniach onomastycznych

Narzędzia do automatycznej analizy odniesień w tekstach

Narzędzia do automatycznej analizy odniesień w tekstach

Program warsztatów CLARIN-PL

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

DSpace. Co to jest DSpace? Dostęp do danych. 1.Podstawowe informacje: Co to jest DSpace? Dostęp do danych

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania kolokacji

DSpace. Podstawowe informacje: Co to jest DSpace? Dostęp do danych

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

Narzędzia do automatycznego wydobywania kolokacji

Jednolity System Antyplagiatowy. Jak interpretować wynik?

Plan. Wprowadzenie. Co to jest APEX? Wprowadzenie. Administracja obszarem roboczym

Instalowanie VHOPE i plików biblioteki VHOPE

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Jednolity System Antyplagiatowy. Jak interpretować wynik?

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

CLARIN infrastruktura naukowa technologii językowych

Zadanie 2. Tworzenie i zarządzanie niestandardową konsolą MMC

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

IBM SPSS Statistics - Essentials for R: Instrukcje instalacji dla System Mac OS

ELEKTRONICZNA KSIĄŻKA ZDARZEŃ

Podstawowe możliwości programu Spectro Market Faktura

IBM SPSS Statistics - Essentials for R: Instrukcje instalacji dla Windows

Narzędzia do ekstrakcji informacji z tekstu

Instrukcja InPro BMS Siemens FC700A InPro Professional 4.1

Open Access w technologii językowej dla języka polskiego

Koncepcja węzła IIP na przykładzie planów zagospodarowania przestrzennego

Wczytywanie cenników z poziomu programu Norma EXPERT Tworzenie własnych cenników w programie Norma EXPERT... 4

Szczegółowy opis przedmiotu zamówienia

Odkrywanie CAQDAS : wybrane bezpłatne programy komputerowe wspomagające analizę danych jakościowych / Jakub Niedbalski. Łódź, 2013.

Kod składa się z kodu głównego oraz z odpowiednich kodów dodatkowych (akcesoriów). Do kodu można przyłączyć maksymalnie 9 kodów dodatkowych.

Po uruchomieniu adresu otwiera się okno strony głównej z przekierowaniem do właściwej przeglądarki Start The LandsatLook Viewer (ryc. 1).

Instrukcjaaktualizacji

Bydgoskie Centrum Archiwizacji Cyfrowej sp. z o.o.

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Aquarius Podręcznik uz ytkownika

Spis treści. Księgarnia PWN: Roland Zimek - SWiSH Max2 i SWiSH Max3. Wprowadzenie... 9

Spis treści. Księgarnia PWN: Roland Zimek - Swish Max3

Płace VULCAN. Migracja danych z programu Płace Optivum do aplikacji Płace VULCAN

2. Podstawy narzędzia Application Builder, budowa strony, kreatory aplikacji

Ustalanie dostępu do plików - Windows XP Home/Professional

Lokalizacja Oprogramowania

ANALYSIS SERVICES. 1. Tworzymy połączenie ze źródłem danych. 2. Tworzymy nowy widok dla źródła danych

Spis treści Wstęp 1. Językoznawstwo sądowe

Zarządzanie korespondencją

MDW. (Moduł Dystrybucji Wysyłek) (Moduł Magento) v Strona 1 z 11

Wyświetlanie publikacji w formacie DjVu. Wyświetlanie publikacji w Bałtyckiej Bibliotece Cyfrowej można realizować na 3 sposoby:

Instrukcja instalacji

Instrukcja. importu dokumentów. z programu Fakt do programu Płatnik. oraz. przesyłania danych do ZUS. przy pomocy programu Płatnik

Komputerowy system elektronicznego dzienniczka ucznia e-dziennik

Uwierzytelnianie użytkowników sieci bezprzewodowej z wykorzystaniem serwera Radius (Windows 2008)

OPIS PRZEDMIOTU ZAMÓWIENIA

Instrukcja użytkownika

1. Cel i zakres dokumentu Słownik pojęć użytych w instrukcji... 3

EAP XML Legislator Opis zmian w wersji Service Pack 41 ABC PRO Sp. z o.o.

MentorGraphics ModelSim

InCites Benchmarking & Analytics krótki przegląd funkcji

SYSTEM PROXY. Zdalny dostęp do zasobów elektronicznych BGiOINT Politechniki Wrocławskiej

Przewodnik użytkownika systemu AgentWorks generowanie raportów wydanie 11 wersja polska

Spis treści. 1: Wyszukiwanie elementu : Do linii modelu : Powiel arkusze : Długość kabla : Rozmieszczenie widoków...

Jednolity System Antyplagiatowy

STRONY DEALERSKIE W SYSTEMIE K2

1. Ćwiczenia z programem PowerPoint

Galileo v10 pierwszy program

- Sławomir Pieszczek. Spis treści

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

Tomasz Greszata - Koszalin

Laboratorium - Konfiguracja ustawień przeglądarki w Windows XP

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

System Zarządzania Czasem Pracy na Produkcji by CTI. Instrukcja

podstawowa obsługa panelu administracyjnego

emszmal 3: Automatyczne księgowanie przelewów w sklepie internetowym Magento (plugin dostępny w wersji ecommerce)

Platforma VULCAN. Jak rozpocząć pracę na Platformie VULCAN? Logowanie administratora głównego do Platformy

Scenariusze obsługi danych MPZP

System Wniosków DWZ AGH

4. Podstawowa konfiguracja

Przewodnik... Segmentacja listy Odbiorców

Aplikacja VISO Mobile (Android) Instrukcja instalacji i obsługi

IBM SPSS Statistics - Essentials for R: Instrukcje instalacji dla Linux

Skrócony podręcznik dla partnerów

OvidSP - Skrócony opis wyszukiwania - Wyszukiwanie proste i złożone,

Jak rozpocząć pracę? Mapa

Laboratorium - Konfiguracja ustawień przeglądarki w Windows 7

Podręcznik użytkownika

PC0060. ADAPTER Kabel Easy Copy PC-Link USB 2.0 Proste kopiowanie, bez instalacji. Instrukcja obsługi

Transkrypt:

Inforex - zarządzanie korpusami i ich anotacja Marcin Oleksy marcin.oleksy@pwr.edu.pl Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.19 (http://nlp.pwr.wroc.pl/)

Historia Webowy system do budowania, anotowania, przeszukiwania i analizowania korpusów tekstowych Historia: rozwijany na Politechnice Wrocławskiej od 2009, wykorzystany: w projektach naukowych: NEKST, SyNaT, CLARIN-PL w habilitacjach: M. Zaśko-Zielińska (językoznawstwo - listy pożegnalne samobójców), Ł. Damurski (urbanistyka - dokumenty dotyczące polityki terytorialnej UE) w rozprawach doktorskich: B. Broda (WSD), M. Marcińczuk (NER, relacje semantyczne), A. Radziszewski (frazy składniowe), J. Kocoń (wyrażenia temporalne, wyznaczniki sytuacji) w innych pracach naukowych: E. Kaczmarz (konwersacje z Facebooka), Bernaś (teksty w j. hebrajskim). dostęp do korpusów: KPWr - Korpus Politechniki Wrocławskiej CEN - korpus wiadomości ekonomicznych z Wikinews PCSN - Polski korpus listów pożegnalnych samobójców

Główne cechy Inforex służy przede wszystkim do tworzenia jakościowych danych językowych dostęp przez przeglądarkę internetową nie wymaga instalacji u użytkownika, a jedynie dostępu do Internetu http://inforex.clarin-pl.eu/ (dostęp dla użytkowników posiadających konto w DSpace) integracja z DSpace import korpusu z DSpace do Inforexa, współdzielenie danych między użytkownikami dane przechowywane są na serwerze, autoryzowany dostęp na poziomie korpusu oraz warstw danych i operacji, praca na dokumentach otagowanych (podział na tokeny i zdania) i nieotagowanych wizualizacja struktury dokumentów podczas anotacji, wsparcie dla anotacji typu 2+1.

Dotychczasowe wykorzystanie Korpus Politechniki Wrocławskiej (KPWr) [PWr, IPI PAN] frazy składniowe i ich lematyzacja (płytki parsing), jednostki identyfikacyjne (nazwy własne), wyrażenia temporalne (wyznaczniki i normalizacja), relacje semantyczne między jednostkami identyfikacyjnymi), sytuacje, wyrażenia przestrzenne, ujednoznacznianie sensów słów, role semantyczne wewnątrz fraz rzeczownikowych, słowa kluczowe. Korpus Listów Pożegnalnych (PCSN) [UWr - M. Zaśko-Zielińska] transkrypcja skanów, opis struktury listów, anonimizacja, Korpus dokumentów dot. polityki terytorialnej UE [PWr - Ł. Damurski] listy frekwencyjne, znakowanie kategoriami związanymi z polityką terytorialną, Korpus tekstów hebrajskich [UWr, T. Bernaś] znakowanie pojęciami i ich tłumaczenie Korpus konwersacji z Facebooka [UWr, E. Kaczmarz] statystyki błędów językowych i korelacje między nimi

Główne obszary Corpora zestaw dostępnych korpusów Liner2 narzędzie Liner2 - rozpoznawanie nazw własnych i wyrażeń temporalnych CCL Viewer przeglądarka plików w formacie ccl Wccl Match Tester testowanie reguł dopasowania sekwencji tokenów i/lub anotacji w obrębie zdania Administration panel administracyjny About & Citing informacje o systemie, materiały warsztatowe, wskazówki do cytowania

Sekcja Corpora

Sekcja Corpora

Sekcja Corpora Start wizualizacja struktury korpusu i postępu anotacji (flagi) Annotations Annotation browser Relations relacje między anotacjami Wccl Match anotacja z wykorzystaniem reguł WCCL globalne statystyki anotacji w ramach zdefiniowanych kategorii Annotation frequency listy frekwencyjne anotacji oraz ich dystrybucja w ramach poszczególnych podkorpusów Words frequency listy frekwencyjne słów Export eksportowanie korpusu wraz z anotacjami przeglądanie anotacji w kontekstach Statistics informacje statystyczne na temat rozmiaru korpusu Documents dokumenty wchodzące w skład korpusu Tests testym spójności korpusu Settings ustawienia korpusu Add document tworzenie nowego dokumentu Upload documents przesyłanie dokumentów

PRZEGLĄD

Strona startowa korpusu Corpora / (nazwa korpusu) / Start

Podstawowe statystyki Corpora / (nazwa korpusu) / Statistics

Frekwencja słów Corpora /(nazwa korpusu) / Words frequency

Frekwencja słów Corpora / (nazwa korpusu) / Words frequency eksport listy

Lista dokumentów Corpora / (nazwa korpusu) / Documents

Lista dokumentów Corpora / (nazwa korpusu) / Documents

Widok treści dokumentu Corpora / (nazwa korpusu) / Documents > Preview/Annotator

Wizualizacja struktury dokumentu (1/2) KPWr Rozmowy z Facebooka (E. Kaczmarz)

Wizualizacja struktury dokumentu (2/2) PCSN (M. Zaśko-Zielińska) Teksty w j. hebrajskim (T. Bernaś)

ANOTACJA

Flagi

Flagi Droga 1 Droga 2 1. 2. 3. 1. 2. 3. 4. Przejdź do sekcji Start Uruchom akcję add/remove flags Utwórz nową flagę za pomocą polecenia (New) Opisz flagę i potwierdź 4. Przejdź do sekcji Settings Wybierz zakładkę Flags Utwórz nową flagę za pomocą polecenia (New) Opisz flagę i potwierdź

Flagi Droga 1 Droga 2 1. 2. 3. 1. 2. 3. 4. Przejdź do sekcji Start Uruchom akcję add/remove flags Utwórz nową flagę za pomocą polecenia (New) Opisz flagę i potwierdź Przejdź do sekcji Settings Wybierz zakładkę Flags Utwórz nową flagę za pomocą polecenia (New) Opisz flagę i potwierdź flagowanie 4.

Predefiniowane warstwy anotacji

Predefiniowane warstwy anotacji 1. 2. 3. Przejdź do sekcji Settings Wybierz zakładkę Annotation sets Przypisz odpowiednią warstwę anotacji, klikając przycisk wyboru w odpowiednim wierszu tabeli

Flagi

Predefiniowane warstwy anotacji 1. 2. 3. Przejdź do sekcji Settings Wybierz zakładkę Annotation sets Przypisz odpowiednią warstwę anotacji, klikając przycisk wyboru w odpowiednim wierszu tabeli dodawanie warstw

Własne warstwy anotacji

Własne warstwy anotacji 1. 2. 3. Przejdź do sekcji Settings Wybierz zakładkę Custom annotation sets Stwórz schemat anotacji: 3.1. zestaw kategorii (Annotation sets) 3.2. zestaw podkategorii (Annotation subsets) 3.3. kategorie (Categories)

Własne warstwy anotacji 1. 2. 3. Przejdź do sekcji Settings Wybierz zakładkę Custom annotation sets Stwórz schemat anotacji: 3.1. zestaw kategorii (Annotation sets) 3.2. zestaw podkategorii (Annotation subsets) 3.3. kategorie (Categories) dodawanie warstw

Ręczne znakowanie Corpora / (nazwa korpusu) / Documents > Annotator

Ręczne znakowanie Corpora / (nazwa korpusu) / Documents > Annotator

Ręczne znakowanie Corpora / (nazwa korpusu) / Documents > Annotator

Ręczne znakowanie Corpora / (nazwa korpusu) / Documents > Annotator

Ręczne znakowanie Corpora / (nazwa korpusu) / Documents > Annotator anotacja

BOOTSTRAPPING

Bootstrapping Corpora / (nazwa korpusu) / Documents > Bootstrapping

PRZEGLĄDANIE ANOTACJI

Lista anotacji Corpora / (nazwa korpusu) / Annotations

Frekwencja anotacji - kategorie Corpora / (nazwa korpusu) / Annotation frequency

Frekwencja anotacji - frazy Corpora / (nazwa korpusu) / Annotation frequency

Przeglądanie anotacji - kategorie Corpora / (nazwa korpusu) / Annotation browser

Przeglądanie anotacji - kategorie Corpora / (nazwa korpusu) / Annotation browser

Przeglądanie anotacji - lematy Corpora / (nazwa korpusu) / Annotation frequency

Przeglądanie anotacji - lematy Corpora / (nazwa korpusu) / Annotation frequency eksport listy

ADMINISTRACJA

Dodawanie użytkowników Corpora / (nazwa korpusu) / Settings > Users

Role użytkowników Corpora / (nazwa korpusu) / Settings > Users roles

Perspektywy Corpora / (nazwa korpusu) / Settings > Perspectives

KONTROLA

Badanie zgodności Corpora / (nazwa korpusu) / Agreement

Badanie zgodności Corpora / (nazwa korpusu) / Agreement

Badanie zgodności Corpora / (nazwa korpusu) / Agreement

Badanie zgodności Corpora / (nazwa korpusu) / Agreement

Badanie zgodności Corpora / (nazwa korpusu) / Agreement

Badanie zgodności Corpora / (nazwa korpusu) / Agreement

Badanie zgodności Corpora / (nazwa korpusu) / Agreement

Usuwanie niejednoznaczności Corpora / (nazwa korpusu) / Documents > Agreement

Porównanie zgodności na przykładzie kategoryzacji wyznaczników obiektów

INNE FUNKCJE

Upload Corpora / (nazwa korpusu) / Upload documents

Edycja metadanych dokumentów Corpora / (nazwa korpusu) / Documents > Metadata

Lista relacji Corpora / (nazwa korpusu) / Relations

Lematy Corpora / (nazwa korpusu) / Documents > Annotation lemmas

Sensy słów (WSD) Corpora / (nazwa korpusu) / Documents > WSD

OBRAZ - TEKST

Transkrypcja skanów

Dziękujemy za uwagę!