Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Podobne dokumenty
Inforex - zarządzanie korpusami i ich anotacja

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Instrukcja. opracował Marcin Oleksy

Instrukcja użytkownika

Narzędzia do automatycznej analizy odniesień w tekstach

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Wykorzystanie narzędzi do automatycznego przetwarzania języka w badaniach onomastycznych

Narzędzia do automatycznej analizy odniesień w tekstach

Program warsztatów CLARIN-PL

Narzędzia do automatycznej analizy odniesień w tekstach

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

DSpace. Co to jest DSpace? Dostęp do danych. 1.Podstawowe informacje: Co to jest DSpace? Dostęp do danych

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania kolokacji

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

DSpace. Podstawowe informacje: Co to jest DSpace? Dostęp do danych

Narzędzia do automatycznego wydobywania kolokacji

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Instalowanie VHOPE i plików biblioteki VHOPE

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

CLARIN infrastruktura naukowa technologii językowych

Plan. Wprowadzenie. Co to jest APEX? Wprowadzenie. Administracja obszarem roboczym

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Jednolity System Antyplagiatowy. Jak interpretować wynik?

Podstawowe możliwości programu Spectro Market Faktura

Zadanie 2. Tworzenie i zarządzanie niestandardową konsolą MMC

Po uruchomieniu adresu otwiera się okno strony głównej z przekierowaniem do właściwej przeglądarki Start The LandsatLook Viewer (ryc. 1).

Bydgoskie Centrum Archiwizacji Cyfrowej sp. z o.o.

ELEKTRONICZNA KSIĄŻKA ZDARZEŃ

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Jednolity System Antyplagiatowy. Jak interpretować wynik?

Narzędzia do ekstrakcji informacji z tekstu

Instrukcjaaktualizacji

Wczytywanie cenników z poziomu programu Norma EXPERT Tworzenie własnych cenników w programie Norma EXPERT... 4

MentorGraphics ModelSim

Wyświetlanie publikacji w formacie DjVu. Wyświetlanie publikacji w Bałtyckiej Bibliotece Cyfrowej można realizować na 3 sposoby:

Koncepcja węzła IIP na przykładzie planów zagospodarowania przestrzennego

Spis treści. Księgarnia PWN: Roland Zimek - Swish Max3

Scenariusze obsługi danych MPZP

Kod składa się z kodu głównego oraz z odpowiednich kodów dodatkowych (akcesoriów). Do kodu można przyłączyć maksymalnie 9 kodów dodatkowych.

Open Access w technologii językowej dla języka polskiego

Szczegółowy opis przedmiotu zamówienia

Spis treści Wstęp 1. Językoznawstwo sądowe

IBM SPSS Statistics - Essentials for R: Instrukcje instalacji dla System Mac OS

Odkrywanie CAQDAS : wybrane bezpłatne programy komputerowe wspomagające analizę danych jakościowych / Jakub Niedbalski. Łódź, 2013.

MDW. (Moduł Dystrybucji Wysyłek) (Moduł Magento) v Strona 1 z 11

2. Podstawy narzędzia Application Builder, budowa strony, kreatory aplikacji

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

WEBTRUCKER INSTRUKCJA OBSŁUGI V.2.6

Instrukcja instalacji

WebSty otwarty webowy system do analiz stylometrycznych

Edge-Core Networks Przełączniki WebSmart: Podręcznik Administratora

Spis treści. Księgarnia PWN: Roland Zimek - SWiSH Max2 i SWiSH Max3. Wprowadzenie... 9

IBM SPSS Statistics - Essentials for R: Instrukcje instalacji dla Windows

Instrukcja InPro BMS Siemens FC700A InPro Professional 4.1

Tomasz Greszata - Koszalin

Import danych z plików Excel. (pracownicy, limity urlopowe i inne)

Ustalanie dostępu do plików - Windows XP Home/Professional

Jak rozpocząć pracę? Mapa

Lokalizacja Oprogramowania

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

Laboratorium A: Podstawy administrowania serwerem

Aquarius Podręcznik uz ytkownika

Instrukcja. importu dokumentów. z programu Fakt do programu Płatnik. oraz. przesyłania danych do ZUS. przy pomocy programu Płatnik

Spis treści. 1: Wyszukiwanie elementu : Do linii modelu : Powiel arkusze : Długość kabla : Rozmieszczenie widoków...

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

STRONY DEALERSKIE W SYSTEMIE K2

I. Program II. Opis głównych funkcji programu... 19

1. Ćwiczenia z programem PowerPoint

Oprogramowanie ILUO Biznes pozwala na jednoczesne zarządzanie wieloma sklepami Internetowymi zbudowanymi na oprogramowaniu różnych producentów.

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

Instrukcja obsługi. Generatora CSV

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Płace VULCAN. Migracja danych z programu Płace Optivum do aplikacji Płace VULCAN

Temat lekcji: Har a m r o m nogr g a r m a m za z d a ań a

KATEGORIA OBSZAR WIEDZY

Galileo v10 pierwszy program

Przewodnik użytkownika (instrukcja) AutoMagicTest

Platforma VULCAN. Jak rozpocząć pracę na Platformie VULCAN? Logowanie administratora głównego do Platformy

Poniżej przedstawiamy moduły i funkcjonalności systemu.

System Zarządzania Czasem Pracy na Produkcji by CTI. Instrukcja

inwasico.ico inwasico.ico inwasico.ico Instrukcja InwasApplication

podstawowa obsługa panelu administracyjnego

Podręcznik użytkownika

ANALYSIS SERVICES. 1. Tworzymy połączenie ze źródłem danych. 2. Tworzymy nowy widok dla źródła danych

emszmal 3: Automatyczne księgowanie przelewów w sklepie internetowym Magento (plugin dostępny w wersji ecommerce)

Wstęp 5 Rozdział 1. Instalacja systemu 13. Rozdział 2. Logowanie i wylogowywanie 21 Rozdział 3. Pulpit i foldery 25. Rozdział 4.

Laboratorium - Monitorowanie i zarządzanie zasobami systemu Windows 7

Laboratorium - Monitorowanie i zarządzanie zasobami systemu Windows Vista

Blokowanie stron internetowych

Projekt: Narzędzia zarządzania testowaniem badanie narzędzia. Część 2.3 Badanie Synapse RT

Komputerowy system elektronicznego dzienniczka ucznia e-dziennik

OvidSP - Skrócony opis wyszukiwania - Wyszukiwanie proste i złożone,

Transkrypt:

Inforex - zarządzanie korpusami i ich anotacja Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy Jan Wieczorek Jan Kocoń marcin.oleksy@pwr.edu.pl jan.wieczorek@pwr.edu.pl jan.kocon@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.19

Historia Webowy system do budowania, anotowania, przeszukiwania i analizowania korpusów tekstowych Historia: rozwijany na Politechnice Wrocławskiej od 2009, wykorzystany: w projektach naukowych: NEKST, SyNaT, CLARIN-PL w habilitacjach: M. Zaśko-Zielińska (językoznawstwo - listy pożegnalne samobójców), Ł. Damurski (urbanistyka - dokumenty dotyczące polityki terytorialnej UE) w rozprawach doktorskich: B. Broda (WSD), M. Marcińczuk (NER, relacje semantyczne), A. Radziszewski (frazy składniowe), J. Kocoń (wyrażenia temporalne, wyznaczniki sytuacji) w innych pracach naukowych: E. Kaczmarz (konwersacje z Facebooka), T. Bernaś (teksty w j. hebrajskim). dostęp do korpusów: KPWr - Korpus Politechniki Wrocławskiej CEN - korpus wiadomości ekonomicznych z Wikinews PCSN - Polski korpus listów pożegnalnych samobójców

Główne cechy Inforex służy przede wszystkim do tworzenia jakościowych danych językowych dostęp przez przeglądarkę internetową nie wymaga instalacji u użytkownika, a jedynie dostępu do Internetu http://inforex.clarin-pl.eu/ (dostęp dla użytkowników posiadających konto w DSpace) integracja z DSpace import korpusu z DSpace do Inforexa, współdzielenie danych między użytkownikami dane przechowywane są na serwerze, autoryzowany dostęp na poziomie korpusu oraz warstw danych i operacji, praca na dokumentach otagowanych (podział na tokeny i zdania) i nieotagowanych wizualizacja struktury dokumentów podczas anotacji, wsparcie dla anotacji typu 2+1. instrukcja https://inforex.clarin-pl.eu/index.php?page=about

Dotychczasowe wykorzystanie Korpus Politechniki Wrocławskiej (KPWr) [PWr, IPI PAN] frazy składniowe i ich lematyzacja (płytki parsing), jednostki identyfikacyjne (nazwy własne), wyrażenia temporalne (wyznaczniki i normalizacja), relacje semantyczne między jednostkami identyfikacyjnymi), sytuacje, wyrażenia przestrzenne, ujednoznacznianie sensów słów, role semantyczne wewnątrz fraz rzeczownikowych, słowa kluczowe. Korpus Listów Pożegnalnych (PCSN) [UWr - M. Zaśko-Zielińska] transkrypcja skanów, opis struktury listów, anonimizacja, Korpus dokumentów dot. polityki terytorialnej UE [PWr - Ł. Damurski] listy frekwencyjne, znakowanie kategoriami związanymi z polityką terytorialną, Korpus tekstów hebrajskich [UWr, T. Bernaś] znakowanie pojęciami i ich tłumaczenie Korpus konwersacji z Facebooka [UWr, E. Kaczmarz] statystyki błędów językowych i korelacje między nimi

Główne obszary Corpora zestaw dostępnych korpusów Annotations ogólne statystyki anotacji Liner2 narzędzie Liner2 - rozpoznawanie nazw własnych i wyrażeń temporalnych CCL Viewer przeglądarka plików w formacie ccl Wccl Match Tester testowanie reguł dopasowania sekwencji tokenów i/lub anotacji w obrębie zdania Administration panel administracyjny About & Citing informacje o systemie, materiały warsztatowe, wskazówki do cytowania

Sekcja Corpora

Sekcja Corpora

Sekcja Corpora Start wizualizacja struktury korpusu i postępu anotacji (flagi) Documents Annotations globalne statystyki anotacji w ramach zdefiniowanych kategorii Relations Statistics informacje statystyczne na temat rozmiaru korpusu Task uruchamianie na korpusie innych narzędzi Metadata batch edit masowa edycja metadanych Export eksportowanie korpusu wraz z anotacjami testy spójności korpusu Wccl Match anotacja z wykorzystaniem reguł WCCL Annotation frequency listy frekwencyjne anotacji oraz ich dystrybucja w ramach poszczególnych podkorpusów Data integrity tests Words frequency listy frekwencyjne słów relacje między anotacjami Morphological agreement informacje o zgodności korekty tagów morfologicznych Annotation browser przeglądanie anotacji w kontekstach Relation agreement informacje o zgodności relacji dokumenty wchodzące w skład korpusu Annotation agreement informacje o zgodności anotacji Settings ustawienia korpusu Add document tworzenie nowego dokumentu Upload documents przesyłanie dokumentów

PRZEGLĄDANIE

Strona startowa korpusu Corpora / (nazwa korpusu) / Start

Podstawowe statystyki Corpora / (nazwa korpusu) / Statistics

Frekwencja słów Corpora /(nazwa korpusu) / Words frequency

Frekwencja słów Corpora / (nazwa korpusu) / Words frequency eksport listy

Lista dokumentów Corpora / (nazwa korpusu) / Documents

Lista dokumentów (filtrowanie) Corpora / (nazwa korpusu) / Documents

Widok treści dokumentu Corpora / (nazwa korpusu) / Documents > Preview/Annotator

Wizualizacja struktury dokumentu (1/2) KPWr Rozmowy z Facebooka (E. Kaczmarz)

Wizualizacja struktury dokumentu (2/2) PCSN (M. Zaśko-Zielińska) Teksty w j. hebrajskim (T. Bernaś)

ANOTACJA

Flagi

Flagi Droga 1 Droga 2 1. 2. 3. 1. 2. 3. 4. Przejdź do sekcji Start Uruchom akcję add/remove flags Utwórz nową flagę za pomocą polecenia (New) Opisz flagę i potwierdź 4. Przejdź do sekcji Settings Wybierz zakładkę Flags Utwórz nową flagę za pomocą polecenia (New) Opisz flagę i potwierdź

Flagi Droga 1 Droga 2 1. 2. 3. 1. 2. 3. 4. Przejdź do sekcji Start Uruchom akcję add/remove flags Utwórz nową flagę za pomocą polecenia (New) Opisz flagę i potwierdź Przejdź do sekcji Settings Wybierz zakładkę Flags Utwórz nową flagę za pomocą polecenia (New) Opisz flagę i potwierdź flagowanie 4.

Predefiniowane warstwy anotacji

Predefiniowane warstwy anotacji 1. 2. 3. Przejdź do sekcji Settings Wybierz zakładkę Annotation sets Przypisz odpowiednią warstwę anotacji, klikając przycisk wyboru w odpowiednim wierszu tabeli

Flagi

Predefiniowane warstwy anotacji 1. 2. 3. Przejdź do sekcji Settings Wybierz zakładkę Annotation sets Przypisz odpowiednią warstwę anotacji, klikając przycisk wyboru w odpowiednim wierszu tabeli dodawanie warstw

Własne warstwy anotacji

Własne warstwy anotacji 1. 2. 3. Przejdź do sekcji Settings Wybierz zakładkę Custom annotation sets Stwórz schemat anotacji: 3.1. zestaw kategorii (Annotation sets) 3.2. zestaw podkategorii (Annotation subsets) 3.3. kategorie (Categories)

Własne warstwy anotacji 1. 2. 3. Przejdź do sekcji Settings Wybierz zakładkę Custom annotation sets Stwórz schemat anotacji: 3.1. zestaw kategorii (Annotation sets) 3.2. zestaw podkategorii (Annotation subsets) 3.3. kategorie (Categories) dodawanie warstw

Ręczne znakowanie Corpora / (nazwa korpusu) / Documents > Annotator

Ręczne znakowanie Corpora / (nazwa korpusu) / Documents > Annotator

Ręczne znakowanie Corpora / (nazwa korpusu) / Documents > Annotator

Ręczne znakowanie Corpora / (nazwa korpusu) / Documents > Annotator

Ręczne znakowanie Corpora / (nazwa korpusu) / Documents > Annotator anotacja

Ręczne korekta tagowania Corpora / (nazwa korpusu) / Documents > Morphological Disambiguation

BOOTSTRAPPING

Bootstrapping Corpora / (nazwa korpusu) / Documents > Bootstrapping

PRZEGLĄDANIE ANOTACJI

Lista anotacji Corpora / (nazwa korpusu) / Annotations

Frekwencja anotacji - kategorie Corpora / (nazwa korpusu) / Annotation frequency

Frekwencja anotacji - frazy Corpora / (nazwa korpusu) / Annotation frequency

Przeglądanie anotacji - kategorie Corpora / (nazwa korpusu) / Annotation browser

Przeglądanie anotacji - kategorie Corpora / (nazwa korpusu) / Annotation browser

Przeglądanie anotacji - lematy Corpora / (nazwa korpusu) / Annotation frequency

Przeglądanie anotacji - lematy Corpora / (nazwa korpusu) / Annotation frequency eksport listy

ADMINISTRACJA

Dodawanie użytkowników Corpora / (nazwa korpusu) / Settings > Users

Role użytkowników Corpora / (nazwa korpusu) / Settings > Users roles

Perspektywy (01) Corpora / (nazwa korpusu) / Settings > Perspectives

Perspektywy (02) Corpora / (nazwa korpusu) / Settings > Perspectives

KONTROLA

Badanie zgodności Corpora / (nazwa korpusu) / Annotation agreement

Badanie zgodności Corpora / (nazwa korpusu) / Annotation agreement

Badanie zgodności Corpora / (nazwa korpusu) / Annotation agreement

Badanie zgodności Corpora / (nazwa korpusu) / Annotation agreement

Badanie zgodności Corpora / (nazwa korpusu) / Annotation agreement

Badanie zgodności Corpora / (nazwa korpusu) / Annotation agreement

Badanie zgodności Corpora / (nazwa korpusu) / Annotation agreement

Usuwanie niejednoznaczności Corpora / (nazwa korpusu) / Documents > Agreement

Usuwanie niejednoznaczności Corpora / (nazwa korpusu) / Documents > Relation agreement

Usuwanie niejednoznaczności Corpora / (nazwa korpusu) / Documents > Morphological Disambiguation Agreement

Porównanie zgodności na przykładzie kategoryzacji wyznaczników obiektów

INNE FUNKCJE

Upload Corpora / (nazwa korpusu) / Upload documents

Edycja metadanych dokumentów Corpora / (nazwa korpusu) / Documents > Metadata

Nowe kategorie metadanych Corpora / (nazwa korpusu) / Settings > Metadata

Lista relacji Corpora / (nazwa korpusu) / Relations

Lematy Corpora / (nazwa korpusu) / Documents > Annotation lemmas

Sensy słów (WSD) Corpora / (nazwa korpusu) / Documents > WSD

OBRAZ - TEKST

Transkrypcja skanów

Dziękujemy za uwagę!