Inforex - zarządzanie korpusami i ich anotacja Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy Jan Wieczorek Jan Kocoń marcin.oleksy@pwr.edu.pl jan.wieczorek@pwr.edu.pl jan.kocon@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.19
Historia Webowy system do budowania, anotowania, przeszukiwania i analizowania korpusów tekstowych Historia: rozwijany na Politechnice Wrocławskiej od 2009, wykorzystany: w projektach naukowych: NEKST, SyNaT, CLARIN-PL w habilitacjach: M. Zaśko-Zielińska (językoznawstwo - listy pożegnalne samobójców), Ł. Damurski (urbanistyka - dokumenty dotyczące polityki terytorialnej UE) w rozprawach doktorskich: B. Broda (WSD), M. Marcińczuk (NER, relacje semantyczne), A. Radziszewski (frazy składniowe), J. Kocoń (wyrażenia temporalne, wyznaczniki sytuacji) w innych pracach naukowych: E. Kaczmarz (konwersacje z Facebooka), T. Bernaś (teksty w j. hebrajskim). dostęp do korpusów: KPWr - Korpus Politechniki Wrocławskiej CEN - korpus wiadomości ekonomicznych z Wikinews PCSN - Polski korpus listów pożegnalnych samobójców
Główne cechy Inforex służy przede wszystkim do tworzenia jakościowych danych językowych dostęp przez przeglądarkę internetową nie wymaga instalacji u użytkownika, a jedynie dostępu do Internetu http://inforex.clarin-pl.eu/ (dostęp dla użytkowników posiadających konto w DSpace) integracja z DSpace import korpusu z DSpace do Inforexa, współdzielenie danych między użytkownikami dane przechowywane są na serwerze, autoryzowany dostęp na poziomie korpusu oraz warstw danych i operacji, praca na dokumentach otagowanych (podział na tokeny i zdania) i nieotagowanych wizualizacja struktury dokumentów podczas anotacji, wsparcie dla anotacji typu 2+1. instrukcja https://inforex.clarin-pl.eu/index.php?page=about
Dotychczasowe wykorzystanie Korpus Politechniki Wrocławskiej (KPWr) [PWr, IPI PAN] frazy składniowe i ich lematyzacja (płytki parsing), jednostki identyfikacyjne (nazwy własne), wyrażenia temporalne (wyznaczniki i normalizacja), relacje semantyczne między jednostkami identyfikacyjnymi), sytuacje, wyrażenia przestrzenne, ujednoznacznianie sensów słów, role semantyczne wewnątrz fraz rzeczownikowych, słowa kluczowe. Korpus Listów Pożegnalnych (PCSN) [UWr - M. Zaśko-Zielińska] transkrypcja skanów, opis struktury listów, anonimizacja, Korpus dokumentów dot. polityki terytorialnej UE [PWr - Ł. Damurski] listy frekwencyjne, znakowanie kategoriami związanymi z polityką terytorialną, Korpus tekstów hebrajskich [UWr, T. Bernaś] znakowanie pojęciami i ich tłumaczenie Korpus konwersacji z Facebooka [UWr, E. Kaczmarz] statystyki błędów językowych i korelacje między nimi
Główne obszary Corpora zestaw dostępnych korpusów Annotations ogólne statystyki anotacji Liner2 narzędzie Liner2 - rozpoznawanie nazw własnych i wyrażeń temporalnych CCL Viewer przeglądarka plików w formacie ccl Wccl Match Tester testowanie reguł dopasowania sekwencji tokenów i/lub anotacji w obrębie zdania Administration panel administracyjny About & Citing informacje o systemie, materiały warsztatowe, wskazówki do cytowania
Sekcja Corpora
Sekcja Corpora
Sekcja Corpora Start wizualizacja struktury korpusu i postępu anotacji (flagi) Documents Annotations globalne statystyki anotacji w ramach zdefiniowanych kategorii Relations Statistics informacje statystyczne na temat rozmiaru korpusu Task uruchamianie na korpusie innych narzędzi Metadata batch edit masowa edycja metadanych Export eksportowanie korpusu wraz z anotacjami testy spójności korpusu Wccl Match anotacja z wykorzystaniem reguł WCCL Annotation frequency listy frekwencyjne anotacji oraz ich dystrybucja w ramach poszczególnych podkorpusów Data integrity tests Words frequency listy frekwencyjne słów relacje między anotacjami Morphological agreement informacje o zgodności korekty tagów morfologicznych Annotation browser przeglądanie anotacji w kontekstach Relation agreement informacje o zgodności relacji dokumenty wchodzące w skład korpusu Annotation agreement informacje o zgodności anotacji Settings ustawienia korpusu Add document tworzenie nowego dokumentu Upload documents przesyłanie dokumentów
PRZEGLĄDANIE
Strona startowa korpusu Corpora / (nazwa korpusu) / Start
Podstawowe statystyki Corpora / (nazwa korpusu) / Statistics
Frekwencja słów Corpora /(nazwa korpusu) / Words frequency
Frekwencja słów Corpora / (nazwa korpusu) / Words frequency eksport listy
Lista dokumentów Corpora / (nazwa korpusu) / Documents
Lista dokumentów (filtrowanie) Corpora / (nazwa korpusu) / Documents
Widok treści dokumentu Corpora / (nazwa korpusu) / Documents > Preview/Annotator
Wizualizacja struktury dokumentu (1/2) KPWr Rozmowy z Facebooka (E. Kaczmarz)
Wizualizacja struktury dokumentu (2/2) PCSN (M. Zaśko-Zielińska) Teksty w j. hebrajskim (T. Bernaś)
ANOTACJA
Flagi
Flagi Droga 1 Droga 2 1. 2. 3. 1. 2. 3. 4. Przejdź do sekcji Start Uruchom akcję add/remove flags Utwórz nową flagę za pomocą polecenia (New) Opisz flagę i potwierdź 4. Przejdź do sekcji Settings Wybierz zakładkę Flags Utwórz nową flagę za pomocą polecenia (New) Opisz flagę i potwierdź
Flagi Droga 1 Droga 2 1. 2. 3. 1. 2. 3. 4. Przejdź do sekcji Start Uruchom akcję add/remove flags Utwórz nową flagę za pomocą polecenia (New) Opisz flagę i potwierdź Przejdź do sekcji Settings Wybierz zakładkę Flags Utwórz nową flagę za pomocą polecenia (New) Opisz flagę i potwierdź flagowanie 4.
Predefiniowane warstwy anotacji
Predefiniowane warstwy anotacji 1. 2. 3. Przejdź do sekcji Settings Wybierz zakładkę Annotation sets Przypisz odpowiednią warstwę anotacji, klikając przycisk wyboru w odpowiednim wierszu tabeli
Flagi
Predefiniowane warstwy anotacji 1. 2. 3. Przejdź do sekcji Settings Wybierz zakładkę Annotation sets Przypisz odpowiednią warstwę anotacji, klikając przycisk wyboru w odpowiednim wierszu tabeli dodawanie warstw
Własne warstwy anotacji
Własne warstwy anotacji 1. 2. 3. Przejdź do sekcji Settings Wybierz zakładkę Custom annotation sets Stwórz schemat anotacji: 3.1. zestaw kategorii (Annotation sets) 3.2. zestaw podkategorii (Annotation subsets) 3.3. kategorie (Categories)
Własne warstwy anotacji 1. 2. 3. Przejdź do sekcji Settings Wybierz zakładkę Custom annotation sets Stwórz schemat anotacji: 3.1. zestaw kategorii (Annotation sets) 3.2. zestaw podkategorii (Annotation subsets) 3.3. kategorie (Categories) dodawanie warstw
Ręczne znakowanie Corpora / (nazwa korpusu) / Documents > Annotator
Ręczne znakowanie Corpora / (nazwa korpusu) / Documents > Annotator
Ręczne znakowanie Corpora / (nazwa korpusu) / Documents > Annotator
Ręczne znakowanie Corpora / (nazwa korpusu) / Documents > Annotator
Ręczne znakowanie Corpora / (nazwa korpusu) / Documents > Annotator anotacja
Ręczne korekta tagowania Corpora / (nazwa korpusu) / Documents > Morphological Disambiguation
BOOTSTRAPPING
Bootstrapping Corpora / (nazwa korpusu) / Documents > Bootstrapping
PRZEGLĄDANIE ANOTACJI
Lista anotacji Corpora / (nazwa korpusu) / Annotations
Frekwencja anotacji - kategorie Corpora / (nazwa korpusu) / Annotation frequency
Frekwencja anotacji - frazy Corpora / (nazwa korpusu) / Annotation frequency
Przeglądanie anotacji - kategorie Corpora / (nazwa korpusu) / Annotation browser
Przeglądanie anotacji - kategorie Corpora / (nazwa korpusu) / Annotation browser
Przeglądanie anotacji - lematy Corpora / (nazwa korpusu) / Annotation frequency
Przeglądanie anotacji - lematy Corpora / (nazwa korpusu) / Annotation frequency eksport listy
ADMINISTRACJA
Dodawanie użytkowników Corpora / (nazwa korpusu) / Settings > Users
Role użytkowników Corpora / (nazwa korpusu) / Settings > Users roles
Perspektywy (01) Corpora / (nazwa korpusu) / Settings > Perspectives
Perspektywy (02) Corpora / (nazwa korpusu) / Settings > Perspectives
KONTROLA
Badanie zgodności Corpora / (nazwa korpusu) / Annotation agreement
Badanie zgodności Corpora / (nazwa korpusu) / Annotation agreement
Badanie zgodności Corpora / (nazwa korpusu) / Annotation agreement
Badanie zgodności Corpora / (nazwa korpusu) / Annotation agreement
Badanie zgodności Corpora / (nazwa korpusu) / Annotation agreement
Badanie zgodności Corpora / (nazwa korpusu) / Annotation agreement
Badanie zgodności Corpora / (nazwa korpusu) / Annotation agreement
Usuwanie niejednoznaczności Corpora / (nazwa korpusu) / Documents > Agreement
Usuwanie niejednoznaczności Corpora / (nazwa korpusu) / Documents > Relation agreement
Usuwanie niejednoznaczności Corpora / (nazwa korpusu) / Documents > Morphological Disambiguation Agreement
Porównanie zgodności na przykładzie kategoryzacji wyznaczników obiektów
INNE FUNKCJE
Upload Corpora / (nazwa korpusu) / Upload documents
Edycja metadanych dokumentów Corpora / (nazwa korpusu) / Documents > Metadata
Nowe kategorie metadanych Corpora / (nazwa korpusu) / Settings > Metadata
Lista relacji Corpora / (nazwa korpusu) / Relations
Lematy Corpora / (nazwa korpusu) / Documents > Annotation lemmas
Sensy słów (WSD) Corpora / (nazwa korpusu) / Documents > WSD
OBRAZ - TEKST
Transkrypcja skanów
Dziękujemy za uwagę!