Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.19
Historia Historia: Webowy system do budowania, anotowania, przeszukiwania i analizowania korpusów tekstowych rozwijany na Politechnice Wrocławskiej od 2009, wykorzystany: w projektach naukowych: NEKST, SyNaT, CLARIN-PL w habilitacjach: M. Zaśko-Zielińska (językoznawstwo - listy pożegnalne samobójców), Ł. Damurski (urbanistyka - dokumenty dotyczące polityki terytorialnej UE) w rozprawach doktorskich: B. Broda (WSD), M. Marcińczuk (NER, relacje semantyczne), A. Radziszewski (frazy składniowe), J. Kocoń (wyrażenia temporalne, wyznaczniki sytuacji) w innych pracach naukowych: E. Kaczmarz (konwersacje z Facebooka), Bernaś (teksty w j. hebrajskim). dostęp do korpusów: KPWr - Korpus Politechniki Wrocławskiej CEN - korpus wiadomości ekonomicznych z Wikinews PCSN - Polski korpus listów pożegnalnych samobójców
Główne cechy Inforex służy przede wszystkim do tworzenia jakościowych danych językowych dostęp przez przeglądarkę internetową nie wymaga instalacji u użytkownika, a jedynie dostępu do Internetu http://inforex.clarin-pl.eu/ (dostęp dla użytkowników posiadających konto w DSpace) integracja z DSpace import korpusu z DSpace do Inforexa, współdzielenie danych między użytkownikami dane przechowywane są na serwerze, autoryzowany dostęp na poziomie korpusu oraz warstw danych i operacji, praca na dokumentach otagowanych (podział na tokeny i zdania) i nieotagowanych wizualizacja struktury dokumentów podczas anotacji, wsparcie dla anotacji typu 2+1.
Poziomy opisu/edycji dokumentów 1. Metadane (tytuł, autor, gatunek, data publikacji, podkorpus) 2. Edycja treści, np. na potrzeby oczyszczania lub anonimizacji dokumentów 3. Opis struktury 4. Anotacje (kategoria, atrybuty, lemat) 5. Relacje między anotacjami (kategoria, kierunek) 6. Znaczenia sensów słów (jako szczególny przypadek anotacji)
Dotychczasowe wykorzystanie 1. Korpus Politechniki Wrocławskiej (KPWr) [PWr, współpraca IPI PAN] frazy składniowe i ich lematyzacja (płytki parsing), jednostki identyfikacyjne (nazwy własne), wyrażenia temporalne (wyznaczniki i normalizacja), relacje semantyczne między jednostkami identyfikacyjnymi), sytuacje, wyrażenia przestrzenne, ujednoznacznianie sensów słów, role semantyczne wewnątrz fraz rzeczownikowych, słowa kluczowe. 2. Korpus Listów Pożegnalnych (PCSN) [UWr, M. Zaśko-Zielińska] transkrypcja skanów, opis struktury listów, anonimizacja, 3. Korpus dokumentów dot. polityki terytorialnej UE [PWr, Ł. Damurski] listy frekwencyjne, znakowanie kategoriami związanymi z polityką terytorialną, 4. Korpus tekstów hebrajskich [UWr, T. Bernaś] znakowanie pojęciami i ich tłumaczenie 5. Korpus konwersacji z Facebooka [UWr, E. Kaczmarz] statystyki błędów językowych i korelacje między nimi
Struktura korpusu
Lista korpusów
Strona startowa korpusu
Strona startowa korpusu
Lista dokumentów
Widok treści dokumentu
Wizualizacja struktury dokumentu (1/2) KPWr Rozmowy z Facebooka (E. Kaczmarz)
Wizualizacja struktury dokumentu (2/2) PCSN (M. Zaśko-Zielińska) Teksty w j. hebrajskim (T. Bernaś)
Ćwiczenie Import korpusu ćwiczeniowego z DSpace do Inforex https://clarin-pl.eu/dspace/handle/11321/335 Korpus wiadomości z pl.wikinews.org (Polska) lata 2013-2015
Zarządzanie korpusem
Dodawanie użytkowników
Role użytkowników
Perspektywy
Statystyki korpusu
Podstawowe statystyki
Frekwencja słów
Lista anotacji
Przeglądanie anotacji - kategorie
Przeglądanie anotacji - lematy
Frekwencja anotacji - kategorie
Frekwencja anotacji - frazy
Lista relacji
Ćwiczenia 1. Określ liczbę wyrazów w zaimportowanym korpusie i jego podkorpusach 2. Wygeneruj i zapisz listę frekwencyjną dla rzeczowników 3. Wygeneruj i zapisz listę frekwencyjną dla wybranej kategorii anotacji
Opisywanie dokumentów
Metadane
Kategorie anotacji
Lematy
Anafora
Sensy słów (WSD)
Anotacja fragmentów tekstu
Bootstrapping
Ćwiczenie 1. Zweryfikuj automatycznie rozpoznane anotacje nazw własnych dla wybranego dokumentu 2. Oznacz i zlematyzuj słowa kluczowe w wybranym dokumencie 3. przeglądanie anotacji nowych i zweryfikowanych
Anotacja 2+1 badanie zgodności
Wybór trybu znakowania
Badanie zgodności Dziękujemy za uwagę
Usuwanie niejednoznaczności
Porównanie zgodności na przykładzie kategoryzacji wyznaczników obiektów
Transkrypcja skanów
Transkrypcja skanów
Dziękujemy za uwagę!