1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

Podobne dokumenty
Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

KORBEUSZ. Włodzimierza Grußczyńſkiego, Dorotę Adamiec, Renatę Bronikowſką Inſtytut Języka Polſkiego PAN

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Doświadczenia z prac nad Korpusem tekstów polskich z XVII i XVIII wieku

Analizator fleksyjny Morfeusz 2

Spis treści Wstęp 1. Językoznawstwo sądowe

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa

MARCIN WOLIŃSKI MORFEUSZ REAKTYWACJA IPI PAN, 7 KWIETNIA /28 ...

Semantyczna analiza języka naturalnego

Oprogramowanie typu CAT

WŁODZIMIERZ GRUSZCZYŃSKI, DOROTA ADAMIEC, MACIEJ OGRODNICZUK

Lokalizacja Oprogramowania

Elektroniczny korpus tekstów polskich z XVII i XVIII wieku (do 1772 roku) prezentacja projektu badawczego

NeuroVoice. Synteza i analiza mowy. Paweł Mrówka

Program warsztatów CLARIN-PL

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Open Access w technologii językowej dla języka polskiego

Skrócona instrukcja obsługi grupowego portalu głosowego

NAKŁADKA KORPUSOWA (NKJP, KORBA) OPARTA O TRADYCYJNĄ KLASYFIKACJĘ CZĘŚCI MOWY. Emanuel Modrzejewski.

Co wylicza Jasnopis? Bartosz Broda

Włodzimierz Gruszczyński. Instytut Języka Polskiego PAN Korpusy Diachroniczne Polszczyzny Katowice, kwietnia 2017 r.

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Bieżący sylabus w semestrze zimowym roku 2016/17

AUTOMATYKA INFORMATYKA

Generated by Foxit PDF Creator Foxit Software For evaluation only. System Szablonów

Elektroniczny Korpus Textow Polſkich z XVII i XVIII w. (do 1772 r.)

Odkrywanie CAQDAS : wybrane bezpłatne programy komputerowe wspomagające analizę danych jakościowych / Jakub Niedbalski. Łódź, 2013.

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Problem normy językowej w leksykografii historycznej

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

Korekta OCR problemy i rozwiązania

Inforex - zarządzanie korpusami i ich anotacja

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI XVIII Wieku jako uzupełniona bibliografia Zawadzkiego

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

ZMIANY WPROWADZONE W AKTUALIZACJI SYSTEMU POMOST STD

Tworzenie korpusu tekstów dawnych a korpusu tekstów współczesnych: różnice teoretyczne i warsztatowe

Wybrane problemy z dziedziny modelowania i wdrażania baz danych przestrzennych w aspekcie dydaktyki. Artur Krawczyk AGH Akademia Górniczo Hutnicza

Praca licencjacka. Seminarium dyplomowe Zarządzanie przedsiębiorstwem dr Kalina Grzesiuk

Paweł Gołębiewski. Softmaks.pl Sp. z o.o. ul. Kraszewskiego Bydgoszcz kontakt@softmaks.pl

Wymagania edukacyjne - Informatyka w klasie I

Instrukcja. opracował Marcin Oleksy

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

FORMULARZ SYSTEMU ZARZĄDZANIA JAKOŚCIĄ. Aktualizacja stawek VAT na rok Wydanie: 1 Data wydania: Strona/ stron: 1/11

Nadzorowanie stanu serwerów i ich wykorzystania przez użytkowników

Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu

L E X. Generator analizatorów leksykalnych

polski ENCYKLOPEDIA W TABELACH Wydawnictwo Adamantan

extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Scalanie kilku plików JPK-VAT

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

REGULAMIN MIĘDZYSZKOLNEGO KONKURSU ORTOGRAFICZNEGO SZKÓŁ PODSTAWOWYCH MIASTA POZNANIA

SZTUCZNA INTELIGENCJA

Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Opracował Jan T. Biernat

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI

OPIS MODUŁU (PRZEDMIOTU)

Zasób leksykalny polszczyzny II poł. XIX wieku a możliwość automatycznej analizy morfologicznej tekstów z tego okresu

jest dostępne na różne systemy operacyjne. Niniejsza instrukcja opisuje podstawowe operacje i opcje niezbędne do rozpoczęcia pracy w tym programie.

Bielskiego Mistrza Ortografii 2014

REGULAMIN SZKOLNEGO KONKURSU ORTOGRAFICZNEGO MISTRZ ORTOGRAFII DLA UCZNIÓW KLAS IV-VI

Zasady interpretacji Raportu antyplagiatowego

Spis treści 3. Spis treści

Dygitalizacja i komputeryzacja słowników na przykładzie Słownika polszczyzny XVI wieku

XML i nowoczesne metody zarządzania treścią

Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne

Stefan Sokołowski SZTUCZNAINTELIGENCJA. Inst. Informatyki UG, Gdańsk, 2009/2010

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

Wykład 3: Prezentacja danych statystycznych

Korpus tekstów drugiej połowy doby nowopolskiej ( )

REGULAMIN DYKTANDA GMINNEGO PN. JĘZYKOWE POTYCZKI Z HISTORIĄ W TLE. Gminne Centrum Kultury w Jerzmanowej. Wójt Gminy Jerzmanowa Lesław Golba

PoliTa multitager morfosyntaktyczny dla j. ezyka polskiego

PLAN WYNIKOWY KLASA 1

5. WORD W POLSKIEJ WERSJI

Dlaczego GML? Gdańsk r. Karol Stachura

Walutowe dokumenty sprzedaży - automatyczne dostosowywanie języka do preferencji kontrahenta

REGULAMIN MIĘDZYSZKOLNEGO KONKURSU ORTOGRAFICZNEGO SZKÓŁ PODSTAWOWYCH MIASTA POZNANIA

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Walutowe dokumenty sprzedaży - automatyczne dostosowywanie języka do preferencji kontrahenta

ECDL/ICDL Przetwarzanie tekstów Moduł B3 Sylabus - wersja 6.0

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII w.

L6.1 Systemy liczenia stosowane w informatyce

Automatyczna ekstrakcja i klasyfikacja semantyczna wielosegmentowych jednostek leksykalnych języka naturalnego

KRYTERIA OCENY BIEŻĄCEJ DLA UCZNIÓW KLAS I ZE SPECYFICZNYMI TRUDNOŚCIAMI W UCZENIU SIĘ LUB DEFICYTAMI ROZWOJOWYMI

Wydział Informatyki, Elektroniki i Telekomunikacji. Katedra Informatyki

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

Uniwersytet Śląski w Katowicach str. 1 Wydział Filologiczny Katedra Międzynarodowych Studiów Polskich

GH - Charakterystyka arkuszy egzaminacyjnych.

Skrypty korpusowe instrukcja (wersja z 3 lipca 2012 ) redakcja K. Szafran

Transkrypt:

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych Marcin Wolińſki, Witold Kieraś, Dorota Komo ńska, Emanuel Modrzejewſki Zespół Inżynieriey Lingw tyczney In ytut Pod aw Informatyki Polſkiey Akademii Nauk K W Wárßáwie, 18 dnia Czerwca A.D. MMXVIII J 1/32

K Projekt Chronofleks J 1 Przedstawione narzędzia zostały opracowane (głównie) w ramach projektu: Model formalny diachronicznego op u fleksji polskiej i jego komputerowa implementacja grant NCN 2014/15/B/HS2/03119 czas trwania: 11 sierpnia 2015 10 lutego 2019 2/32

K Narzędzia przetwarzania tekstu barokowego J 1 narzędzie do automatycznej transkrypcji tekstów, 1 Korbeusz automatyczny analizator fleksyjny na bazie Morfeusza 2, 1 Anotatornia 2 system do ręcznego znakowania korpusów, 1 automatyczne narzędzie ujednoznaczniające (tager) 3/32

K Schemat działania J dokument źródłowy plik tekstowy transkrypcja ujednoznacznienie analiza fleksyjna znakowany korpus 4/32

K Schemat działania J dokument źródłowy plik tekstowy transkrypcja ujednoznacznienie analiza fleksyjna znakowany korpus ręczne znakowanie 4/32

K Schemat działania J dokument źródłowy Wczytywacz Transkryber Concraft/Toygger Morfeusz 2 (Korbeusz) znakowany korpus Anotatornia 2 4/32

K Transkrypcja J 1 Normalizacji podlegają wyłącznie warianty ortograficzne, nie są zaś modyfikowane dawne formy fleksyjne. 1 Nie jest to decyzja oczywista w wielu korpusach historycznych dla innych języków normalizacji podlega ogół zjawisk językowych (czasem nawet leksyka!), by znormalizowany tekst można było przetwarzać dalej narzędziami dla współczesnego wariantu języka bez konieczności ich modyfikacji. 1 Nie zawsze niestety da się ściśle odgraniczyć zjawiska ortograficzne od fleksyjnych. 5/32

K Transkrypcja przykład J KOMISJA (między rokiem 1650 i 1918): comm siey, comm syi, kom ja, kom ją, kom ję, kom ji, kom sja, kom sya, kom syę, kom syi, kom ya, kom yą, kom ye, kom yę, kom yi, kom yj, kom yją, kom yję, komm ij, komm ja, komm jów, komm sii, komm sij, komm sją, komm sje, komm sjów, komm sya, komm syi, komm syiey, komm yi. W procesie transkrypcji: 1 zmieniono inicjalne c na k, 1 usunięto podwojenia liter spółgłoskowych s i m, 1 wprowadzono j zamiast y lub i. 1 pozostawiono dawne formy fleksyjne: kom jej, kom jów i kom ją (w B. lp.). 6/32

K Transkrypcja przykłady reguł J lewy kontekst znajdź prawy kontekst zmień na wyjątki 1..* ˆoˆ.* go 2. ˆ naiw.* najw naiwn.* 3. T j T y mjr 7/32

K Korbeusz J Słownik: 1 postarzone dane SGJP konwersja tagsetu i dotworzenie niektórych regularnych dawnych form (walidacjej, ładnę, ładnemi, zmienim, klęczta, klęczwa itp.), 1 dane fleksyjne SXVII, 1 automatycznie zrekonstruowane częściowe paradygmaty SXVII. Reguły segmentacyjne: 1 pisownia łączna z nie, 1 pisownia łączna licznych partykuł (ć, li, że, ż), 1 znacznie bardziej ruchome aglutynanty. 8/32

K Automatyczna rekonstrukcja J celnictwo subst:sg:nom:n celnictwem subst:sg:inst:n celnictwie subst:sg:loc:n bogactwo subst:sg:nom:n bogactwa subst:sg:gen:n bogactwem subst:sg:inst:n bogactwie subst:sg:loc:n bogactwa subst:pl:nom:n bogactw subst:pl:gen:n bogactwa subst:pl:nom:n bogactwy subst:pl:inst:n rdzeń celnictwa subst:sg:gen:n celnictwa subst:pl:nom:n celnictw subst:pl:gen:n celnictwa subst:pl:nom:n celnictwy subst:pl:inst:n zakończenia i znaczniki 9/32

K Tagery J 1 Concraft: conditional random fields, ujednoznacznianie niejednoznacznej segmentacji ( 94%), C słabsze wyniki dezambiguacji ( 88%), C nieco lepsze zgadywanie. 1 Toygger: sieci neuronowe (bi-lstm), wyłącznie ujednoznacznianie znaczników na zadanej segmentacji, lepsze wyniki dezambiguacji ( 91%), C nieco słabsze zgadywanie. 10/32

K Anotatornia 2 J 1 System Anotatornia 2 służy do ręcznego ujednoznaczniania i weryfikacji znakowania fleksyjnego tekstu historycznego. 1 Uwzględnia specyficzne potrzeby korpusów historycznych: C tekst istnieje w dwóch równoległych postaciach: transliterowanej i transkrybowanej, C musi być zachowywana informacja o numerach stron oryginałów, z których pochodzą poszczególne wyrazy. http://zil.ipipan.waw.pl/anotatornia2 11/32

K Anotatornia 2 J Praca w Anotatorni obejmuje: 1 korektę segmentacji wyróżnienia wykładników tekstowych form fleksyjnych, 1 korektę transkrypcji, 1 korektę podziału na zdania, 1 ujednoznacznienie i uzupełnienie opisu fleksyjnego dostarczonego przez Korbeusza. 12/32

K Anotatornia 2: Tryb znakowania AA+A J Powszechnie przyjęty tryb znakowania korpusów: 1 każda próbka korpusowa jest znakowana niezależnie przez dwóch annotatorów, 1 lista konfliktów jest przedstawiana annotatorom do ponownego sprawdzenia, 1 pozostałe konflikty rozstrzyga arbiter ( superannotator ). 13/32

K Anotatornia 2: Tryb znakowania AT+A J Pomysł usprawnienia: zastąpić jednego z annotatorów programem automatycznym (tagerem): 1 każda próbka korpusowa jest znakowana tylko przez jednego annotatora, 1 wynik jego pracy jest porównywany z wynikami tagera, 1 lista konfliktów jest przedstawiana annotatorowi do ponownego sprawdzenia, 1 pozostałe konflikty rozstrzyga arbiter. 14/32

15/32 A INTERFEJS ANNOTATORA D

16/32

17/32

18/32

19/32

20/32

21/32

22/32

23/32

24/32

25/32

26/32 A WYKRYTO KOLIZJE D

27/32

28/32 A INTERFEJS SUPERANNOTATORA D

29/32

30/32

K Ręcznie oznakowana część korpusu J 1 W ramach projektu KorBa oznakowano w Anotatorni 2 fragment korpusu barokowego: C w trybie AA+A zostało oznakowane 365 514 segmentów, C ponadto 146 240 segmentów zostało oznakowanych tylko przez jednego annotatora. C Łączna długość korpusu znakowanego ręcznie: 511 754 segmenty. 31/32

K Podsumowanie J 1 Narzędzia opracowane w ramach projektu Chronofleks (a więc przede wszystkim odpowiednie wersje Morfeusza 2 i Anotatornia 2) zostały użyte do znakowania korpusów z trzech okresów: C barokowego, C XIX wieku, C współczesnego. 1 Pozwala to wyrazić przekonanie, że narzędzia te można zastosować również do tekstów z innych epok. Do czego serdecznie zachęcamy. 32/32