Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Podobne dokumenty
KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Doświadczenia z prac nad Korpusem tekstów polskich z XVII i XVIII wieku

WŁODZIMIERZ GRUSZCZYŃSKI, DOROTA ADAMIEC, MACIEJ OGRODNICZUK

Tworzenie korpusu tekstów dawnych a korpusu tekstów współczesnych: różnice teoretyczne i warsztatowe

Elektroniczny korpus tekstów polskich z XVII i XVIII wieku (do 1772 roku) prezentacja projektu badawczego

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa

KORBEUSZ. Włodzimierza Grußczyńſkiego, Dorotę Adamiec, Renatę Bronikowſką Inſtytut Języka Polſkiego PAN

Włodzimierz Gruszczyński. Instytut Języka Polskiego PAN Korpusy Diachroniczne Polszczyzny Katowice, kwietnia 2017 r.

The Electronic Corpus of the 17th and 18th c. Polish Texts (up to 1772). The final result

Program warsztatów CLARIN-PL

Elektroniczny Korpus Textow Polſkich z XVII i XVIII w. (do 1772 r.)

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI XVIII Wieku jako uzupełniona bibliografia Zawadzkiego

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Współczesne narzędzia leksykograficzne a analiza tekstów dawniejszych

NAKŁADKA KORPUSOWA (NKJP, KORBA) OPARTA O TRADYCYJNĄ KLASYFIKACJĘ CZĘŚCI MOWY. Emanuel Modrzejewski.

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Problem normy językowej w leksykografii historycznej

Narzędzia do automatycznego wydobywania kolokacji

Instrukcja. opracował Marcin Oleksy

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Od ZX Spectrum do Jasnopisu

Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu

Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Zasób leksykalny polszczyzny II poł. XIX wieku a możliwość automatycznej analizy morfologicznej tekstów z tego okresu

Korpus Dyskursu Parlamentarnego

Korpus języka polskiej społeczności na Ukrainie i metody jego utworzenia

SYLLABUS. Leksykologia i leksykografia

Narzędzia do automatycznego wydobywania kolokacji

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

MARCIN WOLIŃSKI MORFEUSZ REAKTYWACJA IPI PAN, 7 KWIETNIA /28 ...

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII w.

APD. Archiwum Prac Dyplomowych w USOS. Mariusz.Czerniak@umk.pl

Korpus tekstów drugiej połowy doby nowopolskiej ( )

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Inforex - zarządzanie korpusami i ich anotacja

Gramatyka opisowa języka polskiego Kod przedmiotu

Przetwarzanie języka w praktyce. przykładzie problemu rozstrzygania wieloznaczności

Open Access w technologii językowej dla języka polskiego

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

System Korekty Tekstu Polskiego

Przyrostowa metoda dygitalizacji słowników

Zasady Rekrutacji. Do Wrocławskiej Szkoły Doktorskiej Instytutów Polskiej Akademii Nauk na rok akademicki 2019/20

METODA SŁÓW KLUCZY W BADANIU POLSZCZYZNY DAWNEJ

Dygitalizacja i komputeryzacja słowników na przykładzie Słownika polszczyzny XVI wieku

Humanistyka cyfrowa w Katedrze Lingwistyki Formalnej UW

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Anotatornia lingwistyczna baza danych

Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Plan zajęć dla kkz A.25. I zjazd 1, 2 października

Program studiów. Wykaz modułów kształcenia

WYBÓR PRZEDMIOTU, SPECJALIZACJI I SEMINARIUM DYPLOMOWEGO

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Program studiów. Kierunek: studia nad słowiańszczyzną wschodnią Specjalność: filologia białoruska z językiem rosyjskim i angielskim

Lokalizacja Oprogramowania

Korekta OCR problemy i rozwiązania

Wymagania edukacyjne na poszczególne oceny z historii w klasie 1 I PÓŁROCZE Dopuszczaj Dostateczny Dobry Bardzo dobry Ucze

Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego

Program studiów I stopnia

Ogólnopolskie Repozytorium Prac Dyplomowych

Interpretacja Raportu badania pracy w Otwartym Systemie Antyplagiatowym (OSA)

KONKURS TWÓRCZOŚCI DZIECIĘCEJ

NARODOWY KORPUS JĘZYKA POLSKIEGO

Polsko ukraiński korpus równoległy (PolUKR) 1

SYLLABUS. Uniwersytet Przyrodniczo-Humanistyczny w Siedlcach Wydział Humanistyczny

Spis treści Wstęp 1. Językoznawstwo sądowe

O cyklach frekwencyjnych niektórych słów i wyrażeń w latach Piotr Pęzik, Uniwersytet Łódzki

SYLLABUS. Historia języka polskiego. Kierunek: filologia polska. specjalność: nauczycielska / dziennikarska

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

PoliMorf otwarty słownik morfologiczny

Załącznik do Uchwały Senatu nr IX/87/16/17

Adam Przepiórkowski. Korpus IPI PAN. wersja wstępna INSTYTUT PODSTAW INFORMATYKI PAN

Przystojna i przyzwoita

TRZCIANA - KRAKÓW REGULAMIN KONKURSU

Grant Edukacyjny Engram English

KARTA PRZEDMIOTU. M4/1/6 Wykorzystanie komputerów w w języku polskim Nazwa przedmiotu

Spis treści tomu pierwszego

KONKURS TWÓRCZOŚCI DZIECIĘCEJ

W swojej klasycznej odmianie gra przeznaczona jest dla 2, 3 lub 4 graczy. Polega ona na

II.1.1) Nazwa nadana zamówieniu przez zamawiającego: dostawa oprogramowania komputerowego z podziałem na 4 części.

WK, FN-1, semestr letni 2010 Korpusy tekstów w lingwistyce. Wyrażenia regularne. Cz. I

Powstawanie i samoorganizacja języka pomiędzy agentami

3. Rodzaj modułu kształcenia obowiązkowy lub fakultatywny obowiązkowy. 5. Poziom studiów I lub II stopień, lub jednolite studia magisterskie I stopień

Co wylicza Jasnopis? Bartosz Broda

System wspomagania harmonogramowania przedsięwzięć budowlanych

Otwarty System Antyplagiatowy

OPIS PRZEDMIOTU gramatyka opisowa języka polskiego (fleksja) / k, 1, II. prof. dr hab. Andrzej S. Dyszak

Transkrypt:

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk ALLPPT.com _ Free PowerPoint Templates, Diagrams and Charts

PODSTAWOWE INFORMACJE O PROJEKCIE Kryptonim: KORBA = KORpus BArokowy Cel: stworzenie obszernego (12 milionów segmentów) korpusu polskich tekstów XVII- i XVIIIwiecznych (do 1772 r.) Czas trwania: 2013-2018 Jednostka koordynująca: Instytut Języka Polskiego Polskiej Akademii Nauk Współpraca: Instytut Podstaw Informatyki Polskiej Akademii Nauk Kierownik: Włodzimierz Gruszczyński Finansowanie: Narodowy Program Rozwoju Humanistyki (numer projektu 0036/NPRH2/H11/81/2012)

ZASTOSOWANIE Stworzenie historycznego podkorpusu Narodowego Korpusu Języka Polskiego (http://nkjp.pl). Przyspieszenie prac nad Elektronicznym słownikiem języka polskiego XVII i XVIII w. (http://sxvii.pl). Pozyskane dane posłużą do opracowania diachronicznego modelu fleksji polskiej.

OBECNY ETAP PRAC NAD KORPUSEM 717 tekstów o łącznej objętości 10 808 728 słów Typy tekstów: starodruki, rękopisy, XIX-, XX- i XXIwieczne wydania tekstów barokowych Wszystkie teksty transliterowane oraz oznakowane strukturalnie i językowo, zapisane w formacie TEI XML Stworzony tagset barokowy Rozpoczęta ręczna anotacja morfosyntaktyczna 0,5- milionowego podkorpusu Nakładka na wyszukiwarkę Poliqarp 2, ułatwiająca przeszukiwanie korpusu

PRZYGOTOWANIE PRÓBEK DO ANOTACJI Z każdego tekstu są automatycznie losowane próbki, z których każda zawiera ok. 200 segmentów. Liczba próbek pochodząca z każdego tekstu jest proporcjonalna do jego objętości. Próbki zostają przekonwertowane z postaci transliterowanej na transkrybowaną, tak aby ich zapis zbliżył się do zapisu współczesnego.

TRANSKRYBER Narzędzie stworzone przez Janusza Bienia i jego zespół na potrzeby projektu IMPACT (https://bitbucket.org/jsbien/pol). Składa się z zestawu reguł (obecnie ponad 3000), które określają sposób zamiany poszczególnych liter albo grupy liter w określonym kontekście. Np. rozpoczynająca słowo grupa naiw powinna zostać zamieniona na najw (np. najwyższy), z wyjątkiem sytuacji, kiedy następuje po niej litera n (np. naiwny). Oryginalny zestaw reguł został rozbudowany na potrzeby korpusu barokowego przez Emanuela Modrzejewskiego.

ANOTATORNIA 2 Narzędzie wspomagające ręczną anotację morfosyntaktyczną autorstwa Doroty Komosińskiej. Umożliwia jednoczesną pracę nad próbką dwojga anotatorów oraz wprowadzanie poprawek przez superanotatora. Praca anotatorów polega na wyborze odpowiedniej interpretacji morfologicznej z kilku zaproponowanych przez analizator morfologiczny albo ręcznym wpisaniu własnej.

KORBEUSZ Analizator morfologiczny dostosowany do obsługi tekstów barokowych = zmodyfikowany Morfeusz 2 autorstwa Marcina Wolińskiego. Wykorzystuje do analizy różnego rodzaju dane: pełne paradygmaty polskich leksemów zawarte w SGJP niepełne paradygmaty leksemów XVII-XVIII-wiecznych pobrane ze słownika e-sxvii automatycznie tworzone rekonstrukcje paradygmatów barokowych Zawiera także reguły segmentacyjne, które uwspółcześniają zapis barokowy, np. oddzielają przyimek od rzeczownika.

PRACA W ANOTATORNI http://test.anotatornia.nlp.ipipan.waw.pl

PRZESZUKIWANIE KORPUSU http://test.korba.edu.pl/