KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Podobne dokumenty
KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

Doświadczenia z prac nad Korpusem tekstów polskich z XVII i XVIII wieku

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

WŁODZIMIERZ GRUSZCZYŃSKI, DOROTA ADAMIEC, MACIEJ OGRODNICZUK

Elektroniczny korpus tekstów polskich z XVII i XVIII wieku (do 1772 roku) prezentacja projektu badawczego

Tworzenie korpusu tekstów dawnych a korpusu tekstów współczesnych: różnice teoretyczne i warsztatowe

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Włodzimierz Gruszczyński. Instytut Języka Polskiego PAN Korpusy Diachroniczne Polszczyzny Katowice, kwietnia 2017 r.

KORBEUSZ. Włodzimierza Grußczyńſkiego, Dorotę Adamiec, Renatę Bronikowſką Inſtytut Języka Polſkiego PAN

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII w.

Elektroniczny Korpus Textow Polſkich z XVII i XVIII w. (do 1772 r.)

The Use of Electronic Historical Dictionary Data in Corpus Design

Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu

SPIS TREŚCI. Spis treści Wstęp Wykaz skrótów, symboli i terminów gramatycznych MIANOWNIK

Analizator fleksyjny Morfeusz 2

MARCIN WOLIŃSKI MORFEUSZ REAKTYWACJA IPI PAN, 7 KWIETNIA /28 ...

Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI XVIII Wieku jako uzupełniona bibliografia Zawadzkiego

ĆWICZENIE 1 SKŁAD TEKSTU DO DRUKU

Adam Przepiórkowski. Korpus IPI PAN. wersja wstępna INSTYTUT PODSTAW INFORMATYKI PAN

NAKŁADKA KORPUSOWA (NKJP, KORBA) OPARTA O TRADYCYJNĄ KLASYFIKACJĘ CZĘŚCI MOWY. Emanuel Modrzejewski.

Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego

SGJP Model odmiany Przymiotniki Rzeczowniki Czasowniki Podsumowanie

j INSTYTUT PODSTAW INFORMATYKI

Instrukcja. opracował Marcin Oleksy

Korpusy językowe podstawowa terminologia i metody tworzenia. Natalia Kotsyba IBI AL Uniwersytet Warszawski 12 i 26 stycznia 2011 r.

Zasób leksykalny polszczyzny II poł. XIX wieku a możliwość automatycznej analizy morfologicznej tekstów z tego okresu

Porównywanie tagerów dopuszczajacych niejednoznaczności

Odkrywanie CAQDAS : wybrane bezpłatne programy komputerowe wspomagające analizę danych jakościowych / Jakub Niedbalski. Łódź, 2013.

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl

Lokalizacja Oprogramowania

Problem normy językowej w leksykografii historycznej

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

PoliMorf otwarty słownik morfologiczny

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Skorzystaj z Worda i stwórz profesjonalnie wyglądające dokumenty.

Od ZX Spectrum do Jasnopisu

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Raport rozliczeniowy

Narzędzia do pisania. Korektor pisowni i korektor gramatyczny

1. Skopiować naswój komputer: (tymczasowy adres)

Oprogramowanie typu CAT

Gramatyka opisowa języka polskiego Kod przedmiotu

MINISTERSTWO SPRAW WEWNĘTRZNYCH I ADMINISTRACJI DEPARTAMENT INFORMATYZACJI

SYLLABUS. Uniwersytet Przyrodniczo-Humanistyczny w Siedlcach Wydział Humanistyczny

Korekta OCR problemy i rozwiązania

METODY REPREZENTACJI INFORMACJI

Korpus Dyskursu Parlamentarnego

KATEGORIA OBSZAR WIEDZY

Nr Tytuł Przykład Str.

Gramatyka. języka rosyjskiego z ćwiczeniami

NaCoBeZu na co będę zwracać uwagę. Nauka o języku

Plan szkoleń z zakresu pakietu Microsoft Office 2007

Zasady Nazewnictwa. Dokumentów XML Strona 1 z 9

Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego

Dygitalizacja i komputeryzacja słowników na przykładzie Słownika polszczyzny XVI wieku

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

P.2.1 WSTĘPNA METODA OPISU I

MONIKA CZEREPOWICKA IWONA KOSEK SEBASTIAN PRZYBYSZEWSKI

Lab.1. Praca z tekstem: stosowanie arkuszy stylów w dokumentach OO oraz HTML/CSS

INFORMATYKA KLASA IV

MS Word Długi dokument. Praca z długim dokumentem. Kinga Sorkowska

EXCEL ANALIZA DANYCH. Konspekt szczegółowy

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa 4 Wymagania edukacyjne na poszczególne oceny szkolne dla klasy 4

Projekt "Collective Intelligence metodą podniesienia poziomu innowacyjności polskich przedsiębiorstw" UMOWA O POWIERZENIE GRANTU NR 22/GRSin/ZGD/2017

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

ROZPORZĄDZENIE MINISTRA SPRAW WEWNĘTRZNYCH I ADMINISTRACJI [1]) z dnia r.

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Wikisłownik. (więcej niż słownik) Piotr Derbeth Kubowicz. Wikiwarsztaty Wrocław, 7 marca Stowarzyszenie Wikimedia Polska

Open Access w technologii językowej dla języka polskiego

ZMIANY WPROWADZONE W AKTUALIZACJI SYSTEMU POMOST STD

Przyrostowa metoda dygitalizacji słowników

XML i nowoczesne metody zarządzania treścią

Barokowa polszczyzna w Internecie,

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

Przedmiotem zamówienia jest zakup oprogramowania biurowego dla Urzędu Miasta Lublin, w liczbie 50 licencji.

Polsko ukraiński korpus równoległy (PolUKR) 1

Program warsztatów CLARIN-PL

1. Zaczynamy! (9) 2. Edycja dokumentów (33)

EXCEL ZAAWANSOWANY. Konspekt szczegółowy

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2015/2016 JĘZYK POLSKI

Instrukcja korzystania z wyszukiwarki do Elektronicznego Korpusu Tekstów Polskich z XVII i XVIII wieku (do 1772 r.)

EXCEL POZIOM EXPERT. Konspekt szczegółowy

METODA SŁÓW KLUCZY W BADANIU POLSZCZYZNY DAWNEJ

MODUŁ AM3: PRZETWARZANIE TEKSTU

NARZĘDZIA Narzędzia Narzędzia

Część 1. Wydobywanie informacji z tekstu i stylometria CLARIN-PL. Tomasz Walkowiak, Maciej Piasecki

Siostrzane projekty Wikipedii: Wikisłownik

Transkrypt:

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN, Instytut Podstaw Informatyki PAN

Podstawowe informacje o projekcie Projekt realizowany przez IJP PAN we współpracy z IPI PAN, finansowany w ramach Narodowego Programu Rozwoju Humanistyki na lata: 2013-2017 Kierownik projektu: prof. dr hab. Włodzimierz Gruszczyński Planowana objętość korpusu to 12 mln segmentów Korpus historyczny rozszerzający Narodowy Korpus Języka Polskiego Kryptonim: KORBA (KORpus BArokowy) http://korba.nlp.ipipan.waw.pl/login/?next=/ (obecnie dostępny dla członków zespołu pracującego nad korpusem oraz w Pracowni Historii Języka Polskiego XVII i XVIII w. IJP PAN w Warszawie)

Zakres znakowania Znakowanie socjolingwistyczne (informacje o autorze, wydawcy, tłumaczu) umieszczone w metryczce każdego tekstu. Znakowanie stylistyczno-genologiczne umieszczone w metryczce każdego tekstu. Znakowanie strukturalne i tekstowe, umożliwiające dokładną lokalizację cytatu w tekście (paginacja; rozdziały, części, księgi itp.; notki marginesowe, przypisy itp.; podpisy pod ilustracjami; także oznaczenie wszystkich wtrętów obcych, z podziałem na języki). Znakowanie morfosyntaktyczne 0,5 mln segmentów ręczne reszta automatyczne

Znakowanie socjolingwistyczne

Znakowanie stylistyczno-genologiczne

Znakowanie strukturalne i tekstowe Oznaczenie istotnych elementów struktury tekstu, np. elementów strony tytułowej, fragmentów obcojęzycznych itp. Znakowanie Korby odbywa się w szablonie dokumentu Word umożliwiającym wprowadzanie znaczników za pomocą skrótów klawiaturowych Na potrzeby projektu został stworzony program do konwersji plików Worda na format XML zgodny ze standardem TEI

Znaczniki strukturalne

Znaczniki tekstowe

Oznaczenia języków obcych

Komentarze i poprawki skryptorów Informacja o liczbie nieczytelnych znaków COMED<..> Informacja o możliwości błędnego odczytania słowa gospodarz <?> Informacja o zaskakującym zapisie gorzski <!> Rozwinięcie skrótów oznaczonych tyldą atrame t <atrament> Poprawka oczywistej literówki wsziędze <wszędzie> 10

Próbka tekstu Word

Próbka tekstu XML 12

Znakowanie morfosyntaktyczne Przypisanie każdemu segmentowi informacji gramatycznej: o jego przynależności do określonej klasy gramatycznej o wartościach kategorii gramatycznych Umożliwia zaawansowane przeszukiwanie korpusu, np. wyszukanie wszystkich form fleksyjnych leksemu Znakowanie Korby będzie się odbywać na wzór znakowania NKJP Tagset (zbiór znaczników) będzie oparty na tagsecie NKJP, który zostanie dostosowany do potrzeb opisu polszczyzny barokowej Znakowanie będzie się odbywać na tekstach transkrybowanych, a nie transliterowanych

Konwersja do wersji transkrybowanej transliteracja B. Nie záda mi żaden tey rzeczy, ktoraby bárziey owemu niżeli mnie należeć nie miáłá. A ták śmierć y Kupidyn pozárszy się iáko bestie, posnęli w Kośćiele Bacchusowym, gdźie niewyszumiawszy z przepićia śmierć Cupidinow, á Cupido śmierći należący przypasawszy sáydak do boku szły, swych należących odpráwowáć powinnośći. transkrypcja B. Nie zada mi żaden tej rzeczy, któraby barzyej owemu niżeli mnie należeć nie miała. A tak śmierć i Kupidyn pozarszy się jako beztie, posnęli w Kościele Bacchusowym, gdzie niewyszumiawszy z przepicia śmierć Cupidynów, a Cupido śmierci należący przypasawszy sajdak do boku szły, swych należących odprawować powinności. https://bitbucket.org/jsbien/pol

Narzędzia wspomagające znakowanie morfosyntaktyczne Analizator morfologiczny przypisuje formie gramatycznej wszystkie możliwe interpretacje Tager ujednoznacznia interpretację gramatyczną Słownik gramatyczny zawiera paradygmaty leksemów danego języka, stanowi podstawę działania analizatora morfologicznego Podstawą Morfeusza analizatora morfologicznego przeznaczonego do analizy tekstów współczesnych (używanego przy znakowaniu NKJP) jest Słownik gramatyczny języka polskiego (SGJP http://sgjp.pl) Podstawą Morfeusza XVII-wiecznego będzie postarzony SGJP

Postarzanie SGJP Uzupełnienie SGJP o paradygmaty leksemów wyciągniętych z e-sxvii (niepełne paradygmaty zostaną automatycznie uzupełnione) Modyfikacja paradygmatów SGJP Dodanie form historycznych do paradygmatów współczesnych, np. imiesłów przysłówkowy uprzedni zostanie dodany do paradygmatów czasowników niedokonanych (widziawszy) Dodanie dodatkowych wartości do niektórych kategorii gramatycznych, np. liczby podwójnej (żabie) Dodanie nowych, regularnie tworzonych derywatów, np. imiesłowów przymiotnikowych w stopniu wyższym (bolątszy) Modyfikacja kategorii rodzaju

Hierarchia rodzaju zneutralizowany męski żeński nijaki męskożywotny męskonieżywotny męskożywotny 1 męskożywotny 2 forma wartości lemat gramatyczne abrysom Dat. pl ABRYS (?) ABRYSA (?) ABRYSO (?) rodzaj abrysu Gen. sg ABRYS męski zneutralizowany abrys Acc. sg ABRYS męskonieżywotny abrysę Acc. sg ABRYSA żeński

Tworzenie Morfeusza XVII SGJP e-sxvii Morfeus z XVII postarzony SGJP uzupełnione paradygmaty wstępna wersja Morfeusza XVII rozszerzona wersja e-sxvii tekst automatyczna anotacja ręczne ujednoznacznienie i weryfikacja tekst anotowan y tekst ujednoznaczniony

Dziękujemy za uwagę