The Electronic Corpus of the 17th and 18th c. Polish Texts (up to 1772). The final result

Podobne dokumenty
Inflectional Variation in the Historical Corpus on the Example of Masculine Animate Nouns in the 17 th and 18 th Century Polish Texts

Formularz recenzji magazynu. Journal of Corporate Responsibility and Leadership Review Form

Wydział Fizyki, Astronomii i Informatyki Stosowanej Uniwersytet Mikołaja Kopernika w Toruniu

Oxford PWN Polish English Dictionary (Wielki Slownik Polsko-angielski)

Zarządzenie Rektora Politechniki Gdańskiej Nr 39/2018 z 20 grudnia 2018 r.

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

photo graphic Jan Witkowski Project for exhibition compositions typography colors : : janwi@janwi.com

OpenPoland.net API Documentation

Network Services for Spatial Data in European Geo-Portals and their Compliance with ISO and OGC Standards

Fig 5 Spectrograms of the original signal (top) extracted shaft-related GAD components (middle) and

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

PROJECT. Syllabus for course Global Marketing. on the study program: Management

Installation of EuroCert software for qualified electronic signature

ANKIETA ŚWIAT BAJEK MOJEGO DZIECKA

Dolny Slask 1: , mapa turystycznosamochodowa: Plan Wroclawia (Polish Edition)

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

The Use of Electronic Historical Dictionary Data in Corpus Design

Zarządzenie Rektora Politechniki Gdańskiej nr 5/2015 z 10 lutego 2015 r.

Extraclass. Football Men. Season 2009/10 - Autumn round

FORMULARZ REKLAMACJI Complaint Form

MaPlan Sp. z O.O. Click here if your download doesn"t start automatically

List of ECOWILL-certified Ecodriving trainers for short duration trainings

How to run successfully Clinical Trial Project?

POLITYKA PRYWATNOŚCI / PRIVACY POLICY

Domy inaczej pomyślane A different type of housing CEZARY SANKOWSKI

Akademią Górniczo-Hutniczą im. Stanisława Staszica, Al. Mickiewicza 30, Kraków. 2. Nazwisko i imię... adres:...

FORMULARZ DLA OGŁOSZENIODAWCÓW. Uniwersytet Mikołaja Kopernika w Toruniu, Wydział Humanistyczny. dziedzina nauk humanistycznych - filozofia,

ZGŁOSZENIE WSPÓLNEGO POLSKO -. PROJEKTU NA LATA: APPLICATION FOR A JOINT POLISH -... PROJECT FOR THE YEARS:.

ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL

PhD Programme in Sociology

Recent Developments in Poland: Higher Education Reform Qualifications Frameworks Environmental Studies

Zarządzenie Rektora Politechniki Gdańskiej nr 17/2018 z 17 maja 2018 r.

Healthix Consent Web-Service Specification

PROJECT. Syllabus for course Principles of Marketing. on the study program: Management

Oferta przetargu. Poland Tender. Nazwa. Miejscowość. Warszawa Numer ogłoszenia. Data zamieszczenia Typ ogłoszenia

PRZEWODNIK PO PRZEDMIOCIE. Negotiation techniques. Management. Stationary. II degree

F-16 VIRTUAL COCKPIT PROJECT OF COMPUTER-AIDED LEARNING APPLICATION WEAPON SYSTEM POWER ON PROCEDURE

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

USB firmware changing guide. Zmiana oprogramowania za przy użyciu połączenia USB. Changelog / Lista Zmian

Financial results of Apator Capital Group in 1Q2014

ZGŁOSZENIE WSPÓLNEGO POLSKO -. PROJEKTU NA LATA: APPLICATION FOR A JOINT POLISH -... PROJECT FOR THE YEARS:.

Course type* German I BA C 90/120 WS/SS 8/9. German I BA C 30 WS 2. English I BA C 60/90 WS/SS 5/6. English I BA C 30 WS 2. German I BA L 30 WS 4

Umowa o współpracy ponadnarodowej

USB firmware changing guide. Zmiana oprogramowania za przy użyciu połączenia USB. Changelog / Lista Zmian

Conjugate, decline and spell like years ago A corpus-based morphological analyzer of 19tʰ century Polish

Kryteria bibliometryczne. Warszawa, 10 lipca 2018 r.

Proposal of thesis topic for mgr in. (MSE) programme in Telecommunications and Computer Science

Financial support for start-uppres. Where to get money? - Equity. - Credit. - Local Labor Office - Six times the national average wage (22000 zł)

FORMULARZ DLA OGŁOSZENIODAWCÓW. Uniwersytet Mikołaja Kopernika w Toruniu, Wydział Humanistyczny. dziedzina nauk społecznych - psychologia,

Opis Przedmiotu Zamówienia oraz kryteria oceny ofert. Części nr 10

Perspektywy PDF. ==>Download: Perspektywy PDF ebook By 0

I INTERNATIONAL SCIENTIFIC CONFERENCE

TYLKO DO UŻYTKU WŁASNEGO! PERSONAL USE ONLY!

EFFECT4buildings. Kraków, Zamawiający: Stowarzyszenie Gmin i Powiatów Małopolski Pl. Wszystkich Świętych 3-4

****/ZN/2012. if you are pregnant or breast-feeding.

Tychy, plan miasta: Skala 1: (Polish Edition)

SEO Audit for domain blog.rabinek.pl

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

Instructions for student teams

Łukasz Reszka Wiceprezes Zarządu

MULTI-MODEL PROJECTION OF TEMPERATURE EXTREMES IN POLAND IN

BAZIE KWALIFIKACJI ZAGRANICZNYCH

Wybrzeze Baltyku, mapa turystyczna 1: (Polish Edition)

OBWIESZCZENIE MINISTRA INFRASTRUKTURY. z dnia 18 kwietnia 2005 r.

Zmiany techniczne wprowadzone w wersji Comarch ERP Altum

EN 71. (389 x 410 x h272cm) (389 x 410 x h272cm) fungoo.eu FLEPPI

Checklist for the verification of the principles of competitiveness refers to Polish beneficiaries only

Effective Governance of Education at the Local Level

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS)

Projekty Marie Curie Actions w praktyce: EGALITE (IAPP) i ArSInformatiCa (IOF)

Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)

INSTRUKCJE JAK AKTYWOWAĆ SWOJE KONTO PAYLUTION

Why do I need a CSIRT?

XT001_ INTRODUCTION TO EXIT INTERVIEW PYTANIE NIE JEST ZADAWANE W POLSCE W 2006 ROKU. WCIŚNIJ Ctrl+R BY PRZEJŚĆ DALEJ. 1.

Equipment for ultrasound disintegration of sewage sludge disseminated within the Record Biomap project (Horizon 2020)

HemoRec in Poland. Summary of bleeding episodes of haemophilia patients with inhibitor recorded in the years 2008 and /2010

Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to students

XML and Content Management

Call 2013 national eligibility criteria and funding rates

Exercise 1 Listen to the dialogue.

FORMULARZ DLA OGŁOSZENIODAWCÓW. Uniwersytet Mikołaja Kopernika w Toruniu, Wydział Humanistyczny. dziedzina nauk humanistycznych - filozofia,

PROGRAM STAŻU. Nazwa podmiotu oferującego staż / Company name IBM Global Services Delivery Centre Sp z o.o.

Surname. Other Names. For Examiner s Use Centre Number. Candidate Number. Candidate Signature

Improving Customer Relationships

An employer s statement on the posting of a worker to the territory of the Republic of Poland

Stargard Szczecinski i okolice (Polish Edition)

DISSEMINATION ACTIVITIES November October 2012

UNIVERSITY OF ECONOMIC ACTIVITY INWARSAW SOCIO - ECONOMIC SOCIETY "MAZOWSZE" Globalization. Chance or IUusion?

ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.

Prof. Peter Nijkamp (Tinbergen Institute, Jheronimus Academy of Data Science, 's-hertogenbosch, The Netherlands )

USB firmware changing guide. Zmiana oprogramowania za przy użyciu połączenia USB. Changelog / Lista Zmian

Yousuke Tamura Programmer Clinical Science Dep., R&D AstraZeneca K.K. 2005/11/30 1

ISSN ISSN Aesthetics and ethics of pedagogical action Issue 11

Erasmus+ praktyki 2014/2015 spotkanie organizacyjne , Wrocław

1945 (96,1%) backlinks currently link back (74,4%) links bear full SEO value. 0 links are set up using embedded object

PLSH1 (JUN14PLSH101) General Certificate of Education Advanced Subsidiary Examination June Reading and Writing TOTAL

Profil Czasopisma / The Scope of a Journal

STUDIA EUROPEJSKIE STUDIES IN EUROPEAN AFFAIRS. Centrum Europejskie Uniwersytetu Warszawskiego. Rok 22 Numer ISSN X

Transkrypt:

The Electronic Corpus of the 17th and 18th c. Polish Texts (up to 1772). The final result Dorota Adamiec, Renata Bronikowska, Włodzimierz Gruszczyński, Emanuel Modrzejewski, Aleksandra Wieczorek Institute of Polish Language, Polish Academy of Sciences

Plan of presentation corpus main information content and size stages of development and tools searching the corpus plans for the future

Project factsheet title: Electronic corpus of 17th and 18th century Polish texts (up to 1772) cryptonym: KORBA (korpus barokowy baroque corpus ) funding: Polish Ministry of Science and Higher Education, National Programme for the Development of Humanities grant (contract number 0036/NPRH2/H11/81/2012) duration: 2013-2018 coordinating body: Institute of Polish Language, Polish Academy of Sciences cooperation: Institute of Computer Science, Polish Academy of Sciences principal investigator: Włodzimierz Gruszczyński content: >700 texts, c. 13.5M tokens

Chronological representation of texts 4% 15% 38% 15% 28% 1601-1650 1651-1700 1701-1750 1751-1772 another time period

Geographical representation of texts

Types of texts in the corpus epic 8.7% liryc 8.7% drama 1.8% syncretic texts 4.2% press releases & leaflets 1.5% scientific-didactic texts 24.4% persuasive texts 17.8% factual literature 21.3% official & secretarial texts 7.4% letters 1.8% Bible 2.4% 0 500000 1000000 1500000 2000000 2500000 3000000 3500000

Metadata ID: BohJProg title: Prognostyk Zły czy Dobry Komety Roku 1769 y 1770 author: Jan Bohomolec printing house: Drukarnia J.K.M. i Rzeczypospolitej w Kollegium Societatis Jesu place of publication: Warszawa region: Mazowsze type of text: prose literary type: scientific-didactic text genre: tractate topic: astronomy ironic: no date of publication: 1770

From the old edition to the corpus old edition transliteration transcription lemmatization & annotation

From the old edition to the corpus an example Tám hándluią kupcy Tam handlują kupcy [tam:adv] [handlować:fin:pl:ter:imperf] [kupiec:subst:pl:nom:manim1] There trade dealers Giovanni Botero, Relacje powszechne, cz. I, tłum. Paweł Łęczycki, Kraków 1609, p. 189.

Transliteration and structure annotation

Conversion to TEI XML

Transcription Transcription is based on rules that use regular expressions (by means of the transcriber: https://bitbucket.org/jsbien/pol). Left context Before replacement Right context After replacement Example before replacement Example after replacement.* é.* e potém, któré potem, które.* th.* t theatrum, Lutherani teatrum, Luterani ^ rown.* równ rownego, rowność równego, równość ^ iako $ jako iako jako A y $ j bardziey, zwyczay bardziej, zwyczaj.* any string of characters (also empty) ^ the beginning of a word $ the end of a word A any vowel (set defined in the template)

Morphological analyzer Korbeusz Zaczém przez dwie godzinie z nieprzyjacielem strzelali się [ ]. CORBEVS

Manual annotation and lemmatization Anotatornia 2

Taggers: Concraft & Toygger manual annotation 0.5M tokens tagger training automatic annotation of the whole corpus 13.5M tokens Manually annotated corpus is not included in the whole corpus; the same texts were automatically annotated.

Plans for the future enlargement of the corpus by 12M tokens enlargement up to the end of the 18th century tools improvement (transcriber, morphological analyzer, tagger) integration with The Electronic Dictionary of the 17th-18th c. Polish applying new tools (syntactic parsers)

Thank you!