Conjugate, decline and spell like years ago A corpus-based morphological analyzer of 19tʰ century Polish

Podobne dokumenty
Korpus tekstów drugiej połowy doby nowopolskiej ( )

The Electronic Corpus of the 17th and 18th c. Polish Texts (up to 1772). The final result

SPECJALIZACJA: NOWOCZESNA BIBLIOTEKA (Specialization: Modern library) Liczba godzin Nazwa przedmiotu. Nazwa w języku angielskim

Zasób leksykalny polszczyzny II poł. XIX wieku a możliwość automatycznej analizy morfologicznej tekstów z tego okresu

Oxford PWN Polish English Dictionary (Wielki Slownik Polsko-angielski)

KREATOR ARTYKUŁ. 008 przy konwersji generowany automatycznie

Length of expressways and highways per 100 km 2

MULTI-MODEL PROJECTION OF TEMPERATURE EXTREMES IN POLAND IN

Network Services for Spatial Data in European Geo-Portals and their Compliance with ISO and OGC Standards

Trend in drug use in Poland

Korpusowe badania składniowe

HemoRec in Poland. Summary of bleeding episodes of haemophilia patients with inhibitor recorded in the years 2008 and /2010

ZESZYTY NAUKOWE 3 (47) 2007

Bibliografia załącznikowa do prac naukowych, dyplomowych inżynierskich i magisterskich

Język angielski. Gry i zabawy. Podróże dalekie i bliskie

The Use of Electronic Historical Dictionary Data in Corpus Design

FORMULARZ DLA OGŁOSZENIODAWCÓW. 75/Neo/adiunkt/1/2017. Instytut Filologii Rosyjskiej i Ukraińskiej, Wydział Neofilologii

Humanistyka cyfrowa w Katedrze Lingwistyki Formalnej UW

Demand Analysis L E C T U R E R : E W A K U S I D E Ł, PH. D.,

Przyrostowa metoda dygitalizacji słowników

Investment expenditures of self-governement units in percentage of their total expenditure

Wielki Slownik Angielsko-Polski, The Great English-Polish Dictionary

Revenue to gminas budgets from service charges in division 756 per capita

Polszczyzna piękna i bogata wybór literatury

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Przypisy i bibliografia załącznikowa 2c. Przykłady

MAGDALENA DERWOJEDOWA WITOLD KIERAŚ DANUTA SKOWROŃSKA ROBERT WOŁOSZ

Maszynowe tłumaczenie Polskiego Języka Migowego

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

The average number of people in a household receiving social benefits in relation to the average number of persons per household

Structure of councilors in the legislative organs of local government units

INSTITUTE OF LIBRARY AND INFORMATION SCIENCE

photo graphic Jan Witkowski Project for exhibition compositions typography colors : : janwi@janwi.com

Władysław Miodunka. CZEŚĆ, JAK SIĘ MASZ? SPOTKAMY SIĘ W POLSCE. Tom I Podręcznik do nauki języka polskiego dla cudzoziemców. Poziom podstawowy A1

Instytucje gospodarki rynkowej w Polsce

strona 1 / 5 Specjalizacja: B4. Analiza kointegracyjna Publikacje:

SUMMER 2017/ BA ENGLISH STUDIES MONDAY TUESDAY WEDNESDAY THURSDAY FRIDAY

GLOBAL METHANE INITIATIVE PARTNERSHIP-WIDE MEETING Kraków, Poland

Has the heat wave frequency or intensity changed in Poland since 1950?

Automatyczne wspomaganie tworzenia słowników fleksyjnych jednostek wieloczłonowych

TERMIN NADSYŁANIA ZGŁOSZEŃ/ ABSTRAKTÓW WIĘCEJ INFORMACJI NA: TERMIN KONFERENCJI KONTAKT ORGANIZATOR NAZWA

Marcin Werla Poznańskie Centrum Superkomputerowo-Sieciowe

Znaczenie udziału w sieciach i stowarzyszeniach dla jakości kształcenia przykład Wydziału Chemii Uniwersytetu Jagiellońskiego w Krakowie

Magdalena Puda-Blokesz. Stopień naukowy: doktor nauk humanistycznych (językoznawstwo polskie)

Klessa Katarzyna Artykuły w czasopismach: Klessa Katarzyna (afiliacja? - tak) Analiza wybranych cech zmiennności iloczasowej w różnych stylach

Cracow University of Economics Poland. Overview. Sources of Real GDP per Capita Growth: Polish Regional-Macroeconomic Dimensions

publiczne / naukowe / pedagogiczne / pedagogical research public

Kierunki i metody badań. Współczesne bibliotekoznawstwo i informacja naukowa

ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.

SPITSBERGEN HORNSUND

Ocena wniosków o granty ERC Advanced Jakie rozwiazania można wykorzystać?

publiczne / naukowe / pedagogiczne / pedagogical research public

Próba porównania obu baz pod kątem wykonywania analizy cytowań. Hanna Celoch, Biblioteka Politechniki Lubelskiej

Effects of training for the Interdisciplinary Doctoral School "Academia Copernicana"

POLISH ELEVATOR MARKET ONE YEAR AFTER JOINING EU

Teaching activities. improving methods of teaching. improving social students skills. respect to each other. communication through games -

Eliza Małek Jan Wawrzyńczyk FOTOGLOSY DO REJESTRÓW WSPÓŁCZESNEGO SŁOWNICTWA POLSKIEGO

AGENDA Monday s schedule and the plan for the remaining days, introduction of each participant).

1945 (96,1%) backlinks currently link back (74,4%) links bear full SEO value. 0 links are set up using embedded object

Formularz cenowy. Cena jednostkowa. Wydawnictwo. Lp. Ilość Cena netto. Cena. 1. A. Davies, The handbook of applied linguistics BLACKWELL 2

FORMULARZ DLA OGŁOSZENIODAWCÓW. Uniwersytet Mikołaja Kopernika w Toruniu, Wydział Humanistyczny. dziedzina nauk humanistycznych - filozofia,

UMOWY WYPOŻYCZENIA KOMENTARZ

BIBLIOGRAFIA ZAŁĄCZNIKOWA ZASADY TWORZENIA. oprac. Edyta Gawin cop. 2011

ROCZNIK BIBLIOTEKI NARODOWEJ

ITALIAN STUDIES ITALIANISTYKA. Study programme (table of courses) starting with the academic year

ITIL 4 Certification

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

I. Dissertations and Articles (Rozprawy i Artykuły)... 23

Profil Czasopisma / The Scope of a Journal

Katedra Zaopatrzenia w Wodę i Odprowadzania Ścieków. WYKAZ DOROBKU NAUKOWEGO w roku 2009

STUDIA EUROPEJSKIE STUDIES IN EUROPEAN AFFAIRS. Centrum Europejskie Uniwersytetu Warszawskiego. Rok 22 Numer ISSN X

ROCZNIK PRZEK ADOZNAWCZY

EXAMPLES OF CABRI GEOMETRE II APPLICATION IN GEOMETRIC SCIENTIFIC RESEARCH

The Lorenz System and Chaos in Nonlinear DEs

I. KARTA PRZEDMIOTU Współczesne teorie w językoznawstwie historycznym - konwersatorium studia doktoranckie rok III (semestr II)

Institutional Determinants of IncomeLevel Convergence in the European. Union: Are Institutions Responsible for Divergence Tendencies of Some

O dystrybucji nieakcentowanych form poprzyimkowych na podstawie Korpusu IPI PAN p.1

Opis Przedmiotu Zamówienia oraz kryteria oceny ofert. Część nr 8

Zachęcamy do kontaktu z NAWA przed złożeniem wniosku w systemie: Katarzyna Pietruszyńska Tel

ZGŁOSZENIE WSPÓLNEGO POLSKO -. PROJEKTU NA LATA: APPLICATION FOR A JOINT POLISH -... PROJECT FOR THE YEARS:.

Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

STOSUNKI UKRAIŃSKO-POLSKIE W LATACH

Recent Developments in Poland: Higher Education Reform Qualifications Frameworks Environmental Studies

Forested areas in Cracow ( ) evaluation of changes based on satellite images 1 / 31 O

Numer 3 (47) 2008 Warszawa 2008

Czasopisma sprzed II wojny światowej w katalogu NUKAT

MORTGAGE COVER POOL REPORT Issuer

Metadane w Jagiellońskiej Bibliotece Cyfrowej. Piotr Myszkowski

Vice-mayor of Zakopane Wojciech Solik. Polish Ministry of the Environment Chief Specialist for. Tatras National Park (Slovakia) Director Pawel Majko

EUROPEJSKIE Centrum Europejskie Uniwersytetu Warszawskiego

FORMULARZ DLA OGŁOSZENIODAWCÓW INSTYTUCJA: UNIWERSYTET OPOLSKI, WYDZIAŁ HISTORYCZNO - PEDAGOGICZNY

Zestawienie czasów angielskich

Obwieszczenia i Zarządzenia władz Okupacynych (Sygn. 241), (Announcements and Orders) RG

Auschwitz and Birkenau Concentration Camp Records, RG M

Consequences of the Military Conflict in Ukraine for the European Security in 21 st Century

Zajęcia z języka angielskiego TELC Gimnazjum Scenariusz lekcji Prowadzący: Jarosław Gołębiewski Temat: Czas Present Perfect - wprowadzenie

Cracow University of Economics Poland

STUDIA MEDIOZNAWCZE MEDIA STUDIES. Vol. 4 (39) Nr 4 (39) Warsaw Instytut Dziennikarstwa Uniwersytetu Warszawskiego

Urbanek J., Jabłoński A., Barszcz T ssswedfsdfurbanek J., Jabłoński A., Barszcz T., Wykonanie pomiarów

Transkrypt:

Conjugate, decline and spell like years ago A corpus-based morphological analyzer of 19tʰ century Polish Joanna Bilińska Witold Kieraś Magdalena Derwojedowa Chair of Formal Linguistics Institute of Polish Language University of Warsaw Slavic Diachronic Corpus Linguistics Conference Tromsø, April, 21-22, 2015

e Project Motivation A diachronic morphological analyzer in three steps e project Automatic morphological analysis of Polish texts from 1830-1918 period with respect to evolution of inflection and spelling, grant awarded by Polish National Science Centre (DEC-2012/07/B/HS2/00570) 2013-2016 http://wwwf19uwedupl

e Project Motivation A diachronic morphological analyzer in three steps Motivation growing interest in NLP of old(er) Polish availability of adaptable tools extensive, detailed inflectional description of Polish computer-readable text from the period

e Project Motivation A diachronic morphological analyzer in three steps A diachronic morphological analyzer in three steps a n a l y z e modified corpus paradigms hyperlemma c o r p u s ( 1 ) present analyzer modify (2) modifications generate lexicon (3) modified analyzer accepted rejected rejected accepted correct incorrect typos, misspellings, alien elements etc not analyzed

5 5-13 more repository downloadable Introduction e corpus Excerpting samples A sample and metadata e corpus in progress (153%) in progress (153%) scientific (47%) fiction (20%) news (47%) drama (20%) essays (20%) stylistic subcorpora, 200,000 segments each samples/year (at least one sample of each style per year) than 500 authors (inc 119 anonymous), 480 books, 135 newspapers & magazines, 54 digital libraries owncloud at http://wwwf19uwedupl/ Samples collected per style

e corpus Excerpting samples A sample and metadata e good, the bad and the ugly: excerpting samples stroke of luck: a text in original spelling and inflection time machine: aging a text from modern edition with original spelling and forms (a trick for poor quality scans) everyday humdrum: OCR of the digital scans (Fine Reader, tesseract) bad luck: typing in a text (good text, no contemporary re-editions, poor scan) Good and poor quality scans

e corpus Excerpting samples A sample and metadata A sample and metadata Jako bezwarunkową tezę stawiam: Ropa w Galicyi, gdziekolwiek takowa występuje, znajduje się na powtórnem złożysku (sekundäre Lagerstatte) i jest skutkiem suchej destylacyi z wielkiej ilości nagromadzonych szczątek organicznych, zawartych w starszych warstwach, jak są dotychczas w Karpatach znane pokłady łupku bitumicznego utworu neokomskiego autor: Olszewski, Stanisław tytuł: Przyczynek do teoryi pochodzenia i występowania nafty w Galicyi data wydania: 1881 miejsce wydania: Lwów redaktor: Radziszewski, Br tytuł książki: tytuł gazety, czasopisma, serii wydawniczej: Kosmos Czasopismo Polskiego Towarzystwa Przyrodników im Kopernika nr: R 6 wydawnictwo: nakł Polskiego Towarzystwa Przyrodników im Kopernika numery stron: 524-527 styl: popularnonaukowy źródło: Śląska Biblioteka Cyfrowa link: http://wwwsbcorgpl/dlibra/ docmetadata?id=20199 uwagi: nie ma w HINT, chemia? A sample: in yellow 19 c forms, underlined alien elements A metadata file

e dictionary Today e performance Modifications Modified lexicon Wavering instrumental Instrumental endings e dictionary PODBIEGUNOWY polar in Grammatical dictionary of Polish ( Słownik gramatyczny języka polskiego, Saloni et al 2012) http://wwwsgjppl/kuznia/slownik/

e dictionary Today e performance Modifications Modified lexicon Wavering instrumental Instrumental endings e analyzer for modern Polish A string from a sample analyzed by Morfeusz 20 (Woliński, 2014) with SGJP-based lexicon Marked not analyzed 19c forms

Introduction e dictionary Today e performance Modifications Modified lexicon Wavering instrumental Instrumental endings e performance of non-modified analyzer on 1830-1918 corpus 0 5 10 15 20 25 30 1830 1840 1850 1860 1870 1880 1890 1900 1910 Percent of unrecognized unique segments per file

e dictionary Today e performance Modifications Modified lexicon Wavering instrumental Instrumental endings Modifications Kuźnia (Smithy) editor

e dictionary Today e performance Modifications Modified lexicon Wavering instrumental Instrumental endings Days of future past: modified lexicon 2 G/A masc sg 4 I masc sg 7 D/C/L/V fem sg 11 I pl

e dictionary Today e performance Modifications Modified lexicon Wavering instrumental Instrumental endings Wavering instrumental Kopczyński (1780) differentiate between instrumentalis of masculin and neuter: sg pl masc ym ymi neut, fem em emi

e dictionary Today e performance Modifications Modified lexicon Wavering instrumental Instrumental endings Distribution of instrumental endings across genders 35 30 25 masc -ym(i) masc -em(i)/m(i) fem/neut -ym(i) fem/neut -em(i)/m(i) 20 15 10 5 0 1830 1840 1850 1860 1870 1880 1890 1900 1910

extinction of é je:gie:ge part-of-speech tagging, tracing dynamics of language change (spelling and inflection) following adaptation stages of loanwords marking neologisms/disused/obsolete words with date

extinction of é je:gie:ge Example: dynamics of é 45 4 35 3 25 2 15 1 05 0 1830 1840 1850 1860 1870 1880 1890 1900 1910 Percent of unique segments with per year

extinction of é je:gie:ge Example: ge:gie:je alternations 14 12 10 8 6 4 2 0 1830 1840 1850 1860 1870 1880 1890 1900 1910 ge (geogra a, tragedja) gie (gienerał, gienjusz, inteligiencja) je (jenijuszu, jeogra i, trajedyi) Distribution of je:gie:ge spelling

References DERWOJEDOWA M, KIERAś W, SKOWROńSKA D i WO OSZ R, Współczesne narzędzia leksykograficzne a analiza tekstów dawniejszych,,,polonica'', t XXXIV s 21--27 2014a DERWOJEDOWA M, KIERAś W, SKOWROńSKA D i WO OSZ R, Zasób leksykalny polszczyzny II poł XIX wieku a możliwość automatycznej analizy morfologicznej tekstów z tego okresu, [w:] Leksyka języków słowiańskich w badaniach synchronicznych i diachronicznych, red M GęBKA-WOLAK, J KAMPER-WAREJKO i A MOROZ, s 183--195, 2014b DERWOJEDOWA M, SKWROńSKA D i KIERAś W, Korpus polszczyzny XIX wieku od mikrokorpusu do korpusu średniej wielkości,,,prace Filologiczne'', s 249--254 2014c KOPCZYńSKI O, Grammatyka dla szkół narodowych, I wyd, Warszawa 1780 SALONI Z, WOLIńSKI M, WO OSZ R, GRUSZCZYńSKI W i SKOWROńSKA D, Słownik gramatyczny języka polskiego, Ii wyd, Warszawa 2012, CD WOLIńSKI M, Morfeusz Reloaded, [w:] Proceedings of the Ninth International Conference on Language Resources and Evaluation, LREC 2014, red N CALZOLARI, K K CHOUKRI, T DECLERCK, H LOFTSSON, B MAEGAARD, J MARIANI, A MORENO, J ODIJK i S PIPERIDIS, s 1106 1111, ELRA, Reykjavík, Iceland 2014, ISBN 978-2-9517408-8-4, URL http://wwwlrec-conforg/proceedings/lrec2014/indexhtml

http://wwwf19uwedupl/ funded by the Polish National Science Centre grant DEC-2012/07/B/HS2/00570