SGJP Inflection Adjectives Nouns Verbs Perspectives

Podobne dokumenty
SGJP Model odmiany Przymiotniki Rzeczowniki Czasowniki Podsumowanie


Tychy, plan miasta: Skala 1: (Polish Edition)

Zmiany techniczne wprowadzone w wersji Comarch ERP Altum


Władysław Miodunka. CZEŚĆ, JAK SIĘ MASZ? SPOTKAMY SIĘ W POLSCE. Tom I Podręcznik do nauki języka polskiego dla cudzoziemców. Poziom podstawowy A1

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

Władysław Miodunka. CZEŚĆ, JAK SIĘ MASZ? SPOTKAMY SIĘ W EUROPIE. Tom II Podręcznik do nauki języka polskiego dla cudzoziemców. Poziom podstawowy A2

Extraclass. Football Men. Season 2009/10 - Autumn round

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 8: Structured PredicCon 2

Previously on CSCI 4622

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

Marzec: food, advertising, shopping and services, verb patterns, adjectives and prepositions, complaints - writing

deep learning for NLP (5 lectures)


Oxford PWN Polish English Dictionary (Wielki Slownik Polsko-angielski)

ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL

Auschwitz and Birkenau Concentration Camp Records, RG M

DOI: / /32/37

The Use of Electronic Historical Dictionary Data in Corpus Design

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction


Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

Convolution semigroups with linear Jacobi parameters

EXAMPLES OF CABRI GEOMETRE II APPLICATION IN GEOMETRIC SCIENTIFIC RESEARCH


Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

Installation of EuroCert software for qualified electronic signature


Network Services for Spatial Data in European Geo-Portals and their Compliance with ISO and OGC Standards

Zarządzanie sieciami telekomunikacyjnymi

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

PORTS AS LOGISTICS CENTERS FOR CONSTRUCTION AND OPERATION OF THE OFFSHORE WIND FARMS - CASE OF SASSNITZ

Helena Boguta, klasa 8W, rok szkolny 2018/2019

Raport bieżący: 44/2018 Data: g. 21:03 Skrócona nazwa emitenta: SERINUS ENERGY plc

Hard-Margin Support Vector Machines

XT001_ INTRODUCTION TO EXIT INTERVIEW PYTANIE NIE JEST ZADAWANE W POLSCE W 2006 ROKU. WCIŚNIJ Ctrl+R BY PRZEJŚĆ DALEJ. 1.

MaPlan Sp. z O.O. Click here if your download doesn"t start automatically

Baptist Church Records

OpenPoland.net API Documentation

EXCEL PL PROGRAMOWANIE PDF

LEARNING AGREEMENT FOR STUDIES

SNP SNP Business Partner Data Checker. Prezentacja produktu

ZARZADZANIE RYZYKIEM WALUTOWYM PDF

JĘZYK ANGIELSKI ĆWICZENIA ORAZ REPETYTORIUM GRAMATYCZNE

ABOUT NEW EASTERN EUROPE BESTmQUARTERLYmJOURNAL

BULLETIN 2 II TRAINING CAMP POLISH OPEN MTBO CHAMPIONSHIPS MICHAŁOWO TRAINING CAMP WORLD MTB ORIENTEERING CHAMPIONSHIPS

Surname. Other Names. For Examiner s Use Centre Number. Candidate Number. Candidate Signature

Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)

Stargard Szczecinski i okolice (Polish Edition)

TYLKO DO UŻYTKU WŁASNEGO! PERSONAL USE ONLY!

Wykaz linii kolejowych, które są wyposażone w urządzenia systemu ETCS

Weronika Mysliwiec, klasa 8W, rok szkolny 2018/2019

Compatible cameras for NVR-5000 series Main Stream Sub stream Support Firmware ver. 0,2-1Mbit yes yes yes n/d

PLSH1 (JUN14PLSH101) General Certificate of Education Advanced Subsidiary Examination June Reading and Writing TOTAL

Wykaz linii kolejowych, które są wyposażone w urzadzenia systemu ETCS

Struktury proponowane dla unikalnych rozwiązań architektonicznych.

Polski Krok Po Kroku: Tablice Gramatyczne (Polish Edition) By Anna Stelmach

Has the heat wave frequency or intensity changed in Poland since 1950?

ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

POLISHH. for Foreigners BOOK. POLSKI raz a dobrze AUDIO CD AN INTENSIVE COURSE FOR BEGINNERS

y = The Chain Rule Show all work. No calculator unless otherwise stated. If asked to Explain your answer, write in complete sentences.

ZGŁOSZENIE WSPÓLNEGO POLSKO -. PROJEKTU NA LATA: APPLICATION FOR A JOINT POLISH -... PROJECT FOR THE YEARS:.

SubVersion. Piotr Mikulski. SubVersion. P. Mikulski. Co to jest subversion? Zalety SubVersion. Wady SubVersion. Inne różnice SubVersion i CVS

OSI Data Link Layer. Network Fundamentals Chapter 7. Version Cisco Systems, Inc. All rights reserved. Cisco Public 1

Proposal of thesis topic for mgr in. (MSE) programme in Telecommunications and Computer Science

Faculty: Management and Finance. Management

SG-MICRO... SPRĘŻYNY GAZOWE P.103


PROJECT. Syllabus for course Global Marketing. on the study program: Management

Instrukcja obsługi User s manual

General Certificate of Education Ordinary Level ADDITIONAL MATHEMATICS 4037/12

Dominika Janik-Hornik (Uniwersytet Ekonomiczny w Katowicach) Kornelia Kamińska (ESN Akademia Górniczo-Hutnicza) Dorota Rytwińska (FRSE)

HemoRec in Poland. Summary of bleeding episodes of haemophilia patients with inhibitor recorded in the years 2008 and /2010


Wyroby medyczne Systemy zarządzania jakością Wymagania do celów przepisów prawnych

Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering

SUPPLEMENTARY INFORMATION FOR THE LEASE LIMIT APPLICATION

PRZEWODNIK PO PRZEDMIOCIE. Negotiation techniques. Management. Stationary. II degree

SSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1. Fry #65, Zeno #67. like

EPS. Erasmus Policy Statement

FORMULARZ REKLAMACJI Complaint Form

Demand Analysis L E C T U R E R : E W A K U S I D E Ł, PH. D.,

SUPPLEMENTARY INFORMATION FOR THE LEASE LIMIT APPLICATION

SNP Business Partner Data Checker. Prezentacja produktu

PROJECT. Syllabus for course Negotiations. on the study program: Management

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Wprowadzenie do psql i SQL. Język komend psql. Podstawy instrukcji SELECT


Regulamin Dzielnicowego Konkursu Języka Angielskiego dla klas III Master of English.

Maximum Ride Ostatnie Ostrzezenie Globalne Ocieplenie (Polska Wersja Jezykowa)

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

ZGŁOSZENIE WSPÓLNEGO POLSKO -. PROJEKTU NA LATA: APPLICATION FOR A JOINT POLISH -... PROJECT FOR THE YEARS:.

archivist: Managing Data Analysis Results

Transkrypt:

Warszawa, Wiedza Powszechna 2007

Grammatical dictionaries Other dictionaries of this type that we are aware of: Андрей А. Зализняк, Грамматический словарь русского языка, 1977 Москва, 4 th edition: 2003 (published on paper) Slaven Batnožić, Branko Ranilović, Josip Silić, Gramatički tezaurus hrvatskog jezika, 1996 Zagreb (electronic) В. А. Широков et al., Словники Украïни Iнтегрована Лексикографiчна Система, 2001 (electronic)

The history of SGJP Milestones in the history of our dictionary: analysis of grammatical information in the Doroszewski s dictionary (SJPDor., Słownik języka polskiego, 1958 1969) resulting in a series of master s theses and articles (in the eighties); W. Gruszczyński, Fleksja rzeczowników pospolitych we współczesnej polszczyźnie pisanej, 1989, Wrocław. J. Tokarski, Schematyczny indeks a tergo polskich form wyrazowych, edited by Z. Saloni, 1993, Warszawa. electronic version of the list of headwords of SJPDor. with grammatical information (prepared by R. Wołosz); Z. Saloni Czasownik polski, 2001, Warszawa (3 rd ed. 2007).

The history of SGJP SGJP gained the final shape as a result of the ministry sponsored project 2 H01D 007 24 Słownik gramatyczny języka polskiego, held at the University of Varmia and Masuria in Olsztyn, 2003 2006.

The scope of the dictionary The dictionary contains complete information on inflection of virtually all inflecting Polish lexemes, basic syntactic features: gender for nouns, aspect and transitivity for verbs, case government for prepositions, for numerals type of syntactic relation with nouns; typical derivatives: adjective comparative and superlative adjective, adverb, nominal name of the feature, verb adjectival participles, gerund; aspectual pairs for verbs; no definitions.

The scope of the dictionary Lexemes Patterns total 244,341 1095 nouns 135,388 762 common 68,099 proper 8,754 gerunds 29,587 -ość 28,948 adjectives 65,564 71 regular 31,273 participles 34,291 numerals 98 45 verbs 29,531 215 non-inflecting 13,760 2 adverbs 11,469 prepositions 112 others 2,197

The work on SGJP Due to the large amount of data involved SGJP has been developed using relational database machinery. Data for each grammatical class was kept in a separate MS Access file that was operated by one of the authors. Relational modelling has been applied to Polish inflection. The database was used not only as a means of storage but to describe linguistic phenomena. The form of data used in the user interface was generated on a Linux system with Perl scripts and SQLite tool.

An inflection table for a typical noun sg pl nom dziecko dzieci gen dziecka dzieci dat dziecku dzieciom acc dziecko dzieci inst dzieckiem dziećmi loc dziecku dzieciach voc dziecko dzieci

An inflection table for a typical noun sg pl nom dziecko dzieci gen dziecka dzieci dat dziecku dzieciom acc dziecko dzieci inst dzieckiem dziećmi loc dziecku dzieciach voc dziecko dzieci

An inflectional pattern dzie + Pattern sg pl nom cko ci gen cka ci dat cku ciom acc cko ci inst ckiem ćmi loc cku ciach voc cko ci stem + endings

An inflectional pattern dzie + Pattern sg pl nom cko ci gen cka ci dat cku ciom acc cko ci inst ckiem ćmi loc cku ciach voc cko ci stem + endings Quite commonly these parts are not what could be called a stem or an ending from the linguistic point of view.

The schema of the database (1 st approximation)

The schema of the database (2 nd approximation)

The system of genders in SGJP Widzę jednego albo dwóch spośród tych, których lubię. m1 Widzę jednego albo dwa spośród tych, które lubię. m2 Widzę jeden albo dwa spośród tych, które lubię. m3 Widzę jedno albo dwoje spośród tych, które lubię. n1 Widzę jedno albo dwa spośród tych, które lubię. n2 Widzę jedną albo dwie spośród tych, które lubię. f Widzę jedno albo dwoje spośród tych, których lubię. p1 Widzę jedne albo dwoje spośród tych, które lubię. p2 Widzę (jedną albo dwie pary) spośród tych, które lubię. p3

An inflection table for a typical adjective sg pl m1 m2 m3 n1,n2 f m1,p1 other nom zły zły zły złe zła źli złe gen złego złego złego złego złej złych złych dat złemu złemu złemu złemu złej złym złym acc złego złego zły złe złą złych złe inst złym złym złym złym złą złymi złymi loc złym złym złym złym złej złych złych

An inflection table for a typical adjective sg pl m1 m2 m3 n1,n2 f m1,p1 other nom zły zły zły złe zła źli złe gen złego złego złego złego złej złych złych dat złemu złemu złemu złemu złej złym złym acc złego złego zły złe złą złych złe inst złym złym złym złym złą złymi złymi loc złym złym złym złym złej złych złych

11 basic inflected forms for adjectives sg pl m1 m2 m3 n1,n2 f m1,p1 other nom 1 1 1 5 6 9 5 gen 2 2 2 2 7 10 10 dat 3 3 3 3 7 4 4 acc 2 2 1 5 8 10 5 inst 4 4 4 4 8 11 11 loc 4 4 4 4 7 10 10

The schema of the database (3 rd approximation)

Three Polish nouns that differ in gender mag m1 żuk m2 sąg m3 sg pl sg pl sg pl nom mag magowie magi żuk żuki sąg sągi gen maga magów żuka żuków sąga sągów dat magowi magom żukowi żukom sągowi sągom acc maga magów żuka żuki sąg sągi inst magiem magami żukiem żukami sągiem sągami loc magu magach żuku żukach sągu sągach voc magu magowie magi żuku żuki sągu sągi

Three Polish nouns that differ in gender mag m1 żuk m2 sąg m3 sg pl sg pl sg pl nom mag magowie magi żuk żuki sąg sągi gen maga magów żuka żuków sąga sągów dat magowi magom żukowi żukom sągowi sągom acc maga magów żuka żuki sąg sągi inst magiem magami żukiem żukami sągiem sągami loc magu magach żuku żukach sągu sągach voc magu magowie magi żuku żuki sągu sągi

A combined inflectional pattern sg:nom sg:gen sg:dat sg:inst sg:loc sg:voc pl:nom:m1 pl:nom:m2 pl:gen pl:dat pl:inst pl:loc ø a owi iem u u owie i ów om ami ach

Types of nominal patterns The relations we mentioned are not common to all nouns. We need several types of nominal patterns depending on the type of inflection : masculine, feminine, neuter, and one for non-inflecting nouns. Attribute pat_type of Pattern. The forms depend on gender of a noun. Attribute infl_char of Inflection.

The schema of the database (4 th approximation)

Forms of a typical Polish verb czytam czytamy czytasz czytacie czyta czytają czytałem czytałam czytałom czytaliśmy czytałyśmy czytałeś czytałaś czytałoś czytaliście czytałyście czytał czytała czytało czytali czytały czytano czytajmy czytaj czytajcie czytałbym czytałabym czytałobym czytalibyśmy czytałybyśmy czytałbyś czytałabyś czytałobyś czytalibyście czytałybyście czytałby czytałaby czytałoby czytaliby czytałyby czytać czytając

Forms of a typical Polish verb czytam czytamy czytasz czytacie czyta czytają czytałem czytałam czytałom czytaliśmy czytałyśmy czytałeś czytałaś czytałoś czytaliście czytałyście czytał czytała czytało czytali czytały czytano czytajmy czytaj czytajcie czytałbym czytałabym czytałobym czytalibyśmy czytałybyśmy czytałbyś czytałabyś czytałobyś czytalibyście czytałybyście czytałby czytałaby czytałoby czytaliby czytałyby czytać czytając 12 basic inflected forms: czyta, czytam, czytają, czytaj, czytać, czytał, czytałem, czytało, czytali, czytano, czytanie, czytani

Constituents of a verbal form in SGJP prefix stem ending suffix bafotag tag d ął 6 praet:sg:m:ter d ął em 7 praet:sg:m:pri d ął eś 7 praet:sg:m:sec d ęł a 8 praet:sg:f:ter d ęł o 8 praet:sg:n:ter d ęł y 8 praet:pl:f:ter d mą cy 3 pact:sg:nom:m1:aff nie d mą cy 3 pact:sg:nom:m1:neg

The schema of the database

Constituents of a form in SGJP Form prefix stem Inflection Ending ending Form suffix Inflection bafotag Form tag bia łego 2 adj:sg:gen:m1 naj biels zego 2 adjsup:sg:gen:m1 mag a sg:gen sg:gen:m1 mag a sg:gen sg:acc:m1 sąg a sg:gen sg:gen:m3 czyta ł o 8 praet:sg:n1:ter czyta ł y 8 praet:pl:f:ter nie czyta n y 10 ppas:sg:nom:m1:neg

Planned improvements in the data extending the dictionary (mainly with proper names) enriching the entries with more labels, glosses, notes,... more in-depth study of the depreciative forms, non-obvious genders for nouns, and other phenomena a classification of inflectional patterns information on corpus frequency of lexemes (e.g., a view of 1000, 10.000 or 50.000 most frequent lexemes of Polish)

Planned improvements in the interface filtering by inflectional patterns; user defined views of the list of entries (by grammatical classes, inflectional patterns, frequency, conditions on endings, arbitrary forms)

Summary The dictionary provides an extensive grammatical description of Polish words. We deem that for the first time such a rigorous description has been applied so extensively. We see many possible improvements, so we certainly hope the first edition of SGJP will not be the last.