Zasób leksykalny polszczyzny II poł. XIX wieku a możliwość automatycznej analizy morfologicznej tekstów z tego okresu

Podobne dokumenty
Współczesne narzędzia leksykograficzne a analiza tekstów dawniejszych

Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa

MAGDALENA DERWOJEDOWA WITOLD KIERAŚ DANUTA SKOWROŃSKA ROBERT WOŁOSZ

Automatyczne wspomaganie tworzenia słowników fleksyjnych jednostek wieloczłonowych

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Korpus tekstów drugiej połowy doby nowopolskiej ( )

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

ć ć ć Ó ć Ó ć Ę ć Ł ć Ś ć Ę ć Ą ć ć ć ć ć ć ć

Ł Ó Ó Ó Ł Ó Ó Ł Ł Ó Ą Ć Ó Ą ć Ó ć ć

Ł ż Ó Ó ć Ó Ć

C e l e m c z ę ś c i d y s k u s y j n e j j e s t u ś w i a d o m i e n i e s o b i e, w o p a r c i u o r o z w a ż a n i a P i s m a Ś w.

ź Ś Ó Ó Ż

ć ć Ą ć Ęć Ó Ą ź ć ć ć ć ź ź Ą ć Ę ć ź ć ć ć ź ć ź ć ć ć Ś Ź ź

ż ć

Ó Ś Ś ć

ż ż ż ż Ź ż Ą ż ż ż Ś

ć Ś Ś Ść

Ź ć Ż ć ć Ó

ć ć ć ć ć Ł

ź Ą Ę Ę ć Ł ć ć ć ć ć ć ć

ć Ę ż Ł ź ż ź Ś Ś ź ć Ć ż Ś ż Ś

Ą Ł ć Ę ć Ę ć

Ś

Ó Ł Ę ź ź ź ć Ó ć

Ć ć ć Ś ć

ć ć ź ć ć ć Ść ć ź ź ź ć ź Ą ź

Ś Ż Ó Ś ż Ó ć ź ż ż Ą

Ą Ó Ś ź Ś

Ą Ź ć ć Ó Ó Ć Ć Ś

Ł ż

ć ć Ł ć Ź ć Ł ź ć Ś ć ć Ż Ł Ż ć ż ć

ć

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Open Access w technologii językowej dla języka polskiego

Ś Ó Ó Ś ż Ś Ó Ś ŚÓ Ó

ć Ę

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Ź Ę ć ź

ć ć Ę Ó Ś ż ż Ś ż ż ż Ęć ż ć ć ż ż

Ż Ą ź ź ź ź

Ż Ę Ę Ę Ę Ę Ź Ż

ŁĄ Ł

ć Ś

ż ć Ń Ł Ż Ść Ść ć Ż Ść Ż ć ć Ż ź Ś ć ć Ó ć ć Ść

Ó Ó Ę ź

ć

ź Ą Ę ź Ć

Ę ż ć ŁĄ

Ń ź ź ź ź Ś ź ź Ś ź

Ż Ś ś Ę Ż

ż ż Ę Ę Ą Ó

ź Ż Ż Ś ć ć Ł ż Ż Ż Ż Ż Ł Ż Ł Ż Ż Ż ż ż ż ż ż ż Ż ć Ż Ś Ś Ń Ść

ż Ś ż ż ć ć Ś Ź Ą

Ł Ż

Ś ź Ś Ś

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Ż Ż

Ę Ł Ź Ł

ć ę ę ć ę Ś ę Ń ę ź ę ę ę Ś ę ę ę Ó Ł Ł Ę Ą ę

Ą ź Ą Ą Ś Ó Ą

Ł Ł Ę Ż ź


Ę Ł ź Ś ź ź ź

ż ó ś Ą ć ó ó ó ś ś ś ó ś Ł ś

Ł ć Ś ć Ś ć ć Ę ź ć ć

Ó

Ó Ó ą

Ą Ą ź

ć ć Ść ć Ść ć ć ć ć

Ł Ż Ń Ń ć

ć ć

ć ć Ą Ź Ż Ą Ż ć Ą Ż Ź

Ą Ś Ó

Ł Ę Ż Ą Ęć Ń Ń Ł Ę

Ł ć Ł ć ć ć ć Ń ć ć

Ł Ś Ś Ó ń

Ł Ą Ż Ż Ó ż ć

ż ą Ę ą ą Ż ą ż ż ą Ż Ż ż ą ą ż ć Ż Ź ż ż ą ą Ł ć Ó ż Ó Ć

Ż Ń Ś Ł Ó Ś ń Ż ń ć Ż ć ń ź Ż ć ć ć ń ń ć Ż Ż ć

Ł ó ż ż Ż Ż Ż Ż Ż Ż Ż Ź Ź ż

ź ć

Ł

Ą Ó Ź Ą Ź Ź

Ą Ą Ł Ą


ś ś Ż ś Ń Ń Ę Ł ć ś Ł

Ż Ż Ł


Ó Ą ź ć Ę Ń Ę

Ę ż Ó Ł Ść ą ą ą Ą ć ż ą ż ń ą ć ż ć Ę ą ż ą ą ż ą ź ą ń ą ń ą ą ż ć

ń ć Ł Ą

Ł Ś Ę Ł Ś Ś Ś Ą ń ń Ó

ź Ł Ą Ż Ń Ń Ś Ń ć

Ść ć Ż ć Ż Ś ć ż ń ż Ż ć Ś Ż ń

ń ż ń ń Ą ń ż ż ń ż ż ż Ż ń Ą ń

Ń Ń ć ć Ł Ć Ń ć Ę

ń ń ń ż ć Ł ż ż ń ż Ą ń Ż ż

ń ż ś

Transkrypt:

Zasób leksykalny polszczyzny II poł. XIX wieku a możliwość automatycznej analizy morfologicznej tekstów z tego okresu DEC-2012/07/B/HS2/00570 Magdalena Derwojedowa Witold Kieraś Danuta Skowrońska Robert Wołosz IJP UW, Uniwersytet w Pécsu Synchronia i diachronia, Toruń, 5 6 września 2013, Toruń

Porządek wystąpienia 1 2 do przetwarzania tekstów języka polskiego 3 4 Słownik języka polskiego pod red. W. Doroszewskiego 5 6 7

fleksyjna tekstów polskich z lat 1830-1918 z uwzględnieniem zmian w odmianie i pisowni 2013 2016, DEC-2012/07/B/HS2/00570. Cele: koncepcja leksykograficzna opisu zmian fleksyjnych i pisownianych w (elektronicznym) słowniku gramatycznym niewielki, zrównoważony i oznakowany (1 mln segmentów) korpusu tekstów z lat 1830 1918 wzorce paradygmatyczne nieuwzględnione w SGJP, żywe w badanym okresie systematyka kategorii fleksyjnych i ich wartości schemat opisu zjawisk ewolucyjnych w słowniku elektronicznym poszerzenie słownika analizatora morfologicznego

do przetwarzania tekstów języka polskiego synchronia: zasoby dla współczesnej polszczyzny diachronia: komputerowe słowniki i programy do pracy z tekstami dawnymi

korpusy (IPI PAN, PELCRA, NKJP, http://http://korpus.pl/, http://pelcra.pl/, http://www.nkjp.pl/) zasoby semantyczno-leksykalne (polski wordnet, Słowosieć, http://plwordnet.pwr.wroc.pl/wordnet/) bank drzew (Składnica, http://zil.ipipan.waw.pl/sk%c5%82adnica/) słowniki walencyjne (Walenty, http://clip.ipipan.waw.pl/walenty)

Synchronia: narzędzia analizatory morfologiczne (Morfeusz, Polimorf, PolEng, PoMor, AMOR) analizatory składniowe (Świgra, http://nlp.ipipan.waw.pl/~wolinski/swigra/, analizator T. Obrębskiego, http://www.staff.amu.edu. pl/~obrebski/files/to-dr/to-dr.pdf) zestawy narzędzi do pracy z tekstem (Poliqarp, PSI toolkit, narzędzia grupy G4.19, http://poliqarp.sourceforge.net/, http://psi-toolkit.wmi.amu.edu.pl/, http://nlp.pwr.wroc.pl/pl/narzedzia-i-zasoby/ narzedzia-przetwarzania-morfosyntaktycznego)

Morfeusz, http://sgjp.pl/morfeusz/ Polimorf, http://zil.ipipan.waw.pl/polimorf Słownik fleksyjny języka polskiego na CD (http://www.klk.uj.edu.pl/sfjp) system POLENG (http://poleng.pl/) analizator SAM analizator PoMor analizator AMOR

Korpus tekstów staropolskich (http://www.ijp-pan. krakow.pl/publikacje-elektroniczne/ korpus-tekstow-staropolskich) Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do roku 1772) (grant 11H 12 0124 81 realizowany w Instytucie Języka Polskiego PAN, kierownik dr hab., prof. SWPS Włodzimierz Gruszczyński) Słownik polszczyzny XVI w. (http://www.spxvi.edu.pl/) Słownik polszczyzny XVII i 1 poł. XVIII wieku (http://xvii-wiek.ijp-pan.krakow.pl/pan_klient/) Ewangelie

Analiza operacja przyporządkowująca każdemu słowu wejściowemu pewien opis (np. poprawność ortograficzną, postać hasłową, opis fleksyjny, słowotwórczy itd.).

Analiza tekstów dawniejszych Analizator o rozległej podstawie leksykalnej może poprawnie analizować znaczący odsetek jednostek dawniejszych.

Analiza tekstów dawniejszych Analizator o rozległej podstawie leksykalnej może poprawnie analizować znaczący odsetek jednostek dawniejszych. Tworzenie nowego analizatora jest niecelowe.

Analiza tekstów dawniejszych Analizator o rozległej podstawie leksykalnej może poprawnie analizować znaczący odsetek jednostek dawniejszych. Tworzenie nowego analizatora jest niecelowe. Modyfikacja słownika istniejącego bogatego analizatora.

Słownik języka polskiego pod red. W. Doroszewskiego liczba haseł ok. 125 000 liczba haseł oznaczonych jako dawne 10 597 liczba haseł oznaczonych jako przestarzałe 4606 15 203

Słownik języka polskiego pod red. W. Doroszewskiego liczba haseł ok. 125 000 liczba haseł oznaczonych jako dawne 10 597 liczba haseł oznaczonych jako przestarzałe 4606 15 203 ok.11,5% ogólnej liczby haseł

Hasła dawne i przestarzałe w

Hasła dawne i przestarzałe w

(1) W o g ó l e żaden na świecie język nie jest mi drogim i nie ma w moich oczach żadnych praw. (2) D r o g i e m mi jest prawo człowieka pozostawania przy własnym języku, wybierania go sobie, prawo n i e p o d l e g a n i a wywłaszczaniu ze wszechstronnej używalności swego języka, prawo dowolnego grupowania się ludzi między innemi także na podstawie językowej. (3) Krótka h i s t o r y a idei języka międzynarodowego i jej wcieleń. (4) Do usunięcia wielojęzykowości dążono r ó ż n e m i s p o s o b y, drogą krzywd i gwałtów. (5) módz, biedz (6) kategorji, bibljoteczka

Lalka B. Prusa, 260 000 segmentów Pan Tadeusz A. Mickiewicza wybrane pisma J. N. Baudouin de Courtenay analizatory PoMor i Morfeusz-SGJP

segmenty i ich charakterystyka nierozpoznane formy Morfeusz SGJP, PoMor 4000

, charakterystyka elementy obce (liczby itp.) nazwy własne: (7) Założyłbym się, że K l e j n będzie pierwszy, a M r a c z e w s k i ostatni. cytaty (8) Que votre nom soit béni à jamais, bien qui avez voulu m éprouver par cette peine.

, charakterystyka: formy dawne fleksyjne:

, charakterystyka: formy dawne fleksyjne: (9) Rozumie się z doliczeniem procentu w stosunku... sześć... do ośmiu o d s t a rocznie...

, charakterystyka: formy dawne fleksyjne: (9) Rozumie się z doliczeniem procentu w stosunku... sześć... do ośmiu o d s t a rocznie... (10) Pod oknem stał ten sam czarny stół obity suknem, także niegdyś z i e l o n e m, dziś tylko p o p l a m i o n e m.

, charakterystyka: formy dawne fleksyjne: (9) Rozumie się z doliczeniem procentu w stosunku... sześć... do ośmiu o d s t a rocznie... (10) Pod oknem stał ten sam czarny stół obity suknem, także niegdyś z i e l o n e m, dziś tylko p o p l a m i o n e m. (11) Widzisz, mówię ci nawet k o m p l i m e n t a.

, charakterystyka: formy dawne fleksyjne: (9) Rozumie się z doliczeniem procentu w stosunku... sześć... do ośmiu o d s t a rocznie... (10) Pod oknem stał ten sam czarny stół obity suknem, także niegdyś z i e l o n e m, dziś tylko p o p l a m i o n e m. (11) Widzisz, mówię ci nawet k o m p l i m e n t a. (12) Zdublujesz majątek i jak mówi Stary Testament, zobaczysz n i e p r z y j a c i o ł y twoje u podnóżka nóg twoich...

, charakterystyka: formy dawne ortograficzne (13) P r z y s z l ę ci tu zaraz Rzeckiego odezwał się Wokulski, ściskając go za rękę. (14)... ćwierćwiekowa pajęczyna, a z p e w n o ś c i ą ćwiercwiekowa firanka, niegdyś zielona... (15) W o g ó l e żaden na świecie język nie jest mi drogim i nie ma w moich oczach żadnych praw. (16) Mów, co chcesz, a ja wiem, że dałbym kilka lat życia, aby się d o w i e d z i é ć szczegółów o t é j kobiecie, aby m ó d z ją poznać. (17) Przez tę p r o w i n c y ą główna a r m i j a r o s s y j s k a miała swoje k o m m u n i k a c y e z Kijowem.

Rozszerzenie współczesnego analizatora o jednostki dawne korpus o długości 1 mln segmentów (1000 próbek gronowych po 1000 segmentów) analiza zgromadzonego materiału za pomocą niemodyfikowanego analizatora współczesnego stworzenie listy jednostek nierozpoznanych stanowiących potencjalnie formy dawne wzbogacenie zbioru form o hasła Słownika warszawskiego, nienotowane we współczesnych słownikach języka polskiego

Rozszerzenie współczesnego analizatora o jednostki dawne, cd. przyporządkowanie jednostkom wzorców odmiany, a w przypadku braku wzorców stworzenie ich

Rozszerzenie współczesnego analizatora o jednostki dawne, cd. przyporządkowanie jednostkom wzorców odmiany, a w przypadku braku wzorców stworzenie ich notowanie zmian dotyczących charakterystyki leksemów, np. zmian paradygmatu odmiany

Rozszerzenie współczesnego analizatora o jednostki dawne, cd. przyporządkowanie jednostkom wzorców odmiany, a w przypadku braku wzorców stworzenie ich notowanie zmian dotyczących charakterystyki leksemów, np. zmian paradygmatu odmiany oznaczenie form notowanych w tekstach dawnych

Rozszerzenie współczesnego analizatora o jednostki dawne, cd. przyporządkowanie jednostkom wzorców odmiany, a w przypadku braku wzorców stworzenie ich notowanie zmian dotyczących charakterystyki leksemów, np. zmian paradygmatu odmiany oznaczenie form notowanych w tekstach dawnych oznaczenie jednostek dawnych (na materiale Słownika wileńskiego)

Rozszerzenie współczesnego analizatora o jednostki dawne, cd. przyporządkowanie jednostkom wzorców odmiany, a w przypadku braku wzorców stworzenie ich notowanie zmian dotyczących charakterystyki leksemów, np. zmian paradygmatu odmiany oznaczenie form notowanych w tekstach dawnych oznaczenie jednostek dawnych (na materiale Słownika wileńskiego)

Rozszerzenie współczesnego analizatora o jednostki dawne, cd. przyporządkowanie jednostkom wzorców odmiany, a w przypadku braku wzorców stworzenie ich notowanie zmian dotyczących charakterystyki leksemów, np. zmian paradygmatu odmiany oznaczenie form notowanych w tekstach dawnych oznaczenie jednostek dawnych (na materiale Słownika wileńskiego) (18) Szpanowali h i p s t e r s k i é m i i P h o n y

Rozszerzenie współczesnego analizatora o jednostki dawne, cd. przyporządkowanie jednostkom wzorców odmiany, a w przypadku braku wzorców stworzenie ich notowanie zmian dotyczących charakterystyki leksemów, np. zmian paradygmatu odmiany oznaczenie form notowanych w tekstach dawnych oznaczenie jednostek dawnych (na materiale Słownika wileńskiego) (18) Szpanowali h i p s t e r s k i é m i i P h o n y (19) W k y o s k u kupił ulubiony k o m i x

analizator morfologiczny uzupełniony o wzorce z 2 poł. XIX wieku informacja o ewolucji form model diachronicznego słownika fleksyjnego minikorpus

Dziękujemy za uwagę!

Literatura I ACEDAŃSKI S., A Morphosyntactic Brill Tagger for Inflectional Languages, [w:] Advances in Natural Language Processing. 7 th International Conference on NLP, IceTAL 2010, Reykjavik, Iceland, August 16 18, 2010, red. H. LOFTSSON, E. RÖGNVALDSSON i S. HELGADÓTTIR, s. 3 14, Springer. JASSEM, K. Przetwarzanie tekstów polskich w systemie tłumaczenia automatycznego POLENG, Poznań 2012. MAZIARZ M., PIASECKI M. i SZPAKOWICZ S., Approaching plwordnet 2.0 2012. OBRĘBSKI T., składniowa języka polskiego z wykorzystaniem gramatyki zależnościowej, Rozprawa doktorska, Instytut Podstaw Informatyki PAN 2002. PIASECKI M., Polish Tagger TaKIPI: Rule Based Construction and Optimisation, Task Quarterly, t. 11 (1 2), s. 151 167 2007. RABIEGA-WIŚNIEWSKA, J. I RUDOLF, M., AMOR program automatyczneh analizy fleksyjnej tekstu polskiego, Biuletyn PTJ, LXVIII, s. 175 186. SGJP-II, SALONI Z., GRUSZCZYŃSKI W., WOLIŃSKI M., WOŁOSZ R. i MAKOWSKA D., Słownik gramatyczny języka polskiego, Warszawa 2012, cd. SZAFRAN, K., Analizator morfologiczny SAM-96, opis użytkowy, Raport Instytutu Informatyki UW, TR 96-05(226), maj, 1996. SJPDOR, DOROSZEWSKI W. (red.), Słownik języka polskiego, t. I XII, Warszawa 1958.

Literatura II SFJP, Lubaszewski, W. (red.) Słownik fleksyjny języka polskiego, Kraków 2001. WOLIŃSKI M., Komputerowa weryfikacja gramatyki Świdzińskiego, Rozprawa doktorska, Instytut Podstaw Informatyki, Polska Akademia Nauk, Warsaw 2004. WOLIŃSKI M., Morfeusz a Practical Tool for the Morphological Analysis of Polish, [w:] Intelligent Information Processing and Web Mining, red. M.A. KŁOPOTEK, S.T. WIERZCHOŃ i K. TROJANOWSKI, Advances in Soft Computing, s. 503 512, Springer-Verlag, Berlin 2006. WOLIŃSKI M., GŁOWIŃSKA K. i ŚWIDZIŃSKI M., A Preliminary Version of Składnica a Treebank of Polish, [w:] Proceedings of the 5th Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, red. Z. VETULANI, s. 299 303, Poznań, Poland 2011. WOŁOSZ R., Efektywna metoda analizy i syntezy morfologicznej w języku polskim, 2005.