PoliMorf otwarty słownik morfologiczny

Podobne dokumenty
MARCIN WOLIŃSKI MORFEUSZ REAKTYWACJA IPI PAN, 7 KWIETNIA /28 ...

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Analizator fleksyjny Morfeusz 2

SGJP Model odmiany Przymiotniki Rzeczowniki Czasowniki Podsumowanie

Marcin Miłkowski IFiS PAN

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Zasób leksykalny polszczyzny II poł. XIX wieku a możliwość automatycznej analizy morfologicznej tekstów z tego okresu

Open Access w technologii językowej dla języka polskiego

SYLLABUS. Uniwersytet Przyrodniczo-Humanistyczny w Siedlcach Wydział Humanistyczny

Program warsztatów CLARIN-PL

OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA. CZEŚĆ A * (opis przedmiotu i programu nauczania) OPIS PRZEDMIOTU

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

OPIS PRZEDMIOTU gramatyka opisowa języka polskiego (fleksja) / k, 1, II. prof. dr hab. Andrzej S. Dyszak

Współczesne narzędzia leksykograficzne a analiza tekstów dawniejszych

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2014/2015

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2019/2020

Wstęp do Językoznawstwa

Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

OPIS MODUŁU (PRZEDMIOTU) filologia polska. prof. dr hab. Andrzej S. Dyszak

Egzamin Gimnazjalny z WSiP MAJ 2015 Analiza wyników próbnego egzaminu gimnazjalnego Część humanistyczna z zakresu języka polskiego Klasa 1

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Jak spełnić wymagania Pilotażu otwartych danych badawczych w Horyzoncie 2020?

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

Humanistyka cyfrowa w Katedrze Lingwistyki Formalnej UW

Program szkolenia EXCEL PRZEKROJOWY ZAAWANSOWANY.

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

WK, FN-1, semestr letni 2010 Korpusy tekstów w lingwistyce. Wyrażenia regularne. Cz. I

Gramatyka opisowa języka polskiego Kod przedmiotu

Odkrywanie CAQDAS : wybrane bezpłatne programy komputerowe wspomagające analizę danych jakościowych / Jakub Niedbalski. Łódź, 2013.

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

PRZEDMIOTOWY SYSTEM OCENIANIA JĘZYK KASZUBSKI

Marcin Werla Poznańskie Centrum Superkomputerowo-Sieciowe

1. Korzyści z zakupu nowej wersji Poprawiono Zmiany w słowniku Stawki VAT Zmiana stawki VAT w kartotece Towary...

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Włodzimierz Gruszczyński. Instytut Języka Polskiego PAN Korpusy Diachroniczne Polszczyzny Katowice, kwietnia 2017 r.

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

Marcin Woliński. Morfeusz 2. Dokumentacja techniczna i użytkowa. 6 września 2018

Kategorie gramatyczne polszczyzny

PROPOZYCJA PLANU PRACY Z REPETYTORIUM TERAZ EGZAMIN ÓSMOKLASISTY!

PhD Programme in Sociology

Lokalizacja WiOO krok po kroku

Generated by Foxit PDF Creator Foxit Software For evaluation only. System Szablonów

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO-ROK SZKOLNY 2015/2016 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

Uniwersytet Śląski w Katowicach str. 1 Wydział Filologiczny Katedra Międzynarodowych Studiów Polskich

Korpus Dyskursu Parlamentarnego

Wymagania na poszczególne oceny z języka hiszpańskiego dla klasy siódmej. Podręcznik GENTE JOVEN 1

Dokumentacja administratora

NaCoBeZu na co będę zwracać uwagę. Nauka o języku

II MODUŁY KSZTAŁCENIA WSKAŹNIKI ILOŚCIOWE - Punkty ECTS w ramach zajęć: Efekty kształcenia. Wiedza Umiejętności Kompetencje społeczne (symbole)

Korekta OCR problemy i rozwiązania

polski ENCYKLOPEDIA W TABELACH Wydawnictwo Adamantan

Baza Cytowań POL-index założenia i cele

System Korekty Tekstu Polskiego

PROGRAM STUDIÓW. II MODUŁY KSZTAŁCENIA WSKAŹNIKI ILOŚCIOWE - Punkty ECTS w ramach zajęć: Efekty kształcenia

Uniwersytet Mikołaja Kopernika w Toruniu Wydział Matematyki i Informatyki Wydział Fizyki, Astronomii i Informatyki Stosowanej Instytut Fizyki

PLAN ZARZĄDZANIA KONFIGURACJĄ OPROGRAMOWANIA PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

Mechanika i Budowa Maszyn I stopień ogólnoakademicki studia stacjonarne wszystkie Wydziałowe Laboratorium Języków Obcych mgr Małgorzata Laczek

średniozaawansowanym; pozytywnie zaliczone moduły Język Angielski (1), (2) i (3) Egzamin

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI

Europeana Cloud: Wykorzystanie technologii chmurowych do współdzielenia on-line baz danych dziedzictwa kulturowego

KRYTERIA OCEN Z JĘZYKA POLSKIEGO W KLASIE V

Wstęp do Językoznawstwa

Instrukcja. opracował Marcin Oleksy

WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO DLA UCZNIÓW KLASY VI ZGODNE Z PROGRAMEM NAUCZANIA JĘZYKA POLSKIEGO SŁOWA NA START W KLASIE VI

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Wszystko na temat wzoru dokumentu elektronicznego

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

POLSKA BIBLIOGRAFIA LITERACKA UJĘCIE REALISTYCZNE

II MODUŁY KSZTAŁCENIA WSKAŹNIKI ILOŚCIOWE - Punkty ECTS w ramach zajęć: Przedmioty/moduły. Historia filozofii 2 1,2. suma

Nowe funkcje w programie Symfonia Handel w wersji

Microsoft Office 2016 Krok po kroku

WYMAGANIA EDUKACYJNE - JĘZYK POLSKI KRYTERIA OCENIANIA OSIĄGNIĘĆ UCZNIA. Wymagania na poszczególne stopnie szkolne

Repozytorium Cyfrowe BN

jakością kształcenia Przemysław Rzodkiewicz 20 maja 2013,Warszawski Uniwersytet Medyczny

średniozaawansowanym; pozytywnie zaliczone moduły Język Angielski (1), (2) i (3) Egzamin

Microsoft PowerPoint Poziom Zaawansowany PROGRAM SZKOLENIOWY. Plan szkolenia zawiera: Microsoft Excel Poziom Zaawansowany

Extensible Markup Language (XML) Wrocław, Java - technologie zaawansowane

APD. Archiwum Prac Dyplomowych w USOS. Mariusz.Czerniak@umk.pl

NAKŁADKA KORPUSOWA (NKJP, KORBA) OPARTA O TRADYCYJNĄ KLASYFIKACJĘ CZĘŚCI MOWY. Emanuel Modrzejewski.

JĘZYK POLSKI WYMAGANIA EDUKACYJNE KLASA V

Integracja ORPPD z uczelnianymi systemami antyplagiatowymi

Narzędzia do automatycznego wydobywania kolokacji

Transkrypt:

PoliMorf otwarty słownik morfologiczny Marcin Woliński Marcin Miłkowski Maciej Ogrodniczuk Adam Przepiórkowski Łukasz Szałkiewicz Jan Szejko j IPI PAN, 5 grudnia 2011

Plan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia narzędzie pracy nad słownikami 4 Proces łączenia zasobów 5 PoliMorf 0.5 6 Perspektywy Rozwój PoliMorfa Sposoby używania PoliMorfa 2 / 44

Plan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia narzędzie pracy nad słownikami 4 Proces łączenia zasobów 5 PoliMorf 0.5 6 Perspektywy Rozwój PoliMorfa Sposoby używania PoliMorfa 3 / 44

Projekt CESAR Central and South-East European Resources: projekt finansowany ze środków: Komisji Europejskiej (program CIP ICT-PSP) 50%, Ministerstwa Nauki i Szkolnictwa Wyższego 40%, własnych IPI PAN 10%. uruchomiony 1 lutego 2011 r. (do 31 stycznia 2013), wspierający inicjatywę META-NET (Multilingual Europe Technology Alliance Network of Excellence) http://www.meta-net.eu. http://www.cesar-project.net 4 / 44

Cele projektu CESAR Dokumenty i współpraca: raport o języku polskim zawierający spis dostępnych produktów, usług, technologii, zasobów; identyfikacja głównych ośrodków (badawczych, przemysłowych, rządowych, opiniotwórczych), programów, standardów i praktyk, współpraca z innymi projektami partnerskimi (META-NORD, METANET4U), projektem META-NET, ośrodkami krajowymi. Zasoby i narzędzia: uzupełnienie zasobów i narzędzi językowych dla polszczyzny o rodzaje narzędzi dostępnych dla innych języków, włączenie polszczyzny w ogólnoeuropejską infrastrukturę META-SHARE (http://www.meta-share.eu). 5 / 44

Partnerzy w projekcie CESAR Lista współpracowników: Hungarian Academy of Sciences, Research Institute for Linguistics koordynator, Budapest University of Technology and Economics, Department of Telecommunications and Media Informatics, University of Zagreb, Faculty of Humanities and Social Sciences, IPI PAN, Uniwersytet Łódzki, University of Belgrade, Faculty of Mathematics, Institut Mihajlo Pupin, Institute for Bulgarian Language, Bulgarian Academy of Sciences, Institute of Linguistics, Slovak Academy of Sciences. 6 / 44

Bieżący stan prac Początek grudnia 2011: W ramach pierwszej transzy projektu (następne w lipcu 2012 i styczniu 2013 r.) udostępniliśmy w repozytorium META-SHARE 8 polskich zasobów: korpus sejmowy, Słowosieć (plwordnet) w wersji 1.5, Nerf narzędzie do rozpoznawania nazw własnych, milionowy podkorpus NKJP, słownik nazw własnych (gazetteer), korpusy audiotekstowe LUNA.PL i LUNA-WOZ.PL, wstępną wersję słownika morfologicznego PoliMorf. 7 / 44

PoliMorf = SGJP + Morfologik Udostępnienie na licencji FreeBSD danych słowników źródłowych: słownika Morfologik, SGJP, wyniku scalenia danych fleksyjnych SGJP i Morfologika. 8 / 44

Plan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia narzędzie pracy nad słownikami 4 Proces łączenia zasobów 5 PoliMorf 0.5 6 Perspektywy Rozwój PoliMorfa Sposoby używania PoliMorfa 9 / 44

SGJP Zygmunt Saloni Włodzimierz Gruszczyński Marcin Woliński Robert Wołosz S G P J Słownik gramatyczny języka polskiego Wiedza Powszechna 2007 10 / 44

SGJP Słownik gramatyczny języka polskiego jest projektem z długą historią: w latach 80-tych: analiza informacji gramatycznej w Słowniku języka polskiego Doroszewskiego, W. Gruszczyński, Fleksja rzeczowników pospolitych we współczesnej polszczyźnie pisanej, 1989 Wrocław, J. Tokarski, Schematyczny indeks a tergo polskich form wyrazowych, w opracowaniu Z. Saloniego, 1993 Warszawa, Robert Wołosz przygotował elektroniczną postać listy haseł SJPDor uzupełnionej o informację gramatyczną, Z. Saloni Czasownik polski, 2001 Warszawa. 11 / 44

Części składowe formy fleksyjnej rdzeń zak efobaz char.fl. funkcja subst mag a sg:gen m1 D. l.p. subst mag a sg:gen m1 B. l.p. subst sąg a sg:gen m3 D. l.p. adj bia łego 2 st. r. D. l.p. adjcom biels zego 2 st. wyż. D. l.p. adjcom naj biels zego 2 st. najw. D. l.p. v czyta ł a 8 nd... v czyta ł am 8 nd... v będę czyta ł a 8 nd... ppas czyta n y 10 nd M. l.p. poz. ppas nie czyta n y 10 nd M. l.p. neg. forma bazowa 12 / 44

Morfeusz SGJP Jedna z możliwych form pochodnych danych SGJP jest używana w analizatorze morfologicznym Morfeusz SGJP. Przez dłuższy czas trwała dyskusja o sposobie licencjonowania, a program był dostępny tylko dla krewnych-i-znajomych. Od niedawna lista form używana w Morfeuszu jest dostępna na bardzo permisywnej licencji BSD. Morfeusz SGJP został użyty do oznakowania Narodowego Korpusu Języka Polskiego. 13 / 44

Dane SGJP w analizie morfologicznej Zalety: Słownik prezentuje spójny metodologicznie opis fleksji o wysokim poziomie formalizacji. Dla większości materiału osiągnął już wysoką jakość opisu. Obszerny i żywy (wkrótce II wydanie). Możliwość dostosowania zestawu znaczników do potrzeb. Wady: Niesie dziedzictwo przestarzałych leksemów z SJPDor (tzw. dynozaury). Wewnętrzna organizacja danych jest dość złożona. 14 / 44

Plan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia narzędzie pracy nad słownikami 4 Proces łączenia zasobów 5 PoliMorf 0.5 6 Perspektywy Rozwój PoliMorfa Sposoby używania PoliMorfa 15 / 44

Morfologik Geneza Morfologik powstał w 2006 roku na potrzeby korektora gramatyczno-stylistycznego LanguageTool. Na wolnej licencji (LGPL, Creative-Commons ShareAlike, Mozilla Public License...) Oparty na polskim słowniku ispella, Morfologik powstał poprzez napisanie tabeli konwersji słownika ispella na znaczniki morfosyntaktyczne. 16 / 44

Morfologik Historia danych Morfologika pliki tzw. dawnego słownika do ispella (Mirosław Prywata, Piotr Gackiewicz, Włodzimierz Macewicz), sjp.pl, którego pierwsza wersja (słownik alternatywny) powstała na bazie powyższego (Marek Futrega), program Waspell, pierwszy zawierający znaczniki (Zbigniew Płotnicki). 17 / 44

Morfologik Podstawą Morfologika były tzw. flagi ispella, czyli warunkowe operacje zastępowania ciągów znaków na początku i na końcu form. Autorzy ispella, na szczęście, nazywali te operacje w sposób sensowny gramatycznie, dlatego można było wykorzystać tę regularność. Fragment zasad konwersji OSTos O ów owa ów subst:sg:gen:m OSTos O ów owa ów subst:sg:gen:m1 OSTos O ów owem ów subst:sg:inst:m 18 / 44

Morfologik Zalety Morfologika: Do niedawna jedyny wolnodostępny słownik, stosowany w wielu projektach NLP (np. Pelcra) Obszerny Aktywnie rozwijany Znaczniki morfosyntaktyczne w stylu korpusu IPI 19 / 44

Morfologik Wady Morfologika: Wyrazy, które nie były opisane zestawem tzw. flag w słowniku ispella, trzeba było dopisywać ręcznie. W szczególności nie ma możliwości rozróżniania rodzajów męskich ze względu na synkretyzm form. Marcin Miłkowski nie poprawiał słownika odpowiednio szybko. Duży bałagan panuje w znacznikach, nieścisły format. 20 / 44

Plan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia narzędzie pracy nad słownikami 4 Proces łączenia zasobów 5 PoliMorf 0.5 6 Perspektywy Rozwój PoliMorfa Sposoby używania PoliMorfa 21 / 44

Kuźnia webowe środowisko pracy zespołowej nad słownikami fleksyjnymi, stworzone specjalnie dla projektu Cesar, umożliwia pracę nad wieloma słownikami, dzięki czemu zachowamy tożsamość słowników składowych, a także będzie można tworzyć słowniki specjalistyczne, jeszcze w trakcie opracowania. 22 / 44

Kuźnia 23 / 44

Kuźnia 24 / 44

Kuźnia 25 / 44

Kuźnia 26 / 44

Plan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia narzędzie pracy nad słownikami 4 Proces łączenia zasobów 5 PoliMorf 0.5 6 Perspektywy Rozwój PoliMorfa Sposoby używania PoliMorfa 27 / 44

Struktura danych w SGJP i Morfologiku SGJP odmiana określona parami (wzór, charakterystyka fleksyjna) wzór określa sposób odmiany, charakterystyka fleksyjna układ form Morfologik wiersze: wykładnik forma podstawowa tag, bez podziału na leksemy zbliżone dane są w odm.txt (dane sjp.pl): wiersze z listami wykładników leksemów, bez tagów oba zasoby można połączyć znakując odm.txt danymi Morfologika i dezambiguując 28 / 44

Schemat importu Morfologika znakowanie pliku odm.txt danymi z Morfologika dezambiguacja dopasowywanie wzorów i charakterystyk fleksyjnych utworzenie skryptu ładującego wygenerowane dane do bazy Kuźni 29 / 44

Dezambiguacja określenie, które tagi przy formie podstawowej mogą być tagami formy podstawowej jeśli to nie pozwala wykryć części mowy, to dezambiguacja nie udaje się odsiewane są tagi niepasujące do wykrytej części mowy dla rzeczowników wykrywany jest rodzaj i odsiewane są niepasujące tagi 30 / 44

Dopasowywanie wzorów ogólny schemat sprawdzanie, czy takiego samego leksemu nie było już w SGJP filtrowanie na podstawie zakończenia formy podstawowej wybieranie zbioru pokrywającego zbiór wykładników form dla wszystkich części mowy problemami są błędy w tagach oraz nierozpoznana część form w niektórych leksemach w zależności od stopnia wątpliwości leksem dostaje status kandydat lub wprowadzony 31 / 44

Dopasowywanie wzorów rzeczowniki filtrowanie wzorów na podstawie charakterystyki fleksyjnej wykrywanie rzeczowników jednoliczbowych: najpierw według tagów, potem według wzorów zawierających oczekiwane formy dopasowywanie wzorów do rzeczowników bez liczby mnogiej przez szukanie podobnych w SGJP i kopiowanie odmiany charakterystyka fleksyjna (rodzaj) często niemożliwa do ustalenia 32 / 44

Dopasowywanie wzorów czasowniki w SGJP wzory dla czasowników generują zestaw form bazowych, z których wszystkie pozostałe są tworzone sufiksami dane z Morfologika są analizowane tak, by ustalić zbiór form bazowych, do którego następnie dopasowywane są wzory tagi określające charakterystykę fleksyjną (aspekt) nie są konsekwentne patrzymy na istnienie imiesłowów przysłówkowych (z wyjątkiem czasowników bezpodmiotowych) 33 / 44

Dopasowywanie wzorów nieodmienne oddzielna procedura tylko dwa możliwe wzory: jedna forma lub dwie (nad/nade ) w Morfologiku brak rozróżnienia adv/advndm i conj/comp 34 / 44

Plan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia narzędzie pracy nad słownikami 4 Proces łączenia zasobów 5 PoliMorf 0.5 6 Perspektywy Rozwój PoliMorfa Sposoby używania PoliMorfa 35 / 44

PoliMorf 0.5 pradziejowy pradziejowy adj:sg:nom.voc:m1.m2.m3:pos pradziejowe pradziejowy adj:sg:nom.voc:n1.n2:pos pradźnie pradźnia subst:pl:acc:f pradźniom pradźnia subst:pl:dat:f pradźni pradźnia subst:pl:gen:f pradźniami pradźnia subst:pl:inst:f pradźniach pradźnia subst:pl:loc:f pradźnie pradźnia subst:pl:nom.voc:f pradźnię pradźnia subst:sg:acc:f pradźni pradźnia subst:sg:dat:f pradźni pradźnia subst:sg:gen:f pradźnią pradźnia subst:sg:inst:f pradźni pradźnia subst:sg:loc:f pradźnia pradźnia subst:sg:nom:f pradźnio pradźnia subst:sg:voc:f pradżmy pradżma subst:pl:acc:f 36 / 44

PoliMorf 0.5 tylko SGJP tylko Morfologik wspólne razem rzeczowniki 72378 94597 51707 218682 prawdziwe 52723 25619 47107 125449 gerundia 16782 12938 4600 34320 -ość 2423 27282 29705 nie-... -ość 450 28758 29208 przymiotniki 70537 26386 32064 128987 st. równy 24433 7190 16415 48038 nie- 23737 6033 10172 39942 st. wyższy 863 178 172 1213 im. czynny 7960 6036 1763 15759 im. bierny 13544 6949 3542 24035 czasowniki 16784 12890 4666 34340 nieodmienne 9017 16694 2417 28128 razem 168716 150567 90854 410137 37 / 44

PoliMorf 0.5 tylko SGJP tylko Morfologik wspólne razem nieodmienne 9017 16694 2417 28128 adv 4067 7489 2088 13644 adv nie- 3799 7580 11379 advcom 869 357 134 1360 advndm 122 388 510 prep 47 68 18 133 comp 23 33 56 conj 30 34 19 83 interj 9 420 429 qub 51 191 156 398 burk 134 2 136 38 / 44

Plan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia narzędzie pracy nad słownikami 4 Proces łączenia zasobów 5 PoliMorf 0.5 6 Perspektywy Rozwój PoliMorfa Sposoby używania PoliMorfa 39 / 44

Dalszy rozwój PoliMorfa Zaimportowane dane wymagają weryfikacji i korekty. Zostaną wzbogacone o klasyfikację nazw własnych i kwalifikatory. Problemy badawczo-dyskusyjne: jak opisywać skróty (w Morfeuszu SGJP opis raczej skąpy)? jak opisywać jednostki typu czterokonny, 20-letni, obiadeś, doń, antystół? 40 / 44

Sposoby używania PoliMorfa Stworzymy mechanizm pobierania z Kuźni list form dostosowanych do konkretnych zastosowań (przede wszystkim przez wybór odpowiedniego podzbioru słowników). Planujemy regularne wydania w miarę poprawiania i uzupełniania danych. 41 / 44

Sposoby używania PoliMorfa Wątpliwości: Czy użytkownicy oczekują dostępności danych, czy narzędzia ich używającego? (obu) Czy należy generować jakieś inne formaty listy form oprócz trzykolumnowego? Jakie tagsety powinniśmy uwzględnić? (Morfeusz i Morfologik) 42 / 44

A przy okazji: Ulepszymy Morfeusza! informacja o imionach, nazwiskach, geogr., innych własnych, oznaczać formy dawne i przestarzałe, zrewidować reguły łączenia subsegmentów, kroczek w stronę derywacji: prefiksacja? opcjonalnie bez segmentowania czasowników wewnątrzsłowowo, analiza z uwzględnieniem kasztowości, możliwość użycia w programach wielowątkowych, odmieniacz działający w sposób spójny z analizatorem (to wymaga wprowadzenia oznaczeń homonimów). 43 / 44

PoliMorf już dostępny http://zil.ipipan.waw.pl/polimorf 44 / 44