Analizator fleksyjny Morfeusz 2

Podobne dokumenty
Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

MARCIN WOLIŃSKI MORFEUSZ REAKTYWACJA IPI PAN, 7 KWIETNIA /28 ...

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

Kategorie imienne polszczyzny

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

PoliMorf otwarty słownik morfologiczny

Marcin Woliński. Morfeusz 2. Dokumentacja techniczna i użytkowa. 6 września 2018

Nr Tytuł Przykład Str.

Kategorie gramatyczne polszczyzny

Gramatyka. języka rosyjskiego z ćwiczeniami

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

SGJP Model odmiany Przymiotniki Rzeczowniki Czasowniki Podsumowanie

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

System znaczników morfosyntaktycznych w korpusie IPI PAN

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Klasyfikacja tradycyjna Klasyfikacja Zygmunta Saloniego Przykład analizy. Części mowy. Anna Kozłowska. Uniwersytet Kardynała Stefana Wyszyńskiego

Języki programowania zasady ich tworzenia

NAKŁADKA KORPUSOWA (NKJP, KORBA) OPARTA O TRADYCYJNĄ KLASYFIKACJĘ CZĘŚCI MOWY. Emanuel Modrzejewski.

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

Włodzimierz Gruszczyński. Instytut Języka Polskiego PAN Korpusy Diachroniczne Polszczyzny Katowice, kwietnia 2017 r.

OPIS PRZEDMIOTU gramatyka opisowa języka polskiego (fleksja) / k, 1, II. prof. dr hab. Andrzej S. Dyszak

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Wprowadzenie do morfologii

Wprowadzenie do składni

Programowanie w języku Python. Grażyna Koba

Język jako hierarchiczny system dwuklasowy

AUTOMATYKA INFORMATYKA

OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA. CZEŚĆ A * (opis przedmiotu i programu nauczania) OPIS PRZEDMIOTU

Komputerowa weryfikacja gramatyki Świdzińskiego

Wymagania edukacyjne niezbędne do uzyskania śródrocznych ocen klasyfikacyjnych z języka niemieckiego w klasie VII-ej w roku szkolnym 2017/2018

Kategorialny Parser Składniowo-Semantyczny dla języka polskiego

Cele kształcenia wymagania ogólne

Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu

Podstawy Kompilatorów

Spis treści 5. Spis treści. Przedmowa Przedmowa do wydania II Część pierwsza MORFOLOGIA

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

WK, FN-1, semestr letni 2010 Korpusy tekstów w lingwistyce. Wyrażenia regularne. Cz. I

Wstęp do Językoznawstwa

LEM wydobywanie statystyk z korpusów

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Programowanie komputerów

Porównywanie tagerów dopuszczajacych niejednoznaczności

SPIS TREŚCI. Spis treści Wstęp Wykaz skrótów, symboli i terminów gramatycznych MIANOWNIK

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

JĘZYK POLSKI WYMAGANIA EDUKACYJNE KLASA V

OPIS MODUŁU (PRZEDMIOTU)

Adam Przepiórkowski. Korpus IPI PAN. wersja wstępna INSTYTUT PODSTAW INFORMATYKI PAN

Tydzień 8 Podręcznik Zeszyt Ćwiczeń Funkcje Językowe Gramatyka Pisanie Poniedziałek Zeszyt Ćwiczeń Co lubisz robić? Czym się interesujesz?

SYLLABUS. Leksykologia i leksykografia

Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI

Instrukcja. opracował Marcin Oleksy

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Analiza leksykalna 1. Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

Eksploracja Zasobów Internetu

Spis treści tomu pierwszego

Budowa i oprogramowanie komputerowych systemów sterowania. Laboratorium 4. Metody wymiany danych w systemach automatyki DDE

Egzamin Gimnazjalny z WSiP MAJ 2015 Analiza wyników próbnego egzaminu gimnazjalnego Część humanistyczna z zakresu języka polskiego Klasa 1

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

Korpusy językowe podstawowa terminologia i metody tworzenia. Natalia Kotsyba IBI AL Uniwersytet Warszawski 12 i 26 stycznia 2011 r.

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

SYLLABUS. Uniwersytet Przyrodniczo-Humanistyczny w Siedlcach Wydział Humanistyczny

WYMAGANIA EDUKACYJNE Z JĘZYKA HISZPAŃSKIEGO

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

Programowanie w języku C++ Grażyna Koba

Wymiar poziomy: oś na której umieszczono instancje klasyfikatorów biorące udział w interakcji.

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

System Korekty Tekstu Polskiego

O dystrybucji nieakcentowanych form poprzyimkowych na podstawie Korpusu IPI PAN p.1

Programowanie w C++ Wykład 10. Katarzyna Grzelak. 21 maja K.Grzelak (Wykład 10) Programowanie w C++ 1 / 21

Gramatyka opisowa języka polskiego Kod przedmiotu

Analiza danych tekstowych i języka naturalnego

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

KATEGORIA OBSZAR WIEDZY

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE

Kryteria ocen z języka polskiego w klasie 4. Ocenę celującą - otrzymuje uczeń, którego wiedza znacznie przekracza poza obowiązujący program nauczania:

Po zakończeniu rozważań na temat World Wide Web, poznaniu zasad organizacji witryn WWW, przeczytaniu kilkudziesięciu stron i poznaniu wielu nowych

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

Księgarnia PWN: Albina Gołubiewa, Magdalena Kuratczyk - Gramatyka języka rosyjskiego z ćwiczeniami. Przedmowa CZASOWNIKI ( )

Inforex - zarządzanie korpusami i ich anotacja

Systemy operacyjne. Laboratorium 9. Perl wyrażenia regularne. Jarosław Rudy Politechnika Wrocławska 28 lutego 2017

Poznajemy różne formy rzeczownika odmieniamy rzeczownik przez przypadki

ADAM PRZEPIÓRKOWSKI. Składniowe uwarunkowania znakowania morfosyntaktycznego

Lekcja V I.3.7 I.3.8 I.3.9

Wprowadzenie do logiki Wyrażenia jako ciągi słów. Automaty skończone

Open Access w technologii językowej dla języka polskiego

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2014/2015

Język jako hierarchiczny system dwuklasowy

Kryteria oceniania z języka polskiego KLASA V

Transkrypt:

Analizator fleksyjny Morfeusz 2 Katarzyna Krasnowska-Kieraś Zespół Inżynierii Lingwistycznej Instytut Podstaw Informatyki Polskiej Akademii Nauk Lublin, 25 września 2019 Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 1 / 59

Plan wykładu 1 Analiza fleksyjna Podstawowe pojęcia Model fleksyjny Morfeusza 2 Program Morfeusz System znaczników Opcje programu 3 Ujednoznacznianie fleksyjne 4 Tworzenie słowników Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 2 / 59

Analiza fleksyjna Plan wykładu 1 Analiza fleksyjna Podstawowe pojęcia Model fleksyjny Morfeusza 2 Program Morfeusz System znaczników Opcje programu 3 Ujednoznacznianie fleksyjne 4 Tworzenie słowników Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 3 / 59

Analiza fleksyjna Podstawowe pojęcia Forma fleksyjna Forma wyrazowa/fleksyjna to abstrakcyjna jednostka języka składająca się z wykładnika wraz z określeniem cech gramatycznych, np.: piec, rzeczownik rodz. męskiego w mianowniku liczby pojedynczej piec, rzeczownik rodz. męskiego w bierniku liczby pojedynczej piec, bezokolicznik czasownika niedokonanego kotka, rzeczownik rodz. żeńskiego w mianowniku liczby pojedynczej kotka, rzeczownik rodz. męskiego w dopełniaczu liczby pojedynczej Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 4 / 59

Analiza fleksyjna Podstawowe pojęcia Forma fleksyjna Forma wyrazowa/fleksyjna to abstrakcyjna jednostka języka składająca się z wykładnika wraz z określeniem cech gramatycznych, np.: piec, rzeczownik rodz. męskiego w mianowniku liczby pojedynczej piec, rzeczownik rodz. męskiego w bierniku liczby pojedynczej piec, bezokolicznik czasownika niedokonanego kotka, rzeczownik rodz. żeńskiego w mianowniku liczby pojedynczej kotka, rzeczownik rodz. męskiego w dopełniaczu liczby pojedynczej Znacznik (tag) fleksyjny to zwarty zapis cechy gramatycznych formy. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 4 / 59

Analiza fleksyjna Podstawowe pojęcia Forma fleksyjna Forma wyrazowa/fleksyjna to abstrakcyjna jednostka języka składająca się z wykładnika wraz z określeniem cech gramatycznych, np.: piec, subst:sg:nom:m3 piec, subst:sg:acc:m3 piec, inf:imperf kotka, subst:sg:nom:f kotka, subst:sg:gen:m2 Znacznik (tag) fleksyjny to zwarty zapis cechy gramatycznych formy. Więcej o systemie znaczników Morfeusza w dalszej części wykładu. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 4 / 59

Analiza fleksyjna Podstawowe pojęcia Leksem Leksem to abstrakcyjna jednostka języka, zbiór form wyrazowych, np.: kotek kotka kotkowi kotka kotkiem kotku kotku kotki kotków kotkom kotki kotkami kotkach kotki subst:sg:nom:m2 subst:sg:gen:m2 subst:sg:dat:m2 subst:sg:acc:m2 subst:sg:inst:m2 subst:sg:loc:m2 subst:sg:voc:m2 subst:sg:nom:m2 subst:sg:gen:m2 subst:sg:dat:m2 subst:sg:acc:m2 subst:sg:inst:m2 subst:sg:loc:m2 subst:sg:voc:m2 kotka kotki kotce kotkę kotką kotce kotko kotki kotek kotkom kotki kotkami kotkach kotki subst:sg:nom:f subst:sg:gen:f subst:sg:dat:f subst:sg:acc:f subst:sg:inst:f subst:sg:loc:f subst:sg:voc:f subst:sg:nom:f subst:sg:gen:f subst:sg:dat:f subst:sg:acc:f subst:sg:inst:f subst:sg:loc:f subst:sg:voc:f Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 5 / 59

Analiza fleksyjna Podstawowe pojęcia Leksem Leksem to abstrakcyjna jednostka języka, zbiór form wyrazowych, np.: KOTEK KOTKA kotek kotka kotkowi kotka kotkiem kotku kotku kotki kotków kotkom kotki kotkami kotkach kotki subst:sg:nom:m2 subst:sg:gen:m2 subst:sg:dat:m2 subst:sg:acc:m2 subst:sg:inst:m2 subst:sg:loc:m2 subst:sg:voc:m2 subst:sg:nom:m2 subst:sg:gen:m2 subst:sg:dat:m2 subst:sg:acc:m2 subst:sg:inst:m2 subst:sg:loc:m2 subst:sg:voc:m2 kotka kotki kotce kotkę kotką kotce kotko kotki kotek kotkom kotki kotkami kotkach kotki subst:sg:nom:f subst:sg:gen:f subst:sg:dat:f subst:sg:acc:f subst:sg:inst:f subst:sg:loc:f subst:sg:voc:f subst:sg:nom:f subst:sg:gen:f subst:sg:dat:f subst:sg:acc:f subst:sg:inst:f subst:sg:loc:f subst:sg:voc:f Lemat to umowny identyfikator leksemu, tradycyjnie równokształtny z wykładnikiem pewnej jego formy. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 5 / 59

Analiza fleksyjna Podstawowe pojęcia Homonimia i synkretyzm Różne formy wyrazowe mogą posiadać równokształtne (identyczne) wykładniki w obrębie jednego (synkretyzm) lub różnych (homonimia) leksemów. kotek kotka kotkowi kotka kotkiem kotku kotku kotki kotków kotkom kotki kotkami kotkach kotki KOTEK subst:sg:nom:m2 subst:sg:gen:m2 subst:sg:dat:m2 subst:sg:acc:m2 subst:sg:inst:m2 subst:sg:loc:m2 subst:sg:voc:m2 subst:sg:nom:m2 subst:sg:gen:m2 subst:sg:dat:m2 subst:sg:acc:m2 subst:sg:inst:m2 subst:sg:loc:m2 subst:sg:voc:m2 Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 6 / 59

Analiza fleksyjna Podstawowe pojęcia Homonimia i synkretyzm Różne formy wyrazowe mogą posiadać równokształtne (identyczne) wykładniki w obrębie jednego (synkretyzm) lub różnych (homonimia) leksemów. KOTEK KOTKA kotek kotka kotkowi kotka kotkiem kotku kotku kotki kotków kotkom kotki kotkami kotkach kotki subst:sg:nom:m2 subst:sg:gen:m2 subst:sg:dat:m2 subst:sg:acc:m2 subst:sg:inst:m2 subst:sg:loc:m2 subst:sg:voc:m2 subst:sg:nom:m2 subst:sg:gen:m2 subst:sg:dat:m2 subst:sg:acc:m2 subst:sg:inst:m2 subst:sg:loc:m2 subst:sg:voc:m2 kotka kotki kotce kotkę kotką kotce kotko kotki kotek kotkom kotki kotkami kotkach kotki subst:sg:nom:f subst:sg:gen:f subst:sg:dat:f subst:sg:acc:f subst:sg:inst:f subst:sg:loc:f subst:sg:voc:f subst:sg:nom:f subst:sg:gen:f subst:sg:dat:f subst:sg:acc:f subst:sg:inst:f subst:sg:loc:f subst:sg:voc:f Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 6 / 59

Analiza fleksyjna Podstawowe pojęcia Segmentacja Słowo to maksymalny ciąg znaków (odcinek tekstu) nie zawierający odstępów ani znaków interpunkcyjnych. Segment to minimalny ciąg znaków podlegający interpretacji fleksyjnej. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 7 / 59

Analiza fleksyjna Podstawowe pojęcia Analiza fleksyjna i tagowanie Analiza fleksyjna (morfologiczna) to identyfikacja wszystkich form wyrazowych, których dany segment może być wykładnikiem. Ujednoznacznianie fleksyjne to określenie na podstawie kontekstu, jako którą z możliwych form interpretować dane wystąpienie segmentu. Tagowanie = analiza + ujednoznacznienie. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 8 / 59

Analiza fleksyjna Podstawowe pojęcia Przykład: analiza fleksyjna Mam MAMA subst:pl:gen:f MAMIĆ impt:sg:sec:imperf MIEĆ fin:sg:pri:imperf piec PIEC subst:sg:nom:m3 PIEC subst:sg:acc:m3 PIEC inf:imperf tort TORT subst:sg:nom:m3 TORT subst:sg:acc:m3.. interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 9 / 59

Analiza fleksyjna Podstawowe pojęcia Przykład: ujednoznacznienie Mam MAMA subst:pl:gen:f MAMIĆ impt:sg:sec:imperf MIEĆ fin:sg:pri:imperf piec PIEC subst:sg:nom:m3 PIEC subst:sg:acc:m3 PIEC inf:imperf tort TORT subst:sg:nom:m3 TORT subst:sg:acc:m3.. interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 10 / 59

Analiza fleksyjna Podstawowe pojęcia Przykład: analiza fleksyjna Mam MAMA subst:pl:gen:f MAMIĆ impt:sg:sec:imperf MIEĆ fin:sg:pri:imperf piec PIEC subst:sg:nom:m3 PIEC subst:sg:acc:m3 PIEC inf:imperf.. interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 11 / 59

Analiza fleksyjna Podstawowe pojęcia Przykład: ujednoznacznienie Mam MAMA subst:pl:gen:f MAMIĆ impt:sg:sec:imperf MIEĆ fin:sg:pri:imperf? piec PIEC subst:sg:nom:m3 PIEC subst:sg:acc:m3? PIEC inf:imperf.. interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 12 / 59

Analiza fleksyjna Podstawowe pojęcia Przykład: ujednoznacznienie Mam MAMA subst:pl:gen:f MAMIĆ impt:sg:sec:imperf MIEĆ fin:sg:pri:imperf? piec PIEC subst:sg:nom:m3 PIEC subst:sg:acc:m3 PIEC inf:imperf?.. interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 12 / 59

Analiza fleksyjna Podstawowe pojęcia Przykład: ujednoznacznienie Mam MAMA subst:pl:gen:f? MAMIĆ impt:sg:sec:imperf MIEĆ fin:sg:pri:imperf piec PIEC subst:sg:nom:m3? PIEC subst:sg:acc:m3 PIEC inf:imperf.. interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 12 / 59

Analiza fleksyjna Podstawowe pojęcia Przykład: ujednoznacznienie Mam MAMA subst:pl:gen:f MAMIĆ impt:sg:sec:imperf? MIEĆ fin:sg:pri:imperf piec PIEC subst:sg:nom:m3 PIEC subst:sg:acc:m3? PIEC inf:imperf.. interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 12 / 59

Analiza fleksyjna Podstawowe pojęcia Segmentacja Segmenty mogą: zawierać znaki niebędące literami: Chomsky ego PRL-u Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 13 / 59

Analiza fleksyjna Podstawowe pojęcia Segmentacja Segmenty mogą: zawierać znaki niebędące literami: Chomsky ego PRL-u 4,25 :-D Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 13 / 59

Analiza fleksyjna Podstawowe pojęcia Segmentacja Segmenty mogą: zawierać znaki niebędące literami: Chomsky ego PRL-u 4,25 :-D być krótsze od słowa tekstowego: Spojrzała na ń ze zdumieniem. Gdyby ście tylko wiedzieli! Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 13 / 59

Analiza fleksyjna Podstawowe pojęcia Segmentacja Segmenty mogą: zawierać znaki niebędące literami: Chomsky ego PRL-u 4,25 :-D być krótsze od słowa tekstowego: Spojrzała na ń ze zdumieniem. Gdyby ście tylko wiedzieli! Powiedziała, że przyszli ście. Powiedziała, że ście przyszli. Powiedziała, żeby ście przyszli. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 13 / 59

Analiza fleksyjna Podstawowe pojęcia Segmentacja Segmenty mogą: zawierać znaki niebędące literami: Chomsky ego PRL-u 4,25 :-D być krótsze od słowa tekstowego: Spojrzała na ń ze zdumieniem. Gdyby ście tylko wiedzieli! Powiedziała, że przyszli ście. Powiedziała, że ście przyszli. Powiedziała, żeby ście przyszli. Świnie ście! Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 13 / 59

Analiza fleksyjna Podstawowe pojęcia Segmentacja Segmenty mogą: zawierać znaki niebędące literami: Chomsky ego PRL-u 4,25 :-D być krótsze od słowa tekstowego: Spojrzała na ń ze zdumieniem. Gdyby ście tylko wiedzieli! Powiedziała, że przyszli ście. Powiedziała, że ście przyszli. Powiedziała, żeby ście przyszli. Świnie ście! Segmentacja polszczyzny jest uwikłana słownikowo. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 13 / 59

Analiza fleksyjna Model fleksyjny Morfeusza Kategoria gramatyczna W gramatyce szkolnej to, przez co odmieniają się części mowy : przypadek, liczba, rodzaj,... Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 14 / 59

Analiza fleksyjna Model fleksyjny Morfeusza Kategoria gramatyczna W gramatyce szkolnej to, przez co odmieniają się części mowy : przypadek, liczba, rodzaj,... W Morfeuszu ujęcie dystrubucyjne w stylu Saloniego. Klasyfikacja na podstawie typu kontekstów, w których poprawne jest wystąpienie danej formy, np.: stoi kot/dziewczyna *stoi kota/dziewczynę widzę kota/dziewczynę *widzę kot/dziewczyna pewna kategoria gramatyczna (przypadek) powinna odróżniać formy kot i dziewczyna od form kota i dziewczynę. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 14 / 59

Analiza fleksyjna Model fleksyjny Morfeusza Kategoria gramatyczna Forma kształt (wykładnik): stoi kot/dziewczyna/stół widzę kota/dziewczynę/stół *widzę kot/dziewczyna *stoi kota/dziewczynę dwie różne (ale równokształtne) formy stół. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 15 / 59

Analiza fleksyjna Model fleksyjny Morfeusza Leksem Pogrupowanie form na podstawie identyczności lub regularnego zróżnicowania odniesienia do obiektów pozajęzykowych. 1 1 Z. Saloni, Klasyfikacja gramatyczna leksemów polskich, Język Polski, 1974. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 16 / 59

Analiza fleksyjna Model fleksyjny Morfeusza Fleksem 2 Zbiór form danego leksemu zróżnicowanych ze względu na te same kategorie. Klasa fleksemów część mowy : rzeczowniki mają liczbę, przypadek i rodzaj, przymiotniki mają liczbę, przypadek, rodzaj i stopień. Kategoria może być dla danej klasy fleksemów: fleksyjna ( odmienia się przez ), np.: przypadek dla rzeczowników i przymiotników, rodzaj dla przymiotników. selektywna ( słownikowa ), np.: rodzaj dla rzeczowników, aspekt (dokonany/niedokonany) dla fleksemów czasownikowych. 2 J. S. Bień, Koncepcja słownikowej informacji morfologicznej i jej komputerowej weryfikacji, Wydawnictwa UW, 1991. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 17 / 59

Program Morfeusz Plan wykładu 1 Analiza fleksyjna Podstawowe pojęcia Model fleksyjny Morfeusza 2 Program Morfeusz System znaczników Opcje programu 3 Ujednoznacznianie fleksyjne 4 Tworzenie słowników Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 18 / 59

Program Morfeusz Analizator i generator fleksyjny Morfeusz Morfeusz, wersja 2 opracowana w Zespole Inżynierii Lingwistycznej IPI PAN w ramach CLARIN-PL: http://morfeusz.sgjp.pl Wersja demonstracyjna on-line: http://morfeusz.sgjp.pl/demo Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 19 / 59

Program Morfeusz Morfeusz w innych projektach Narodowy Korpus Języka Polskiego: http://nkjp.pl/poliqarp treebanki i parsery: Świgra i Składnica: http://zil.ipipan.waw.pl/sk%c5%82adnica PDB (treebank zależnościowy): http://zil.ipipan.waw.pl/pdb POLFIE (gramatyka LFG): http://zil.ipipan.waw.pl/lfg korpusy historyczne: tekstów z XVII i XVIII w. (do 1772 r.): http://korba.edu.pl tekstów z lat 1830 1918: http://korpus19.nlp.ipipan.waw.pl narzędzie Korpusomat: http://korpusomat.pl Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 20 / 59

Program Morfeusz Dystrybucja programu Zasadniczą postać programu stanowi moduł programistyczny, który można wbudować w tworzone przez siebie programy w C/C++. Dla mniej technicznie ukierunkowanych użytkowników przygotowano interfejs okienkowy. Istnieje również interfejs działający w konsoli (wierszu poleceń). Udostępniamy kod źródłowy i kompilaty dla Linuksa, Mac OS X i Windows; 32- i 64-bitowe. Dodatkowe moduły umożliwiają użycie Morfeusza z poziomu Pythona i Javy. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 21 / 59

Program Morfeusz Interfejs okienkowy Morfeusza Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 22 / 59

Program Morfeusz Reprezentacja wyników analizy Co CO subst:sg:nom.acc:n2 1 ś BYĆ aglt:sg:sec:imperf:nwok 0 Coś COŚ subst:sg:nom.acc:n2 2 zrobił 3? 4 ZROBIĆ? praet:sg:m1.m2.m3:perf interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 23 / 59

Program Morfeusz Informacje dodatkowe Morfeusz 2 dodaje w wynikach analizy dwa elementy, które nie są ściśle fleksyjne: prostą klasyfikację nazw własnych, kwalifikatory. Lublin,Lublin,subst:sg:nom.acc:m3,nazwa_geograficzna,_ Kasia,Kasia,subst:sg:nom:f,imi,_ t,ten,adj:sg:inst:f:pos,_,_ t,ten,adj:sg:acc:f:pos,_,pot. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 24 / 59

Program Morfeusz Lematyzacja Leksem PARA: Uczestnicy tańczą parami. Zatrucie parami rtęci jest praktycznie niemożliwe bez jednoczesnego poparzenia. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 25 / 59

Program Morfeusz Lematyzacja Leksem PARA: Uczestnicy tańczą parami. Zatrucie parami rtęci jest praktycznie niemożliwe bez jednoczesnego poparzenia. Leksemy ZAMEK:S1 i ZAMEK:S2: Jakoś odruchowo przekręciła gałkę zamka, a potem nacisnęła klamkę. Na dziedzińcu zamku lubelskiego natrafiono na fragmenty konstrukcji zrębowej drewnianej chaty. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 25 / 59

Program Morfeusz Lematyzacja Lematy ok. 10 000 leksemów w SGJP wymagają elementu ujednoznaczniającego. Po dwukropku dodano do lematu oznaczenie części mowy: PIEC:S i PIEC:V. Jeżeli to nie wystarczyło, dodano oznaczenie cyfrowe: ZAMEK:S1 (zamka) i ZAMEK:S2 (zamku), SŁAĆ:V1 (ślę) i SŁAĆ:V2 (ścielę). Analizator zwraca takie lematy. Generator dla argumentu "piec:s" zwróci formy odmiany rzeczownika PIEC:S, a dla argumentu "piec" formy zarówno rzeczownika jak i czasownika. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 26 / 59

Program Morfeusz Dostępne słowniki Morfeusz jest dystrybuowany z dwoma słownikami: SGJP (domyślny, http://sgjp.pl/) ponad 300 tysięcy leksemów ponad 4 miliony wykładników form Polimorf (http://zil.ipipan.waw.pl/polimorf). Kolejne wydania Morfeusza są generowane automatycznie co tydzień. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 27 / 59

Program Morfeusz System znaczników Tagset Tagset (zbiór wszystkich możliwych znaczników) Morfeusza: Każdy znacznik to sekwencja wartości połączonych dwukropkiem. Tagset pozycyjny: pierwsza wartość to klasa fleksemu, następnie wartości kategorii przysługujących tej klasie w ustalonej kolejności. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 28 / 59

Program Morfeusz System znaczników Tagset Tagset (zbiór wszystkich możliwych znaczników) Morfeusza: Każdy znacznik to sekwencja wartości połączonych dwukropkiem. Tagset pozycyjny: pierwsza wartość to klasa fleksemu, następnie wartości kategorii przysługujących tej klasie w ustalonej kolejności. np. lepsza DOBRY:A adj:sg:nom:f:com Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 28 / 59

Program Morfeusz System znaczników Tagset Tagset (zbiór wszystkich możliwych znaczników) Morfeusza: Każdy znacznik to sekwencja wartości połączonych dwukropkiem. Tagset pozycyjny: pierwsza wartość to klasa fleksemu, następnie wartości kategorii przysługujących tej klasie w ustalonej kolejności. np. lepsza DOBRY:A adj:sg:nom:f:com klasa fleksemu: przymiotnik, Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 28 / 59

Program Morfeusz System znaczników Tagset Tagset (zbiór wszystkich możliwych znaczników) Morfeusza: Każdy znacznik to sekwencja wartości połączonych dwukropkiem. Tagset pozycyjny: pierwsza wartość to klasa fleksemu, następnie wartości kategorii przysługujących tej klasie w ustalonej kolejności. np. lepsza DOBRY:A adj:sg:nom:f:com klasa fleksemu: przymiotnik, liczba: pojedyncza, Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 28 / 59

Program Morfeusz System znaczników Tagset Tagset (zbiór wszystkich możliwych znaczników) Morfeusza: Każdy znacznik to sekwencja wartości połączonych dwukropkiem. Tagset pozycyjny: pierwsza wartość to klasa fleksemu, następnie wartości kategorii przysługujących tej klasie w ustalonej kolejności. np. lepsza DOBRY:A adj:sg:nom:f:com klasa fleksemu: przymiotnik, liczba: pojedyncza, przypadek: mianownik, Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 28 / 59

Program Morfeusz System znaczników Tagset Tagset (zbiór wszystkich możliwych znaczników) Morfeusza: Każdy znacznik to sekwencja wartości połączonych dwukropkiem. Tagset pozycyjny: pierwsza wartość to klasa fleksemu, następnie wartości kategorii przysługujących tej klasie w ustalonej kolejności. np. lepsza DOBRY:A adj:sg:nom:f:com klasa fleksemu: przymiotnik, liczba: pojedyncza, przypadek: mianownik, rodzaj: żeński, Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 28 / 59

Program Morfeusz System znaczników Tagset Tagset (zbiór wszystkich możliwych znaczników) Morfeusza: Każdy znacznik to sekwencja wartości połączonych dwukropkiem. Tagset pozycyjny: pierwsza wartość to klasa fleksemu, następnie wartości kategorii przysługujących tej klasie w ustalonej kolejności. np. lepsza DOBRY:A adj:sg:nom:f:com klasa fleksemu: przymiotnik, liczba: pojedyncza, przypadek: mianownik, rodzaj: żeński, stopień: wyższy. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 28 / 59

Program Morfeusz System znaczników Tagset Tagset (zbiór wszystkich możliwych znaczników) Morfeusza: Każdy znacznik to sekwencja wartości połączonych dwukropkiem. Tagset pozycyjny: pierwsza wartość to klasa fleksemu, następnie wartości kategorii przysługujących tej klasie w ustalonej kolejności. np. lepsza DOBRY:A adj:sg:nom:f:com klasa fleksemu: przymiotnik, liczba: pojedyncza, przypadek: mianownik, rodzaj: żeński, stopień: wyższy. Nie rozróżnia kategorii fleksyjnych i selektywnych. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 28 / 59

Program Morfeusz System znaczników Kategoria rodzaju gramatycznego Klasy rodzajowe według Mańczaka (1956): m1 m2 m3 n f acc. sing. tego ten to tę acc. pl. tych te Ten zbiór wartości jest używany w znakowaniu NKJP. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 29 / 59

Program Morfeusz System znaczników Kategoria rodzaju gramatycznego Klasy rodzajowe według Saloniego (1976): m1 m2 m3 n1 n2 f p1 p2 p3 acc. sing. tego ten to tę acc. pl. tych te tych te acc. pl. pięciu pięć pięcioro pięć pięcioro Ten zbiór wartości jest używany w SGJP i wcześniejszych wersjach analizatora Morfeusz. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 30 / 59

Program Morfeusz System znaczników Kategoria rodzaju gramatycznego W bieżącej wersji Morfeusza: kategoria rodzaju o wartościach m1, m2, m3, f, n; kategoria przyrodzaju o wartościach col (zbiorowy), ncol (główny), pt (zbiorowy plurale tantum) stosowana wyłącznie w znacznikach rzeczowników i liczebników. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 31 / 59

Program Morfeusz System znaczników Fleksemy czasownikowe Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 32 / 59

Program Morfeusz System znaczników Fleksemy czasownikowe Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 32 / 59

Program Morfeusz System znaczników Fleksemy czasownikowe fin impt praet imps inf Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 32 / 59

Program Morfeusz Opcje programu Notacja kropkowa W domyślnym trybie działania Morfeusza kilka interpretacji może być zakodowanych w jednym znaczniku: fajne FAJNY adj:pl:acc:m2.m3.f.n:pos adj:pl:nom.voc:m2.m3.f.n:pos adj:sg:acc:n:pos adj:sg:nom.voc:n:pos Przy wyłączonej notacji kropkowej wyjście z analizatora jest mniej zwięzłe, ale każda interpretacja występuje osobno. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 33 / 59

Program Morfeusz Opcje programu Bez notacji kropkowej fajne FAJNY adj:pl:acc:m2:pos fajne adj:pl:acc:m3:pos fajne adj:pl:acc:f:pos fajne adj:pl:acc:n:pos fajne adj:pl:nom:m2:pos fajne adj:pl:nom:m3:pos fajne adj:pl:nom:f:pos fajne adj:pl:nom:n:pos fajne adj:pl:voc:m2:pos fajne adj:pl:voc:m3:pos fajne adj:pl:voc:f:pos fajne adj:pl:voc:n:pos fajne adj:sg:acc:n:pos fajne adj:sg:nom:n:pos fajne adj:sg:voc:n:pos Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 34 / 59

Program Morfeusz Opcje programu Segmentacja form czasu przeszłego Wariant fundamentalistyczny (split): widział WIDZIEĆ praet:sg:m1.m2.m3:imperf em BYĆ aglt:sg:pri:imperf:wok Wariant pragmatyczny (composite): widziałem WIDZIEĆ praet:sg:m1.m2.m3:pri:imperf Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 35 / 59

Program Morfeusz Opcje programu Wariant split Co zrobiłaś? / Coś zrobiła? Co CO subst:sg:acc:n:ncol zrobiła ZROBIĆ praet:sg:f:perf ś BYĆ aglt:sg:sec:imperf:nwok?? interp Co CO subst:sg:acc:n:ncol ś BYĆ aglt:sg:sec:imperf:nwok zrobiła ZROBIĆ praet:sg:f:perf?? interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 36 / 59

Program Morfeusz Opcje programu Wariant composite Co zrobiłaś? / Coś zrobiła? Co CO subst:sg:acc:n:ncol zrobiłaś ZROBIĆ praet:sg:f:sec:perf?? interp Co CO subst:sg:acc:n:ncol ś BYĆ aglt:sg:sec:imperf:nwok zrobiła ZROBIĆ praet:sg:f:ter:perf?? interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 37 / 59

Program Morfeusz Opcje programu Segmentacja form trybu warunkowego Wariant split: widział WIDZIEĆ praet:sg:m1.m2.m3:imperf by BY part m BYĆ aglt:sg:pri:imperf:wok Wariant composite (nowy znacznik cond): widziałbym WIDZIEĆ cond:sg:m1.m2.m3:pri:imperf Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 38 / 59

Program Morfeusz Opcje programu Wariant split Zjadłabym coś / Coś bym zjadła Zjadła ZJEŚĆ praet:sg:f:perf by BY part m BYĆ aglt:sg:pri:imperf:nwok coś COŚ subst:sg:acc:n:ncol Coś COŚ subst:sg:acc:n:ncol by BY part m BYĆ aglt:sg:pri:imperf:nwok zjadła ZJEŚĆ praet:sg:f:perf Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 39 / 59

Program Morfeusz Opcje programu Wariant split Zjadłabym coś / Coś bym zjadła Zjadłabym ZJEŚĆ cond:sg:f:pri:perf coś COŚ subst:sg:acc:n:ncol Coś COŚ subst:sg:acc:n:ncol by BY part m BYĆ aglt:sg:pri:imperf:nwok zjadła ZJEŚĆ praet:sg:f:ter:perf Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 40 / 59

Program Morfeusz Opcje programu Łączliwość aglutynantów Słownik Morfeusza niesie ze sobą również definicje sposobów łączenia segmentów (głównie aglutynantów). Dla domyślnych słowników dostępne są opcje: strict (rygorystyczna): ograniczona do typowych połączeń, i permissive (liberalna): dopuszczająca swobodniejsze, rzadsze połączenia. Można zdefiniować kolejne warianty i rozpoznawać słowa typu: Potrzebowałżebyś, pytam na koniec, tego strachu wstrętnego i bezsilnej wściekłości. (Lem, Przyjaciel Automateusza) Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 41 / 59

Program Morfeusz Opcje programu Wariant strict (+split) Myślałeś, żem zapomniała? Głupiś! Myślał MYŚLEĆ praet:sg:m1.m2.m3:imperf eś BYĆ aglt:sg:sec:imperf:wok,, interp że ŻE comp m BYĆ aglt:sg:pri:imperf:nwok zapomniała ZAPOMNIEĆ praet:sg:f:ter:perf?? interp Głupiś GŁUPIŚ ign!! interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 42 / 59

Program Morfeusz Opcje programu Wariant permissive (+split) Myślałeś, żem zapomniała? Głupiś! Myślał MYŚLEĆ praet:sg:m1.m2.m3:imperf eś BYĆ aglt:sg:sec:imperf:wok,, interp że ŻE comp m BYĆ aglt:sg:pri:imperf:nwok zapomniała ZAPOMNIEĆ praet:sg:f:ter:perf?? interp Głupi GŁUPI adj:sg:nom.voc:m1.m2.m3:pos ś BYĆ aglt:sg:sec:imperf:nwok!! interp Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 43 / 59

Program Morfeusz Opcje programu Wielkie litery Morfeusz ma trzy tryby czułości na wielkie litery: brak wielkie i małe litery nie wpływają na rozpoznawanie form, strict (rygorystyczna), conditional (warunkowa; tryb domyślny). Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 44 / 59

Program Morfeusz Opcje programu Bez czułości na wielkie litery Lublin LUBLIN subst:sg:nom.acc:m3 nazwa_pospolita LUBLIN subst:sg:nom.acc:m3 nazwa_geograficzna lublin LUBLIN subst:sg:nom.acc:m3 nazwa_pospolita LUBLIN subst:sg:nom.acc:m3 nazwa_geograficzna Andrzej ANDRZEJ subst:sg:nom:m1 imi andrzej ANDRZEJ subst:sg:nom:m1 imi Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 45 / 59

Program Morfeusz Opcje programu Wariant strict Lublin LUBLIN subst:sg:nom.acc:m3 nazwa_wªasna LUBLIN subst:sg:nom.acc:m3 nazwa_geograficzna lublin LUBLIN subst:sg:nom.acc:m3 nazwa_wªasna Andrzej ANDRZEJ subst:sg:nom:m1 imi andrzej ANDRZEJ ign Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 46 / 59

Program Morfeusz Opcje programu Wariant conditional Lublin LUBLIN subst:sg:nom.acc:m3 nazwa_wªasna LUBLIN subst:sg:nom.acc:m3 nazwa_geograficzna lublin LUBLIN subst:sg:nom.acc:m3 nazwa_wªasna Andrzej ANDRZEJ subst:sg:nom:m1 imi andrzej ANDRZEJ subst:sg:nom:m1 imi Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 47 / 59

Ujednoznacznianie fleksyjne Plan wykładu 1 Analiza fleksyjna Podstawowe pojęcia Model fleksyjny Morfeusza 2 Program Morfeusz System znaczników Opcje programu 3 Ujednoznacznianie fleksyjne 4 Tworzenie słowników Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 48 / 59

Ujednoznacznianie fleksyjne Analiza, ujednoznacznianie, tagowanie Analiza fleksyjna (morfologiczna) to identyfikacja wszystkich form wyrazowych, których dany segment może być wykładnikiem. Ujednoznacznianie fleksyjne to określenie na podstawie kontekstu, jako którą z możliwych form interpretować dane wystąpienie segmentu. Tagowanie = analiza + ujednoznacznienie. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 49 / 59

Ujednoznacznianie fleksyjne Concraft 2 program Jakuba Waszczuka: https://github.com/kawu/concraft-pl pracuje bezpośrednio na grafach fleksyjnych Morfeusza (z niejednoznacznościami segmentacji!), wytrenowany na milionowym ręcznie znakowanym podkorpusie NKJP, zawiera moduł zgadujący znaczniki (ale nie lematy) dla nieznanych słów, zawiera również moduł dzielący tekst na zdania. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 50 / 59

Ujednoznacznianie fleksyjne Concraft 2 Wersja demonstracyjna Concrafta 2 na stronie Morfeusza (opcja Tagowanie): http://morfeusz.sgjp.pl/demo/ Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 51 / 59

Tworzenie słowników Plan wykładu 1 Analiza fleksyjna Podstawowe pojęcia Model fleksyjny Morfeusza 2 Program Morfeusz System znaczników Opcje programu 3 Ujednoznacznianie fleksyjne 4 Tworzenie słowników Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 52 / 59

Tworzenie słowników Zawartość słownika Dane wbudowywane w binarny plik słownikowy Morfeusza: słownik lub słowniki źródłowe, reguły łączenia segmentów, definicja tagsetu. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 53 / 59

Tworzenie słowników Postać źródłowa słownika Gda«sk Gda«sk subst:sg:acc:m3 geograficzna Gda«sk Gda«sk subst:sg:nom:m3 geograficzna Gda«ska Gda«sk subst:sg:gen:m3 geograficzna Gda«ski Gda«sk subst:pl:nom:m3 geograficzna Gda«skiem Gda«sk subst:sg:inst:m3 geograficzna funkcja funkcja subst:sg:nom:f pospolita funkcjach funkcja subst:pl:loc:f pospolita funkcjami funkcja subst:pl:inst:f pospolita funkcje funkcja subst:pl:acc:f pospolita funkcje funkcja subst:pl:nom:f pospolita funkcje funkcja subst:pl:voc:f pospolita rzad. funkcji funkcja subst:pl:gen:f pospolita funkcji funkcja subst:sg:gen:f pospolita funkcjo funkcja subst:sg:voc:f pospolita rzad. funkcjom funkcja subst:pl:dat:f pospolita funkcyj funkcja subst:pl:gen:f pospolita arch. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 54 / 59

Tworzenie słowników Morfeusz Builder (Linux) Istnieje również wersja programu działająca w wierszu poleceń. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 55 / 59

Tworzenie słowników Przykład tworzenia leksemu w Kuźni Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 56 / 59

Tworzenie słowników Przykład tworzenia leksemu w Kuźni Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 57 / 59

Tworzenie słowników Przykład tworzenia leksemu w Kuźni Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 58 / 59

Tworzenie słowników Dziękuję za uwagę. Katarzyna Krasnowska-Kieraś Morfeusz 2 i Concraft 2 Lublin, 25 września 2019 59 / 59