Morfeusz 2 analizator i generator fleksyjny dla języka polskiego



Podobne dokumenty
MARCIN WOLIŃSKI MORFEUSZ REAKTYWACJA IPI PAN, 7 KWIETNIA /28 ...

Analizator fleksyjny Morfeusz 2

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa

Marcin Woliński. Morfeusz 2. Dokumentacja techniczna i użytkowa. 6 września 2018

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Generated by Foxit PDF Creator Foxit Software For evaluation only. System Szablonów

Java jako język programowania

Podstawy Kompilatorów

jest dostępne na różne systemy operacyjne. Niniejsza instrukcja opisuje podstawowe operacje i opcje niezbędne do rozpoczęcia pracy w tym programie.

Java Podstawy. Michał Bereta

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

WK, FN-1, semestr letni 2010 Korpusy tekstów w lingwistyce. Wyrażenia regularne. Cz. I

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne

System znaczników morfosyntaktycznych w korpusie IPI PAN

PoliMorf otwarty słownik morfologiczny

Korpusy językowe podstawowa terminologia i metody tworzenia. Natalia Kotsyba IBI AL Uniwersytet Warszawski 12 i 26 stycznia 2011 r.

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Metody Kompilacji Wykład 1 Wstęp

Język JAVA podstawy. wykład 1, część 2. Jacek Rumiński. Politechnika Gdańska, Inżynieria Biomedyczna

Programowanie obiektowe. Literatura: Autor: dr inŝ. Zofia Kruczkiewicz

Włodzimierz Gruszczyński. Instytut Języka Polskiego PAN Korpusy Diachroniczne Polszczyzny Katowice, kwietnia 2017 r.

Programowanie w języku C++ Grażyna Koba

SGJP Model odmiany Przymiotniki Rzeczowniki Czasowniki Podsumowanie

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Komputerowa weryfikacja gramatyki Świdzińskiego

Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu

Eksploracja Zasobów Internetu

Programowanie w języku Python. Grażyna Koba

INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE

Materiały wprowadzające. dr inż. Arkadiusz Chrobot

PLAN WYNIKOWY PROGRAMOWANIE APLIKACJI INTERNETOWYCH. KL IV TI 6 godziny tygodniowo (6x15 tygodni =90 godzin ),

IBM SPSS Statistics Wersja 23. Konfigurowanie ułatwień dostępu

Podstawy i języki programowania

Jak ustawić cele kampanii?

Translacja wprowadzenie

1. System kontroli wersji Instalacja programu kontroli wersji CVS

Materiały wprowadzające. dr inż. Arkadiusz Chrobot

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Eksploracja Zasobów Internetu

Języki i metody programowania Java. Wykład 2 (część 2)

Przeszukiwanie z nawrotami. Wykład 8. Przeszukiwanie z nawrotami. J. Cichoń, P. Kobylański Wstęp do Informatyki i Programowania 238 / 279

Dariusz Brzeziński. Politechnika Poznańska, Instytut Informatyki

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

Programowanie obiektowe zastosowanie języka Java SE

Instrukcja do ćwiczenia P4 Analiza semantyczna i generowanie kodu Język: Ada

Opis zmian w wersji Oprogramowania do Obsługi SR/FA/SW/ST/DM

LEM wydobywanie statystyk z korpusów

Programowanie w Internecie. Java

Laboratorium Informatyka (I) AiR Ćwiczenia z debugowania

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

Informatyka- wykład. Podstawy programowania w Pythonie. dr Marcin Ziółkowski

Od programowania wizualnego do tekstowego

Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym

Kategorialny Parser Składniowo-Semantyczny dla języka polskiego

Początki Javy. dr Anna Łazińska, WMiI UŁ Podstawy języka Java 1 / 8

Dokumentacja Użytkownika Systemu

Programowanie w C. dr inż. Stanisław Wszelak

Laboratorium: Systemy operacyjne czasu rzeczywistego. Temat: Wprowadzenie do karty DS1102 i oprogramowania Control Desk.

Część 1. Ekstrakcja informacji oraz stylometria na usługach psychologii CLARIN-PL. Tomasz Walkowiak

znajdowały się różne instrukcje) to tak naprawdę definicja funkcji main.

6. Algorytmy ochrony przed zagłodzeniem dla systemów Linux i Windows NT.

Podstawy programowania

Wprowadzenie 5 Rozdział 1. Lokalna sieć komputerowa 7

Aplikacja serwerowa Platformy Prezentacyjnej Opis produktu

Rok akademicki: 2013/2014 Kod: JFT s Punkty ECTS: 5. Poziom studiów: Studia I stopnia Forma i tryb studiów: Stacjonarne

Semantyczna analiza języka naturalnego

Fragment wykładu z języka C ( )

przedmiot specjalnościowy obowiązkowy polski semestr V semestr zimowy nie

Regulamin uczestnictwa w kursach językowych dostępnych na platformie Lubelskiego Uniwersytetu Inspiracji

Wprowadzenie do składni

Programowanie obiektowe

Programowanie komputerów

Wstęp do Programowania potok funkcyjny

Aplikacja (oprogramowanie) będzie umożliwiać przygotowanie, przeprowadzenie badania oraz analizę wyników według określonej metody.

BRIDGE CAD ABT - INSTRUKCJA OBSŁUGI

2. Wymagania wstępne w zakresie wiedzy, umiejętności oraz kompetencji społecznych (jeśli obowiązują): BRAK

Tworzenie oprogramowania

AUTOMATYKA INFORMATYKA

System Zarządzania Dystrybucją

Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Opracował Jan T. Biernat

Java EE produkcja oprogramowania

Zasób leksykalny polszczyzny II poł. XIX wieku a możliwość automatycznej analizy morfologicznej tekstów z tego okresu

1) Liczba zapisana w systemie binarnym to w systemie dziesiętnym: a) 54; b) 46; c) 56; d) 44;

Wydział Zarządzania AGH. Katedra Informatyki Stosowanej. Podstawy VBA cz. 1. Programowanie komputerowe

Tworzenie i obsługa wirtualnego laboratorium komputerowego

WebSty otwarty webowy system do analiz stylometrycznych

OPIS PRZEDMIOTU gramatyka opisowa języka polskiego (fleksja) / k, 1, II. prof. dr hab. Andrzej S. Dyszak

Copyright by K. Trybicka-Francik 1

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Część 1. Wydobywanie informacji z tekstu i stylometria CLARIN-PL. Tomasz Walkowiak, Maciej Piasecki

Specjalnościowy Obowiązkowy Polski Semestr 5

JĘZYK ŁACIŃSKI I KULTURA ANTYCZNA

Transkrypt:

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego Marcin Woliński i Anna Andrzejczuk Zespół Inżynierii Lingwistycznej Instytut Podstaw Informatyki Polskiej Akademii Nauk Warsztaty CLARIN-PL, 20 maja 2015 1/21

Analizator i generator fleksyjny Morfeusz j Morfeusz, wersja 2 opracowana w Zespole Inżynierii Lingwistycznej IPI PAN w ramach CLARIN-PL: http://sgjppl/morfeusz/dopobraniahtml 2/21

Dystrybucja programu j Zasadniczą postać programu stanowi moduł programistyczny, który można wbudować w tworzone przez siebie programy Dla mniej technicznie ukierunkowanych użytkowników przygotowano interfejs graficzny w Javie Udostępniamy kod źródłowy i wersje skompilowane dla Linuksa, Mac OS X i Windows; 32- i 64-bitowe Dodatkowe moduły umożliwiają użycie Morfeusza z poziomu Pythona, Perla, Javy i SWI-Prologu 3/21

Program Morfeusz j 4/21

Przykład j Mam mama subst:pl:gen:f mamić impt:sg:sec:imperf mieć fin:sg:pri:imperf próbkę próbka subst:sg:acc:f analizy analiza subst:sg:gen:f subst:pl:nomaccvoc:f morfologicznej morfologiczny adj:sg:gendatloc:f:pos interp 5/21

Podstawowe pojęcia j Leksem (wyraz słownikowy) abstrakcyjna jednostka języka, zbiór form wyrazowych Forma (wyrazowa) segment zinterpretowany poprzez przypisanie do leksemu i określenie jego funkcji gramatycznej Wykładnik (formy) segment reprezentujący ją w tekście Lemat umowny identyfikator leksemu, tradycyjnie równokształtny z wykładnikiem pewnej jego formy 6/21

Podstawowe pojęcia j Leksem (wyraz słownikowy) abstrakcyjna jednostka języka, zbiór form wyrazowych Forma (wyrazowa) segment zinterpretowany poprzez przypisanie do leksemu i określenie jego funkcji gramatycznej Wykładnik (formy) segment reprezentujący ją w tekście Lemat umowny identyfikator leksemu, tradycyjnie równokształtny z wykładnikiem pewnej jego formy Technicznie: Forma trójka wykładnik, lemat, znacznik fleksyjny (tag) Leksem zbiór form o tym samym lemacie 6/21

Podstawowe pojęcia j Analiza fleksyjna (morfologiczna) identyfikacja wszystkich form wyrazowych, których dany segment może być wykładnikiem Ujednoznacznianie fleksyjne określenie na podstawie kontekstu, jako którą z możliwych form interpretować dane wystąpienie segmentu Tagowanie analiza + ujednoznacznienie 7/21

Segmentacja j psami psami psami psami ul ul biało-czerwonych biało - czerwonych różowawoczerwonymi różowawo czerwonymi PRL-u PRL-u Segmentacja dla polszczyzny jest uwikłana słownikowo 8/21

Segmentacja form czasu przeszłego j Powiedziała, że to czytaliście Powiedziała, żeście to czytali *Powiedziała, żeby to czytaliście Powiedziała, żebyście to czytali 9/21

Segmentacja form czasu przeszłego j Powiedziała, że to czytaliście Powiedziała, żeście to czytali *Powiedziała, żeby to czytaliście Powiedziała, żebyście to czytali Świnieście! 9/21

Segmentacja form czasu przeszłego j Wariant fundamentalistyczny: widział widzieć praet:sg:m1m2m3:imperf em być aglt:sg:pri:imperf:wok Wariant pragmatyczny: widziałem widzieć praet:sg:m1m2m3:pri:imperf 10/21

Segmentacja form trybu warunkowego j Wariant fundamentalistyczny: widział widzieć praet:sg:m1m2m3:imperf by by qub m być aglt:sg:pri:imperf:wok Wariant pragmatyczny (nowy znacznik cond): widziałbym widzieć cond:sg:m1m2m3:pri:imperf 11/21

Regularność odmiany j 12/21

Regularność odmiany j 12/21

Regularność odmiany j fin impt praet imps inf Fleksem podzbiór leksemu (w miarę) jednorodny ze względu na kategorie gramatyczne przysługujące formom 12/21

Tagset j Mam mama subst:pl:gen:f mamić impt:sg:sec:imperf mieć fin:sg:pri:imperf próbkę próbka subst:sg:acc:f analizy analiza subst:sg:gen:f subst:pl:nomaccvoc:f morfologicznej morfologiczny adj:sg:gendatloc:f:pos interp 13/21

Lematyzacja j Leksem para: Uczestnicy tańczą parami Zatrucie parami rtęci jest praktycznie niemożliwe bez jednoczesnego poparzenia 14/21

Lematyzacja j Leksem para: Uczestnicy tańczą parami Zatrucie parami rtęci jest praktycznie niemożliwe bez jednoczesnego poparzenia Leksemy zamek:s1 i zamek:s2: Jakoś odruchowo przekręciła gałkę zamka, a potem nacisnęła klamkę Na dziedzińcu zamku lubelskiego natrafiono na fragmenty konstrukcji zrębowej drewnianej chaty 14/21

Lematyzacja j Lematy ok 10 000 leksemów w SGJP wymagają elementu ujednoznaczniającego Po dwukropku dodano oznaczenie części mowy Np leksemy piec:s i piec:v Jeżeli to nie wystarczyło, dodano oznaczenie cyfrowe, np zamek:s1 (zamka) i zamek:s2 (zamku); słać:v1 (ślę) i słać:v2 (ścielę) Analizator zwraca takie lematy Generator dla argumentu "piec:s" zwróci formy odmiany rzeczownika piec:s, a dla argumentu "piec" formy zarówno rzeczownika jak i czasownika 15/21

Dostępne słowniki j Morfeusz jest dystrybuowany z dwoma słownikami: SGJP i Polimorf Kolejne wydania Morfeusza są generowane automatycznie przez system Kuźnia zarządzający pracą nad oboma słownikami Aby załadować słownik samemu przygotowany, trzeba najpierw wskazać programowi katalog, w którym miałby takich słowników poszukiwać 16/21

Postać źródłowa słownika j Gdańsk Gdańsk subst:sg:acc:m3 geograficzna Gdańsk Gdańsk subst:sg:nom:m3 geograficzna Gdańska Gdańsk subst:sg:gen:m3 geograficzna Gdański Gdańsk subst:pl:nom:m3 geograficzna Gdańskiem Gdańsk subst:sg:inst:m3 geograficzna funkcja funkcja subst:sg:nom:f pospolita funkcjach funkcja subst:pl:loc:f pospolita funkcjami funkcja subst:pl:inst:f pospolita funkcje funkcja subst:pl:acc:f pospolita funkcje funkcja subst:pl:nom:f pospolita funkcje funkcja subst:pl:voc:f pospolita rzad funkcji funkcja subst:pl:gen:f pospolita funkcji funkcja subst:sg:gen:f pospolita funkcjo funkcja subst:sg:voc:f pospolita rzad funkcjom funkcja subst:pl:dat:f pospolita funkcyj funkcja subst:pl:gen:f pospolita arch 17/21

Kompilowanie słownika j Dane wbudowywane w binarny plik słownikowy Morfeusza: słownik lub słowniki źródłowe, reguły łączenia segmentów, definicja tagsetu 18/21

Kompilowanie słownika j python morfeusz_builder --input-files=eksporttab,sgjp-20150414tab,dodatkitab --tagset-file=morfeusz-sgjptagset --segments-file=segmentydat --dict-dir=morf-dict --dict test13 (całe powyższe polecenie musi być w jednym wierszu) 19/21

Kompilowanie słownika j 20/21

Kuźnia j Do tworzenia słowników w formacie wymaganym przez Morfeusza służy Kuźnia W ramach CLARIN-PL udostępniono instalację Kuźni pozwalającą samodzielnie założyć konto i podjąć pracę nad własnym słownikiem: http://kuzniaipipanclarin-pleu/accounts/ register/ 21/21