Automatyczne wspomaganie tworzenia słowników fleksyjnych jednostek wieloczłonowych

Podobne dokumenty
Zasób leksykalny polszczyzny II poł. XIX wieku a możliwość automatycznej analizy morfologicznej tekstów z tego okresu

Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Opis efektów kształcenia dla modułu zajęć

Spis treści. Marcin Będkowski: Jadwiga Puzynina, Tomasz Korpysz, Internetowy słownik języka Cypriana Norwida, Warszawa

Maszynowe tłumaczenie Polskiego Języka Migowego

Autoreferat. 2. Posiadane dyplomy i stopnie naukowe z podaniem nazwy, miejsca i roku ich uzyskania oraz tytułu rozprawy doktorskiej

RACJONALIZACJA PROCESU EKSPLOATACYJNEGO SYSTEMÓW MONITORINGU WIZYJNEGO STOSOWANYCH NA PRZEJAZDACH KOLEJOWYCH

Uwaga wstępna: Kognitywne Systemy Wspomagające Zarządzanie

Automatyczna ekstrakcja i klasyfikacja semantyczna wielosegmentowych jednostek leksykalnych języka naturalnego

Projekt i implementacja systemu wspomagania planowania w języku Prolog

Przedsiębiorstwo zwinne. Projektowanie systemów i strategii zarządzania

Badania w sieciach złożonych

Systemy zdarzeniowe - opis przedmiotu

MONIKA CZEREPOWICKA IWONA KOSEK SEBASTIAN PRZYBYSZEWSKI

Podstawy programowania: Python. Wprowadzenie. Jolanta Bachan

Inform., 72(1-3): (2006) 2 Antonio Cano Gómez, Giovanna Guaiana and Jean-Éric Pin When Does Partial Commutative

Gramatyka TAG dla języka polskiego

Wymiar godzin Pkt Kod Nazwa przedmiotu Egz. ECTS W C L P S P Physics I E P Mathematical analysis I P Linear algebra and analytic E 2 2 7

WYNIKI DZIAŁALNOŚCI NAUKOWEJ PUBLIKACJE W CZASOPISMACH WYRÓŻNIONYCH PRZEZ JOURNAL CITATION REPORTS

Activities Performed by prof. Tadeusiewicz in Books and Journals Editorial Boards

UNIVERSITY OF ECONOMIC ACTIVITY INWARSAW SOCIO - ECONOMIC SOCIETY "MAZOWSZE" Globalization. Chance or IUusion?

DSL w środowisku Eclipse. Grzegorz Białek Architekt techniczny, Sygnity S.A.

Books edited by professor Ryszard Tadeusiewicz

Numer 4 (64) 2012 Warszawa 2012

Weryfikacja protokołów bezpieczeństwa z wykorzystaniem automatów probabilistycznych

Walenty. słownik walencyjny języka polskiego z kontrolą i koordynacją. Filip Skwarski. 5 listopada 2012 r. IPI PAN

Spis treści 5. Spis treści. Przedmowa Przedmowa do wydania II Część pierwsza MORFOLOGIA

Systemy informacyjne nad grafami ontologicznymi

Kierunek: Informatyka rev rev jrn Stacjonarny EN 1 / 6

Wykorzystanie infrastruktury chmurowej i platformy GridSpace w obliczeniach naukowych

Nowości. lipiec - listopad 2013

Podstawy programowania. Wprowadzenie

LISTA PUBLIKACJI. dr Ewa Kołczyk Instytut Informatyki Uniwersytetu Wrocławskiego. Artykuły. Książki

OFERTA WSPÓŁPRACY W ZAKRESIE BADAŃ I NAUKI

Porównanie aplikacji do tworzenia harmonogramów.

SpecVer - metodyka tworzenia oprogramowania integrująca zadania specyfikacji, implementacji i weryfikacji modułów programów

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego. Opis oferowanego przedmiotu zamówienia

WSPOMAGANIE INFORMATYCZNE FUNKCJONOWANIA SYSTEMÓW MONITORINGU WIZYJNEGO W KOLEJOWYCH OBIEKTACH TRANSPORTOWYCH

Books. Students Books edited abroad.

Zamieszczanie ogłoszenia: obowiązkowe. Ogłoszenie dotyczy: zamówienia publicznego.

Ewolucyjne projektowanie i optymalizacja kombinacyjnych układów cyfrowych ze względu na liczbę tranzystorów

Wykaz prac złożonych do druku, przyjętych do druku lub opublikowanych w wyniku realizacji projektu

Gramatyka opisowa języka polskiego Kod przedmiotu

ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

Rodzaje Code slicing w weryfikacji Narzędzia Literatura. Code slicing. Bartłomiej Wołowiec. 16 lutego 2011

WIZUALIZACJA WNIOSKOWANIA W REGUŁOWYCH BAZACH WIEDZY Z WYKORZYSTANIEM SIECI PETRIEGO

dr hab.inz. Marcin Iwanowski

Współczesna problematyka klasyfikacji Informatyki

AUTOMATYZACJA PROCESÓW DYSKRETNYCH 2016

Metody indeksowania dokumentów tekstowych

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

LISTA KURSÓW PLANOWANYCH DO URUCHOMIENIA W SEMESTRZE ZIMOWYM 2015/2016

Mariola Nawrocka Magadalena Wiederek-McRobb. Ośrodek Informacji Naukowej

POMERANIAN MEDICAL UNIVERSITY in SZCZECIN Department of Biochemistry and Human Nutrition Broniewskiego str. 24, Szczecin

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

Projekt przejściowy 2016/2017 BARTOSZ JABŁOŃSKI

Systemy pojedynczego logowania (Single Sign-On)

Jacek Tomaszczyk Instytut Bibliotekoznawstwa i Informacji Naukowej Uniwersytet Śląski

Wydział Informtyki i Nauki o Materiałach Kierunek Informatyka

Automatyzacja procesu tworzenia i zarządzania Wirtualnymi Organizacjami w oparciu o wiedzę w zastosowaniu do architektur zorientowanych na usługi

mgr inż. Mariusz Jarocki Forum Nauczycieli Bibliotekarzy Szkolnych

PLAN STUDIÓW Wydział Elektroniki, Telekomunikacji i Informatyki, Wydział Zarządzania i Ekonomii Inżynieria danych

Funkcjonalność oprogramowania Bazy Wiedzy i Repozytorium Politechniki Warszawskiej

Rok akademicki: 2016/2017 Kod: IIN s Punkty ECTS: 4. Poziom studiów: Studia I stopnia Forma i tryb studiów: Stacjonarne

Participation in Conferences, Panels & Workshops

Wprowadzenie do biblioteki klas C++

O projekcie.

Zastosowanie wielografów do modelowania wieloskalowych danych przestrzennych

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Projekt grupowy - opis przedmiotu

Wykaz zmian systemu PSZeDOK wersja 8.0 sp2.

Monografie / Rozdziały w monografiach

TTIC 31190: Natural Language Processing

Lokalizacja Oprogramowania

Projekt przejściowy 2015/2016 BARTOSZ JABŁOŃSKI, TOMASZ JANICZEK

Karta Opisu Przedmiotu

EUROPEJSKIE Centrum Europejskie Uniwersytetu Warszawskiego

Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan

Curriculum Vitae. Agnieszka Zbrzezny.

Sprawozdanie z laboratorium 2: Modeling knowledge with Resource Description Framework (RDF)

Uniwersytet im. Adama Mickiewicza w Poznaniu

O dystrybucji nieakcentowanych form poprzyimkowych na podstawie Korpusu IPI PAN p.1

SPECJALIZACJA: NOWOCZESNA BIBLIOTEKA (Specialization: Modern library) Liczba godzin Nazwa przedmiotu. Nazwa w języku angielskim

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

!!!!!!!!!!! PORTFOLIO: Analiza zachowań użytkowników serwisów internetowych. Autorzy: Marek Zachara

Życiorys. Wojciech Paszke. 04/2005 Doktor nauk technicznych w dyscyplinie Informatyka. Promotor: Prof. Krzysztof Ga lkowski

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Algorytmy wspomagania decyzji Czyli co i jak andrzej.rusiecki.staff.iiar.pwr.wroc.pl s. 230/C-3

strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:

Programowanie obiektowe

Lingwistyczne podsumowania baz danych.inteligentne generowanie s

Klasyfikacja publikacji po uzyskaniu stopnia doktora

Międzyplatformowy interfejs systemu FOLANessus wykonany przy użyciu biblioteki Qt4

Odkrywanie CAQDAS : wybrane bezpłatne programy komputerowe wspomagające analizę danych jakościowych / Jakub Niedbalski. Łódź, 2013.

Centrum Badań nad Szkolnictwem Wyższym Uniwersytetu Jagiellońskiego. Prof. dr hab. Tadeusz Marek Warszawa, 18 maja 2009r.

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Transkrypt:

Automatyczne wspomaganie tworzenia słowników fleksyjnych jednostek wieloczłonowych IPI PAN 26 stycznia 2015

Przeglad treści Wstęp 1 Wstęp 2 3 4 5

Problem podstawowy Odmiana jednostek wieloczłonowych: (np.: ulica Króla Jana II Kazimierza Wazy) omijanie członów, np.: ulica Jana Kazimierza, nietypowe formy: skróty, inicjały, np.: ul. Jana Kazimierza, uzgodnienia lub wręcz przeciwnie, np.: ulica Jana Kazimierza, ulicy Jana Kazimierza.

Podejście do rozwiazania - narzędzie do tworzenia elektronicznych słowników fleksyjnych jednostek wieloczłonowych. Wykorzystuje Morfeusza SGJP do analizy morfologicznej i generacji form pojedynczych wyrazów. Oparte na formalizmie Multiflex Agaty Savary, operujacym grafami odmiany jednostek wieloczłonowych. Zintegrowany z em jest edytor ww. grafów z platformy Unitex.

technicznie Java. Otwarty kod źródłowy. Dostępny na licencji GPL 3. Dystrybucja na systemy Windows i Linux, 32- i 64-bitowe.

Krótka historia a Przy wykorzystaniu a powstały: SAWA słownik toponimów warszawskich (ponad 9 tys. haseł), SEJF Słownik Elektroniczny Jednostek Frazeologicznych (3200 haseł), SEJFEK SEJF z EKonomii (11 212 haseł),

Problemy szczególne a Silne powiazanie z tematem toponimii. Praca leksykografa jest żmudna. Wymaga wkładu leksykografa w powstanie słownika - zamiast nadzoru.

Zarys ogólny Wstęp Słowniki w binarnych plikach. Różnorakie inne formaty dla części lub całości danych. Warstwa semantyczna. Parametryzacja pozwalajaca na generalizację lub specjalizację w nowych dziedzinach.

Porównywanie grafów Ujednolicenie reprezentacji grafów. Badanie izomorficzności grafów. Badanie ekwiwalencji etykiet wierzchołków. Scalanie grafów. Porównywanie wyników zastosowania grafów do odmiany haseł.

Zintegrowanie z zewnętrznym ekstraktorem złożeń. Automatyczna selekcja grafów odmiany. Automatyczna konstrukcja grafów odmiany.

Zintegrowanie z zewnętrznym ekstraktorem złożeń. Automatyczna selekcja grafów odmiany. Automatyczna konstrukcja grafów odmiany.

Zintegrowanie z zewnętrznym ekstraktorem złożeń. Automatyczna selekcja grafów odmiany. Automatyczna konstrukcja grafów odmiany.

Automatyczna selekcja grafów odmiany Reguły przypisywania grafów hasłom jak w LeXimirze. Automatyczna ekstrakcja reguł z istniejacych słowników. Dynamiczne tworzenie reguł w miarę postępów leksykografa.

Problemy Wstęp Wiele fleksemów czasownikowych o różnych właściwościach odmiany wymaga wielu haseł w słowniku i wielu grafów odmiany. Wielość form trudna do sprawdzenia. Watpliwości co do przyporzadkowania np. niech czytaja, będę zbijał, zbijałbym.

Proponowane rozwiazania Superklasy morfologiczne trybów: przypuszczajacy, oznajmujacy, rozkazujacy. Superkategorie morfologiczne czasów: przeszły, teraźniejszy, przyszły. Implementacja rozwiazań w ramach konceptów i relacji. Modyfikacja morfologii w słowniku.

Wstęp SAVARY, A., RABIEGA-WIŚNIEWSKA, J., WOLIŃSKI, M. (2009): Inflection of Polish Multi-Word Proper Names with Morfeusz and Multiflex, in MARCINIAK, M., MYKOWIECKA, A. (eds.) Aspects of Natural Language Processing", Lecture Notes in Computer Science 5070, Springer Verlag, pp. 111 141. MARCINIAK, M., RABIEGA-WIŚNIEWSKA, J., SAVARY, A., WOLIŃSKI, M., HELIASZ, C. (2009): Constructing an Electronic Dictionary of Polish Urban Proper Names, in Recent Advances in Intelligent Information Systems (Proceedings of the Balto-Slavonic Natural Language Processing Workshop, Kraków), Academic Publishing House EXIT, Warsaw, pp. 743 749. GRALIŃSKI, F., SAVARY, A., CZEREPOWICKA, M., MAKOWIECKI, F. (2010): Computational Lexicography of Multi-Word Units: How Efficient Can It Be?, in Proceedings of Multiword Expressions: from Theory to Applications (MWE 2010), Workshop at COLING 2010, Beijing, China, August 28. CZEREPOWICKA, M., KOSEK, I. (2011): Problemy opisu zwiazków frazeologicznych w formalizmie Multifleks (na przykładzie rodzaju wyrażeń frazeologicznych), in Kopcińska, D., Bańko, M. (eds.) Żóżne formy, różne treści", pp. 117 126, Warszawa 2011. CZEREPOWICKA, M. (2011): jako narzędzie znakowania jednostek wieloczłonowych, in Matusiak-Kempa, I., Przybyszewski, S. (eds.) Nowe zjawiska w języku, tekście, komunikacji. Kontekst a komunikacja, Olsztyn, pp. 28 35. CZEREPOWICKA, M. (2014): Jednostki obce w słowniku języka polskiego na przykładzie Słownika elektronicznego jednostek frazeologicznych (SEJF), in LingVaria (IX), vol. 1 (17), pp. 59-68 [doi: 10.12797/LV.09.2014.17.04]. CZEREPOWICKA, M. (2014): SEJF - Słownik elektroniczny jednostek frazeologicznych, in Język Polski (XCIV), v. 2, pp. 116-129.

c.d. Wstęp Małgorzata Marciniak, Agata Savary,, and Marcin Woliński. a lexicographic framework for multi-word units. In Zygmunt Vetulani, editor, Human Language Technology. Challenges for Computer Science and Linguistics: 4th Language and Technology Conference, LTC 2009, Poznań, Poland, November 6 8, 2009, Revised Selected Papers, volume 6562 of Lecture Notes in Artificial Intelligence, pages 139 150. Springer-Verlag, Berlin, 2011.. Narzędzia do tworzenia elektronicznych słowników fleksyjnych jednostek wieloczłonowych, Uniwersytet Warszawski, Warszawa 2011. and Marcin Woliński. a dictionary creation tool. In Mieczysław A. Kłopotek, Adam Przepiórkowski, Sławomir T. Wierzchoń, and Krzysztof Trojanowski, editors, Recent Advances in Intelligent Information Systems, pages 743 749. Akademicka Oficyna Wydawnicza EXIT, Warsaw, 2009. Marcin Woliński, Agata Savary,, and Małgorzata Marciniak. Usability improvements in the lexicographic framework. In Zygmunt Vetulani, editor, Proceedings of the 4th Language and Technology Conference, pages 321 325, Poznań, Poland, 2009. Małgorzata Marciniak, Joanna Rabiega-Wisniewska, Agata Savary, Marcin Wolinski, Celina Heliasz. Constructing an Electronic Dictionary of Polish Urban Proper Names, In Recent Advances in Intelligent Information Systems, pages 233 246, Exit, Warszawa 2009. Cvetana Krstev, Ranka Stankovic, Ivan Obradovic, Dusko Vitas, Milos Utvic. Automatic Construction of a Morphological Dictionary of Multi-Word Units. Advances in Natural Language Processing, 7th International Conference on NLP, IceTAL 2010, Reykjavik, Iceland, August 16-18, 2010; 01/2010. Monika Czerepowicka, Agata Savary. Kodowanie czasowników w ie. Raport techniczny, instrukcja leksykografa.