Marcin Miłkowski IFiS PAN



Podobne dokumenty
Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

Lokalizacja Oprogramowania

5. WORD W POLSKIEJ WERSJI

Ortograficzne A, B, C

Wymagana wiedza i umiejętności z języka niemieckiego dla uczniów szkoły gimnazjum na poszczególne stopnie szkolne obejmująca wszystkie sprawności

Z ortografią za pan brat

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

Programowanie Komponentowe WebAPI

REGULAMIN SZKOLNEGO KONKURSU ORTOGRAFICZNEGO MISTRZ ORTOGRAFII DLA UCZNIÓW KLAS IV-VI

Program warsztatów CLARIN-PL

Z ortografią za pan brat


WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO DLA UCZNIÓW KLASY VI NA POSZCZEGÓLNE OCENY I OKRES OCENA CELUJĄCA

NARZĘDZIA Narzędzia Narzędzia

System Korekty Tekstu Polskiego

Aplikacja pozwala wyliczyd numer rachunku NRB zarówno dla jednego jak i wielu kontrahentów.

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Regulamin II edycji Gminnego Konkursu Ortograficznego DRZEWICKI MISTRZ ORTOGRAFII 2017

Harmonogram zajęd Koło z zasadami realizowanych w projekcie Umied więcej? Fajna rzecz! Terespol 2009/2010. Prowadzący zajęcia: Anna Warakomska

SYSTEM PODZIELONEJ PŁATNOŚCI - SPLIT PAYMENT

Program poprawy sprawności ortograficznej Korrida ortograficzna

Kryteria oceniania języka angielskiego w Szkole Podstawowej nr 16 w Zespole Szkolno-Przedszkolnym nr 1 w Gliwicach

Wstęp do Językoznawstwa

Wymagania edukacyjne z języka angielskiego dla uczniów gimnazjum klasy I - III

Przedmiotowy system oceniania z języka angielskiego klas IV - VI

Obiektowy model dokumentu. Katedra Mikroelektroniki i Technik Informatycznych

Co nowego w systemie Kancelaris 3.31 STD/3.41 PLUS

L.dz.: WETI /16/2014 Gdańsk, dn

Narzędzia do pisania. Korektor pisowni i korektor gramatyczny

Ogólne wymagania na poszczególne oceny z języka niemieckiego

Przewodnik użytkownika (instrukcja) AutoMagicTest

KRYTERIA OCENIANIA KLASA I KLASA II KLASA III

JĘZYK NIEMIECKI liceum

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO klasa I gimnazjum Mgr Magdalena Mazanek Mgr Magdalena Pajor GRAMATYKA I SŁOWNICTWO.

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLAS IV-VIII

METODY SPRAWDZANIA OSIĄGNIĘĆ EDUKACYJNYCH UCZNIÓW NA LEKCJACH JĘZYKA ANGIELSKIEGO

System Korekty Tekstu Polskiego

OfficeObjects e-forms

Instrukcja użytkowania KB tokena

Szkoła Podstawowa im. Kornela Makuszyńskiego w Bychlewie. Kryteria oceniania z języka angielskiego. kl. IV-V. Rok szkolny 2017/2018

Eksploracja Zasobów Internetu

Instrukcja użytkownika

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA II ETAPU EDUKACYJNEGO (KLASY IV-VI)

WYJAŚNIENIA ZAMAWIAJĄCEGO DOTYCZĄCE TREŚCI SIWZ

KARTA KURSU. Przetwarzanie dokumentów XML i zaawansowane techniki WWW

z języka angielskiego (IV-VIII)

SYSTEM OCENIANIA Z JĘZYKÓW OBCYCH.

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO KLASY IV-VI SZKOŁA PODSTAWOWA NR 43 w BIAŁYMSTOKU

Dzielnicowy Konkurs Ortograficzny. dla uczniów klasy II szkoły podstawowej. I TY możesz zostać mistrzem ortografii

Wyszukiwarka i usługi Google

Wymagania edukacyjne z języka angielskiego dla klasy czwartej

Kryteria wymagań na poszczególne oceny dla uczniów z upośledzeniem w stopniu lekkim z języka angielskiego. Gramatyka i słownictwo Osiągnięcia ucznia:

WYMAGANIA EDUKACYJNE JĘZYK FRANCUSKI

FARA INTENCJE ONLINE. Przewodnik dla użytkownika programu FARA. Włodzimierz Kessler SIGNUM-NET

z języka niemieckiego (IV-VIII)

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO klasa III Magdalena Pajor GRAMATYKA I SŁOWNICTWO. Poziomy wymagań:

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

KATEGORIA OBSZAR WIEDZY

Wymagania edukacyjne i kryteria ocen z języka niemieckiego dla gimnazjum.

1WYMAGANIA EDUKACYJNE Z JĘZYKA HISZPAŃSKIEGO dla klasy I/II/III w I Liceum Ogólnokształcącym im. Tadeusza Kościuszki w Koninie 2016/17

Współczesne moduły automatycznego sprawdzania pisowni dla języka polskiego i angielskiego

Zamawiający dysponuje szerokim spektrum rozwiązań infrastrukturalnych. Wykonawca uzyska dostęp do infrastruktury w niezbędnym zakresie.

Elektroniczny Urząd Podawczy

LK1: Wprowadzenie do MS Access Zakładanie bazy danych i tworzenie interfejsu użytkownika

dlibra 3.0 Marcin Heliński

Hot Potatoes. Zdania z lukami Przyporządkowanie. Tworzy spis wszystkich zadań. Krzyżówki

Przedmiotowy system oceniania z języka angielskiego dla klas I - III SP nr 5. im. Marii Konopnickiej w Ełku zgodny z nową podstawą programową

Przedmiotowy system oceniania w klasach 4-8- język angielski

Advance Design 2015 / SP2

Egzamin gimnazjalny składa się z trzech części: humanistycznej, matematycznoprzyrodniczej

PRZEDMIOTOWE WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO. I JĘZYKA NIEMIECKIEGO DLA KLAS VII i VIII SZKOŁY PODSTAWOWEJ NR 1

SPRAWDZIAN Klucz punktowania zadań. (zestawy zadań dla uczniów z upośledzeniem umysłowym w stopniu lekkim)

Regulamin Konkursu Ortograficznego Eurodyktando

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Nadzorowanie stanu serwerów i ich wykorzystania przez użytkowników

Klasa IV. zna elementy serii "der, die, das neu" do klasy IV, PSO z języka niemieckiego oraz

Przewodnik użytkownika (instrukcja) AutoMagicTest Spis treści

Powyższe kryteria dotyczą wszystkich prac z literatury, w tym również prac klasowych.

Interpretacja Raportu badania pracy w Otwartym Systemie Antyplagiatowym (OSA)

Kryteria oceniania wiadomości i umiejętności z języka angielskiego klasy IV-VI

KRYTERIA OCENY PRAC DOMOWYCH I KLASOWYCH - samodzielność, zgodność z tematem oraz oryginalność ujęcia tematu i estetyka

Przedmiotem zamówienia jest dostawa:

Przedmiotowe zasady oceniania z języka angielskiego dla uczniów klas IV-VI szkoły podstawowej

Otwórz i zamknij kilka dokumentów tekstowych, następnie sprawdź zawartość menu Plik.

Instrukcja użytkownika

Oprogramowanie specjalistyczne

Wymagania edukacyjne JĘZYK FRANCUSKI- klasy I-III gimnazjum

KOMPUTEROWY SYSTEM WSPOMAGANIA OBSŁUGI JEDNOSTEK SŁUŻBY ZDROWIA KS-SOMED INSTRUKCJA OBSŁUGI

ECDL/ICDL Przetwarzanie tekstów Moduł B3 Sylabus - wersja 6.0

Wprowadzenie do programowania

Zarządzenie Nr 61 l 2017 Burmistrza Gminy i Miasta w Drzewicy z dnia 6 września 2017 r.

Archiwum Prac Dyplomowych. Michał Malinowski Dariusz Działak

Aby otrzymać ocenę BARDZO DOBRĄ, uczeń:

PRZEDMIOTOWY SYSTEM OCENIANIA z JĘZYKA ANGIELSKIEGO. w kl. IV-VI Szkoły Podstawowej Nr 1 w Ząbkach

Regulamin uczestnictwa w kursach językowych dostępnych na platformie Lubelskiego Uniwersytetu Inspiracji

Transkrypt:

Morfologik Marcin Miłkowski IFiS PAN koordynator pl.openoffice.org Adres projektu: morfologik.blogspot.com

Morfologik Trzy składniki projektu: Automatycznie generowany słownik form wyrazowych Reguły korektora LanguageTool Biblioteka Stempelator (Java)

Słownik form Słownikowy anotator (POS tagger) W formacie FSA (biblioteka Stempelator) Oparty na słowniku alternatywnym (format ispell/myspell) Generowany automatycznie Dodatkowa funkcja: lematyzacja

Słownik form Słownik ispella: Słownik definiujący flagi afiksów: prefiksów i sufiksów Słownik wyrazów Poszczególne flagi odpowiadają wielu przypadkom, rodzajom... Świstak mówi: niemożliwe!

Słownik form Jednak Zbigniew Płotnicki napisał pracę dyplomową u dra Jacka Jelonka, którą był słownik morfologiczny oparty na ispellu (program waspell). Waspell miał być udostępniony na licencji GNU (tak jak słownik alternatywny)... Do dziś niedostępny, ale: Wiedziałem, że to możliwe Miałem wersję binarną

Słownik form Generowanie słownika, algorytm prosty: 1. Wygenerowanie wszystkich form ze słownika ispella, wraz z podaniem bazowych flag i końcówek (7 pól płaskiej bazy danych) 2. Wypisanie, przy użyciu tablicy asocjacyjnej, wszystkich form

Słownik form Generowanie słownika, algorytm prosty: 1. Wygenerowanie wszystkich form ze słownika ispella, wraz z podaniem bazowych flag i końcówek (7 pól płaskiej bazy danych) Abbie Abba M M a ie [^cdghijklłnrtvwzż]a Abbo Abba M M a o [^l]a Abbocie Abbot OoSsT O t cie [^s]t Abbot Abbot OoSsT OoSsT 0 0

Słownik form Generowanie słownika, algorytm prosty: 2. Wypisanie, przy użyciu tablicy asocjacyjnej: Mmn n a a subst:pl:gen:f OSTos O ów owa ów subst:sg:gen:m OSTos O ów owa ów subst:sg:gen:m1 OSTos O ów owem ów subst:sg:inst:m OSTos O ów owem ów subst:sg:inst:m1 OSTos O ów owie ów subst:pl:nom.voc:m OSTos O ów owie ów subst:pl:nom.voc:m1 OSTos O ów owowi ów subst:sg:dat:m Pole 1 to zestaw flag formy podstawowej wyrazu: pozwala odróżnić np. wyrazy typu niezdara rodzaju męskiego od niezdara rodzaju żeńskiego

Słownik form Prosty algorytm nie uwzględnia wyrazów nieodmiennych oraz nieregularnych (=bez flagi ispella) Rozwiązanie hybrydowe: Słownik ręcznie dopisanych form Zgadywanie, na podstawie słownika odmian słownika alternatywnego, przynajmniej części flagi: wystrużże wlepiwszy wystrugać verb:irreg wlepić pant:perf Formy anotowane na podstawie końcówek (-wszy & verb:irreg = pant:perf, adj -kszy = adj:comp)

Słownik form Zestaw znaczników oparty na tagsecie IPI Część znaczników stosowana inaczej (błędnie), zwłaszcza aglt (z powodu tokenizatora): abdykowali abdykowaliby abdykować verb:praet:pl:ter:m1:?perf abdykować verb:aglt:praet:pl:ter:m1:?perf

Słownik form Dodatkowe znaczniki: pneg: forma może być zanegowana (np. biały ) neg: forma faktycznie zanegowana (np. niebiały) Bałagan w oznaczeniach deklinacji (m1...)

Anotacje skąd pneg? Dodatkowy znacznik został wprowadzony w celu ulepszenia reguły błędnej pisowni rozłącznej: Prosimy o nie palenie W słowniku alternatywnym flaga prefiksu b jest przypisana do podzbioru wyrazów, które w podręcznikowych regułach ortografii pisze się łącznie z nie mniej fałszywych alarmów

Testowanie anotacji Nie istnieje jeszcze niezawodny i dokładny walidator znaczników (np. sprawdzający kompletność anotacji) Ale: błędy w oznaczeniu są wyławiane podczas testowania reguł gramatycznych i stylistycznych Stąd np. pneg

Słownikowy POS tagger Wady: Brak jednoznacznej anotacji W korekcie gramatycznej to jest zaleta, statystyczne taggery nie są trenowane na niegramatycznych zdaniach Brak form spoza słownika Słownik alternatywny został wzbogacony o prawie 500 tysięcy form nazw własnych (na moją prośbę) Zaleta: Szybkość, działa bez parsera

Słownikowy POS tagger Słownik alternatywny jest aktualizowany na bieżąco Trzeba aktualizować tablicę asocjacyjną Zasób słownika się powiększa

LanguageTool Regułowy korektor gramatyczny Jednostka przetwarzania: zdanie (definiowane syntaktycznie, przez interpunkcję) Błędy wykrywane przez zgodność z regułami wzorców; inne korektory stosują Gramatyki sformalizowane (pełne, np. Link Grammar) Statystyczne wzory zdań poprawnych lub błędnych Rozwiązania hybrydowe (Wordnet + Google)

LanguageTool Modułowy: Dla każdego języka osobny POS tagger Probablistyczny tagger z OpenNLP został zastąpiony słownikowym (w najnowszej wersji) Obsługuje angielski, niemiecki, polski; są już taggery dla włoskiego, hiszpańskiego i francuskiego, w przygotowaniu dla Malayalam Ma działać w OpenOffice.org, ale też np. w controlled technical English (OCE)

LanguageTool Plik reguł w XML-u; siła wyrazu z grubsza podobna do zapytania do Poliqarpa (możliwe zapewne przekształcenie XSLT do zapytania) Wprowadzane elementy relacyjne (pomijanie określonej liczby wyrazów, wyjątki i zakresy wyjątków) Brakuje jeszcze kilku możliwości specyfikowania relacji między elementami

LanguageTool Fałszywe alarmy problem korektorów gramatycznych i stylistycznych (vide korektor w MS Word) Testowanie reguł na prawdziwych tekstach pokazuje często błędność anotacji lub konieczność wprowadzenia nowego znacznika: sprzężenie zwrotne

Plany Statystyczny lub regułowy segmentator (chunker; np. do frazy nominalnej) zamiast parsera Wprowadzenie dodatkowych poziomów analizy: akapit i cały tekst Ulepszenie sugestii i wprowadzenie koniugatora (słownika generującego zadane formy) Nightly builds

Plany Sprawdzanie formy polskich wyrazów online (w czasie sprawdzania pisowni) Aplikacja do testowania i pisania reguł online (konieczne do współpracy z Włochami, Francuzami itd.) Testowanie na korpusie błędów (z Internetu, uczniów, gazet...) LT jako wtyczka do Firefoksa Udoskonalenie LT jako modułu OOo