System Korekty Tekstu Polskiego



Podobne dokumenty
System Korekty Tekstu Polskiego

AKADEMIA GÓRNICZO-HUTNICZA Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

Poprawianie pisowni. Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6. Korekta pisowni: odległość Levenshteina (166 / 188)

NaCoBeZu na co będę zwracać uwagę. Wymagania do cyklu lekcji dotyczących składni

Lokalizacja Oprogramowania

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

REGULAMIN SZKOLNEGO KONKURSU ORTOGRAFICZNEGO MISTRZ ORTOGRAFII DLA UCZNIÓW KLAS IV-VI

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI

Narzędzia do pisania. Korektor pisowni i korektor gramatyczny

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2014/2015

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

Nr Tytuł Przykład Str.

5. WORD W POLSKIEJ WERSJI

KRYTERIA OCENY PRAC PISEMNYCH Język polski

KRYTERIA OCEN Z JĘZYKA POLSKIEGO W KLASIE V

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2015/2016 JĘZYK POLSKI

Wymagania edukacyjne na poszczególne oceny (poziom IV.0-2 godziny tygodniowo) Język francuski- Danuta Kowalik kl. 1c

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

Narzędzia do automatycznego wydobywania kolokacji

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

PZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA POLSKIEGO DLA KLASY I

AUTOMATYCZNA KONTEKSTOWA KOREKTA TEKSTÓW Z WYKORZYSTANIEM GRAFU LHG

AUTOMATYCZNA KONTEKSTOWA KOREKTA TEKSTÓW Z WYKORZYSTANIEM GRAFU LHG

Gramatyka. języka rosyjskiego z ćwiczeniami

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

Narzędzia do automatycznego wydobywania kolokacji

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

CZĘŚCI MOWY (Partes orationis) podstawowe kategorie wyrazów w języku

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

PRZEDMIOTOWE ZASADY OCENIANIA Z JĘZYKA POLSKIEGO DLA KLASY VI OKNO NA ŚWIAT

Kryteria oceniania z języka angielskiego w klasie 2 według sprawności językowych GRAMATYKA I SŁOWNICTWO

CZY PYTANIE MUSI MIEĆ ZNAK ZAPYTANIA? O SPOSOBACH FORMUŁOWANIA PYTAŃ PRZEZ DZIECI

Regulamin uczestnictwa w kursach językowych dostępnych na platformie Lubelskiego Uniwersytetu Inspiracji

PIJARSKIE SZKOŁY W WARSZAWIE

KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLASY VI

Wymagania edukacyjne na poszczególne oceny w klasie 5 Teraz polski!

Przedmiotowy system oceniania z języka niemieckiego

Kontrola i ocena pracy ucznia.

Ocenianie Przedmiotowe z języka angielskiego w klasach IV-VI. Szkoła Podstawowa nr 5 im. Bohaterów 12 Kołobrzeskiego Pułku Piechoty

PRZEDMIOTOWY SYSTEM OCENIANIA Z JEZYKA ANGIELSKIEGO KLAS IV-VI

Egzamin Gimnazjalny z WSiP MAJ 2015 Analiza wyników próbnego egzaminu gimnazjalnego Część humanistyczna z zakresu języka polskiego Klasa 1

NARZĘDZIA Narzędzia Narzędzia

Wymagania edukacyjne na poszczególne stopnie szkolne z języka angielskiego w klasie VII

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

ANALIZA WYNIKÓW EGZAMINU GIMNAZJALNEGO-ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

II. Kontrola i ocena pracy ucznia.

Celem przedmiotowego systemu oceniania jest wspieranie ucznia w rozwoju intelektualnym i osobowościowym

Kryteria oceniania z języka polskiego KLASA VI

UNIWERSYTET ŚLĄSKI W KATOWICACH

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ROSYJSKIEGO KL.VI

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

Zakres kształcenia językowego poziomy wymagań: podstawowy i ponadpodstawowy

Wymagania edukacyjne dla uczniów klas VII szkoły podstawowej opracowane na podstawie podręcznika do nauki języka niemieckiego Meine Deutschtour

WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO KL. VI

Wymagania edukacyjne z przedmiotu: JĘZYK NIEMIECKI dla klas trzecich. Klasy 3

REGULAMIN MIĘDZYSZKOLNEGO KONKURSU ORTOGRAFICZNEGO SZKÓŁ PODSTAWOWYCH MIASTA POZNANIA

Pozyskiwanie przykładów błędów językowych z historii edycji tekstu - Roman Grundkiewicz r. Roman Grundkiewicz. 1 z 31

Wymagania edukacyjne niezbędne do uzyskania śródrocznych ocen klasyfikacyjnych z języka polskiego w kl. VI a

PRZEDMIOTOWY SYSTEM OCENIANIA JĘZYK KASZUBSKI

Wymagania edukacyjne na poszczególne oceny roczne z języka polskiego dla klasy IV szkoły podstawowej

KONKURS POD PATRONATEM RADY JĘZYKA POLSKIEGO oraz. Pani Beaty Klimek PREZYDENTA OSTROWA WIELKOPOLSKIEGO

KRYTERIA OCENY ROCZNEJ Z JĘZYKA POLSKIEGO W KLASIE VI

Model zaszumionego kanału

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

Funkcjonowanie systemu antyplagiatowego (OSA) na Uniwersytecie Jagiellońskim

Sposoby sprawdzania i oceniania osiągnięć edukacyjnych uczniów

WYMAGANIA EDUKACYJNE Z JĘZYKA NIEMIECKIEGO W KLASIE VII PODRĘCZNIK MEINE DEUTSCHTOUR ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

Przedmiotowe Zasady Oceniania z języka angielskiego w klasach IV-VI w Szkole Podstawowej im. Janusza Korczaka w Biedaszkach.

REGULAMIN MIĘDZYSZKOLNEGO KONKURSU ORTOGRAFICZNEGO SZKÓŁ PODSTAWOWYCH MIASTA POZNANIA

KRYTERIA OCENIANIA Z JĘZYKA NIEMIECKIEGO DLA KLAS TRZECICH ODDZIAŁÓW GIMNAZJALNYCH

1. Ocenianiu podlegać będą:

Harmonogram zajęd Koło z zasadami realizowanych w projekcie Umied więcej? Fajna rzecz! Terespol 2009/2010. Prowadzący zajęcia: Anna Warakomska

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA POLSKIEGO

PROGRAM ZAJĘĆ WYRÓWNAWCZYCH Z JĘZYKA POLSKIEGO REALIZOWANY W RAMACH PROJEKTU NOWA JAKOŚĆ EDUKACJI W PYSKOWICACH W OKRESIE OD

KRYTERIA OCEN Z JĘZYKA POLSKIEGO W KLASIE IV

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO KLASY IV-VI SZKOŁA PODSTAWOWA W CHORZEWIE. Spis treści

KONKURS POD PATRONATEM RADY JĘZYKA POLSKIEGO oraz PREZYDENTA OSTROWA WIELKOPOLSKIEGO. Pani Beaty Klimek

Kryteria oceniania z języka polskiego dla programu Słowa na czasie

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

Aleksandra Sobala. (konsultacja: Alicja Cholewa-Zawadzka) KRYTERIA OCENIANIA. wrzesień 2017

Kształcenie literackie i kulturowe: - Proponuje oryginalne rozwiązania, wykraczające poza materiał programowy

Regulamin Międzyszkolnego Konkursu Filologicznego. dla uczniów szkół podstawowych. Młody filolog 2018

KRYTERIA WYMAGAŃ NA POSZCZEGÓLNE OCENY Z JĘZYKA ROSYJSKIEGO DLA GIMNAZJUM

SPIS TREŚCI. Spis treści Wstęp Wykaz skrótów, symboli i terminów gramatycznych MIANOWNIK

Wprowadzenie: języki, symbole, alfabety, łańcuchy Języki formalne i automaty. Literatura

Wymagania edukacyjne na poszczególne oceny śródroczne z języka polskiego dla klasy VI

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA HISZPANSKIEGO Kl. III gimnazjalna

Języki, automaty i obliczenia

Wymagania edukacyjne z języka polskiego dla klasy czwartej SP im. Jana Pawła II w Żarnowcu

ZAJĘCIA DLA DZIECI Z TRUDNOŚCIAMI W CZYTANIU I PISANIU ( MARZEC / KWIECIEŃ )

Transkrypt:

Wnioski Grzegorz Szuba System Korekty Tekstu Polskiego Plan prezentacji Geneza problemu i cele pracy Opis algorytmu bezkontekstowego Opis algorytmów kontekstowych Wyniki testów Rozszerzenie pracy - uproszczona wersja algorytmu dla języka hiszpańskiego

Geneza problemu rosnąca ilość błędów w tekstach (niedbałość, brak ogonków, ortograficzne z premedytacją) brak programów dostosowanych do języka polskiego i jego ogonków i fleksji brak programów badających kontekst gramatyczny i znaczeniowy problem przypadkowo poprawnych wyrazów Cel powstania pracy stworzenie systemu korekty dla języka polskiego problem uwzględniającego ww. kwestie uwzględnienie kontekstu, fleksyjności (CLP), błędów ortograficznych i alfabetu

Metody inżynierii lingwistycznej odległość edycyjna (Damerau-Levenshteina liczba operacji prostych) zasada Pareto 80/20 - prawo George'a Zipfa N-gramy sekwencja n elementów mając dany ciąg liter/słów - jakie są prawdopodobieństwa następnych elementów unigramy, bigramy i trigramy częstotliw ość 1000000 100000 10000 1000 100 10 1 1 10 100 1000 10000 100000 1000000 pozycja w rankingu

Algorytm bezkontekstowy metoda działania próba odgadnięcia błędu - 1,2 mln form, 120 tys. słów zmienna głębokość przeszukiwania (+-3, 24) rodzaje poprawianych błędów: zamiana liter miejscami, wstawienie, usunięcie i zmiana znaku na inny (klawiatura), ogonki, ortograficzne, trigramy ze znaków - mechanizm środkowych liter magazynowanie wyników gdy sprawdzanie po stronie serwera (Google) wyrazy sklejone lub podzielone

Algorytmy kontekstowe nie tylko błędne lista z bezko-wego i zmieniamy porządek częstość występowania pojedynczego wyrazu mieszak-wieszak, fleksyjność mianowniku czy w dp'czu częstość występowania pary wyrazów (niezależnie od form obu słów): frazeologiczne: kolokacje (rąbać drzewo), biała flaga, idiomy (urwanie głowy), związki przynależności (mówić o/do/po) częstość występowania pary wyrazów (z uwzględnieniem formy obu słów) zgody, rządu (podróżować + narzędnik autem - (dopełnienie) bo nie miejscownik (okolicznik do domu ), związki frazeologiczne gorące uczynki a gorącym uczynku ; nieistniejące: Rzeczpospolita Polska, Jaś Fasola częstość występowania dwóch wyrazów w tym samym zdaniu (jeżeli to, bardziej niż, od do, ani ani

Algorytmy kontekstowe c.d. analiza tematu tekstu - synonimy analiza gramatyki związek zgody obok siebie wyrażenia przyimkowe= przyimek + rzeczownik w funkcji dopełnienia określany przez przymiotnik w funkcji przydawki, też wyrazy nieodmienne, np. partykuły, wykrzykniki

Testy wybór tekstów Teksty i błędy pochodzące z rzeczywistych wypowiedzi i publikacji forum Onetu grupy dyskusyjne Usenetu komunikator Gadu - Gadu teksty skanowane teksty przepisywane na klawiaturze tekst bez polskich znaków diakrytycznych tekst z Gazety Wyborczej (tak - tam)

Testy podsumowanie Ilość słów zawierających błędy: 1133 rodzaj błędu ilość wystąpień błędu brak polskiego znaku diakrytycznego 258 błąd ortograficzny 49 zamiana litery na inną (nie licząc braku ogonka) 223 dodana nadmiarowa litera 98 pominięta jedna litera 136 zamiana miejscami sąsiadujących liter 37 sklejenie sąsiednich wyrazów 122 podział słowa na dwa 34

Porównanie stopni algorytmu check_word +2 check_word -3 check_word +3 check_word -4 check_word 24 check_word +4 check_word +2 gcnpp check_word -3 gcnpp check_word +3 gcnpp check_word -4 gcnpp check_word 24 gcnpp check_word +4 gcnpp 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% 80,0% 90,0% 100,0% 1 2 3-5 6-10 11-25 26+

Porównanie z innymi programami Porównywane programy: Aspell, Ispell, Microsoft Office Word, Google Docs (Writely) ispell Writely aspell fast aspell normal Word check_word +2 check_word 24 check_word +2 gcnpp check_word 24 gcnpp 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% 80,0% 90,0% 100,0% 1 2 3-5 6-10 11-25 26+ 42 48 51 59 64 (/82)

Porównanie z innymi programami Ispell Aspell Word Writely mój program brak ogonka - + + +/-/ę + błędy ortograficzne - - +/- - + naciśnięcie sąsiedniej litery - + - - + nazwy własne - - + +/- - przypadkowo poprawne słowa - - - - + słowa sklejone - + + + ++ słowa podzielone - - - - + węze -> węzę połonczom, normalnom nie porównywać wielkości słownika sklejone - 13% - 24% => 58%, bo błąd oprócz sklejenia

Porównanie metod kontekstowych bezkontekstowy temat tekstu gramatyka dwa słowa w zdaniu pary słów bez form pary słów z formami słowa pojedynczo pojedyncze + pary bez form + pary z formami wszystkie opcje jednocześnie 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% 80,0% 90,0% 100,0% 1 2 3-5 6-10 11-25 26+

Metody kontekstowe - podsumowanie częstość pojedynczego wyrazu częstość par wyrazów (niezależnie od ich formy) 110tys -> 12 mld par 25GB ale 15mln 10mln 1 = 5 mln (48/słowo) częstość par wyrazów (z uwzględnieniem form słów) 20 form/słowo 5 bln par=10terab, ale 23 14 = 9 mln częstość występowanie dwóch wyrazów jednocześnie w zdaniu - 93 63 = 30mln = 233MB analiza tematu tekstu analiza zasad gramatycznych

Wersja dla języka hiszpańskiego różnice z programem dla języka polskiego inny alfabet inne błędy ortograficzne algorytm kontekstowy różnice połączenie metod p i n nowa baza częstości testy sztucznie generowane błędy w tekstach

Wersja dla języka hiszpańskiego Wyniki testów: ispell aspell ultra aspell fast aspell normal aspell bad-spellers check_word +2 check_word -3 check_word +3 check_word +3 g check_word +3 t check_word +3 c check_word +3 N check_word +3 cnt 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% 80,0% 90,0% 100,0% 1 2-5 6-10 11-25 26+ Porównanie z językiem polskim

Wnioski i podsumowanie korzyści z uwzględnienia ogonków i błędów ortograficznych badanie kontekstu wyrazu daje dobre wyniki badanie tematu i gramatyki wymaga ulepszenia korzyści z wykorzystania fleksyjności języka algorytm można adaptować dla innych języków

Dziękuję za uwagę!