System Korekty Tekstu Polskiego

Podobne dokumenty
System Korekty Tekstu Polskiego

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

AKADEMIA GÓRNICZO-HUTNICZA Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

5. WORD W POLSKIEJ WERSJI

Poprawianie pisowni. Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6. Korekta pisowni: odległość Levenshteina (166 / 188)

UNIWERSYTET ŚLĄSKI W KATOWICACH

Lokalizacja Oprogramowania

Narzędzia do pisania. Korektor pisowni i korektor gramatyczny

REGULAMIN SZKOLNEGO KONKURSU ORTOGRAFICZNEGO MISTRZ ORTOGRAFII DLA UCZNIÓW KLAS IV-VI

PRZEDMIOTOWY SYSTEM OCENIANIA Z JEZYKA ANGIELSKIEGO KLAS IV-VI

JĘZYKIFORMALNE IMETODYKOMPILACJI

AUTOMATYCZNA KONTEKSTOWA KOREKTA TEKSTÓW Z WYKORZYSTANIEM GRAFU LHG

AUTOMATYCZNA KONTEKSTOWA KOREKTA TEKSTÓW Z WYKORZYSTANIEM GRAFU LHG

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

Kryteria oceniania z języka angielskiego w klasie 2 według sprawności językowych GRAMATYKA I SŁOWNICTWO

Ocenianie Przedmiotowe z języka angielskiego w klasach IV-VI. Szkoła Podstawowa nr 5 im. Bohaterów 12 Kołobrzeskiego Pułku Piechoty

Przedmiotowe Zasady Oceniania z języka angielskiego w klasach IV-VI w Szkole Podstawowej im. Janusza Korczaka w Biedaszkach.

WYMAGANIA EDUKACYJNE Z JĘZYKA NIEMIECKIEGO W KLASIE VII PODRĘCZNIK MEINE DEUTSCHTOUR ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ROSYJSKIEGO KL.VI

Analiza wyników matury 2017 z matematyki. Mieczysław Fałat OKE we Wrocławiu

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO KLASY IV-VI SZKOŁA PODSTAWOWA W CHORZEWIE. Spis treści

NARZĘDZIA Narzędzia Narzędzia

1. Ocenianiu podlegać będą:

Model zaszumionego kanału

W y m a g a n i a EDUKACJA POLONISTYCZNA KLASA I SP

2.2. Gramatyki, wyprowadzenia, hierarchia Chomsky'ego

Ważne zasady redagowania tekstów

Gramatyki, wyprowadzenia, hierarchia Chomsky ego. Gramatyka

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

Celem przedmiotowego systemu oceniania jest wspieranie ucznia w rozwoju intelektualnym i osobowościowym

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

KRYTERIA OCENY PRAC PISEMNYCH Język polski

Przedmiotowy system oceniania z języka polskiego kl. 4-6

Funkcjonowanie systemu antyplagiatowego (OSA) na Uniwersytecie Jagiellońskim

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

Przygotowanie materiału uczącego dla OCR w oparciu o aplikację Wycinanki.

KRYTERIA OCENIANIA Z JĘZYKA NIEMIECKIEGO DLA KLAS TRZECICH ODDZIAŁÓW GIMNAZJALNYCH

Hot Potatoes. Zdania z lukami Przyporządkowanie. Tworzy spis wszystkich zadań. Krzyżówki

BATERIA TESTÓW PISANIA IBE

Analiza leksykalna 1. Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki

mgr Aleksander Wójcik WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO W KLASIE II ZASADNICZEJ SZKOŁY ZAWODOWEJ

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA NIEMIECKIEGO DLA UCZNIÓW GIMNAZJUM

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA POLSKIEGO

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE MEINE DEUTSCHTOUR KL.II gimnazjum

WYMAGANIA EDUKACYJNE W KLASACH 1-3 Z JĘZYKA ANGIELSKIEGO ROK SZKOLNY 2015/2016, 2016/2017, 2017/2018

KONKURS POD PATRONATEM RADY JĘZYKA POLSKIEGO oraz. Pani Beaty Klimek PREZYDENTA OSTROWA WIELKOPOLSKIEGO

Przedmiotowy system oceniania z języka niemieckiego

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA NIEMIECKIEGO W SZKOLE PODSTAWOWEJ NR 11 W JAWORZNIE NA PODSTAWIE PODRĘCZNIKA MEINE DEUTSCHTOUR 3

Kryteria oceniania wiadomości i umiejętności z języka angielskiego klasy IV-VI

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO W ROKU 2016/2017 W PUBLICZNEJ SZKOLE PODSTAWOWEJ NR 5 W NOWEJ SOLI KLASY IV - VI

Przedmiotowy System Oceniania z języków obcych: angielskiego, niemieckiego, hiszpańskiego dla poziomu liceum

AUTOMATYKA INFORMATYKA

KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLASY VI

z języka niemieckiego (IV-VIII)

Sylabus Moduł 2: Przetwarzanie tekstów

Języki programowania zasady ich tworzenia

WYMAGANIA I KRYTERIA OCENIANIA Z JĘZYKA NIEMIECKIEGO DLA KLAS I III. obowiązujące od roku szkolnego 2015/2016

I Powiatowe Dyktando z Języka Niemieckiego Regulamin

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

Klucz do zadań zamkniętych. Cztery pory roku. zadania 1 C 2 B 3 B 4 D 5 A 6 C 7 D 8 B 9 C 10 A 11 D 12 A 13 D 14 B 15 C 16 D 17 A 18 B 19 C 20 D

I. Raport wykonywalności projektu

Wymagania edukacyjne z języka niemieckiego w roku szkolnym 2017/2018. Kryteria Oceniania

Zadanie analizy leksykalnej

Przedmiotowy system oceniania języka angielskiego kl. 4-6

EDUKACJA POLONISTYCZNA

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE Z JĘZYKA NIEMIECKIEGO DLA KLAS I III POZIOM PODSTAWOWY I ROZSZERZONY

Harmonogram zajęd Koło z zasadami realizowanych w projekcie Umied więcej? Fajna rzecz! Terespol 2009/2010. Prowadzący zajęcia: Anna Warakomska

Kryteria oceniania z języka angielskiego dla klas II-III

Wymagania edukacyjne z przedmiotu: JĘZYK NIEMIECKI dla klas trzecich. Klasy 3

(Przy rozwiązywaniu testu (28 pytań) masz prawo wykorzystać wszystkie dostępne aplikacje na Twoim komputerze), dostęp do Internetu jest zabroniony.

ORGANIZACJA PROCESU OCENIANIA Z JĘZYKA POLSKIEGO W SZKOLE PODSTAWOWEJ NR 1 W LEGNICY

Internet wyszukiwarki internetowe

KONKURS POD PATRONATEM RADY JĘZYKA POLSKIEGO oraz PREZYDENTA OSTROWA WIELKOPOLSKIEGO. Pani Beaty Klimek

Regulamin uczestnictwa w kursach językowych dostępnych na platformie Lubelskiego Uniwersytetu Inspiracji

Powyższe kryteria dotyczą wszystkich prac z literatury, w tym również prac klasowych.

KRYTERIA OCENY BIEŻĄCEJ DLA UCZNIÓW KLAS I ZE SPECYFICZNYMI TRUDNOŚCIAMI W UCZENIU SIĘ LUB DEFICYTAMI ROZWOJOWYMI

WYMAGANIA EDUKACYJNE Z JĘZYKÓW OBCYCH

Przedmiotowy System Oceniania z języków obcych: angielskiego, niemieckiego, hiszpańskiego.

Języki, automaty i obliczenia

Kryteria oceniania obejmujące zakres umiejętności ucznia na poszczególne oceny cząstkowe w klasach VII-VIII z Języka Hiszpańskiego

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

Przedmiotowy system oceniania w klasach 4-8 języków obcych

Wykład 8. Testowanie w JEE 5.0 (1) Autor: Zofia Kruczkiewicz. Zofia Kruczkiewicz

JAO - Wprowadzenie do Gramatyk bezkontekstowych

OGÓLNOPOLSKI SPRAWDZIAN KOMPETENCJI TRZECIOKLASISTY OPERON 2015

Informacje dla uczniów, którzy w roku szkolnym 2017/18. przystępują do egzaminu maturalnego POZIOM PODSTAWOWY

KRYTERIA OCENIANIA Z JĘZYKA POLSKIEGO KLASY IV-VIII

SPOSOBY SPRAWDZANIA OSIĄGNIĘĆ EDUKACYJNYCH

SPRAWDZIAN Klucz punktowania zadań. (zestawy zadań dla uczniów słabosłyszących)

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2015/2016 JĘZYK POLSKI

Hierarchia Chomsky ego

Dopuszczający Dostateczny Dobry Bardzo dobry Celujący. Osiągnięcie uczeń rozumie wszystkie komunikaty i wypowiedzi nauczyciela ;

MIĘDZYWYDZIAŁOWE STUDIUM JĘZYKÓW OBCYCH EGZAMIN CERTYFIKACYJNY Z JĘZYKA OBCEGO POZIOM B2 UNIWERSYTET JANA KOCHANOWSKIEGO W KIELCACH STUDIA I STOPNIA

SPRAWNOŚĆ MÓWIENIA SPRAWNOŚĆ PISANIA GRAMATYKA I SŁOWNICTWO

EDUKACJA POLONISTYCZNA

PRZEDMIOTOWY SYSTEM OCENIANIA JĘZYK ANGIELSKI W NAUCZANIU ZINTEGROWANYM W KLASACH I-III

Transkrypt:

System Korekty Tekstu Polskiego Plan prezentacji Geneza problemu i cele pracy Opis algorytmu bezkontekstowego Opis algorytmów kontekstowych Wyniki testów Wersja algorytmu dla języka hiszpańskiego Wnioski Grzegorz Szuba

Geneza problemu rosnąca ilość błędów w tekstach brak programów dostosowanych do języka polskiego brak programów badających kontekst wyrazów problem przypadkowo poprawnych wyrazów Cel powstania pracy stworzenie systemu korekty dla języka polskiego uwzględnienie kontekstu, fleksyjności, błędów ortograficznych i alfabetu

Metody inżynierii lingwistycznej odległość edycyjna prawo Zipfa 1000000 100000 częstotliwość 10000 1000 100 10 1 1 10 100 1000 10000 100000 1000000 N-gramy pozycja w rankingu

Algorytm bezkontekstowy metoda działania próba odgadnięcia błędu zmienna głębokość przeszukiwania rodzaje poprawianych błędów: ogonki, błędy ortograficzne, zamiana liter miejscami, wstawienie, usunięcie i zmiana znaku trigramy ze znaków - mechanizm środkowych liter magazynowanie wyników wyrazy sklejone lub podzielone

Algorytmy kontekstowe częstość występowania pojedynczego wyrazu częstość występowania pary wyrazów (niezależnie od form obu słów) częstość występowania pary wyrazów (z uwzględnieniem formy obu słów) częstość występowania dwóch wyrazów w tym samym zdaniu

Algorytmy kontekstowe c.d. analiza tematu tekstu analiza gramatyki związek zgody wyrażenia przyimkowe

Testy wybór tekstów Teksty i błędy pochodzące z rzeczywistych wypowiedzi i publikacji forum Onetu grupy dyskusyjne Usenetu komunikator Gadu - Gadu teksty skanowane teksty przepisywane na klawiaturze tekst bez polskich znaków diakrytycznych tekst z Gazety Wyborczej

Testy podsumowanie Ilość słów zawierających błędy: 1133 rodzaj błędu ilość wystąpień błędu brak polskiego znaku diakrytycznego 258 błąd ortograficzny 49 zamiana litery na inną (nie licząc braku ogonka) 223 dodana nadmiarowa litera 98 pominięta jedna litera 136 zamiana miejscami sąsiadujących liter 37 sklejenie sąsiednich wyrazów 122 podział słowa na dwa 34

Porównanie stopni algorytmu check_word +2 check_word -3 check_word +3 check_word -4 check_word 24 check_word +4 check_word +2 gcnpp check_word -3 gcnpp check_word +3 gcnpp check_word -4 gcnpp check_word 24 gcnpp check_word +4 gcnpp 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% 80,0% 90,0% 100,0% 1 2 3-5 6-10 11-25 26+

Porównanie z innymi programami Porównywane programy: Aspell, Ispell, Microsoft Office Word, Google Docs (Writely) ispell Writely aspell fast aspell normal Word check_word +2 check_word 24 check_word +2 gcnpp check_word 24 gcnpp 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% 80,0% 90,0% 100,0% 1 2 3-5 6-10 11-25 26+

Porównanie z innymi programami Ispell Aspell Word Writely mój program brak ogonka - + + +/- + błędy ortograficzne - - +/- - + naciśnięcie sąsiedniej litery - + - - + nazwy własne - - + +/- - przypadkowo poprawne słowa - - - - + słowa sklejone - + + + ++ słowa podzielone - - - - +

Porównanie metod kontekstowych bezkontekstowy temat tekstu gramatyka dwa słowa w zdaniu pary słów bez form pary słów z formami słowa pojedynczo pojedyncze + pary bez form + pary z formami wszystkie opcje jednocześnie 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% 80,0% 90,0% 100,0% 1 2 3-5 6-10 11-25 26+

Metody kontekstowe - podsumowanie częstość pojedynczego wyrazu częstość par wyrazów (niezależnie od ich formy) częstość par wyrazów (z uwzględnieniem form słów) częstość występowanie dwóch wyrazów jednocześnie w zdaniu analiza tematu tekstu analiza zasad gramatycznych

Wersja dla języka hiszpańskiego różnice z programem dla języka polskiego inny alfabet inne błędy ortograficzne algorytm kontekstowy różnice połączenie metod nowa baza częstości testy sztucznie generowane błędy w tekstach

Wersja dla języka hiszpańskiego Wyniki testów: ispell aspell ultra aspell fast aspell normal aspell bad-spellers check_word +2 check_word -3 check_word +3 check_word +3 g check_word +3 t check_word +3 c check_word +3 N check_word +3 cnt 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% 80,0% 90,0% 100,0% 1 2-5 6-10 11-25 26+

Wnioski i podsumowanie korzyści z uwzględnienia ogonków i błędów ortograficznych badanie kontekstu wyrazu daje dobre wyniki badanie tematu i gramatyki wymaga ulepszenia korzyści z wykorzystania fleksyjności języka algorytm można adaptować dla innych języków

Dziękuję za uwagę!