Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

Podobne dokumenty

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Marcin Miłkowski IFiS PAN

Lokalizacja Oprogramowania

Program warsztatów CLARIN-PL

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

Narzędzia do automatycznego wydobywania kolokacji

ĆWICZENIE 1 SKŁAD TEKSTU DO DRUKU

Oprogramowanie typu CAT

Narzędzia do automatycznego wydobywania kolokacji

1. Zaczynamy! (9) 2. Edycja dokumentów (33)

System Korekty Tekstu Polskiego

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2015/2016 JĘZYK POLSKI

Pozyskiwanie przykładów błędów językowych z historii edycji tekstu - Roman Grundkiewicz r. Roman Grundkiewicz. 1 z 31

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

5. WORD W POLSKIEJ WERSJI

Uwagi ogólne. 3. Użycie gwiazdki zamiast kropki na oznaczenie mnożenia: 4. Lepiej niż 6, F wyglądałby zapis: 69,539 pf.

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

OpenOffice.org Writer

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Stylistyka języka angielskiego

1. Zasady oceniania na lekcji j. niemieckiego są zgodne z zasadami wewnątrzszkolnego oceniania zawartymi w Statucie Szkoły.

Spis treści Wstęp 1. Językoznawstwo sądowe

NARZĘDZIA Narzędzia Narzędzia

Próbny egzamin z języka rosyjskiego z WSiP w trzeciej klasie gimnazjum. Poziom rozszerzony LUTY Analiza wyników

System Korekty Tekstu Polskiego

Regulamin uczestnictwa w kursach językowych dostępnych na platformie Lubelskiego Uniwersytetu Inspiracji

Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Regulamin Konkursu Ortograficznego Eurodyktando

Kryteria ocen z języka niemieckiego dla klasy VI

Załącznik nr 1 PRAWO AUTORSKIE, PRASOWE I WYDAWNICZE I. OPIS PRZEDMIOTU ZAMÓWIENIA I. OPIS PRZEDMIOTU ZAMÓWIENIA

Sylabus Moduł 2: Przetwarzanie tekstów

Skorzystaj z Worda i stwórz profesjonalnie wyglądające dokumenty.

1. Ogólne ćwiczenia przygotowawcze

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

KRYTERIA OCENIANIA DŁUŻSZYCH FORM WYPOWIEDZI PISEMNYCH NOTATKA. L.p. Kryteria oceny Punktacja

Microsoft Office 2016 Krok po kroku

PSO JEZYK POLSKI KL. IV - VI. a. konkretne wiadomości z kształcenia literackiego, kulturowego oraz nauki o języku i ortografii.

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne

Wykaz zmian w programie SysLoger

Narzędzia do pisania. Korektor pisowni i korektor gramatyczny

PROCES TWORZENIA DOKUMENTU

informacji w obszarze jakości danych

Analiza wyników egzaminu gimnazjalnego 2013 r. Test humanistyczny język polski Test GH-P1-132

Wymagania edukacyjne z języka polskiego

Egzamin Gimnazjalny z WSiP LISTOPAD Analiza wyników próbnego egzaminu gimnazjalnego JĘZYK NIEMIECKI. Poziom rozszerzony

Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA NIEMIECKIEGO GIMNAZJUM

matematyka Liczebność Wynik minimalny 4 1. Wynik maksymalny Rozstęp Wynik średni 10,26 14,33.

WYMAGANIA EDUKACYJNE Z JĘZYKA NIEMIECKIEGO KRYTERIA NA POSZCZEGÓLNE OCENY :

JĘZYK ANGIELSKI NA CO ZWRACAMY UWAGĘ OCENIAJĄC : 1.UMIEJĘTNOŚĆ WYPOWIEDZI USTNEJ:

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

REGULAMIN SZKOLNEGO KONKURSU ORTOGRAFICZNEGO MISTRZ ORTOGRAFII DLA UCZNIÓW KLAS IV-VI

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

PRZEDMIOTOWE ZASADY OCENIANIA Z JĘZYKA ANGIELSKIEGO w Zespole Szkół Ogólnokształcących nr 1 w Bydgoszczy

Semantyczne Wiki na przykładzie Semantic MediaWiki

Kryteria oceniania obejmujące zakres umiejętności ucznia na poszczególne oceny cząstkowe w klasach VII-VIII z Języka Hiszpańskiego

Analiza wyników egzaminu gimnazjalnego 2014 r. Test humanistyczny język polski

PRZEDMIOTOWE ZASADY OCENIANIA Z JĘZYKA ANGIELSKIEGO I JEZYKA ANGIELSKIEGO W KONWRESACJI w Zespole Szkół Ogólnokształcących nr 1 w Bydgoszczy

Excel - podstawa teoretyczna do ćwiczeń. 26 lutego 2013

Word. Korespondencja seryjna

Semantyczne Wiki! na przykładzie! Semantic MediaWiki!

Open Access w technologii językowej dla języka polskiego

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

ANALIZA I INTERPRETACJA PRÓBNEGO EZAMINU Z JĘZYKA NIEMIECKIEGO PRZEPROWADZONEGO WŚRÓD UCZNIÓW KLAS III GIMNAZJUM INTEGRACYJNEGO W ZESPOLE SZKÓŁ

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI

wypowiedź zawiera nieliczne krótkie fragmenty odbiegające od tematu i/lub nie na temat

Raporty dodatkowe nr 2 Ewidencja Wyposażenia PL+

5-6. Struktura dokumentu html. 2 Określenie charakteru i tematyki strony. Rodzaje witryn. Projekt graficzny witryny. Opracowanie skryptów

FILOLOGIA ANGIELSKA PRAKTYCZNA NAUKA JĘZYKA ANGIELSKIEGO FORMAT EGZAMINÓW. STUDIA I STOPNIA - egzamin osiągnięć po roku 2

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

PRÓBNY WEWNĘTRZNY SPRAWDZIAN SZÓSTOKLASISTÓW z OPERONEM. styczeń 2015

3. Jednym z ważniejszych pojęć w edytorach tekstu jest AKAPIT. Co to jest?

Odkrywanie CAQDAS : wybrane bezpłatne programy komputerowe wspomagające analizę danych jakościowych / Jakub Niedbalski. Łódź, 2013.

Ekonomiczny Kierunek. Ćwiczenia (Ćw) S/ 30 NS/ 18

PRZEDMIOTOWY SYSTEM OCENIANIA. JĘZYK POLSKI (aktualizacja IX 2015)

C D B B C C A A C B A A D C D B A D D B

OPIS MODUŁU (PRZEDMIOTU)

KATEGORIA OBSZAR WIEDZY

ZASADY WEWNĄTRZSZKOLNEGO OCENIANIA Z JĘZYKA WŁOSKIEGO W VII KLASIE SZKOŁY PODSTAWOWEJ

AUTOMATYKA INFORMATYKA

Przedmiotowy system oceniania Przedmiot: język niemiecki

PRÓBNY EGZAMIN GIMNAZJALNY Z JĘZYKA ANGIELSKIEGO STYCZEŃ 2014

ECDL/ICDL Przetwarzanie tekstów Moduł B3 Sylabus - wersja 6.0

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA UKRAIŃSKIEGO W SZKOLE PODSTAWOWEJ

Wyniki egzaminu gimnazjalnego 2017/2018 część humanistyczna język polski

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

Analiza wyników egzaminu gimnazjalnego 2016 r. Test humanistyczny język polski

ŚLĄSKA ORGANIZACJA TURYSTYCZNA

Transkrypt:

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego Marcin Miłkowski Instytut Filozofii i Socjologii PAN Zakład Logiki i Kognitywistyki Adres projektu: morfologik.blogspot.com

Korpusy błędów Zastosowania korpusów błędów Wykrywanie, co jest wykroczeniem poza normę językową Dane do opracowywania programów szkolnych i ćwiczeń Materiał do wydawnictw poprawnościowych Materiał do narzędzi językowych

Plan referatu (1) Motywacja teoretyczna (2) Opis metody (3) Uzyskane wyniki (4) Korpus błędów a inne korpusy albo jak to zrobić w Poliqarpie?

Pozyskiwanie korpusów Ręczne: Anotowane przez lingwistów Anotowane przez korektorów (biura tłumaczeń, redakcje gazet) Ręczne, nieformalne Zbierane przez entuzjastów lub dziennikarzy (Ibis) Zbierane przez prasoznawców i językoznawców (Słownik języka nibypolskiego Pisarka)

Pozyskiwanie korpusów Ręczne zbieranie jest kosztowne, pracochłonne; rodzi problemy z prawami autorskimi (np. biura tłumaczeń) Pracochłonność grozi niską reprezentatywnością ( jak nie bądź )

Pozyskiwanie korpusów Automatyczne: Na podstawie istniejących dokumentów w dużych biurach tłumaczeń (tzw. LQI) Na podstawie historii poprawek dokumentu Systemy kontroli wersji w firmach Historia w systemach typu wiki Automatyczny monitoring WWW

Historia poprawek dokumentu Hipoteza: Częste, drobne poprawki są poprawkami błędów językowych (ortograficznych, gramatycznych, stylistycznych...).

Historia poprawek dokumentu Dane z Wikipedii są łatwo dostępne i stosunkowo obszerne (17 GB plik historii) Wikipedyści to grupa ludzi wykształconych, więc rażące ich błędy mogą być dobrym wskaźnikiem normy (choć sam korpus nie jest reprezentatywny)

Metoda (1) Odfiltrowanie danych z elementów formatujących (2) Segmentacja na wypowiedzenia (3) Segmentacja na poszczególne wyrazy (4) Porównywanie kolejnych wersji (wystarczy diff) (5) Odrzucenie zbyt obszernych poprawek; analiza frekwencyjna

Metoda (1) Odfiltrowanie danych z elementów formatujących Wikipedia zawiera wiele specjalnych znaczników; bez filtrowania poprawki formatowania mieszają się z poprawkami językowymi.

Metoda (2) Segmentacja na wypowiedzenia Ja tego nie stosowałem początkowo, ale znaczniki początku i końca wypowiedzenia ułatwiają uchwycenie struktury błędu.

Metoda (3) Segmentacja na poszczególne wyrazy Dzięki temu program diff porównuje na poziomie pojedynczych wyrazów, co jest przydatne do wykrywania skali poprawki. Granica wyrazu: odstęp lub znak interpunkcyjny

Metoda (4) Porównywanie kolejnych wersji Specjalizowany program mógłby sprawdzić się lepiej, ale diff w odpowiednim skrypcie wygenerował zadowalające wyniki (czas generowania: ok. 2 dni)

Metoda (5) Odrzucenie zbyt obszernych poprawek; analiza frekwencyjna Dopisanie nowego hasła lub jego znaczna rozbudowa nie jest poprawką; można to zignorować i odfiltrować. Za pomocą analizy frekwencyjnej i łatwych testów można wyłowić częste poprawki.

Wyniki częste literówki Uzyskane wyniki posłużyły do ulepszenia list autokorekty w OpenOffice.org

Wersja pierwotna autokorekty cjociaż chociaż czerweic - czerwiec czesc - część czesto - często czrewiec - czerwiec czwatrek - czwartek czynnność - czynność czynnoąć - czynność czynnosc - czynność czynnośc - czynność cżęść - część dobzre - dobrze dokumnety - dokumenty dr. - dr dzwiek - dźwięk dżwięk - dźwięk grudizeń - grudzień grudzeiń - grudzień gruszień - grudzień

Wersja poprawiona a nad to a nadto a pro po à propos absorbcja absorpcja absorbcji absorpcji aleji alei alternatywana alternatywna aż nad to aż nadto bedzie będzie bierząco bieżąco bieze bierze bieże bierze biznes plan biznesplan brut brud byc być byl był chor chór wogóle w ogóle

Surowe dane literówki województwie województwa 26162 16003 zamieszkiwało zamieszkiwały 2738 zamieszkiwały zamieszkiwało 2646 podstawowe przegląd 2519 sie się 2343 1854,, 1760 też: też 1753 ( (zm. 895 Gmina=Saint Gmina=Saint 851 także też 834 w 797 762 to 587 to 584 E. Edward 512

Surowe dane literówki, c.d. województwie 509 (* (ur. 487 C. Cornelis 466 roku, roku 448 singiel singel 423 418 Kolejka Clausura 376 K. Karl 375 US USA 365 zewnętrzne: zewnętrzne 335 (ur. 330 zewntrzne zewnętrzne 318 także: też: 313 tą tę 312 roku r. 312 p.w. pw. 303 (urodzony (ur. 296 Wojny wojny 289

Jak to zrobić w Poliqarpie? Dwa poziomy zgodności korpusu: poziom stosowanego tagsetu poziom oprogramowania (możliwość stosowania podobnego języka zapytań)

Jak to zrobić w Poliqarpie? Dwa poziomy zgodności korpusu: poziom stosowanego tagsetu Tagset IPI (lub bardzo zbliżony) poziom oprogramowania (możliwość stosowania podobnego języka zapytań) Poliqarp (z rozszerzeniami statystycznymi)

Kodowanie poprawek Poprawki można kodować: W korpusie paralelnym: jako pary oryginał poprawka (niemożliwe w obecnej wersji Poliqarpa) W korpusie zwykłym: oryginały jako dane właściwe, a poprawki jako metadane W korpusie zwykłym: poprawki z oznaczeniem poprawek w stylu diff lub przez dodanie znaczników

Oznaczanie poprawek Styl diff: dodany wyraz = +wyraz usunięty wyraz = -wyraz Takie rozwiązanie utrudnia wyszukiwanie form wyrazowych, konieczność używania wyrażeń regularnych (= wolniejsze działanie).

Oznaczanie poprawek W znacznikach dodany wyraz ze znacznikiem ins usunięty wyraz ze znacznikiem del nowa kategoria gramatyczna: correction Takie rozwiązanie ułatwia wyszukiwanie form wyrazowych, nie trzeba używać wyrażeń regularnych (= szybsze działanie).

Ograniczenia Próbna wersja ma bałagan w znacznikach (niedoskonałości projektu Morfologik) Bez funkcji statystycznych (przynajmniej sortowania wg frekwencji) jest to znacznie mniej przydatne Funkcje kolokacji byłyby interesujące Format paralelny może być klarowniejszy

I to wszystko. Dziękuję za uwagę! Projekt Morfologik: morfologik.blogspot.com