Pozyskiwanie przykładów błędów językowych z historii edycji tekstu - Roman Grundkiewicz r. Roman Grundkiewicz. 1 z 31

Podobne dokumenty
System Korekty Tekstu Polskiego

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

System Korekty Tekstu Polskiego

REGULAMIN SZKOLNEGO KONKURSU ORTOGRAFICZNEGO MISTRZ ORTOGRAFII DLA UCZNIÓW KLAS IV-VI

Wymagania edukacyjne z języka polskiego

Lokalizacja Oprogramowania

Cele kształcenia wymagania ogólne

Jak znaleźć błędy w sowich tekstach?

- wyrabianie czujności ortograficznej i odpowiedzialności za napisane słowo,

Zajęcia I: Tropimy błędy językowe mgr Anna Alochno-Janas mgr Anna Alochno-Janas - -

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2015/2016 JĘZYK POLSKI

5. WORD W POLSKIEJ WERSJI

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

Narzędzia do pisania. Korektor pisowni i korektor gramatyczny

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA POLSKIEGO W KLASACH IV - VIII SZKOŁY PODSTAWOWEJ nr 18 w SOSNOWCU

Klucz do zadań zamkniętych. Cztery pory roku. zadania 1 C 2 B 3 B 4 D 5 A 6 C 7 D 8 B 9 C 10 A 11 D 12 A 13 D 14 B 15 C 16 D 17 A 18 B 19 C 20 D

REGULAMIN MIĘDZYSZKOLNEGO KONKURSU ORTOGRAFICZNEGO SZKÓŁ PODSTAWOWYCH MIASTA POZNANIA

SPRAWDZIAN Rozwiązania zadań i schematy punktowania. (Zestaw zadań dla uczniów z upośledzeniem umysłowym w stopniu lekkim)

SPRAWDZIAN W KLASIE VI SZKOŁY PODSTAWOWEJ W ROKU SZKOLNYM 2015/2016

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

REGULAMIN KONKURSU PN. WIELKIE DYKTANDO GMINNE

PRZEDMIOTOWY SYSTEM OCENIANIA Z EDUKACJI WCZESNOSZKOLNEJ

REGULAMIN MIĘDZYSZKOLNEGO KONKURSU ORTOGRAFICZNEGO SZKÓŁ PODSTAWOWYCH MIASTA POZNANIA

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

SPOSOBY SPRAWDZANIA OSIĄGNIĘĆ EDUKACYJNYCH

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO DLA UCZNIÓW KLASY VI NA POSZCZEGÓLNE OCENY I OKRES OCENA CELUJĄCA

ORTOGRAFICZNA RYWALIZACJA O SREBRNE PIÓRO REGULAMIN XIV KONKURSU ORTOGRAFICZNEGO MISTRZ ORTOGRAFII KLAS III

Mówienie. Rozumienie ze słuchu

Wymagania edukacyjne z języka niemieckiego dla klasy III gimnazjum

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

ODPOWIEDZI I PUNKTACJA ZADAŃ DO ARKUSZA Od księgi do książki

KRYTERIA OCENIANIA PODSTAWOWYCH SPRAWNOŚCI JĘZYKOWYCH

Wymagania edukacyjne na poszczególne oceny śródroczne z języka polskiego dla klasy VI

KRYTERIA OCENIANIA DŁUŻSZYCH FORM WYPOWIEDZI PISEMNYCH NOTATKA. L.p. Kryteria oceny Punktacja

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA POLSKIEGO

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA POLSKIEGO W KLASACH IV - VIII SZKOŁY PODSTAWOWEJ nr 18 w SOSNOWCU

SPRAWDZIAN Klucz punktowania zadań. C e n t r a l n a K o m i s j a E g z a m i n a c y j n a. w W a r s z a w i e

Inforex - zarządzanie korpusami i ich anotacja

Zajęcia I: Tropimy błędy językowe

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2014/2015

Wymagania edukacyjne niezbędne do uzyskania śródrocznych ocen klasyfikacyjnych z języka polskiego w kl. VI a

Odliczanie Nazajutrz... 16

KRYTERIA OCENIANIA Z JĘZYKA NIEMIECKIEGO DLA KLAS TRZECICH ODDZIAŁÓW GIMNAZJALNYCH

Wymagania edukacyjne / kryteria oceniania - klasa 1. Podręcznik NUEVO ESPAÑOL EN MARCHA. NIVEL BÁSICO A1+A2 (Unidades 1-8) wyd.

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA POLSKIEGO DLA KLAS IV - VI

Marcin Miłkowski IFiS PAN

Kryteria oceniania z języka polskiego KLASA V

KRYTERIA OCENIANIA Z JĘZYKA POLSKIEGO W KLASACH IV - VI

w zadaniu pisemnym zawsze zawiera wszystkie istotne punkty, nie popełnia błędów w pisowni oraz interpunkcji.

Regulamin Gminnego Konkursu Ortograficznego. o tytuł: Gminnego TORREADORA Ortografii. pt.: Krościeńska walka z BYKAMI.

Szanowni Dyrektorzy. i Nauczyciele Poloniści!

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

ZASADY OCENIANIA Z JĘZYKA POLSKIEGO W KL. IV- VI

KONKURS POD PATRONATEM RADY JĘZYKA POLSKIEGO oraz. Pani Beaty Klimek PREZYDENTA OSTROWA WIELKOPOLSKIEGO

WYMAGANIA EDUKACYJNE - JĘZYK POLSKI KRYTERIA OCENIANIA OSIĄGNIĘĆ UCZNIA. Wymagania na poszczególne stopnie szkolne

OCENA CELUJĄCA SPRAWNOŚĆ PISANIA

Analiza wyników egzaminu gimnazjalnego 2014 r. Test humanistyczny język polski

Wymagania edukacyjne z języka angielskiego dla uczniów gimnazjum klasy I - III

PRZEDMIOTOWY SYSTEM OCENIANIA I KRYTERIA OCENIANIA Z JĘZYKA POLSKIEGO W KLASACH IV-VI SZKOŁY PODSTAWOWEJ NR 1 W POLKOWICACH

Stopień szkolny. Kryteria przyznania oceny. celujący. bardzo dobry. dobry. dostateczny. dopuszczający. niedostateczny

SPRAWDZIAN W KLASIE VI SZKOŁY PODSTAWOWEJ W ROKU SZKOLNYM 2015/2016 ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ

JĘZYK ANGIELSKI NA CO ZWRACAMY UWAGĘ OCENIAJĄC : 1.UMIEJĘTNOŚĆ WYPOWIEDZI USTNEJ:

KRYTERIA OCEN Z JĘZYKA POLSKIEGO W KLASIE V

Wymagania edukacyjne na poszczególne oceny w klasie 5 Teraz polski!

Ogólne wymagania na poszczególne oceny z języka niemieckiego

JĘZYK POLSKI WYMAGANIA EDUKACYJNE KLASA V

Przedmiotowy system oceniania z języka polskiego dla klas IV VI

OGÓLNE WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO

Dopuszczający Dostateczny Dobry Bardzo dobry Celujący W zakresie czytania ze zrozumieniem uczeń

REGULAMIN DYKTANDA GMINNEGO PN. JĘZYKOWE POTYCZKI Z HISTORIĄ W TLE. Gminne Centrum Kultury w Jerzmanowej. Wójt Gminy Jerzmanowa Lesław Golba

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

PRZEDMIOTOWE ZASADY OCENIANIA Z JĘZYKA POLSKIEGO Opracowane na podstawie programów nauczania Myśli i słowa, Słowa z uśmiechem i Między nami

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO klasa I gimnazjum Mgr Magdalena Mazanek Mgr Magdalena Pajor GRAMATYKA I SŁOWNICTWO.

polski ENCYKLOPEDIA W TABELACH Wydawnictwo Adamantan

1 punkt za dwa poprawne. poprawne uzupełnienia. uzupełnienia. Odpowiedzi. z błędami języka lub/i zapisu 0 2. cyframi arabskimi lub

1) W jakim słowniku możemy odszukać potrzebne informacje?

OCENA CELUJĄCA SPRAWNOŚĆ PISANIA

Prawa i obowiązki ucznia- dotyczy zdobywania ocen cząstkowych oraz wystawiania ocen środkowo i końcoworocznych

KRYTERIA OCENY ROCZNEJ Z JĘZYKA POLSKIEGO W KLASIE VI

Spis treści Wstęp 1. Językoznawstwo sądowe

ZASADY OCENIANIA Z JĘZYKA POLSKIEGO DLA KLAS IV-VI w Ogólnokształcącej Szkole Muzycznej I stopnia w Piszu

3. Jednym z ważniejszych pojęć w edytorach tekstu jest AKAPIT. Co to jest?

Harmonogram zajęd Koło z zasadami realizowanych w projekcie Umied więcej? Fajna rzecz! Terespol 2009/2010. Prowadzący zajęcia: Anna Warakomska

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

Wymagana wiedza i umiejętności z języka niemieckiego dla uczniów szkoły gimnazjum na poszczególne stopnie szkolne obejmująca wszystkie sprawności

-stopień celujący -stopień bardzo dobry:

OGÓLNE KRYTERIA OCENIANIA POSZCZEGÓLNYCH SPRAWNOŚCI JĘZYKOWYCH

KONKURS POD PATRONATEM RADY JĘZYKA POLSKIEGO oraz PREZYDENTA OSTROWA WIELKOPOLSKIEGO. Pani Beaty Klimek

SPRAWNOŚĆ MÓWIENIA SPRAWNOŚĆ PISANIA GRAMATYKA I SŁOWNICTWO

JĘZYK POLSKI W KLASACH IV - VI SZCZEGÓŁOWE WYMAGANIA NA POSZCZEGÓLNE OCENY

Zapytanie ofertowe. 1. Część I: publikację Noblesse oblige. Rozmowy o Zygmuncie Mycielskim autorstwa Beaty Bolesławskiej-Lewandowskiej.

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

Podręcznik: EXAKT 2. Kryteria oceny sprawności rozumienia tekstu czytanego

Wymagania edukacyjne z języka niemieckiego w roku szkolnym 2017/2018. Kryteria Oceniania

Jak interpretować raport?

Transkrypt:

1 z 31 Pozyskiwanie przykładów błędów językowych z historii edycji tekstu 09.04.2013 r. Roman Grundkiewicz

2 z 31 Po co korpus błędów? Jedną ze słabości ewaluacji systemów korekty tekstu są testy na ręcznie przygotowanych danych. Pedler J., Mitton R. - A large list of confusion sets for spellchecking assessed against a corpus of real-word errors (2010)

3 z 31 Budowa korpusu ręczne anotowanie użycie istniejących narzędzi analiza historii edycji

4 z 31 Pozyskiwanie przykładów błędów językowych z historii edycji tekstu - Roman Grundkiewicz Miłkowski M. - Automated building of error corpora of Polish (2008) Max A., Wisniewski G. - Mining naturallyoccurring corrections and paraphrases from Wikipedia s revision history (2010) Zesch T. - Measuring contextual fitness using error contexts extracted from the Wikipedia revision history (2012)

5 z 31 Ekstrakcja błędów językowych

6 z 31

7 z 31 Selekcja zdań między 4 a 60 tokenów różnica w długości < 4 tokeny stosunek wyrazów do tokenów > 0.75 mało nie-wyrazów

8 z 31 Edycje wyrazów Biologia to nauka o (życie życiu) i organizmach żywych. ( u i, v i ) = (życie, życiu)

9 z 31 Selekcja edycji Pierwsze prawo (Mendla Menela) ;DDD biało-czarny biało--czarny co co??? Ala (Makota MaKoTa)

10 z 31 Błędy "proste" W (matematyce, matematyce) termin zero funkcji używany jest... Twórcami dialektu (BASICa BASIC-a) dla tej maszyny... w wyniku uderzenia pioruna, spłonęła (Wieża wieża) kościelna.

11 z 31 Słownik u D, v D - błąd słownikowy u, v D - błąd kontekstowy u D, v D - wandalizm u, v D - poza słownikiem

12 z 31 Błędy pisowni Ich tradycyjnymi zajęciami jest rybołówstwo i (myśliwstwo myślistwo). Wielki (książe książę) zmarł w Trokach 27 października 1430 roku. ukochana (Geraltaa Geralta) oraz przyszywana matka Ciri.*

13 z 31 Błędy gramatyczne W 731 zostało (zajęty zajęte) przez Saracenów....guz, który został (operacyjne operacyjnie) usunięty kilka dni później. Istnienie (kantowych kwantowych) fluktuacji jest konsekwencją......opcje otwarcia, (w z) czego ważniejsze to:

14 z 31 Trudność Demonstranci (domagają domagali) się ustąpienia prezydenta ze stanowiska. Artur obronił w Glasgow trojga Polaków, w tym (kobiety kobietę) w ciąży. Fryderyk I był kalwinem i sam się (koronował ukoronował) na króla. Armia straciła ok. 1000 czołgów i (samolotów samochodów).

15 z 31 Błędy stylistyczne W marcu 2002 (r. roku) nastąpiła fuzja Wizji TV z... (Wg Według) danych na rok 2004 gminę zamieszkuje 19 030 osób. Uwolnionym w celu (spełnienia wypełnienia) specjalnej misji. Składają się one (głównie przeważnie) z dębów, świerków, sosen i lip.

16 z 31 Edycje nierozpoznane 19 kwietnia 2008 wygrał turniej deblowy w (Valencii Walencji). Ci, którzy je otrzymali (maja szanę mają szansę) wygłosić ogólny wykład......jest prawdopodobnie jedynym (Unixem Uniksem ) z rodziny V dla platformy PC.

17 z 31 Warunki akceptacji Arytmetyka (jest ) (najstarszą najstarsza) i najbardziej (podstawową podstawowa) (gałęzią gałąź) matematyki.

18 z 31 Post-processing (Mała mała) litera na początku zdania. Usunięcie kropki na końcu (zdania. zdania). Zobacz (też też:) Białe Błota, Brzoza, Niemcz, Osielsko, Sicienko... imie=witold Henryk, tytuł= Wielka Encyklopedia miejsce=wydawca= Wyd.

19 z 31 Wandalizm uwzględnienie komentarzy pominięcie wulgaryzmów i akronimów usunięcie symetrycznych edycji

20 z 31 Korpus błędów

21 z 31 Wikipedia ~330 GB plik XML 910 tys. artykułów 1,75 mln stron

22 z 31 PlEWiC 1,53 mln fragmentów (w tym 85% zdań) 1,71 mln przykładów błędów 23% edycji od anonimowych użytkowników

23 z 31 proste # (tys.) pisowni gramatyczne stylistyczne inne 0 150 300 450 600

24 z 31 Pozyskiwanie przykładów błędów językowych z historii edycji tekstu - Roman Grundkiewicz Kategoria Typ błędu # (tys.) "proste" interpunkcyjne 308,8 wielkość liter 220,5 pis. łączna-rozłączna 13,7 pisowni diakrytyczne (kontekst) 241,8 (39,5) słownikowe 356,8 gramatyczne fleksyjne (czas/liczba) 164,7 (43,3) semantyczne (aspekt/st.) 64,6 (13,8) składniowe 19,4 zaimki, przyimki itp. 94,6 stylistyczne synonimy 29,6 skróty (rok/wiek) 38,8 (21,4) nierozpoznane 157,0

25 z 31 kontekstowe # (tys.) słownikowe usunięcia wstawienia wielowyraz. poza słow. 0 150 300 450 600

26 z 31 Pozyskiwanie przykładów błędów językowych z historii edycji tekstu - Roman Grundkiewicz 24,1% 24,1% błędów w korpusie to błędy kontekstowe

27 z 31 Ewaluacja

28 z 31 "proste" pisowni prec. prec. (zd.) gramatyczne stylistyczne inne 0,700 0,775 0,850 0,925 1,000

29 z 31 Błędy gramatyczne 19% to zmiany stylistyczne, w 7% niewystarczający kontekst, tylko 4 błędne przykłady precyzja: 0.73 0.80

30 z 31 Edycje nierozpoznane 5% błędnych przypadków, 56% dotyczy nazw własnych, 4% dotyczy wyrazów obcych, 16% - błędy pisowni, 18% - fleksyjne, 6% - stylistyczne

31 z 31 Dziękuję za uwagę Korpus zostanie udostępniony publicznie na mojej stronie domowej