1 z 31 Pozyskiwanie przykładów błędów językowych z historii edycji tekstu 09.04.2013 r. Roman Grundkiewicz
2 z 31 Po co korpus błędów? Jedną ze słabości ewaluacji systemów korekty tekstu są testy na ręcznie przygotowanych danych. Pedler J., Mitton R. - A large list of confusion sets for spellchecking assessed against a corpus of real-word errors (2010)
3 z 31 Budowa korpusu ręczne anotowanie użycie istniejących narzędzi analiza historii edycji
4 z 31 Pozyskiwanie przykładów błędów językowych z historii edycji tekstu - Roman Grundkiewicz Miłkowski M. - Automated building of error corpora of Polish (2008) Max A., Wisniewski G. - Mining naturallyoccurring corrections and paraphrases from Wikipedia s revision history (2010) Zesch T. - Measuring contextual fitness using error contexts extracted from the Wikipedia revision history (2012)
5 z 31 Ekstrakcja błędów językowych
6 z 31
7 z 31 Selekcja zdań między 4 a 60 tokenów różnica w długości < 4 tokeny stosunek wyrazów do tokenów > 0.75 mało nie-wyrazów
8 z 31 Edycje wyrazów Biologia to nauka o (życie życiu) i organizmach żywych. ( u i, v i ) = (życie, życiu)
9 z 31 Selekcja edycji Pierwsze prawo (Mendla Menela) ;DDD biało-czarny biało--czarny co co??? Ala (Makota MaKoTa)
10 z 31 Błędy "proste" W (matematyce, matematyce) termin zero funkcji używany jest... Twórcami dialektu (BASICa BASIC-a) dla tej maszyny... w wyniku uderzenia pioruna, spłonęła (Wieża wieża) kościelna.
11 z 31 Słownik u D, v D - błąd słownikowy u, v D - błąd kontekstowy u D, v D - wandalizm u, v D - poza słownikiem
12 z 31 Błędy pisowni Ich tradycyjnymi zajęciami jest rybołówstwo i (myśliwstwo myślistwo). Wielki (książe książę) zmarł w Trokach 27 października 1430 roku. ukochana (Geraltaa Geralta) oraz przyszywana matka Ciri.*
13 z 31 Błędy gramatyczne W 731 zostało (zajęty zajęte) przez Saracenów....guz, który został (operacyjne operacyjnie) usunięty kilka dni później. Istnienie (kantowych kwantowych) fluktuacji jest konsekwencją......opcje otwarcia, (w z) czego ważniejsze to:
14 z 31 Trudność Demonstranci (domagają domagali) się ustąpienia prezydenta ze stanowiska. Artur obronił w Glasgow trojga Polaków, w tym (kobiety kobietę) w ciąży. Fryderyk I był kalwinem i sam się (koronował ukoronował) na króla. Armia straciła ok. 1000 czołgów i (samolotów samochodów).
15 z 31 Błędy stylistyczne W marcu 2002 (r. roku) nastąpiła fuzja Wizji TV z... (Wg Według) danych na rok 2004 gminę zamieszkuje 19 030 osób. Uwolnionym w celu (spełnienia wypełnienia) specjalnej misji. Składają się one (głównie przeważnie) z dębów, świerków, sosen i lip.
16 z 31 Edycje nierozpoznane 19 kwietnia 2008 wygrał turniej deblowy w (Valencii Walencji). Ci, którzy je otrzymali (maja szanę mają szansę) wygłosić ogólny wykład......jest prawdopodobnie jedynym (Unixem Uniksem ) z rodziny V dla platformy PC.
17 z 31 Warunki akceptacji Arytmetyka (jest ) (najstarszą najstarsza) i najbardziej (podstawową podstawowa) (gałęzią gałąź) matematyki.
18 z 31 Post-processing (Mała mała) litera na początku zdania. Usunięcie kropki na końcu (zdania. zdania). Zobacz (też też:) Białe Błota, Brzoza, Niemcz, Osielsko, Sicienko... imie=witold Henryk, tytuł= Wielka Encyklopedia miejsce=wydawca= Wyd.
19 z 31 Wandalizm uwzględnienie komentarzy pominięcie wulgaryzmów i akronimów usunięcie symetrycznych edycji
20 z 31 Korpus błędów
21 z 31 Wikipedia ~330 GB plik XML 910 tys. artykułów 1,75 mln stron
22 z 31 PlEWiC 1,53 mln fragmentów (w tym 85% zdań) 1,71 mln przykładów błędów 23% edycji od anonimowych użytkowników
23 z 31 proste # (tys.) pisowni gramatyczne stylistyczne inne 0 150 300 450 600
24 z 31 Pozyskiwanie przykładów błędów językowych z historii edycji tekstu - Roman Grundkiewicz Kategoria Typ błędu # (tys.) "proste" interpunkcyjne 308,8 wielkość liter 220,5 pis. łączna-rozłączna 13,7 pisowni diakrytyczne (kontekst) 241,8 (39,5) słownikowe 356,8 gramatyczne fleksyjne (czas/liczba) 164,7 (43,3) semantyczne (aspekt/st.) 64,6 (13,8) składniowe 19,4 zaimki, przyimki itp. 94,6 stylistyczne synonimy 29,6 skróty (rok/wiek) 38,8 (21,4) nierozpoznane 157,0
25 z 31 kontekstowe # (tys.) słownikowe usunięcia wstawienia wielowyraz. poza słow. 0 150 300 450 600
26 z 31 Pozyskiwanie przykładów błędów językowych z historii edycji tekstu - Roman Grundkiewicz 24,1% 24,1% błędów w korpusie to błędy kontekstowe
27 z 31 Ewaluacja
28 z 31 "proste" pisowni prec. prec. (zd.) gramatyczne stylistyczne inne 0,700 0,775 0,850 0,925 1,000
29 z 31 Błędy gramatyczne 19% to zmiany stylistyczne, w 7% niewystarczający kontekst, tylko 4 błędne przykłady precyzja: 0.73 0.80
30 z 31 Edycje nierozpoznane 5% błędnych przypadków, 56% dotyczy nazw własnych, 4% dotyczy wyrazów obcych, 16% - błędy pisowni, 18% - fleksyjne, 6% - stylistyczne
31 z 31 Dziękuję za uwagę Korpus zostanie udostępniony publicznie na mojej stronie domowej