czyli co można poprawić w NKJP?

Podobne dokumenty
PoliTa multitager morfosyntaktyczny dla j. ezyka polskiego

Metody nadzorowane w ujednoznacznianiu sensów s lów korpusu ekonomicznego

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu lista nr 7

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Jak matematyka pomaga w wyszukiwanie wzorca

Zastosowanie Robotów. Ćwiczenie 6. Mariusz Janusz-Bielecki. laboratorium

Zastosowanie Robotów. Ćwiczenie 4. Mariusz Janusz-Bielecki. laboratorium

Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych

Indukcja reguł gramatyki j. polskiego

Jeden przyk lad... czyli dlaczego warto wybrać MIESI.

Statystyka w analizie i planowaniu eksperymentu

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Rachunek zdań - semantyka. Wartościowanie. ezyków formalnych. Semantyka j. Logika obliczeniowa. Joanna Józefowska. Poznań, rok akademicki 2009/2010

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Oddzia lywania miedzycz. jony molekularne lub atomy. edzy A i B:

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Testowanie hipotez statystycznych

WK, FN-1, semestr letni 2010 Korpusy tekstów w lingwistyce. Wyrażenia regularne. Cz. I

Mikro II: Popyt, Preferencje Ujawnione i Równanie S luckiego

Modelowanie rynków finansowych

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Paradygmaty programowania

Normy wektorów i macierzy

1 Praktyczne metody wyznaczania podstawowych miar przy zastosowaniu programu EXCEL

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

WYK LAD 5: GEOMETRIA ANALITYCZNA W R 3, PROSTA I P LASZCZYZNA W PRZESTRZENI R 3

Analiza zrekonstruowanych śladów w danych pp 13 TeV

Zastosowanie metod statystycznych do problemu ujednoznaczniania struktury zdania w języku polskim

Statystyka w analizie i planowaniu eksperymentu

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

SYSTEM DIAGNOSTYCZNY OPARTY NA LOGICE DOMNIEMAŃ. Ewa Madalińska. na podstawie prac:

Drzewa AVL definicje

P. Urzyczyn: Materia ly do wyk ladu z semantyki. Uproszczony 1 j. ezyk PCF

Grupy i cia la, liczby zespolone

Architektura systemów komputerowych

Rozdzia l 11. Przestrzenie Euklidesowe Definicja, iloczyn skalarny i norma. iloczynem skalarnym.

Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki.

Ćwiczenie nr 520: Metody interpolacyjne planowania ruchu manipulatorów

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Równoleg le sortowanie przez scalanie

po lożenie cz astki i od czasu (t). Dla cz astki, która może poruszać siȩ tylko w jednym wymiarze (tu x)

Paradygmaty programowania. Paradygmaty programowania

Plan wyk ladu. Kodowanie informacji. Systemy addytywne. Definicja i klasyfikacja. Systemy liczbowe. prof. dr hab. inż.

Programowanie generyczne w C++

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Tematy projektów z Metod Sztucznej Inteligencji

Pochodne cz ¾astkowe i ich zastosowanie.

Instrukcja. opracował Marcin Oleksy

Mikro II: Popyt, Preferencje Ujawnione i Równanie S luckiego

celu przyjmijmy: min x 0 = n t Zadanie transportowe nazywamy zbilansowanym gdy podaż = popyt, czyli n

Geometria odwzorowań inżynierskich Zadania 04

po lożenie cz astki i od czasu (t). Dla cz astki, która może poruszać siȩ tylko w jednym wymiarze (tu x)

Statystyka w analizie i planowaniu eksperymentu

Wyk lad 14 Cia la i ich w lasności

ep do matematyki aktuarialnej Micha l Jasiczak Wyk lad 5 Kalkulacja sk ladki netto I

Uczenie nienadzorowane

Mikro II: Popyt, Preferencje Ujawnione i Równanie S luckiego

Wyk lad 9 Podpierścienie, elementy odwracalne, dzielniki zera

Dyskretne modele populacji

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA. Spis pojȩċ teoretycznych

20PLN dla pierwszych 50 sztuk oraz 15PLN dla dalszych. Zysk ze sprzedaży biurka wynosi 40PLN dla pierwszych 20 sztuk oraz 50PLN dla dalszych.

Grzegorz Mazur. Zak lad Metod Obliczeniowych Chemii UJ. 14 marca 2007

Kierunek: Informatyka. Przedmiot:

Projekty Zaliczeniowe Laboratorium Sieci Komputerowych

1 Rozk ad normalny. Szczególnym przypadkiem jest standardowy rozk ad normalny N (0; 1), wartości

Obliczenia rozproszone z wykorzystaniem MPI

Organizacja systemu plików

ep do matematyki aktuarialnej Micha l Jasiczak Wyk lad 1 Wprowadzajacy

Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu

1 Praktyczne metody wyznaczania podstawowych miar bez zastosowania komputerów

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Wyk lad 7 Baza i wymiar przestrzeni liniowej

REGU LY ASOCJACYJNE. Nguyen Hung Son. 25 lutego i 04 marca Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski.

!!!!!!!!!!! PORTFOLIO: Analiza zachowań użytkowników serwisów internetowych. Autorzy: Marek Zachara

Stany atomu wieloelektronowego o określonej energii. być przypisywane elektrony w tym stanie atomu.

Teoria miary WPPT IIr. semestr zimowy 2009 Wyk lady 6 i 7. Mierzalność w sensie Carathéodory ego Miara Lebesgue a na prostej

Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2015/2016. Forma studiów: Stacjonarne Kod kierunku: 12.

Automatyczne przetwarzanie recenzji konsumenckich dla oceny użyteczności produktów i usług

Geometria odwzorowań inżynierskich perspektywa wnȩtrza 06C

Harmonogramowanie projektów Zarządzanie czasem

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

UCHWAŁA NR 660/2005 RADY MIEJSKIEJ W RADOMIU. z dnia roku

Uproszczony dowod twierdzenia Fredricksona-Maiorany

Projekt UCHWAŁA NR.. RADY GMINY ROKIETNICA z dnia... r.

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Najwyższa Izba Kontroli Departament Pracy, Spraw Socjalnych i Zdrowia

REGU LY ASOCJACYJNE. Nguyen Hung Son. Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski. 28.II i 6.III, 2008

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

STATUT KOŁA NAUKOWEGO KLUB INWESTORA

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Projekt i implementacja systemu wspomagania planowania w języku Prolog

(α + β) a = α a + β a α (a + b) = α a + α b (α β) a = α (β a). Definicja 4.1 Zbiór X z dzia laniami o wyżej wymienionych w lasnościach

Organizacja zaj. Organizacja zaj. et i oprogramowanie. szeregowanie zadań, Interfejsy i komunikacja. Systemy wieloprocesorowe. sztuczna inteligencja,

Ewidencjonowanie nieruchomości. W Sejmie oceniają działania starostów i prezydentów

Drzewa podstawowe poj

Transkrypt:

Dażenie do idea lu, czyli co można poprawić w NKJP? Lukasz Kobyliński Lukasz Sza lkiewicz Instytut Podstaw Informatyki Polskiej Akademii Nauk ul. J. K. Ordona 21, 01-237 Warszawa 7 stycznia 2013 L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 1 / 53

Informacje o projekcie Projekt Narodowego Centrum Nauki Automatyczne wykrywanie i korekcja b l edów anotacyjnych w polskich korpusach jezykowych (umowa nr 2011/01/N/ST6/01107) projekt dwuletni: styczeń 2012 grudzień 2013 wykonawcy: L. Kobyliński (kierownik), A. Przepiórkowski (opiekun), L. Sza lkiewicz (lingwista) Wsparcie ze strony projektu CESAR wspó lfinansowanie narz edzia do r ecznej korekcji anotacji korpusu, wspó lfinansowanie pracy lingwistów, podzi ekowania dla M. Lenarta za udost epnienie oprogramowania używanego we wcześniejszych eksperymentach. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 2 / 53

Za lożenia i cele Przyj ete za lożenia weryfikacja metody automatycznej detekcji i korekcji b l edów przeprowadzana b edzie dla morfosyntaktycznej warstwy anotacji. Cele określenie skuteczności metod detekcji b l edów anotacyjnych znanych dla innych j ezyków w korpusie polskoj ezycznym, zaproponowanie metody dostosowanej do specyfiki j ezyka polskiego, zaproponowanie metody automatycznej korekcji b l edów anotacyjnych w warstwie morfosyntaktycznej i jej implementacja w postaci narz edzia, poprawienie jak najwi ekszej liczby b l edów anotacyjnych w NKJP. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 3 / 53

Sposób weryfikacji metod Sposób weryfikacji metod zadanie polega na wskazaniu segmentów nieprawid lowo zaanotowanych, wśród segmentów zaanotowanych prawid lowo, stosujemy klasyczne miary oceny jakości klasyfikacji: precyzja jaka cześć wskazanych przez metode segmentów jest rzeczywiście b l ednie zaanotowanych, odzysk jaka cześć istniejacych w korpusie b l edów anotacyjnych zosta la wskazana przez metode. Problem z obliczaniem miar oceny reczne sprawdzenie wszystkich rezultatów zwracanych przez metody automatyczne jest czasoch lonne, możemy szacować po przejrzeniu pewnej próbki znalezionych segmentów, nie wiemy ile jest wszystkich b l edów w korpusie, możemy dokonać wstepnego przegladu korpusu i utworzyć liste znanych b l edów. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 4 / 53

Plan 1 R eczne poprawianie b l edów Narz edzie CorpCor Zapytania poliqarpowe Statystyki poprawek 2 Zastosowanie metod automatycznych do detekcji b l edów Przeglad metod Metoda n-gramowa Odkrywanie regu l 3 Rzut oka na automatyczna anotacje pe lnego NKJP B l edy nielingwistyczne B l edy lingwistyczne tager niewinny B l edy lingwistyczne wina tagera 4 Podsumowanie i dalsze prace L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 5 / 53

R eczne poprawianie b l edów Narz edzie CorpCor Narz edzie CorpCor Narzedzie webowe, umożliwiajace modyfikacje anotacji morfosyntaktycznej korpusu możliwa równoleg la praca wielu lingwistów jednocześnie, zmiany zapisywane w bazie danych, l acznie z historia i metadanymi, korpus odczytywany jest z formatu XML. Sposób pracy wyszukiwanie w korpusie (integracja z Poliqarpem), przegladanie korpusu (przegladanie wed lug tekstów, akapitów, segmentów). L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 6 / 53

R eczne poprawianie b l edów Narz edzie CorpCor Narz edzie CorpCor wyszukiwanie L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 7 / 53

R eczne poprawianie b l edów Narz edzie CorpCor Narz edzie CorpCor historia anotacji L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 8 / 53

R eczne poprawianie b l edów Narz edzie CorpCor Narz edzie CorpCor rozszerzenia Możliwe rozszerzenia w przysz lości inteligentne podpowiedzi dobierane biorac pod uwage kontekst segmentu, uczenie systemu on-line zwi ekszanie jakości automatycznej korekty anotacji, wsparcie dla innych formatów korpusów. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 9 / 53

R eczne poprawianie b l edów Narz edzie CorpCor Narz edzie CorpCor podpowiedzi anotacji L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 10 / 53

R eczne poprawianie b l edów Narz edzie CorpCor Jak znajdywano b l edy L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 11 / 53

R eczne poprawianie b l edów Narz edzie CorpCor Jak znajdywano b l edy komentarze anotatorów Instrukcja znakowania zapytania regu lowe zg loszenia b l edów literówki i nadmierne segmenty L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 12 / 53

R eczne poprawianie b l edów Zapytania poliqarpowe Bardzo mocne regu ly a/i [base=także&pos=qub] qub > conj [base=jakoś&pos=adv&deg!=pos] adv > adv:pos [orth=mimo/i&pos!=prep] [pos=interp]? że mimo:. > mimo:prep:gen [orth=z/i&pos!= brev subst &vocalicity!= wok nwok ] trzeba dodać parametr: nwok L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 13 / 53

R eczne poprawianie b l edów Zapytania poliqarpowe Mocne regu ly [orth= ponad oko lo ko lo /i&pos!=qub] [pos=num] prep:. > qub [pos=ppas] [orth=jako&pos!=prep] [case=nom] jako:. > jako:prep:nom [base= szelki wierni kozaczki oszcz edności media dane środki prace roboty negocjacje zakupy si ly ] nie-pt L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 14 / 53

R eczne poprawianie b l edów Zapytania poliqarpowe Do sprawdzenia [base=im&pos!=conj] []{1,20} [orth=tym] im:comp > im:conj mi edzy/i [orth=innymi&gender!=f]. > f [orth=niedaleko/i&pos!= prep qub ] [pos!=interp] adv > prep:gen [orth=za orth=z] [orth= m lodu widna bliska daleka dawna grubsza lekka lewa nag la osobna ostrożna prawa ruska rzadka wolna wysoka &pos!=adjp]. > adjp uwaga: plus zmiana base [orth=milion/i&pos!=subst] L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 15 / 53

R eczne poprawianie b l edów Statystyki poprawek B l edy poprawione w korpusie NKJP1m zmiana liczba zmian poprawa tagu 1052 poprawa literówki 1046 poprawa base 239 poprawa base, poprawa tagu 198 poprawa tagu, poprawa base 85 poprawa literówki, zmiana base 16 poprawa base, poprawa literówki 4 poprawa literówki, zmiana tagu 4 poprawa literówki, poprawa base 3 poprawa literówki, poprawa tagu 3 poprawa literówki, zmiana base, zmiana tagu 2 poprawa literówki, zmiana base i tagu 1 inne 39 SUMA 2692 L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 16 / 53

R eczne poprawianie b l edów Statystyki poprawek Poprawa tagu 1052 Lupem pad la z lota biżuteria (... ) a także trzy lub cztery z lote monety Republiki Po ludniowej Afryki także:qub > także:conj Ceny oscyluja w granicach kilku tysiecy z lotych, choć zdarzy lo sie już, że parokrotnie przekroczy ly granice 10000 z l. 10000:pl:gen:m3:congr > 10000:pl:gen:m2:congr Naszym zadaniem by lo jedynie znalezienie i wyremontowanie pomieszczenia. jedynie:adv:pos > jedynie:qub a ino że to to to już zrobione tam już rok czy ze dwa z:prep:acc:woc > z:qub:wok L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 17 / 53

R eczne poprawianie b l edów Statystyki poprawek Poprawa tagu, poprawa base; poprawa base, poprawa tagu 283 (... ) rozpoczyna la sie dolina, gdzie przycupniety zagajnik, wysokie trawy i geste partie krzaków dawa ly szanse skutecznej ucieczki, gdyby zasz la taka potrzeba przycupnać:ppas:sg:nom:m3:perf:aff > przycupniety:adj:sg:nom:m3:pos Ich celem by l sklep spożywczy w Niedalinie. Niedalin:subst:sg:loc:m3 > Niedalino:subst:sg:loc:n (... ) w liście, który Szaron wys la l do Arafata w odpowiedzi na gratulacje z okazji obj ecia w ladzy. gratulacja:pl:acc:f > gratulacje:pl:acc:n by lem dziwnie pewien, że Magda by mnie nie obudzi la pewien:adj:sg:nom:m1:pos > pewny:adjc L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 18 / 53

R eczne poprawianie b l edów Statystyki poprawek Poprawa base 239 W rozgrywanym systemem KO konkursie Schmitt przegra l z Hiroya Saitohem. Hiroya:subst:sg:inst:m1 Saitohem:subst:sg:inst:m1 > Hiroya:subst:sg:inst:m1 Saitoh:subst:sg:inst:m1 Swoje dzie la wystawia l m.in. w Zakopanem, Wroc lawiu Wiesbaden oraz Karslruhe. Karslruhe:subst:sg:loc:n > Karlsruhe:subst:sg:loc:n Pod Choszcznem, na prostym odcinku drogi mi edzy Suliborzem a Bytowem... Bytowem:subst:sg:inst:m3 > Bytów:subst:sg:inst:m3 PS Min e ly znów dwa dni. post scriptum:brev:npun > postscriptum:brev:npun L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 19 / 53

R eczne poprawianie b l edów Statystyki poprawek Poprawa literówki 1046 Omawialisiny ha laśliwie szkolne sprawy omawiać:fin:pl:pri:imperf Honecker zosta l zwolniony przez sad w Berlinie za wzgledów humanitarnych. ze:prep:gen:wok Nie jestem zadna królewna burkn e la. żaden:adj:sg:nom:f:pos Tuwim dobrze odrobi l prac e domow e i zdania do tego skeczy dobra l zgodnie ze znaczeniem s lów. skecz:subst:sg:gen:m3 L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 20 / 53

R eczne poprawianie b l edów Statystyki poprawek Poprawa literówki + zmiana base i/lub tagu 23 A lysy? 0, demoniczny lysy, za którym (... ) 0:interj > O:interj Polsce egzorcyści chca, by przy Episkopacie Polski zosta l powo lany koordynator ich dzia lalności. Polska:subst:sg:loc:f > polski:pl:nom:m1:pos Na różnych etach swojego życia para lem si e różnymi zaj eciami. eta:subst:pl:loc:f > etap:subst:pl:loc:m3 L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 21 / 53

R eczne poprawianie b l edów Statystyki poprawek Poprawa literówki + poprawa base i/lub tagu 10 Po zawarciu nowego pokoju w po lowie trzynastego stulecia Swietope lk nowa, piat a z rzedu wojne rozpocza l. Swietope lk:subst:sg:nom:m1 > Świetope lk:subst:sg:nom:m1 (... ) a rzad zad luży l sie na kolejne pól miliarda dolarów (... ) pó l:num:pl:acc:m3:rec > pó l:subst:sg:acc:n L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 22 / 53

Zastosowanie metod automatycznych do detekcji b l edów Przeglad metod Przeglad podejść do automatycznej detekcji b l edów L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 23 / 53

Zastosowanie metod automatycznych do detekcji b l edów Przeglad metod Przeglad podejść do automatycznej detekcji b l edów Zadanie rozumiane jako problem detekcji anomalii (obserwacji odstajacych) uczenie tagera statystycznego na podstawie zaanotowanego korpusu i porównanie wyniku jego dzia lania na tym samym korpusie z anotacja faktyczna [van Halteren, 2000], reprezentowanie anotacji morfosyntaktycznej w korpusie za pomoca rozk ladu prawdopodobieństwa i wyszukiwanie elementów, które należa do tego rozk ladu z niewielkim prawdopodobieństwem [Eskin, 2000], wyszukiwanie nieprawid lowych kombinacji tagów morfosyntaktycznych [Kveton and Oliva, 2002], wykorzytanie maszyny wektorów podpierajacych (SVM) dla każdej wartości tagu do znalezienia kontekstów, które z dużym prawdopodobieństwem sa b l edem anotacyjnym [Nakagawa and Matsumoto, 2002], L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 24 / 53

Zastosowanie metod automatycznych do detekcji b l edów Przeglad metod Przeglad podejść do automatycznej detekcji b l edów Zadanie rozumiane jako problem detekcji anomalii (obserwacji odstajacych) znajdowanie n-gramów, które zawieraja w sobie leksemy anotowane w różny sposób w poszczególnych wystapieniach w korpusie [Dickinson and Meurers, 2003], znajdowanie regu l asocjacyjnych pomiedzy anotacjami segmentów wystepuj acych w podobnych kontekstach [Novak and Razimova, 2009], l aczenie wielu metod [Loftsson, 2009]. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 25 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa Metoda n-gramowa Dickinson and Meurers, 2003 anotacja segmentu zależy od kontekstu, w jakim segment si e znajduje, b l edy anotacyjne to niekonsekwentnie zaanotowane segmenty w podobnych kontekstach. Variation n-gram n-gram, zawierajacy jeden lub wiele segmentów o różnych anotacjach morfosyntaktycznych, na przyk lad (d lugość 10): Zamykam dyskusje. Do g losowania [g losować:ger:sg:n:imperf:n] nad uchwa l a Senatu przystapimy jutro rano. Zamykam dyskusje. Do g losowania [g losowanie:subst:sg:gen:n] nad uchwa l a Senatu przystapimy w bloku g losowań. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 26 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa Schemat odkrywania Algorytm wzorowany na metodzie apriori wygeneruj kandydatów: znajdź wszystkie unigramy w korpusie, powtarzaj, dopóki zbiór kandydatów jest niepusty: ogranicz zbiór kandydatów do n-gramów, które maja niejednakowa anotacje w korpusie, wygeneruj kandydatów: rozszerz n-gramy do (n+1)-gramów, uwzgledniaj ac segmenty po prawej i po lewej stronie dotychczasowego n-gramu. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 27 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa - Zamykam dyskusje. Do g losowania nad uchwa l a Senatu przystapimy jutro rano. Przystepujemy do rozpatrzenia punktu 8. porzadku dziennego: Sprawozdanie Komisji Gospodarki oraz Komisji Skarbu Państwa, Uw laszczenia i Prywatyzacji o stanowisku Senatu w sprawie ustawy o gie ldach towarowych ( druki nr 2231 i 2261 ). Prosze o zabranie g losu sprawozdawce komisji pana pos la Czes lawa Sobierajskiego. - Zamykam dyskusje. Do g losowania nad uchwa l a Senatu przystapimy w bloku g losowań. Przystepujemy do rozpatrzenia punktu 24. porzadku dziennego: Sprawozdanie Komisji Europejskiej oraz Komisji Administracji i Spraw Wewnetrznych o stanowisku Senatu w sprawie ustawy Ordynacja wyborcza do Parlamentu Europejskiego ( druki nr 2416 i 2436 ). O zabranie g losu prosze sprawozdawce komisji pana pos la Roberta Smolenia. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 28 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa - Zamykam dyskusje. Do g losowania nad uchwa l a Senatu przystapimy jutro rano. Przystepujemy do rozpatrzenia punktu 8. porzadku dziennego: Sprawozdanie Komisji Gospodarki oraz Komisji Skarbu Państwa, Uw laszczenia i Prywatyzacji o stanowisku Senatu w sprawie ustawy o gie ldach towarowych ( druki nr 2231 i 2261 ). Prosze o zabranie g losu sprawozdawce komisji pana pos la Czes lawa Sobierajskiego. - Zamykam dyskusje. Do g losowania nad uchwa l a Senatu przystapimy w bloku g losowań. Przystepujemy do rozpatrzenia punktu 24. porzadku dziennego: Sprawozdanie Komisji Europejskiej oraz Komisji Administracji i Spraw Wewnetrznych o stanowisku Senatu w sprawie ustawy Ordynacja wyborcza do Parlamentu Europejskiego ( druki nr 2416 i 2436 ). O zabranie g losu prosze sprawozdawce komisji pana pos la Roberta Smolenia. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 28 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa - Zamykam dyskusje. Do g losowania nad uchwa l a Senatu przystapimy jutro rano. Przystepujemy do rozpatrzenia punktu 8. porzadku dziennego: Sprawozdanie Komisji Gospodarki oraz Komisji Skarbu Państwa, Uw laszczenia i Prywatyzacji o stanowisku Senatu w sprawie ustawy o gie ldach towarowych ( druki nr 2231 i 2261 ). Prosze o zabranie g losu sprawozdawce komisji pana pos la Czes lawa Sobierajskiego. - Zamykam dyskusje. Do g losowania nad uchwa l a Senatu przystapimy w bloku g losowań. Przystepujemy do rozpatrzenia punktu 24. porzadku dziennego: Sprawozdanie Komisji Europejskiej oraz Komisji Administracji i Spraw Wewnetrznych o stanowisku Senatu w sprawie ustawy Ordynacja wyborcza do Parlamentu Europejskiego ( druki nr 2416 i 2436 ). O zabranie g losu prosze sprawozdawce komisji pana pos la Roberta Smolenia. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 28 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa - Zamykam dyskusje. Do g losowania nad uchwa l a Senatu przystapimy jutro rano. Przystepujemy do rozpatrzenia punktu 8. porzadku dziennego: Sprawozdanie Komisji Gospodarki oraz Komisji Skarbu Państwa, Uw laszczenia i Prywatyzacji o stanowisku Senatu w sprawie ustawy o gie ldach towarowych ( druki nr 2231 i 2261 ). Prosze o zabranie g losu sprawozdawce komisji pana pos la Czes lawa Sobierajskiego. - Zamykam dyskusje. Do g losowania nad uchwa l a Senatu przystapimy w bloku g losowań. Przystepujemy do rozpatrzenia punktu 24. porzadku dziennego: Sprawozdanie Komisji Europejskiej oraz Komisji Administracji i Spraw Wewnetrznych o stanowisku Senatu w sprawie ustawy Ordynacja wyborcza do Parlamentu Europejskiego ( druki nr 2416 i 2436 ). O zabranie g losu prosze sprawozdawce komisji pana pos la Roberta Smolenia. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 28 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa - Zamykam dyskusje. Do g losowania nad uchwa l a Senatu przystapimy jutro rano. Przystepujemy do rozpatrzenia punktu 8. porzadku dziennego: Sprawozdanie Komisji Gospodarki oraz Komisji Skarbu Państwa, Uw laszczenia i Prywatyzacji o stanowisku Senatu w sprawie ustawy o gie ldach towarowych ( druki nr 2231 i 2261 ). Prosze o zabranie g losu sprawozdawce komisji pana pos la Czes lawa Sobierajskiego. - Zamykam dyskusje. Do g losowania nad uchwa l a Senatu przystapimy w bloku g losowań. Przystepujemy do rozpatrzenia punktu 24. porzadku dziennego: Sprawozdanie Komisji Europejskiej oraz Komisji Administracji i Spraw Wewnetrznych o stanowisku Senatu w sprawie ustawy Ordynacja wyborcza do Parlamentu Europejskiego ( druki nr 2416 i 2436 ). O zabranie g losu prosze sprawozdawce komisji pana pos la Roberta Smolenia. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 28 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa - Zamykam dyskusje. Do g losowania nad uchwa l a Senatu przystapimy jutro rano. Przystepujemy do rozpatrzenia punktu 8. porzadku dziennego: Sprawozdanie Komisji Gospodarki oraz Komisji Skarbu Państwa, Uw laszczenia i Prywatyzacji o stanowisku Senatu w sprawie ustawy o gie ldach towarowych ( druki nr 2231 i 2261 ). Prosze o zabranie g losu sprawozdawce komisji pana pos la Czes lawa Sobierajskiego. - Zamykam dyskusje. Do g losowania nad uchwa l a Senatu przystapimy w bloku g losowań. Przystepujemy do rozpatrzenia punktu 24. porzadku dziennego: Sprawozdanie Komisji Europejskiej oraz Komisji Administracji i Spraw Wewnetrznych o stanowisku Senatu w sprawie ustawy Ordynacja wyborcza do Parlamentu Europejskiego ( druki nr 2416 i 2436 ). O zabranie g losu prosze sprawozdawce komisji pana pos la Roberta Smolenia. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 28 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa - Zamykam dyskusje. Do g losowania nad uchwa l a Senatu przystapimy jutro rano. Przystepujemy do rozpatrzenia punktu 8. porzadku dziennego: Sprawozdanie Komisji Gospodarki oraz Komisji Skarbu Państwa, Uw laszczenia i Prywatyzacji o stanowisku Senatu w sprawie ustawy o gie ldach towarowych ( druki nr 2231 i 2261 ). Prosze o zabranie g losu sprawozdawce komisji pana pos la Czes lawa Sobierajskiego. - Zamykam dyskusje. Do g losowania nad uchwa l a Senatu przystapimy w bloku g losowań. Przystepujemy do rozpatrzenia punktu 24. porzadku dziennego: Sprawozdanie Komisji Europejskiej oraz Komisji Administracji i Spraw Wewnetrznych o stanowisku Senatu w sprawie ustawy Ordynacja wyborcza do Parlamentu Europejskiego ( druki nr 2416 i 2436 ). O zabranie g losu prosze sprawozdawce komisji pana pos la Roberta Smolenia. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 28 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa - Zamykam dyskusje. Do g losowania nad uchwa l a Senatu przystapimy jutro rano. Przystepujemy do rozpatrzenia punktu 8. porzadku dziennego: Sprawozdanie Komisji Gospodarki oraz Komisji Skarbu Państwa, Uw laszczenia i Prywatyzacji o stanowisku Senatu w sprawie ustawy o gie ldach towarowych ( druki nr 2231 i 2261 ). Prosze o zabranie g losu sprawozdawce komisji pana pos la Czes lawa Sobierajskiego. - Zamykam dyskusje. Do g losowania nad uchwa l a Senatu przystapimy w bloku g losowań. Przystepujemy do rozpatrzenia punktu 24. porzadku dziennego: Sprawozdanie Komisji Europejskiej oraz Komisji Administracji i Spraw Wewnetrznych o stanowisku Senatu w sprawie ustawy Ordynacja wyborcza do Parlamentu Europejskiego ( druki nr 2416 i 2436 ). O zabranie g losu prosze sprawozdawce komisji pana pos la Roberta Smolenia. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 28 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa Znalezione n-gramy 100000 n-gramy 10000 segmenty o różnych anotacjach 1000 100 1 2 3 4 5 6 7 8 9 10 11 12 13 14 L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 29 / 53

Zastosowanie metod automatycznych do detekcji b l edów 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 Metoda n-gramowa Znalezione n-gramy 140 120 100 n-gramy segmenty o różnych anotacjach 80 60 40 20 0 L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 29 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa Obserwacje Obserwacje krótsze n-gramy sa czesto powtórzeniami fragmentów kontekstów znalezionych przez d luższe n-gramy, im d luższy n-gram, tym wi eksze prawdopodobieństwo, że znajduje si e w nim b l edna anotacja (szerszy wspólny kontekst), podejrzane segmenty na krawedziach n-gramów sa najcześciej fa lszywymi zg loszeniami (kontekst po lewej lub po prawej jest inny), bogata fleksja w j ezyku polskim powoduje, że budowanie n-gramów na podstawie form ortograficznych jest mniej skuteczne, niż dla j ezyka angielskiego. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 30 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa Niepowtarzalne n-gramy 100000 10000 niepowtarzalne n-gramy segmenty o różnych anotacjach 1000 100 10 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 31 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa Niepowtarzalne n-gramy weryfikacja Przeci ecie ze zbiorem poprawek r ecznie wprowadzonych 2692 poprawek, z czego 1332 dotyczy lo poprawy tagu minn segmenty % korpusu TP FP precyzja odzysk F 2 226548 18,64% 901 225 0,40% 67,64% 0,79% 3 54970 4,52% 398 38 0,72% 29,88% 1,41% 4 10448 0,86% 97 3 0,93% 7,28% 1,65% 5 2513 0,21% 24 0 0,96% 1,80% 1,25% 6 873 0,07% 12 0 1,37% 0,90% 1,09% L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 32 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa Usuni ecie segmentów na skraju n-gramów weryfikacja Przeci ecie ze zbiorem poprawek r ecznie wprowadzonych 2692 poprawek, z czego 1332 dotyczy lo poprawy tagu minn segmenty % korpusu TP FP precyzja odzysk F 3 18855 1,55% 203 10 1,08% 15,24% 2,01% 4 4870 0,40% 73 2 1,50% 5,48% 2,35% 5 1605 0,13% 23 0 1,43% 1,73% 1,57% 6 678 0,06% 11 0 1,62% 0,83% 1,09% L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 33 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa Usuni ecie segmentów na skraju n-gramów weryfikacja Bezpośrednie sprawdzenie rezultatów generowanych przez metod e N watpliwe konteksty sprawdzone zawierajace b l edy precyzja 4 1192 19 10 52,63% 5 373 9 5 55,56% 6 104 21 9 42,86% 7 32 16 11 68,75% 8 24 15 5 33,33% 9 23 20 6 30,00% 10 8 8 5 62,50% 11 5 5 1 20,00% 12 1 1 1 100,00% >12 23 23 19 82,61% 1785 137 72 52,55% L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 34 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa Precyzja dla n-gramów poszczególnych d lugości 100,00% 90,00% 80,00% 70,00% 60,00% 50,00% 40,00% 30,00% 20,00% 10,00% 0,00% 4 5 6 7 8 9 10 11 12 13 14 15 16 17 22 26 29 44 48 66 L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 35 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa Relaksacja wymagań na n-gram Staramy si e zwi ekszyć odzysk bardzo podobne konteksty moga różnić sie pojedynczymi znakami, co uniemożliwia ich identyfikacje, dla jezyka angielskiego znajdowanych jest wiecej n-gramów ze wzgledu na mniejsza różnorodność form ortograficznych. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 36 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa Relaksacja wymagań na n-gram Podejścia do relaksacji rozszerzać konteksty niezależnie od formy ortograficznej niektórych typów, interp, brev, num, numcol. Park krajobrazowy z pocz. XIX [sg] w. z kopcem i g lazem narzutowym ku pamieci braci Niemojewskich, cz lonków Rzadu Narodowego w powstaniu listopadowym. Wieś na szlaku bursztynowym. We wsi sklepiona kapliczka wieżowa z po l. XIX [pl] w. z rzeźba ludowa św. Jana Nepomucena. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 37 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa Relaksacja wymagań na n-gram Podejścia do relaksacji rozszerzać konteksty niezależnie od formy ortograficznej niektórych typów, interp, brev, num, numcol. System komunikacyjny Warszawy sypie si e jak wiadukt w Al. Jerozolimskich [adj:pl:loc:f:pos]. Podstawowym kryterium, decydujacym o wyborze firmy, która wyremontuje wiadukt w Al. Jerozolimskich [adj:pl:loc:n:pos], okaza la sie cena. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 37 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa Relaksacja wymagań na n-gram Podejścia do relaksacji ignorować forme ortograficzna, badać konteksty tylko na podstawie tagów morfosyntaktycznych. 29 września ok. godz. 22. 30 przy ul. Sokolskiej w Radlinie [subst:sg:loc:m3] nieznani [znać:ppas] sprawcy w lamali si e do pomieszczeń Miejskiego Ośrodka Kultury Sokolnia. Policjanci po otrzymaniu informacji o zaistnia lym zdarzeniu zatrzymali wszystkich sprawców rozboju i odzyskali skradzione przedmioty. Post epowanie prowadzi KPP Ciechanów. Dwa dni wcześniej, 7 bm. ok. godz. 22. 30 przy ul. Pu ltuskiej w Ciechanowie [subst:sg:loc:m3] nieznani [nieznany:adj] sprawcy pobili 15-latka. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 38 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa Przeci ecie ze zbiorem poprawek r ecznie wprowadzonych (n-gramy uogólnione) Uogólnienie interp, brev, num, numcol minn TP FP segmenty precyzja odzysk F 4 90 2 8939 1,01% 6,76% 1,75% 5 32 0 2878 1,11% 2,40% 1,52% 6 16 0 1107 1,45% 1,20% 1,31% Uogólnienie wszystkich typów minn TP FP segmenty precyzja odzysk F 4 257 30 28499 0,90% 19,29% 1,72% 5 98 9 9547 1,03% 7,36% 1,80% 6 36 0 2762 1,30% 2,70% 1,76% L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 39 / 53

Zastosowanie metod automatycznych do detekcji b l edów Metoda n-gramowa Obserwacje i wnioski Obserwacje Wnioski uogólnienie n-gramów prowadzi do zwi ekszenia odzysku kosztem precyzji, zaleta n-gramów uogólnionych jest zarówno możliwość znalezienia nowych kontekstów watpliwych, jak i wyd lużenie kontekstów znalezionych zwyk lymi n-gramami, n-gramy uogólnione pozwalaja odzyskać istotne n-gramy, usuniete po zastosowaniu heurystyki ignorujacej segmenty na krawedzi n-gramów. najlepiej wykorzystać wszystkie typy n-gramów, wyeliminować powtarzajace sie konteksty, a pozosta le przegladać od najd luższych, do najkrótszych. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 40 / 53

Zastosowanie metod automatycznych do detekcji b l edów Odkrywanie regu l Odkrywanie regu l Podejście do problemu od drugiej strony zamiast szukać b l edów, szukamy silnych (ale nie pewnych!) regu l, które obowiazuj a w anotowanym korpusie, podejrzane sa przypadki, dla których istnieje regu la o pewności rzedu 99% i istotnym wsparciu. Odkrywamy regu ly asocjacyjne pomi edzy atrybutami segmentów wybieramy losowa próbke segmentów z korpusu (np. 10%), próbka może zawierać pojedyncze segmenty (b l edy anotacji niezależne od kontekstu) lub kilka segmentów (uwzglednienie kontekstu), szukamy regu l o wsparciu rz edu 0,1% i zaufaniu powyżej 99%, ale poniżej 100%. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 41 / 53

Zastosowanie metod automatycznych do detekcji b l edów Odkrywanie regu l Odkrywanie regu l przyk lad base 0=przez 500 ==> msd 0=acc:nwok 497 false positive base 0=ja 770 ==> ctag 0=ppron12 765 życie.. to ja [Jagódka:subst:sg:acc:f] Jagódk e też leczy.. base 0=my 276 ==> ctag 0=ppron12 274, o którym mówi l my [my:subst:sg:nom:n] portfolio. ctag 0=aglt 290 ==> base 0=być 288 [pos=aglt&base!=być] cz esto base=śmy zamiast być base 0=no msd 0= 446 ==> ctag 0=qub 442 : wow, oh, no [no:interj]! i damned. 32 base 0=tak ctag 0=adv 118 ==> msd 0=pos 117 dla niektórych nie ma stopnia [degree!=pos] L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 42 / 53

Zastosowanie metod automatycznych do detekcji b l edów Odkrywanie regu l Wykorzystanie informacji z narz edzia CorpCor do zwi ekszenia jakości wyników Podczas pracy lingwisty przechowujemy nie tylko wynik poprawek, ale też zaptania, jakie zosta ly wykorzystane do znalezienia kontekstów podczas rozwijania metody regu lowej możemy porównywać regu ly znalezione automatycznie z wprowadzonymi recznie, jeśli n-gram lub regu la sugeruje b l edy w kontekstach, wśród których jest kontekst poprawiony przez lingwiste: jeśli nie by lo to zapytanie ogólne, to podbijamy istotność pozosta lych sugerowanych kontekstów z tej samej regu ly / n-gramu, podbijamy istotność kontekstów wygenerowanych z n-gramów krótszych, które wskazuja inne konteksty, możemy zasugerować wybrana przez lingwiste anotacje jako najbardziej prawdopodobna (normalnie: najczestsza anotacja). L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 43 / 53

Rzut oka na automatyczna anotacje pe lnego NKJP Rzut oka na automatyczna anotacje pe lnego NKJP L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 44 / 53

Rzut oka na automatyczna anotacje pe lnego NKJP B l edy nielingwistyczne Przygotowanie tekstów metadane W ladys law Reymont a W ladys law Stanis law Reymont autorzy nicki internetowe pozorne różnice Czy taka demonstracja mog laby si e odbyć bez zezwolenia i aprobaty w ladz uczelni? Na pewno nie. Oto jakie szkoly mamy w tym piepszonym PRL-bis Czy taka demonstracja mog laby si e odbyć bez zezwolenia i aprobaty w ladz uczelni? Na pewno nie. Oto jakie szkoly mamy w tym piepszonym PRL-bis L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 45 / 53

Rzut oka na automatyczna anotacje pe lnego NKJP B l edy nielingwistyczne Literówki w tekstach [base=hurtować] (... ) dzia la tam zdaje si e hurtowania papieru. [hurtować:ger:sg:gen:n:imperf:aff] Meżczyźni nie zważajac jednak na ochrone budynku, wkroczyli do hurtowani i grożac jej pracownikom użyciem broni zażadali wydania pieniedzy. [hurtować:ppas:pl:nom:m1:imperf:aff] L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 46 / 53

Rzut oka na automatyczna anotacje pe lnego NKJP B l edy lingwistyczne tager niewinny Zasady znakowania s lownik analizatora zbyt kublik (adv) mniej liczebnik (adv:com) obowiazany przymiotnik (subst) w lewo przymiotnik poprzyimkowy adjp (subst) Mamy nadziej e, że nie tylko wobec siatkarek, ale także (... ) adresy mailowe, adresy stron news:biig72$muu$1@kastor.ds.pg.gda.pl [Kastor:subst:sg:nom:m1] inne regu ly L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 47 / 53

Rzut oka na automatyczna anotacje pe lnego NKJP B l edy lingwistyczne wina tagera B l edny leksem gdera lup Pani Hela nadal dobrotliwie gdera. [gdera:subst:sg:nom:m1] Narzeka i gdera jak zwykle, ale widz e, że frajd e ma w oczach. [gdera:subst:sg:nom:m1] gdzie z loczyńcy próbowali spieni eżyć lup [ lupa:subst:pl:gen:f] Zanim oddadza swój lup w skupie [ lupa:subst:pl:gen:f] czasowniki z pierwszej setki listy frekwencyjnej kup maić, mamić, nizać, chybać, sposobić, mieść, udziać I kusza: wstap, kup, przecież to czas świat, wielkiego kupowania, prezentów. [kupa:subst:pl:gen:f] L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 48 / 53

Rzut oka na automatyczna anotacje pe lnego NKJP B l edy lingwistyczne wina tagera B l edny leksem [base=chachać] mówi Mateusz Chachaj, rzecznik prasowy Fundacji Polsko-Niemieckie Pojednanie [chachać:impt:sg:sec:imperf] [base=wiktor] Bardzo szybko z zawodami rozstali sie natomiast Micha l Ba ldys, Wiktor Bia ly, Micha l Dziabek [wiktor:subst:sg:nom:m1] [base=pecyna] a miejsca trzecie Adamowi Sielskiemu z ZSS w Lublińcu i Adamowi Pecynie [pecyna:subst:sg:loc:f] L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 49 / 53

Rzut oka na automatyczna anotacje pe lnego NKJP B l edy lingwistyczne wina tagera B l edna charakterystyka gramatyczna [case=voc] By ly panie montażystki [pan:subst:sg:voc:m1] Za m estwo w wojnie polsko bolszewickiej 1920 r. zosta l odznaczony [Polska:subst:sg:voc:f] w dalszej cz eści lotu zbombardowa la niemieckie linie okopów [niemiecki:adj:sg:voc:n:pos] [lin:subst:sg:voc:m2] L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 50 / 53

Podsumowanie i dalsze prace Automatyczne poprawianie b l edów w pe lnym NKJP L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 51 / 53

Podsumowanie i dalsze prace Automatyczne poprawianie b l edów w pe lnym NKJP Inne zadanie, niż poprawianie podkorpusu r ecznie anotowanego nie można zastosować metody nienadzorowanej, wyszukujacej niekonsekwencji w anotacji (bo anotacja automatyczna), można dażyć do wyeliminowania jak najwiekszej liczby b l edów z NKJP 1M i ponownie wyuczyć tager, który pos luży do nowej anotacji pe lnego korpusu, można wyszukiwać cz este sekwencje (n-gramy i wzorce sekwencyjne) tagów i form podstawowych w pe lnym korpusie i weryfikować je z podkorpusem 1M, można odkrywać silne regu ly w jednym korpusie i weryfikować, czy sa spe lnione również w drugim. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 52 / 53

Podsumowanie i dalsze prace Podsumowanie Podsumowanie do pe lnego wyeliminowania b l edów z obu korpusów potrzebne jest jednocześnie zastosowanie metod automatycznych i praca lingwistyczna, poprawianie b l edów w podkorpusie 1M i pe lnym korpusie NKJP to dwa odr ebne zadania, kluczem wydaje sie być odkrywanie czestych zależności i obserwacji odstajacych w jednym korpusie i kontrastowanie ich z drugim. L. Kobyliński, L. Sza lkiewicz (IPI PAN) Co można poprawić w NKJP? 7 stycznia 2013 53 / 53