Poprawianie pisowni. Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6. Korekta pisowni: odległość Levenshteina (166 / 188)

Podobne dokumenty
Model zaszumionego kanału

Ó ż ż Ść ż ż ć ż ż Ś Ść Ó

Ą ć ź ć

ą Ł ż ż Ś

Ź ź Ą Ą Ż Ą Ą

Ż Ż ć Ż Ż ć Ż Ż Ó ć Ż Ś

Ą ć ć ć ć Ł

Application of SPME/GC-MS for determination of chlorophenoxy herbicide residues within weed tissues. W: Chemistry for Agriculture 7. (H. Górecki, Z. Dobrzański, P. Kafarski, red.). wyd. CZECH-POL-TRADE, Prague-Brussels, pp (ISBN: ).

Ą Ź ć ć Ó Ó Ć Ć Ś

Ą ć ń ń ć

ą ó ą Ó ą ą ą

Ó Ś Ś ć

ź Ś Ó Ó Ż

Ś Ż Ó Ś ż Ó ć ź ż ż Ą

Ą Ó Ś ź Ś

Ó Ł Ę ź ź ź ć Ó ć

ć ć ć Ó ć Ó ć Ę ć Ł ć Ś ć Ę ć Ą ć ć ć ć ć ć ć

ć ć ź ć ć ć Ść ć ź ź ź ć ź Ą ź

C e l e m c z ę ś c i d y s k u s y j n e j j e s t u ś w i a d o m i e n i e s o b i e, w o p a r c i u o r o z w a ż a n i a P i s m a Ś w.

ć Ś Ś Ść

Ł Ó Ó Ó Ł Ó Ó Ł Ł Ó Ą Ć Ó Ą ć Ó ć ć

Ł ż

Ś ż Ś ć Ś ż Ą ż Ś Ż ż Ż ć ż ż Ż Ż Ś Ś Ś Ś

ć ć ć ć ć Ł

Ł Ą ź ź Ż ź Ź Ó Ó ź Ł

Ą Ł ć Ę ć Ę ć

Ł Ą Ą Ń Ą Ó

ż ć

Ś ć ż ż ć Ś ż ż ź ż ż ż ż

Ł ż Ó Ó ć Ó Ć

Ą Ą Ż ć Ż ć Ń Ą

ż ć

Krzyżanowski R – Zastosowanie metody mikroekstrakcji SPME w analizie pozostałości pestycydów. [W:] Badania naukowe w świetle uwarunkowań turbulentnego otoczenia – Gospodarka-Świat-Człowiek (red. Joanna Nowakowska-Grunt, Judyta Kabus). Wydawnictwo Naukowe Sophia, Katowice, pp (ISBN: ).

ż ż ż ż Ź ż Ą ż ż ż Ś

Ś

ć Ę ż Ł ź ż ź Ś Ś ź ć Ć ż Ś ż Ś

ź Ą Ę Ę ć Ł ć ć ć ć ć ć ć

Ź ć Ż ć ć Ó

Ż Ś

ż ż Ś Ą Ł ć Ś ź ź ć

Ł Ł Ł Ś

ć ć Ł ć Ź ć Ł ź ć Ś ć ć Ż Ł Ż ć ż ć

ć ć Ą ć Ęć Ó Ą ź ć ć ć ć ź ź Ą ć Ę ć ź ć ć ć ź ć ź ć ć ć Ś Ź ź

Ó ń ć ń Ą Ó Ą ń

Ć ć ć Ś ć

ć

ś Ż

ż ż ż ń ń Ł ń ń ż Ż ń ż ń Ż Ż

ż ó ś Ą ć ó ó ó ś ś ś ó ś Ł ś

Ó Ś

Ą ź Ą Ą Ś Ó Ą

Ś Ó Ó Ś ż Ś Ó Ś ŚÓ Ó

ŁĄ Ł

ż Ś ż ż ć ć Ś Ź Ą

ź Ż Ż Ś ć ć Ł ż Ż Ż Ż Ż Ł Ż Ł Ż Ż Ż ż ż ż ż ż ż Ż ć Ż Ś Ś Ń Ść

Ś Ś ŁĄ ż ć ć

ż ć Ń Ł Ż Ść Ść ć Ż Ść Ż ć ć Ż ź Ś ć ć Ó ć ć Ść

Ż Ż

Ę ż ć ŁĄ

ć ę ę ć ę Ś ę Ń ę ź ę ę ę Ś ę ę ę Ó Ł Ł Ę Ą ę

ć ć Ę Ó Ś ż ż Ś ż ż ż Ęć ż ć ć ż ż

Ź

Ł Ż Ń Ń ć

ć

ź Ą Ę ź Ć

Ż Ś ś Ę Ż

Ż Ą ź ź ź ź

ć ć Ść ć Ść ć ć ć ć

Ł ć Ą ć ć ć ć ć Ł

ź Ś ć ć

ć

Ź Ę ć ź


ź Ł Ą Ż Ń Ń Ś Ń ć

ć

ź ć

ć ą ą ć ą ź ć ą ą ć ą ć ń ą ą Ń Ń Ń

Ł Ś Ś Ń Ń

ć ż Ż Ż Ą Ż Ż Ż

Ó Ó Ę ź


Ł ź ź ź

Ś

Ż Ę Ę Ę Ę Ę Ź Ż

Ś ź Ś Ś

ć

ć Ę

ć Ś

ź Ś ź

Ł Ż

Ł Ś

Ę Ł ź Ś ź ź ź

Ę Ł Ź Ł

Ą Ź Ź Ź Ł ż Ą ż ż

ń ż ń ń Ą ń ż ż ń ż ż ż Ż ń Ą ń

Ł Ą Ż Ą Ż Ż ź

ń ń ń ż ć Ł ż ż ń ż Ą ń Ż ż

Ł Ś Ę Ł Ś Ś Ś Ą ń ń Ó

Ś Ó Ś Ó Ść

Ł ć Ś ć Ś ć ć Ę ź ć ć

Transkrypt:

Poprawianie pisowni Błędna pisownia może być powodowana przez różne czynniki: błędy w przekazywaniu sygnałów do mięśni odpowiedzialnych za ruch palców (literówki, np litreówki); nieznajomość pisowni słów i zasad ortografii (wymowa błędnej formy jest taka sama lub podobna do wymowy formy poprawnej, np Stary człowiek i może jako tytuł znanego utworu literackiego a nie reklama leku); nieznajomość morfologii (np upartość zamiast upór) Metody poprawiania pisowni powinny uwzględniać model błędów użytkownika Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (166 / 188)

Odległość Levenshteina Odległość Levenshteina dwóch łańcuchów znaków x i y to minimalna liczba prostych operacji edycyjnych, które przekształcają łańcuch x w łańcuch y (lub odwrotnie) Proste operacje edycyjne to: wstawienie znaku, np kota kwota usunięcie znaku, np kwota kota zamiana znaku, np kota koza zamiana miejscami dwóch sąsiadujących znaków (tzw czeski błąd), np pisk psik Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (167 / 188)

Odległość Levenshteina ed(x 1i+1, Y 1j+1 ) = ed(x 1i, Y 1j ) jeśli x i+1 = y j+1 (ostatnie znaki takie same) = 1 + min{ed(x 1i 1, Y 1j 1, jeśli x i = y j+1 ed(x 1i+1, Y 1j ), ed(x 1i, Y 1j+1 )} i x i+1 = y j (dwa ostatnie znaki zamienione miejscami) = 1 + min{ed(x 1i, Y 1j), w pozost przypadkach ed(x 1i+1, Y 1j), ed(x 1i, Y 1j+1 )} ed(x 10, Y 1j ) = j 0 j n ed(x 1i, Y 10 ) = i 0 i m ed(x 1 1, Y 1j ) = ed(x 1i, Y 1 1 ) = max(m, n) (Definicje brzegowe) Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (168 / 188)

Odległość Levenshteina przestawienie: (kula,kual) ed(x 1i+1, Y 1j+1 ) = ed(x 1i, Y 1j ) jeśli x i+1 = y j+1 (ostatnie znaki takie same) = 1 + min{ed(x 1i 1, Y 1j 1, jeśli x i = y j+1 ed(x 1i+1, Y 1j ), ed(x 1i, Y 1j+1 )} i x i+1 = y j (dwa ostatnie znaki zamienione miejscami) = 1 + min{ed(x 1i, Y 1j), w pozost przypadkach ed(x 1i+1, Y 1j), ed(x 1i, Y 1j+1 )} ed(x 10, Y 1j ) = j 0 j n ed(x 1i, Y 10 ) = i 0 i m ed(x 1 1, Y 1j ) = ed(x 1i, Y 1 1 ) = max(m, n) (Definicje brzegowe) Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (169 / 188)

Odległość Levenshteina usunięcie: (bab,baba) ed(x 1i+1, Y 1j+1 ) = ed(x 1i, Y 1j ) jeśli x i+1 = y j+1 (ostatnie znaki takie same) = 1 + min{ed(x 1i 1, Y 1j 1, jeśli x i = y j+1 ed(x 1i+1, Y 1j ), i x i+1 = y j ed(x 1i, Y 1j+1 )} (dwa ostatnie znaki zamienione miejscami) = 1 + min{ed(x 1i, Y 1j), w pozost przypadkach ed(x 1i+1, Y 1j), ed(x 1i, Y 1j+1 )} ed(x 10, Y 1j ) = j 0 j n ed(x 1i, Y 10 ) = i 0 i m ed(x 1 1, Y 1j ) = ed(x 1i, Y 1 1 ) = max(m, n) (Definicje brzegowe) Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (170 / 188)

Odległość Levenshteina ed(x 1i+1, Y 1j+1 ) = ed(x 1i, Y 1j ) wstawienie: (babab,baba) jeśli x i+1 = y j+1 (ostatnie znaki takie same) = 1 + min{ed(x 1i 1, Y 1j 1, jeśli x i = y j+1 ed(x 1i+1, Y 1j ), i x i+1 = y j ed(x 1i, Y 1j+1 )} (dwa ostatnie znaki zamienione miejscami) = 1 + min{ed(x 1i, Y 1j), w pozost przypadkach ed(x 1i+1, Y 1j), ed(x 1i, Y 1j+1 )} ed(x 10, Y 1j ) = j 0 j n ed(x 1i, Y 10 ) = i 0 i m ed(x 1 1, Y 1j ) = ed(x 1i, Y 1 1 ) = max(m, n) (Definicje brzegowe) Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (171 / 188)

Odległość Levenshteina ed(x 1i+1, Y 1j+1 ) = ed(x 1i, Y 1j ) jeśli x i+1 = y j+1 (ostatnie znaki zamiana: takie (kod,kot) same) = 1 + min{ed(x 1i 1, Y 1j 1, jeśli x i = y j+1 ed(x 1i+1, Y 1j ), i x i+1 = y j ed(x 1i, Y 1j+1 )} (dwa ostatnie znaki zamienione miejscami) = 1 + min{ed(x 1i, Y 1j), w pozost przypadkach ed(x 1i+1, Y 1j), ed(x 1i, Y 1j+1 )} ed(x 10, Y 1j ) = j 0 j n ed(x 1i, Y 10 ) = i 0 i m ed(x 1 1, Y 1j ) = ed(x 1i, Y 1 1 ) = max(m, n) (Definicje brzegowe) Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (17 / 188)

Odległość Levenshteina ed(x 1i+1, Y 1j+1 ) = ed(x 1i, Y 1j ) jeśli x i+1 = y j+1 (ostatnie znaki takie same) = 1 + min{ed(x 1i 1, Y 1j 1, usunięcie: jeśli x i = y j+1 (kot,kota) ed(x 1i+1, Y 1j ), i x i+1 = y j ed(x 1i, Y 1j+1 )} (dwa ostatnie znaki zamienione miejscami) = 1 + min{ed(x 1i, Y 1j), w pozost przypadkach ed(x 1i+1, Y 1j), ed(x 1i, Y 1j+1 )} ed(x 10, Y 1j ) = j 0 j n ed(x 1i, Y 10 ) = i 0 i m ed(x 1 1, Y 1j ) = ed(x 1i, Y 1 1 ) = max(m, n) (Definicje brzegowe) Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (17 / 188)

Odległość Levenshteina ed(x 1i+1, Y 1j+1 ) = ed(x 1i, Y 1j ) jeśli x i+1 = y j+1 (ostatnie znaki takie same) = 1 + min{ed(x 1i 1, Y 1j 1, jeśli x i = y j+1 ed(x 1i+1, Y 1j ), wstawienie: i x i+1 = y j (kota,kot) ed(x 1i, Y 1j+1 )} (dwa ostatnie znaki zamienione miejscami) = 1 + min{ed(x 1i, Y 1j), w pozost przypadkach ed(x 1i+1, Y 1j), ed(x 1i, Y 1j+1 )} ed(x 10, Y 1j ) = j 0 j n ed(x 1i, Y 10 ) = i 0 i m ed(x 1 1, Y 1j ) = ed(x 1i, Y 1 1 ) = max(m, n) (Definicje brzegowe) Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (174 / 188)

Odległość edycyjna przykład g u p c h i s 0 1 4 5 6 7 g 1 0 1 4 5 6 ł 1 1 4 5 6 u 1 4 5 6 p 4 1 4 5 s 5 5 4 4 i 6 5 4 4 Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (175 / 188)

Odległość edycyjna przykład ed(g, g) = ed(ϵ, ϵ) = 0 g u p c h i s 0 1 4 5 6 7 g 1 0 1 4 5 6 ł 1 1 4 5 6 u 1 4 5 6 p 4 1 4 5 s 5 5 4 4 i 6 5 4 4 g g Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (176 / 188)

Odległość edycyjna przykład ed(g, gł) = 1 + min{ed(ϵ, g), ed(g, g), ed(ϵ, gł)} = 1 + min{1, 0, } = 1 g u p c h i s 0 1 4 5 6 7 g 1 0 1 4 5 6 ł 1 1 4 5 6 u 1 4 5 6 p 4 1 4 5 s 5 5 4 4 i 6 5 4 4 g g ł Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (177 / 188)

Odległość edycyjna przykład ed(gu, głu) = ed(g, gł) = 1 g u p c h i s 0 1 4 5 6 7 g 1 0 1 4 5 6 ł 1 1 4 5 6 u 1 4 5 6 p 4 1 4 5 s 5 5 4 4 i 6 5 4 4 g u g ł u Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (178 / 188)

Odległość edycyjna przykład ed(gup, głup) = ed(gu, głu) = 1 g u p c h i s 0 1 4 5 6 7 g 1 0 1 4 5 6 ł 1 1 4 5 6 u 1 4 5 6 p 4 1 4 5 s 5 5 4 4 i 6 5 4 4 g u p g ł u p Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (179 / 188)

Odległość edycyjna przykład ed(gupc, głups) = 1 + min{ed(gup, głup), ed(gupc, głup), ed(gup, głups)} = 1 + min{1,, } = g u p c h i s 0 1 4 5 6 7 g 1 0 1 4 5 6 ł 1 1 4 5 6 u 1 4 5 6 p 4 1 4 5 s 5 5 4 4 i 6 5 4 4 g u p c g ł u p s Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (180 / 188)

Odległość edycyjna przykład ed(gupch, głups) = 1 + min{ed(gupc, głup), ed(gupch, głup), ed(gupc, głups)} = 1 + min{,, } = g u p c h i s 0 1 4 5 6 7 g 1 0 1 4 5 6 ł 1 1 4 5 6 u 1 4 5 6 p 4 1 4 5 s 5 5 4 4 i 6 5 4 4 g u p c h g ł u p s Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (181 / 188)

Odległość edycyjna przykład ed(gupchi, głupsi) = ed(gupch, głups) = g u p c h i s 0 1 4 5 6 7 g 1 0 1 4 5 6 ł 1 1 4 5 6 u 1 4 5 6 p 4 1 4 5 s 5 5 4 4 i 6 5 4 4 g u p c h i g ł u p s i Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (18 / 188)

Odległość edycyjna przykład ed(gupchis, głupsi) = 1 + min{ed(gupch, głup), ed(gupchi, głupsi), ed(gupchis, głups)} = 1 + min{,, 4} = 4 g u p c h i s 0 1 4 5 6 7 g 1 0 1 4 5 6 ł 1 1 4 5 6 u 1 4 5 6 p 4 1 4 5 s 5 5 4 4 i 6 5 4 4 g u p c h i s g ł u p s i Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (18 / 188)

Odległość edycyjna przykład g u p c h i s 0 1 4 5 6 7 g 1 0 1 4 5 6 ł 1 1 4 5 6 u 1 4 5 6 p 4 1 4 5 s 5 5 4 4 i 6 5 4 4 g u p c h i s g ł u p s i Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (184 / 188)

Odległość edycyjna przykład g u p c h i s 0 1 4 5 6 7 g 1 0 1 4 5 6 ł 1 1 4 5 6 u 1 4 5 6 p 4 1 4 5 s 5 5 4 4 i 6 5 4 4 g u p c h i s g ł u p s i Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (185 / 188)

Edycyjna odległość odcięcia Porównywanie w całości wszystkich słów w słowniku z formą niepoprawną X (o długości m) byłoby zbyt kosztowne Wystarczy sprawdzić tylko część potencjalnego zamiennika Y (o długości n) z częścią niepoprawnej formy X i zadecydować, czy sprawdzać następne litery formy: cuted(x 1m, Y 1n ) = min l i u ed(x 1i, Y 1n ), l = min(1, n t), u = max(m, n + t) t jest maksymalną dopuszczalną odległością, operacje min i max zapobiegają wyjściu indeksów poza granice słowa Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (186 / 188)

Edycyjna odległość odcięcia 0 0 1 1 1 4 4 4 4 g ł u p s i o ó ś w w c s i h a ą c m o z a ą e y i z Dla t = 4, cuted(gupchis,głuch)=min{ed(g,głuch),ed(gu,głuch),ed(gup,głuch), ed(gupc,głuch),ed(gupch,głuch),ed(gupchi,głuch),ed(gupchis,głuch)}= Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (187 / 188)

Edycyjna odległość odcięcia 0 0 1 1 1 4 4 4 4 g ł u p s i o ó ś w w c s i h a ą c m o z a ą e y i z g ł u k s i 0 1 4 5 6 g 1 Dla t = 4, cuted(gupchis,głuch)=min{ed(g,głuch),ed(gu,głuch),ed(gup,głuch), ed(gupc,głuch),ed(gupch,głuch),ed(gupchi,głuch),ed(gupchis,głuch)}= Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 6 Korekta pisowni: odległość Levenshteina (188 / 188)