Mirosław Miciak, Roman Wiatr, Tomasz Talaśka, Tomasz Andrysiak 1 Uniwersytet Technologiczno-Przyrodniczy w Bydgoszczy Analiza problemów rozpoznawania przesyłki pocztowej w systemach logistycznych 2 Wprowadzenie Intensywny rozwój firm logistycznych i świadczących usługi pocztowe oraz ciągle rosnące potrzeby klientów wymagają wysokiej jakości świadczonych usług. W procesach logistycznych istotne znaczenie ma jakość tego procesu, którego miarą m. in. jest czas przebiegu przesyłki od nadawcy do adresata. W związku z czym przesyłka wchodząca do systemu logistycznego powinna być jak najszybciej rozpoznana. W procesie przemieszczania, tj. przesyłania przesyłek od nadawcy do adresata występują następujące zasadnicze fazy: gromadzenie, segregacja wstępna, przemieszczanie między węzłami, segregacja, doręczanie. Na podstawie analizy powyższych faz ze względu na długość czasu ich trwania, można stwierdzić, że najbardziej czasochłonne są dwie fazy: przewóz przesyłek między węzłami segregującymi, oraz opracowywanie tj. segregacja przesyłek w węzłach. Na opracowywanie przesyłek w węzłach składają się następujące etapy: rejestracja w systemie teleinformatycznym na wejściu - stanowi jednocześnie podstawę do funkcjonowania systemu śledzenia przesyłek, system transportu wewnętrznego, wielofunkcyjne maszyny segregujące przesyłki na poszczególne kierunki adresowe. W węzłach segregowanie przesyłek odbywa się na liniach automatycznych z wykorzystaniem systemu OCR (ang. Optical Character Recognition), gdzie weryfikowana jest prawidłowość wniesionej opłaty oraz określany kierunek adresowy. Prowadzone są prace w celu podniesienia skuteczności modułu OCR w zakresie odczytywania pisma ręcznego. Pomimo, iż uzyskano zadowalające rezultaty z rozpoznawaniem pisma maszynowego, to pismo ręczne jest nadal trudne do interpretacji. Biorąc pod uwagę fakt, że przesyłki opisane ręcznie stanowią 30% całości przesyłek [8] ważne jest, aby zapewnić lepsze wykorzystanie możliwości systemu OCR. W związku z powyższym dokonano analizy problemów związanych z funkcjonowaniem modułu optycznego rozpoznawania znaków w systemach pocztowych i wskazano szereg problemów do których można zaliczyć zniekształcenia procesu akwizycji, niejednolite tło, zmiany oświetlenia, szumy, obrót, zmiana skali, uszkodzone znaki z brakującymi elementami, przekreślenia. Wymienione aspekty charakteryzują specyfikę wymagań dla metod przetwarzania obrazu w systemach pocztowych. Główne obszary zainteresowań niniejszego artykułu to automatyczne rozpoznawanie kodów pocztowych (pisanych ręcznie i maszynowych), które jest kluczowym elementem systemu segregacji w węzłach, ponieważ od niego zależy skuteczność całego systemu. Obecna technologia rozpoznawania kodów opiera się na systemach ICR (ang. Intelligent Character Recognition), które jest odmianą systemów OCR wykorzystywanych w procesie przetwarzania danych z dokumentów typu formularze. Metody rozpoznawania znaku oparte są zwykle na technologiach sieci neuronowych przy wsparciu tablic walidacji, które podwyższają poziom rozpoznania pola. W spotykanych rozwiązaniach skuteczność rozpoznawania kodów pocztowych wynosi 50-90% [6,8,19]. Analiza cech obrazu znaków przesyłek pocztowych Niezbędnym elementem każdego systemu automatycznego rozpoznawania pisma jest etap segmentacji tekstu, w skład którego wchodzą operacje wydzielania: linii, grup znaków (np. ciągów zawierających kody pocztowe, nazwy, nazwiska, imiona, wyrazy itp.), znaków. W przypadku tekstów maszynowych do segmentacji na linie, można zastosować poziomy profil rzutowania (linie tekstu są od siebie dostatecznie odseparowane i pozwalają na podział) to dla pisma ręcznego może okazać się to problematyczne. Analizując różne rodzaje pisma ręcznego można zauważyć, że większość tekstów pisanych ręcznie jest pochylona w prawo bądź w lewo. Tak więc przed operacją podziału na grupy znaków musi zostać przeprowadzona 1 Uniwersytet Technologiczno-Przyrodniczy w Bydgoszczy, Wydział Telekomunikacji, Informatyki i Elektrotechniki, Instytut Telekomunikacji i Informatyki, 85-796 Bydgoszcz, ul. Kaliskiego 7, tel.: + 48 52 340-81-15, 340-81-14, E-mail: [miroslaw.miciak, roman.wiatr, tomasz.talaska, tomasz.andrysiak] @utp.edu.pl 2 Artykuł recenzowany. Logistyka 1/2016 323
odpowiednia korekcja nachylenia znaków dla każdej linii, ponieważ często zdarza się, że kąt nachylenia pisma zmienia się w trakcie pisania lub też dokument jest pisany przez różne osoby. Ostatnim etapem jest podział na wyrazy i znaki, gdzie za pomocą odpowiednich algorytmów ustalane są określone miejsca podziału. Wybór właściwych kryteriów podziału ma decydujący wpływ na jakość całego procesu segmentacji. Należy również dodać, że wynik segmentacji uzależniony jest od procesów akwizycji i operacji przetwarzania wstępnego. Zatem na etapie segmentacji główny problem stanowi wybór odpowiednich algorytmów w poszczególnych fazach segmentacji uwzględniających właściwości wcześniejszych operacji przetwarzania obrazu w danym systemie rozpoznawania znaków. Znaki otrzymane w procesie akwizycji mogą posiadać różne wielkości, zniekształcenia liniowe i nieliniowe, braki pewnych fragmentów i inne zniekształcenia, których nie udało się wyeliminować w trakcie przetwarzania. W związku z tym większość analizowanych metod rozpoznawania pisma zawiera etap normalizacji, w którym w zależności od potrzeby obraz jest odpowiednio przetwarzany dla potrzeb klasyfikacji lub ekstrakcji cech. Najczęściej wyznaczane są współczynniki rozmiaru, przesunięcia czy też obrotu i na tej podstawie otrzymywany jest zestandaryzowany obraz znaku, który poddawany jest kolejnym etapom procesu rozpoznawania. Problem uzasadnienia celowości stosowania eliminacji poszczególnych zniekształceń na tym etapie przetwarzania uzależniony jest głównie od przyjętego modelu procesu rozpoznawania. Przeprowadzone studia literaturowe wskazują na różne typy podejścia do tego zagadnienia. Można wskazać na rozwiązania, które poddają normalizacji obraz znaku, rozwiązania gdzie normalizowane są tylko cechy obliczone na podstawie znaku otrzymanego w etapie segmentacji, jak również metody, gdzie nie przeprowadza się normalizacji na żadnym z powyższych poziomów. Architektura systemów rozpoznawania danych adresowych, oparta jest głównie o klasyfikatory, które umożliwiają określenie przynależności badanego znaku do właściwej klasy. Możliwe jest to w oparciu o zbiór pewnych własności znaków otrzymanych na etapie pozyskiwania i selekcji cech. W idealnym przypadku zbiór parametrów opisujących np. rozpoznawany znak pola adresowego powinien zawierać tylko niezbędne atrybuty umożliwiające poprawne przydzielenie znaku do określonej klasy. Do najważniejszych typów cech pisma zaliczono cechy strukturalne, statystyczne i globalne [13]. Cechy strukturalne Cechy strukturalne opisują geometryczne i topologiczne własności danego obiektu. Do cech strukturalnych wykorzystywanych w metodach rozpoznawania można zaliczyć m.in.: współczynnik proporcji wysokości i szerokości znaku, liczbę punktów przecięcia w znaku, czy też liczbę pętli i rozgałęzień danego znaku. Metody bazujące na tych atrybutach charakteryzują się małą wrażliwością na zmiany charakteru pisma lub kroju czcionki oraz możliwością jednoczesnego stosowania kombinacji wielu parametrów, co pozytywnie wpływa na skuteczność tego typu rozwiązań [9]. Cechy statystyczne Cechy statystyczne opierają się głównie na badaniu wielkości związanych z rozmieszczeniem poszczególnych punktów należących do badanego znaku. Do tej grupy cech można zaliczyć dane otrzymane w wyniku analizy statystycznej obrazu. Przykładami cech mogą być wyniki operacji podziału obrazu na odpowiednie obszary (ang. zoning) [1] i wyznaczenie wartości takich parametrów jak: koncentracja punktów danego obiektu, kierunek krawędzi, histogram, rzut (np. poziomy lub pionowy profil rzutowania), czy też liczba zmian tło-obiekt. W tej grupie metod spotykane są również rozwiązania opierające się na wyznaczaniu wielkości bazujących na momentach - uzyskując w ten sposób niezmienność cech badanego znaku względem przekształceń geometrycznych takich jak zmiana skali, przesunięcie czy obrót [9]. Znane są także podejścia łączące obie wymienione grupy parametrów [5]. Zaletą metod rozpoznawania znaków bazujących na cechach statystycznych jest łatwość implementacji i małe zapotrzebowanie na moc obliczeniową. Wadą natomiast jest wrażliwość na zniekształcenia i szumy procesu akwizycji i binaryzacji. Cechy globalne Cechy globalne to techniki pozyskiwania wielkości bazujących na stosowaniu różnego rodzaju transformat pozwalające na redukcję przestrzeni cech i umożliwiające osiągnięcie niezmienności względem przesunięcia, zmiany skali i obrotu. Do grupy przekształceń wykorzystywanych w opracowaniach dotyczących rozpoznawania pisma można zaliczyć: transformatę Fouriera, DWT, transformatę Radona, momenty centralne i Zernike, czy też kod łańcuchowy. Analiza metod pozyskiwania cech obrazu Analiza publikacji dotyczących tematyki przetwarzania obrazów i rozpoznawania znaków dla celów pocztowych pozwala na stwierdzenie, iż metody rozpoznawania znaków w ogólności bazują na informacji o kształcie. Poniżej przedstawiono dwie metody wykorzystujące te zależności. Metody konturowe Metody konturowe są łatwe w implementacji, ale bardzo wrażliwe na zakłócenia. W większości bazują na doskonale znanej transformacie Fouriera. Niestety w przypadku niektórych zastosowań w obrazach występują duże zniekształcenia (szumy, bardzo zróżnicowane tło szare, białe, jasno brązowe, bardzo różny kolor znaków, znaki z dobrze widocznymi fragmentami itp.), dlatego skuteczność tego typu metod jest niska. Logistyka 1/2016 324
Metody obszarowe Metody obszarowe wykorzystują w procesie rozpoznawania znaków najczęściej różnego rodzaju momenty. Wymagają one binaryzacji, normalizacji i dużego nakładu obliczeniowego. W przeciwieństwie do metod konturowych są bardziej odporne na zakłócenia w przetwarzanych obrazach. Metody rozpoznawania znaków w zadaniach klasyfikacji parametrów adresowania przesyłek pocztowych Większość przeanalizowanych technik rozpoznawania znaków z wykorzystaniem metod przetwarzania obrazów opiera swoje działanie na porównywaniu wydzielonych cech z badanego obrazu ze wzorcami umieszczonymi w obrazowej bazie danych. Kluczowym zagadnieniem techniki rozpoznawania znaków jest odpowiedni wybór cech tak, aby system mógł działać w czasie rzeczywistym, a wydzielone cechy pozwalały na skuteczną klasyfikację, co jest bardzo istotne w przypadku zastosowań pocztowych. Przeprowadzona analiza powszechnie stosowanych metod rozpoznawania pisma pozwoliła na wskazanie pewnych najliczniej reprezentowanych technik. Poniżej zaprezentowano główne narzędzia wykorzystywane w procesie rozpoznawania znaków. Metody bazujące na transformacie Fouriera Metody wykorzystujące transformatę Fouriera (ang. Fourier Transform) są narzędziami szeroko wykorzystywanym w przetwarzaniu sygnałów. Umożliwiają przejście z funkcji opisanej w dziedzinie czasu do funkcji opisanej w dziedzinie częstotliwości oraz pozwala na operację odwrotną. Cyfrowe przetwarzanie sygnałów przeważnie wykorzystuje dyskretną wersję tego przekształcenia, tzw. dyskretną transformatę Fouriera, która znalazła szerokie zastosowanie w analizie sygnałów cyfrowych jak również w systemach rozpoznawania obrazów. Istnieje możliwość określenia dwuwymiarowej granicy znaku za pomocą jednowymiarowej funkcji odległości wyznaczonej od środka ciężkości znaku. Dane odwzorowujące np. zewnętrzny kontur znaku mogą być wyznaczone za pomocą funkcji odległości od środka ciężkości (ang. centroid distance function) [26], tworząc reprezentację kształtu inwariantną względem przesunięcia. Praktyczne realizacje systemów przetwarzania pisma na etapie przetwarzania wstępnego dostarczają informacje o znaku w postaci ciągu wartości kolejnych współrzędnych np. zewnętrznego konturu. Tego typu dane mogą być użyte do reprezentacji kształtów za pomocą funkcji współrzędnych zespolonych (ang. complex coordinates function). W ten sposób krzywa cyfrowa reprezentująca kontur znaku podana w postaci parametrycznej może być reprezentowana w postaci zmiennej zespolonej [18,19]. Metody rozpoznawania znaków z wykorzystaniem opisu konturu znaku sprawdzają się w sytuacjach, kiedy rozpoznawane znaki posiadają ciągły kontur. W rzeczywistości jednak obrazy znaków często posiadają uszkodzenia w postaci nieciągłości i szumów, co prowadzi to do wygenerowania kilku konturów w obrębie jednego znaku. Należy zauważyć, że określanie cech obrazu niezależnych od obrotu prowadzi do błędnej klasyfikacji niektórych znaków np. cyfr 6 oraz 9 [19]. Metody z zastosowaniem transformacji czasowo-częstotliwościowej Metody wykorzystujące transformacje czasowo-częstotliwościowe, a w szczególności transformatę falkową, zdobyły dużą popularność głównie dzięki możliwościom utworzenia reprezentacji sygnału zarówno w czasie jak i częstotliwości. Dzięki zmiennej rozdzielczości metoda czasowo-częstotliwościowa znalazła bardzo szerokie zastosowanie w wielu dziedzinach związanych z przetwarzaniem obrazu. W praktycznych realizacjach najczęściej spotykane są dwa zastosowania transformaty: ciągła transformata falkowa (CWT) i dyskretna transformata falkowa (DWT). W pracy [25] ciągła odmiana transformaty falkowej została wykorzystana do uzyskania inwariantnych reprezentacji dla zamkniętego konturu znaku, gdzie autorzy uzyskali ponad 95% współczynnik poprawnie sklasyfikowanych ręcznie pisanych znaków (cyfr). Natomiast w pracy [21] zaproponowano zastosowanie odmiany kierunkowej dwuwymiarowej CWT, uzyskując w ten sposób niezmienne względem przesunięcia współczynniki transformaty reprezentujące cechy przetwarzanego obrazu znaku. Przeprowadzone przez autorów eksperymenty pozwoliły na osiągnięcie ponad 90% skuteczności rozpoznawania dla ręcznie pisanych cyfr. Warto zaznaczyć, że metody falkowe w ogólności są wrażliwe na rotację, przesunięcie czy zmianę skali, dlatego też w większości prezentowanych tutaj metod stosowane są operacje przetwarzania wstępnego. Drugim problemem jest odpowiedni wybór cech obrazu znaku ze względu na występowanie nadmiarowej reprezentacji obrazu znaku i to zarówno w przypadku ciągłej czy też dyskretnej odmiany transformaty falkowej. Metody bazujące na momentach geometrycznych Metody wykorzystujące momenty geometryczne to kolejna grupa technik stosowanych w procesie rozpoznawania pisma, które mogą być stosowane nie tylko w celu określenia cech ale również orientacji przetwarzanego znaku. Z tego powodu szybko rozwinęły się techniki umożliwiające rozpoznawanie pisma niezależnie od jego położenia, rozmiaru czy też orientacji poszczególnych wyrazów lub znaków. Przykładem mogą być rozwiązania wykorzystujące w charakterze cech znaków ich momentów geometrycznych [12]. Ponadto do opisu obiektów można też użyć parametrów, które są pewną kombinacją momentów centralnych oraz są inwariantne względem obrotu i translacji. Wspomniane techniki najczęściej wykorzystują znormalizowane momenty centralne, pozwalające wskazać pewne parametry, które są inwariantne względem podstawowych przekształceń geometrycznych. W praktycznych zastosowaniach największe znaczenia mają momenty niskich rzędów. Logistyka 1/2016 325
Metody wykorzystujące ukryte modele Markowa Są to rozwiązania bazujące na modelach znaków, które zawierają pewne elementy wspólne i na etapie przechowywania oraz porównywania niektóre informacje na temat danych modelu są powielane. Rozwiązaniem tego problemu okazało się utworzenie modelu, którego podstawowe jednostki składały się z różnych fragmentów znaku (ang. Sub character). Realizacje metody [3] wskazywały na lepsze wykorzystanie danych uczących ze względu na wprowadzony podział modelu. Trudnością okazuje się jednak sama technika podziału znaku na segmenty. W związku z tym zaproponowano m.in. kryteria podziału uwzględniające występowanie pętli, wypukleń (ang. humps) i wierzchołków (ang. cusps). Jeszcze inne propozycje zakładały dokonywanie segmentacji już na etapie przetwarzania wstępnego. Podział na segmenty generuje trudności w procesie tworzenia modeli, ponieważ na tym etapie mogą być wydzielone pojedyncze znaki. W pracy [4] dokonano dekompozycji znaku ze względu na tzw. grammy tworząc w ten sposób model znaku składający się co najmniej z kilku fragmentów. Taka realizacja pozwoliła na znaczne ułatwienie procesu segmentacji, ponieważ elementem bazowym modelu mógł być dowolny fragment przetwarzanego tekstu. Przykładową aplikacją wykorzystująca tego typu założenia może być system AEGIS (ang. Automatic Evolutional Grammar Interpretation System) zaprezentowany w pracy [11]. Rozwiązanie to dla opracowanego zestawu 93 modeli fragmentów linii osiąga skuteczność rozpoznawania wyrazów na poziomie 94%. Metody rozpoznawania pisma z wykorzystaniem ukrytych modeli Markowa charakteryzuje wysoki współczynnik rozpoznawania. Metody z zastosowaniem sztucznych sieci neuronowych Są to najczęstsze i najbardziej popularne techniki wykorzystywane w zadaniu rozpoznawania znaków. Pierwsze efektywne rozwiązania systemów automatycznego rozpoznawania zaprezentowano w 1989 roku w pracy [14]. Przedstawiona aplikacja wykorzystywała wielowarstwową sieć neuronową wspieraną przez algorytm uczenia z nauczycielem. Autorzy publikacji [16] zaproponowali system rozpoznawania dla znaków uzyskanych w kolejnych etapach przetwarzania przedstawionych w [22], które następnie poddano liniowej normalizacji wielkości do wymiarów 16 na 16 punktów oraz ograniczono wartości jaskrawości do przedziału -1 do 1. Zastosowana tam sieć składała się z czterech ukrytych warstw [15] i praktyce pozwalała na osiągnięcie skuteczności w granicach 93% dla pisma ręcznego oraz niemalże 100% pisma maszynowego. Późniejsze rozwiązania bazujące głównie na sieciach ze sprzężeniem feed-forward, składające się perceptronów uformowanych w architekturę wielowarstwową MLP (ang. multi-layer-perceptron) [4] oraz sieci z funkcjami o symetrii kołowej RBF (ang. radial-basis function) [10] spowodowały, że wielowarstwowe sieci nieliniowe były często stosowane w aplikacjach rozpoznawania pisma ręcznego. Popularność metod opartych o sieci MLP wynika przede wszystkim z stosunkowo łatwego procesu uczenia sieci oraz szybkiego procesu decyzyjnego w trakcie klasyfikacji. Wadami większości z powyżej omówionych metod są przede wszystkim złożone procesy optymalizacji dla poszczególnych klasyfikatorów oraz problem z właściwym określeniem lokalnych obszarów w przestrzeni cech, jak również konieczność przechowywania znacznej ilości danych uczących. Metody wykorzystujące przekształcenia obrazu w przestrzeń parametryczną Metody wykorzystujące przekształcenie obrazu w przestrzeń parametryczną stanowią kolejną grupę przeanalizowanych technik stosowanych w zadaniu rozpoznawania znaków. W większości bazują one na przekształceniu obrazu znaku w przestrzeń parametrów (z wykorzystaniem przekształcenia Hougha lub Radona), gdzie można uzyskać informacje o lokalnych właściwościach obrazu znaku (np. linie proste). W pracy [2] autorzy wykorzystali całą reprezentację parametryczną transformaty Radona w charakterze cech obrazu znaku i w przeprowadzonych eksperymentach wykazali skuteczność metody na poziome 96% (dla obrazów cyfr). Niestety praktyczne wykorzystanie tak zaproponowanego wektora cech może okazać się problematyczne ze względów obliczeniowych jak również z powodu wrażliwości reprezentacji parametrycznej na operacje rotacji, zmiany skali i przesunięcia. Analiza metod klasyfikacji cech elementów obrazu pola adresowego przesyłek pocztowych Klasyfikacja cech analizowanego znaku dla metod zaproponowanych w artykule, w ogólności jest realizowana zgodnie ze schematem rozpoznawania obiektów polegającym na wyznaczeniu reguły klasyfikacyjnej w oparciu o pewien zbiór nazywany też zbiorem uczącym. Tworzenie takich reguł jest głównym zadaniem analizy dyskryminacyjnej (ang. discriminant analysis) i polega na rozstrzyganiu, które zmienne w najlepszy sposób dzielą dany zbiór przypadków na występujące w naturalny sposób grupy. Techniki analizy pozwalają m.in. rozstrzygnąć, czy grupy różnią się ze względu na średnią pewnej zmiennej, czy też wykorzystać zmienną do przewidywania przynależności do danej grupy. Generalnie klasyfikacja polega na przeprowadzeniu etapu uczenia - czyli budowy modelu, w którym znajdowane są reguły klasyfikacyjne w oparciu o zbiór uczący (próbę statystyczną), oraz etapu klasyfikacji - czyli wykorzystania modelu, w którym dokonywana jest klasyfikacja zasadniczego zbioru obiektów. Dla potrzeb przeprowadzenia niniejszej analizy wybrano trzy typy klasyfikatorów. Klasyfikator minimalno odległościowy Technika ta umożliwia klasyfikację, której kryterium stanowi miara odległości między wektorem badanego znaku, a wektorem zbioru uczącego. Miara odległości euklidesowej dana jest następująca zależnością: Logistyka 1/2016 326
N ( Ci, Cr ) = j= 1 [ ] 2 R( j) A( j) D, (1) gdzie: C i znak ze zbioru uczącego, C r znak analizowany, R wektor cech znaku aktualnie rozpoznawanego, A wektor cech znaku ze zbioru uczącego oraz N liczba cech. W przeprowadzonej procedurze rozpoznawania, minimalna odległość między analizowanym wektorem, a przedstawicielami wektorów klasy zbioru uczącego stanowi kryterium dla wyboru klasy znaku. Klasyfikator k-najbliższych sąsiadów Klasyfikator k-najbliższych sąsiadów (ang. k-nearest neighbours), został zaproponowany w pracy [7]. Jest algorytmem regresji nieparametrycznej, dla którego dany jest zbiór uczący zawierający obserwacje, z których każda ma przypisany wektor zmiennych objaśniających oraz wartość zmiennej objaśnianej Y. Dana jest również obserwacja C z przypisanym wektorem zmiennych objaśniających dla której chcemy prognozować wartość zmiennej objaśnianej Y. Algorytm polega na: krok 1: porównaniu wartości zmiennych objaśniających dla obserwacji C z wartościami tych zmiennych dla każdej obserwacji w zbiorze uczącym, krok 2: wyborze k (ustalona z góry liczba) najbliższych do C obserwacji ze zbioru uczącego, krok 3: uśrednieniu wartości zmiennej objaśnianej dla wybranych obserwacji, w wyniku czego uzyskujemy prognozę. Definicja najbliższych obserwacji w kroku 2 sprowadza się do minimalizacji ustalonej metryki, mierzącej odległość pomiędzy wektorami zmiennych objaśniających dwóch obserwacji. Klasyfikator LTF-C LTF-C (ang. Local Transfer Function Classifier) [23,24] to sieć neuronowa do zadań klasyfikacyjnych o architekturze zbliżonej do sieci radialnych (RBF). Składa się z dwóch warstw neuronów. Pierwsza warstwa (tzw. ukryta) zawiera neurony o gaussowskiej funkcji transferu, które wykrywają w danych treningowych skupiska wzorców z tej samej klasy. Każdy neuron tej warstwy ma przypisaną klasę, której skupisko stara się wykryć. Drugą warstwę tworzą neurony liniowe, które segregują odpowiedzi neuronów ukrytych według przypisanych klas, następnie realizowana jest operacja sumowania i formułowana jest ostateczna odpowiedź sieci. Wnioski W artykule poruszono zagadnienia problematyki przetwarzania obrazów przesyłek pocztowych w celu określenia dystynktywnych cech w procesie rozpoznawania przesyłki pocztowej. Dokonano przeglądu szeregu wybranych metod przetwarzania obrazu przesyłki pod kątem zastosowania w systemach logistycznych. Analiza literatury [7,8,10,11,15] wskazuje na brak uniwersalnego podejścia w sposobie przetwarzania i reprezentacji obrazu dla celów identyfikacji. Większość spotykanych rozwiązań bazuje na podstawowym modelu RGB, a ewentualne zmiany sposobu kodowania są uzależnione od przeznaczenia i sposobu dalszego przetwarzania danych w systemie rozpoznawania. W związku z tym procesy przetwarzania wstępnego determinują wybór następnych etapów ekstrakcji cech. Z przeprowadzonej analizy literatury wynika również, że informacja o kolorze może być również użyteczna w systemach rozpoznawania. Identyfikacja opłat pocztowych na podstawie analizy przestrzeni parametrycznej obrazu przesyłki wydaje się być odpowiednim rozwiązaniem, by wspomóc systemy logistyczne w zakresie automatycznego opracowywania przesyłek pocztowych. Rozpoznawanie obrazów z wykorzystaniem transformat przestrzeni parametrycznej obrazu umożliwia wydzielenie cech obrazu znaku, które są niezmienne względem podstawowych przekształceń geometrycznych. Ponadto zastosowanie na etapie przetwarzania wstępnego odpowiedniej przestrzeni barw umożliwi dodatkowo uzyskanie niezależności względem zmian intensywności oświetlenia, co jest szczególnie ważne w specyficznych warunkach opracowywania przesyłek pocztowych. Podsumowując, obecne realizacje systemów automatycznego rozpoznawania danych teleadresowych nie mają już większych problemów z przetwarzaniem obrazów znaków maszynowych, ale należy zaznaczyć, że ciągle istnieją duże trudności związane z odczytem adresów pisanych ręcznie. Sytuację dodatkowo komplikują zakłócenia w postaci różnego rodzaju szumów powstających w procesie akwizycji oraz zniekształcenia znajdujące się bezpośrednio na nośniku zawierającym dane adresowe. Streszczenie W artykule przedstawiono propozycje metod wydzielenia cech charakterystycznych dla obrazów przedstawiających przesyłki pocztowe. Zaproponowano algorytmy przetwarzania obrazu opłaty pocztowej, tak aby pod uwagę były brane te cechy, które zawierają najwięcej dystynktywnych informacji. Przedstawiono szereg metod klasyfikacji cech obrazu możliwych do zastosowania w systemach rozpoznawania i klasyfikacji przesyłek pocztowych. Uwzględniono możliwość zastosowania informacji w procesie ekstrakcji cech obrazu przesyłki pocztowej. Zwrócono uwagę na problemy związane z przetwarzaniem wstępnym i segmentacją obrazu kolorowego oraz wyboru przestrzeni barw na późniejsze etapy przetwarzania. Słowa kluczowe: przetwarzanie obrazu, procesy logistyczne, przestrzeń parametryczna obrazu. Logistyka 1/2016 327
The analysis of recognition of postal items problems in logistic systems Abstract The article presents proposals for methods of extracting the features of the post mails images. Image processing algorithms have been proposed payment, to be taken into account those features that contain the most distinctive information. The possibility of applying the information extraction process imaging features of postal. Attention was paid to the problems of pre-processing and image segmentation of color and choice of color space for subsequent processing steps Keywords: image processing, logistics tasks, parametric space image. LITERATURA / BIBLIOGRAPHY [1] Aires S.B.K., Perceptual Zoning for Handwritten Character Recognition, 12th Conference of the International Graphonomics Society, 2005. [2] Aradhya V. N. M., Kumar G. H., Noushath S., Robust Unconstrained Handwritten Digit Recognition using Radon Transform. ICSCN '07, pp. 626-629, 2007. [3] Bercu S., Lorette G., On-line Handwritten Word Recognition: An Approach Based on Hidden Markov Models. Pre- Proc. IWFHR III, pp. 385, USA 1993. [4] Bourbakis N., Methodology for document processing: separating text from images. Engineering Applications of Artificial Intelligence, vol. 14, 2001. [5] Emam A., Alkhatib H., Character recognition of Arabic Script, The 4th International Conference and Exhibition on Multi-Lingual Computing, Cambridge, 1994. [6] Filatov A., Volgunin A., Handwritten ZIP Code Recognition, 4th International Conference on Document Analysis and Recognition, USA 1997. [7] Fix E., Hodges J.L., Discriminatory analysis - nonparametric discrimination, Report no. 4, USAF School of Aviation Medicine, pp. 261-279, USA, 1951. [8] Forella G., Word perfect, Postal Technology, 2000. [9] Gonzales R.C., Digital Image Processing, Addison-Wesley Publishing Company, Boston, 1992. [10] Haykin S., Neural Networks., A Comprehensive Foundation. MPC, UK 1994. [11] Hu J., HMM Based On-Line Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.18, pp. 1039-1045, USA 1996. [12] Khedekar S, Ramanaprasad V., Setlur S., Govindaraju V., Text - Image Separation in Devanagari Documents. Document Analysis and Recognition, Edinburgh 2003. [13] Khorsheed M.S., Off-line Arabic character recognition: A review, Pattern Analysis and Applications, vol.5, pp. 31-45, Springer, 2002. [14] Le Cun Y., Boser B., Denken J.S., Henderson D., Howard R.E., Backpropagation Applied to Handwritten Zip Code Recognition. NC, vol.1, s. 541-551, 1989. [15] Le Cun Y., Generalization and Network Design Strategies. Connectionism in Perspective, Elsevier, Switzerland 1989. [16] Le Cun Y., Matan O., Boser B., Denken J.S., Henderson D., Howard R.E., Hubbard W., Handwritten Zip Code Recognition with Multilayer Networks. ICPR, pp. 35-40, 1989. [17] Mahmoud S. A., Abu-Amara M. H., The use of radon transform in handwritten Arabic (Indian) numerals recognition. WSEAS TCA, vol. 9, pp. 252-267, USA 2010. [18] Maszewski M., Miciak M., Rozpoznawanie danych teleadresowych z wykorzystaniem współczynników Fouriera i zespolonej dyskretnej transformacji falkowej opartej na projekcji. Techniki Przetwarzania Obrazu, Serock 2006. [19] Miciak M., Marchewka M., The recognition of Postal Code Using Fourier Transform Method. XII Konferencja Sieci i Systemy Informatyczne, Łódź 2004. [20] Miciak M., Character Recognition Using Radon Transformation and Principal Component Analysis in Postal Applications, IMCIST 2008, Wisła 2008. [21] Romero D. J., Seijas L. M., Ruedin A. M., Directional Continuous Wavelet Transform Applied to Handwritten Numerals Recognition Using Neural Networks. JCS, 7, 2007. [22] Vapnik V.N., The Nature of Statistical Learning Theory. Information Science and Statistics, Springer-Verlag, 1995. [23] Wojnarski M., LTF-C Architecture, Training Algorithm and Applications of New Neural Classifier, Fundamenta Informaticae, vol.54, pp. 89 105, IOS Press, 2003. [24] Wojnarski M., LTF-C - Neural Network for Solving Classification Problems, Parallel Processing and Applied Mathematics, Lecture Notes in Computer Science, vol.2328, s.573-578, 2006. [25] Wunsch P., Laine A. F., Wavelet descriptors for multiresolution recognition of handprinted characters. Pattern Recognition 28, pp. 1237-1249, 1995. [26] Zhang D., Lu G., A Comparative Study on Shape Retrieval Using Fourier Descriptors with Different Shape Signatures. ICIMADE '01, pp. 1-9, USA 2001. Logistyka 1/2016 328