PROBLEMY IDENTYFIKACJI DANYCH ADRESOWYCH W AUTOMATYCZNYM PROCESIE SORTOWANIA PRZESYŁEK ROMAN WIATR, MIROSŁAW MICIAK Streszczenie W artykule przedstawiono główne problemy automatyzacji procesu identyfikacji danych adresowych w procesie sortowania przesyłek pocztowych. Szczególn uwag skupiono na najistotniejszym segmencie linii sortuj cej, jakim jest zintegrowana maszyna czytaj ca z wideokodowaniem. Za pomoc tego modułu automatycznie odczytuje si adresy z przesyłki. Od sprawno ci tego modułu zale koszty i przepustowo całego systemu opracowania przesyłek. W artykule przedstawiono główne problemy zwi zane z akwizycj i lokalizacj pola adresowego oraz, wydzielania znaków. Słowa kluczowe: rozpoznawanie danych adresowych, proces automatyzacji, sortowanie przesyłek Wprowadzenie Systemy rozpoznawania obrazów s aktualnie dynamicznym obszarem działalno ci badawczej. Rozpoznawanie i przetwarzanie obrazów jest powszechnie wykorzystywane w technice komputerowej do identyfikacji dokumentów w urz dach i instytucjach u yteczno ci publicznej. Kierunki rozwoju systemów rozpoznawania uwzgl dniaj mo liwo ci rozpoznawania pisma jak równie umo liwiaj ograniczenie ilo ci przechowywanych danych. Obecnie najwi kszymi odbiorcami systemów automatycznego rozpoznawania dokumentów s instytucje pocztowe. Pojawiaj si mo liwo ci zastosowania systemów automatycznego rozpoznawania znaków do sortowania przesyłek na podstawie adresu bez wpisanego kodu pocztowego. 1. Procesy opracowania przesyłek w pocztowych systemach transportowych Przesyłka pocztowa jest to ładunek jednostkowy opatrzony adresem, przyj ty przez operatora pocztowego w celu przemieszczenia i dor czenia adresatowi. Zgodnie z t definicj przesyłka pocztowa mo e by form ł czno ci polegaj cej na zdalnym przekazywaniu dokumentów lub przedmiotów przy u yciu rodków transportu l dowego, wodnego, powietrznego lub elektronicznego. W procesie przemieszczania, przesyłania przesyłek od nadawcy do adresata wyst puj nast puj ce zasadnicze fazy: gromadzenie, sortowanie wst pne, przemieszczanie, sortowanie, dor czanie. W procesie technologicznym przesyłania przesyłek listowych istotne znaczenie ma jako tego procesu, którego miar jest czas przebiegu przesyłki od nadawcy do adresata. W procesie przesyłania przesyłek od nadawcy do adresata mo na wyró ni dwie zasadnicze fazy: transport przesyłek mi dzy w złami rozdzielczymi i ich opracowywanie w w złach rozdzielczych. 162
Studies & Proceedings of Polish Association for Knowledge Management Nr 80, 2016 W całym procesie pocztowym [13,19] wiod c rol pełni W zły Ekspedycyjno Rozdzielcze (WER), poniewa opracowuj one wi kszo przepływaj cych w systemie pocztowym przesyłek. W w złach zbiegaj si strumienie przesyłek pochodz cych niemal e ze wszystkich kierunków w kraju. W momencie dopływu ładunków do WER s one rejestrowane w systemie teleinformatycznym. Dokonuje si tego na stanowiskach recepcyjnych, przy u yciu kodów kreskowych, które umieszczane s na opakowaniach zbiorczych, a tak e na niektórych rodzajach przesyłek. Dzi ki temu fizycznemu strumieniowi ładunków przepływaj cych w sieci logistycznej, generowane s informacje o tych ładunkach, a tak e o ich zawarto ci, co stanowi jednocze nie podstaw dla funkcjonowania systemu ledzenia przesyłek, a tak e baz danych dla działa analitycznych, sprawozdawczych i reklamacyjnych [4]. Podstawowe elementy składowe WER to: zintegrowany system teleinformatyczny, kompleksowy system transportu wewn trznego, wielofunkcyjne maszyny sortownicze do rozdziału listów o rozmiarach standardowych (ekonomicznych, priorytetowych, ekonomicznych i in.), listów niestandardowych, paczek, urz dzenia wspomagaj ce proces pocztowy jak system komunikacji i lokalizacji rodków transportu, system ledzenia przesyłek [13]. Ze wzgl du na pracochłonno procesu, terminy czasowe dostarczania przesyłek najwi cej uwagi wymaga proces sortowania przesyłek listowych w WER-ach. Maszyny do automatycznego sortowania przesyłek listowych s ustawione jako niezale ne segmenty: maszyna rozdzielaj ca i licuj co stempluj ca CFC, zintegrowana maszyna czytaj ca z wideokodowaniem IRV, maszyna do rozdziału szczegółowego FSM, maszyna do rozdziału przesyłek typu flat FSS. 2. Rozdział przesyłek listowych w W złach Ekspedycyjno Rozdzielczych (WER) Mechanizacja i automatyzacja procesów technologicznych to rodki, jakie wiele administracji pocztowych na wiecie z powodzeniem zastosowało w celu ułatwienia pracy, a przede wszystkim dla zapewnienia terminowo ci przebiegu przesyłek. Poczta Polska proces ten rozpocz ła w 1992r. Do chwili obecnej automatyczne rozdzielnie listowe pracuj w nast puj cych w złach: Warszawa, Katowice, Pozna, Kraków oraz Łód. Wszystkie te w zły s wyposa one w maszyny dostarczane przez niemieck firm Siemens Electrocom z wyj tkiem w zła w Warszawie, który wyposa ono w lini do rozdziału przesyłek listowych firmy japo skiej Nippon Electric Company (NEC). Proces opracowywania listów w WER-ach mo na podzieli na dwa etapy. W pierwszym nast puje wst pna selekcja na przesyłki standardowe nadaj ce si do sortowania maszynowego oraz przesyłki o nietypowych kształtach i rozmiarach przeznaczonych do opracowania r cznego. W dalszej kolejno ci w maszynie czytaj cej z wideokodowaniem IRV, system za pomoc modułu optycznego rozpoznawania znaków OCR (ang. OCR Optical Character Recognition) automatycznie odczytuje adres. Rz d poziomych, pomara czowych kresek w dolnej cz ci listu lub pocztówki to efekt odczytania kodu pocztowego i nazwy miejscowo ci. Nanosi je, po elektronicznym przetworzeniu, drukarka natryskowa. Nadrukowany kod kreskowy posłu y nast pnym modułom LSM (ang. Letter Sorting Machine) i FSM (ang. Flat Sorting Machine) do ko cowego (szczegółowego) rozdzielenia przesyłek. Posortuj one i pogrupuj korespondencj do wybranych obszarów, np. rejonów dor cze i pocztowych urz dów oddawczych. W przypadku kiedy OCR nie mo e sobie poradzi z odczytaniem danych adresowych, obraz przesyłki trafia do sekcji VCD (ang. 163
Roman Wiatr, Mirosław Miciak Problemy identyfikacji danych adresowych w automatycznym procesie sortowania przesyłek Video Coding Desk). Jest to zespół stanowisk, wspomagaj cych odczyt automatyczny, gdzie na ekranach monitorów pojawiaj si strony adresowe przesyłek pocztowych. Operatorzy wpisuj kody pocztowe, a w przypadku rozdziału przesyłek dla niektórych miast nazw ulicy i numer. Cało tworzy tzw. wideokodowanie (ang. Video Coding System) [8]. Podstawowe problemy zwi zane z automatycznym sortowaniem przesyłek pocztowych to: znacz cy wpływ sprawno ci modułu OCR na efektywno pracy systemu. W przypadku du ej ilo przesyłek adresowanych odr cznym pismem, sprawno automatycznego odczytu przy u yciu modułu OCR znacz co spada. 3. Parametry adresowania przesyłek ze wzgl du na skuteczno ich rozpoznawania Wymagania dotycz ce przesyłki listowej, bloku adresowego oraz dostosowanie znaczków pocztowych zostały ci le sprecyzowane i uregulowane w obowi zuj cych przepisach pocztowych. Przepisowy format przesyłki listowej dostosowanej do automatycznego rozdziału to: długo : 138 240 mm, wysoko : 88 165 mm, grubo : 0,16 5 mm, masa maksymalna: 50 g. Wymagania bloku adresowego s nast puj ce: pomi dzy poszczególnymi wierszami adresu nie nale y pozostawia odst pów, pocz tki wierszy w bloku adresowym winny le e w jednej linii, nie nale y u ywa podkre le, PNA (Pocztowy Numer Adresowy) i nazw miejscowo ci nale y umie ci w ostatnim wierszu, PNA nale y wpisywa we wła ciwe, wst pnie nadrukowane okienka, wiersze adresu nie mog przebiega uko nie, w przypadku stosowania kopert z okienkami, adres musi by w widoczny w okienku. Ponadto podane s zalecenia, na które nale y zwróci uwag podczas adresowania przesyłek: adres pisz czytelnym pismem, kod i miejscowo pisz drukowanymi, prostymi, oddzielnymi literami, nie podkre laj adresu lub jego cz ci, pierwsze litery poszczególnych linii adresu musz tworzy jedn kolumn, poni ej kodu i nazwy miejscowo ci nie umieszczaj adnych napisów, rysunków czy naklejek, u ywaj niebieskiego lub czarnego tuszu, nie pisz adresu kolorem czerwonym (i jego pochodnymi), gdy maszyny nie odczytaj adresu w tym kolorze, nale y unika drukarek igłowych (nanoszone przez nie znaki s nieczytelne dla maszyny sortuj cej korespondencj ), wysoko czcionki u ytej przy adresowaniu nie powinna by mniejsza ni 2,5 mm i nie wi ksza ni 4,7 mm, logo, napisy reklamowe, znaki drukarskie, itp. powinny by umieszczone z lewej strony bloku adresowego. Automatyczne rozpoznawanie kodów pocztowych jest kluczowym elementem systemu sortowania, bowiem od niego zale y skuteczno całego systemu. Obecna technologia rozpoznawania kodów opiera si na systemach ICR (ang. ICR Intelliget Character Recognition), które jest odmian systemów OCR wykorzystywanych w procesie przetwarzania danych z dokumentów typu formularze. Metody rozpoznawania znaku oparte s zwykle na technologiach sieci neuronowych przy wsparciu tablic walidacji, które podwy szaj poziom rozpoznania pola. W spotykanych rozwi zaniach skuteczno rozpoznawania kodów pocztowych wynosi 40 90% [2,6,7,11,12,14]. 164
Studies & Proceedings of Polish Association for Knowledge Management Nr 80, 2016 4. Problemy lokalizacji danych teleadresowych i opłaty pocztowej Aby przesyłka pocztowa dotarła do adresata, musi zosta opatrzona jego adresem pocztowym. Wzór adresowania zawiera: imi i nazwisko adresata lub nazw instytucji, miejscowo zamieszkania, poło enie w tej miejscowo ci (ulica, numer budynku, numer mieszkania) oraz kod pocztowy. Wi kszo przesyłek posiada specjalne pole z miejscem na wpisanie adresata [5]. W celu odnalezienia danych teleadresowych na przesyłce pocztowej nale y oddzieli elementy zawieraj ce tekst od elementów grafiki, poniewa na przesyłce bardzo cz sto znajduj si inne obiekty takie jak piecz ci, znaczki, reklamy, logo firmy. Powszechnie w tym celu stosuje si algorytmy morfologiczne [15], algorytmy oparte na izolowaniu znaków na podstawie cech izotropowych [17], algorytmy bazuj ce na analizie tła [16], profilu rzutowania [10], czy algorytmy oparte na rozpoznawaniu znaków w izolowanych obiektach [3]. Działanie algorytmu oparte jest na badaniu kolejnych fragmentów obrazu przesyłki, gdzie uzyskiwane s dwie wielko ci: liczba punktów obiektu (1) oraz liczba zmian z 0 na 1 oraz z 1 na 0. Obie wielko ci s mno one, obszar, dla którego pomiar osi gn ł warto maksymaln jest klasyfikowany jako obszar, w którym znajduje si tekst [9]. Dodatkowo stosuje si moduł decyzyjny, który pozwoli okre li obszary, gdzie znajduj si dane adresata [11]. Kolejnym etapem przetwarzania obrazu danych teleadresowych jest usuni cie k ta przekosu [12]. Do okre lenia jego warto ci mo emy wykorzysta metod bazuj c na poziomym profilu rzutowania oraz rozkładzie Winger-Ville. Poziomy profil rzutowania dla obrazu teksu (danych adresowych) charakteryzuje si wi kszymi warto ciami szczytowymi oraz posiada wi ksz dynamik zmian, ni poziomy profil tego samego tekstu umieszczonego pod k tem. Rysunek 1. Przykładowy wynik działania algorytmu okre laj cego k t przekosu ródło: opracowanie własne. Nast pnym krokiem jest segmentacja obrazu na linie, w tym celu wykorzystuje si uzyskany w poprzednim kroku poziomy profil rzutowania i je eli linie s od siebie dostatecznie odseparowane, to histogram przedstawia dobrze oddzielone warto ci szczytowe oraz minima. Analizuj c ró ne rodzaje pisma r cznego mo na zauwa y, e wi kszo znaków pisanych r cznie jest pochylona w prawo b d w lewo. Tak, wi c przed operacj segmentacji powinna zosta przeprowadzona korekcja nachylenia znaków. Sporz dzany jest w tym celu poziomy profil rzutowania, który dla wyrazów nie nachylonych charakteryzuje si tym, e wyst puj w min wi ksze przerwy mi dzy znakami (minima), natomiast w wyrazach pochylonych znaki zakrywaj przerwy i histogram jest bardziej płynny. Podobnie jak w przypadku okre lenia k ta przekosu zaproponowano algorytm, który umo liwi korekcj k ta pochyłu znaków w oparciu o histogram z najwi ksz liczb minimów. 165
Roman Wiatr, Mirosław Miciak Problemy identyfikacji danych adresowych w automatycznym procesie sortowania przesyłek Rysunek 2. Proces usuwania nachylenia znaków dla linii pola adresowego ródło: opracowanie własne. Wyrazy pisane r czne zazwyczaj s rozdzielone i w celu segmentacji równie stosuje si poziomy profil rzutowania obrazu linii tekstu. Wyznaczone minima histogramu stanowi granic podziału wyrazów. W pi mie r cznym przerwy miedzy słowami s zazwyczaj dłu sze ni rednia szeroko znaku, wi c mo na to b dzie uzna za kryterium dla okre lenia granicy wyrazów. Estymacja szeroko ci znaku realizowana jest przez okre lenie wysoko ci wyrazu i nale y j przeprowadzi dla ka dej linii tekstu, poniewa cz sto rozmiar znaków pisanych ulega zmianie w trakcie pisania. Podobnie realizowany jest podział na znaki kodu pocztowego, gdzie kryterium podziału stanowi równie wysoko linii. W rezultacie otrzymujemy obrazy znaków odpowiadaj ce poszczególnym cyfrom kodu pocztowego. 5. Problemy automatycznego systemu rozpoznawania danych pola adresowego W aplikacjach pocztowych pojawiaj si trudno ci zwi zane z technicznymi aspektami procesu akwizycji tekstu. Du e znaczenie maj zakłócenia w postaci ró nego rodzaju szumów powstaj cych w samym procesie akwizycji oraz zniekształcenia znajduj ce si bezpo rednio na no niku zawieraj cym tekst. Zastosowanie odpowiednich filtrów wpływa na podniesienie jako ci pracy systemu, lecz zwi ksza zło ono obliczeniow danego rozwi zania. Doskonałym przykładem s tutaj specyficzne warunki pracy systemów pocztowych, gdzie ze wzgl du na du ró norodno przesyłek i sposobów adresowania pojawiaj si wymienione problemy, co w rezultacie prowadzi do zmniejszenia liczby opracowywanych przesyłek. Zasadniczy wpływ na powstawanie bł dów ma: rodzaj no nika na którym jest wykonywane pismo (materiał, gramatura, struktura itp.), kolorowe tło lub zawieraj ce tekstur, rodzaj i kolor rodka pi mienniczego (atrament, długopis, druk igłowy itp.), nierówno o wietlenia w procesie akwizycji, plamy, po ółkni cia papieru, przekre lenia i inne lokalne zaburzenia tła, rozmycie kraw dzi znaków (np. słaba jako druku), uszkodzone znaki z brakuj cymi elementami, przekre lenia itp. Wymienione aspekty charakteryzuj specyfik wymaga dla opracowanych metod przetwarzania obrazu w systemach pocztowych. Algorytmy segmentacji i rozpoznawania zaimplementowane w systemach OCR nie s w stanie prawidłowo oszacowa kształtu znaków, je li rozdzielczo obrazu otrzymana w procesie akwizycji nie jest wystarczaj ca du a. Np. dla dokumentów drukowanych czcionk (10 lub 12 pt.) zwykle minimalna rozdzielczo gwarantuj ca prawidłow prac wynosi 300 DPI. Na rozdzielczo obrazu ma równie wpływ format kodowania obrazu, np. ograniczona gł bia koloru lub ograniczona liczba odcieni szaro ci mo e spowodowa bł dy binaryzacji. Zapis obrazu z u yciem kompresji stratnej 166
Studies & Proceedings of Polish Association for Knowledge Management Nr 80, 2016 mo e powodowa bł dy w rozpoznawaniu kształtu znaków, poniewa algorytmy kompresji stratnej powoduj np. rozmycie kraw dzi. Osobna grup zniekształce pojawiaj cych si w etapie pozyskiwania obrazu tekstu s zniekształcenia geometryczne, które mog całkowicie uniemo liwi rozpoznawanie tekstu, np. efekt spowodowany zbytnim wygi ciem powierzchni przesyłki podczas akwizycji obrazu lub odczytywaniem adresu umieszczonego na wielkogabarytowej przesyłce. Tak wi c w zale no ci od przeznaczenia danego systemu rozpoznawania pisma eliminacja odpowiednich zniekształce geometrycznych staje si wa nym zadaniem opracowywanego rozwi zania Obecne realizacje systemów automatycznego rozpoznawania danych teleadresowych nie maj ju wi kszych problemów z przetwarzaniem obrazów znaków drukowanych, to nale y zaznaczy, e ci gle istniej du e trudno ci zwi zane z odczytem adresów pisanych r cznie. 6. Podsumowanie W całym procesie pocztowym przemieszczania przesyłek od nadawcy do adresata wiod c rol pełni W zły Ekspedycyjno. W momencie dopływu ładunków do WER s one rejestrowane w systemie teleinformatycznym. Ze wzgl du na proces automatycznego rozpoznawania adresu, najistotniejszy segmentem linii jest zintegrowana maszyna czytaj ca z wideokodowaniem IRV. W maszynie czytaj cej z IRV, system za pomoc modułu OCR automatycznie odczytuje adres. Mała sprawno tego modułu zwłaszcza dla pisma r cznego podnosi koszty i zmniejsza przepustowo całego systemu opracowania przesyłek. Dynamiczny rozwój technik przetwarzania obrazów pozwala na wprowadzenie rozwi za umo liwiaj cych podniesienie skuteczno ci automatycznego systemu pocztowego. Główne problemy zwi zane z rozpoznawaniem kodów pocztowych to dobór algorytmów lokalizacji pola adresowego, stosowanie eliminacji zniekształce etapu akwizycji np. filtracji, proces segmentacji znaków, wybór metody rozpoznawania kodu pocztowego, stosowanie tablic walidacyjnych. Bibliografia [1] Bok-Suk Shin., Effective feature extraction by trace transform for insect footprint recognition, Bio-Inspired Computing: Theories and Applications 2008, s. 97 102, 1994. [2] Bouchaffra D. i in., Recognition of strings using nonstationary Markovian models: an application in ZIP code recognition, IEEE Computer Society Conference on Computer Vision and Pattern Recognition 2, s. 2174 2183, 1999. [3] Bourbakis N., Methodology for document processing: separating text from images, Engineering Applications of Artificial Intelligence, Vol.14, 2001. [4] Chaberek M., Makro i mikroekonomiczne aspekty wsparcia logistycznego, Wydawnictwo Uniwersytetu Gda skiego, 2002. [5] DGPP, Regulamin wiadczenia powszechnych usług pocztowych, Zał cznik do Zarz dzenia nr 137 DGPP z dnia 21 wrze nia 2005, Warszawa, 2005. [6] Filatov A., Volgunin A., Handwritten ZIP code recognition, ICDAR 4, s. 766 770, 1997. [7] Forella G., Word perfect, Postal Technology. UKIP Media & Events Ltd. UK, 2000. [8] Ishikura T., Adachi T., Video Coding technology for postal automation system: Special issue on postal automation technology. NEC research and development 40, Tokyo, s. 176 180 1999. [9] Kavallieratou E. i in, New Algorithms for Skewing Correction and Slant Removal on Word- Level, Electronics, Circuits and Systems, Vol.2, Cypr, 1999. 167
Roman Wiatr, Mirosław Miciak Problemy identyfikacji danych adresowych w automatycznym procesie sortowania przesyłek [10] Khedekar S. i in., Text Image Separation in Devanagari Documents, Document Analysis and Recognition, Edinburgh, 2003. [11] Maszewski M., Miciak M., Rozpoznawanie danych teleadresowych z wykorzystaniem współczynników Fouriera i zespolonej dyskretnej transformacji falkowej opartej na projekcji, Techniki Przetwarzania Obrazu. s. 381 386, 2006. [12] Michalski K., Rola centrum ekspedycyjno-rozdzielczego w kreowaniu warto ci sieci logistycznej Poczty Polskiej, Instytut logistyki i Magazynowania, Pozna 2004. [13] Miciak M., Marchewka M., The recognition of postal code using Fourier transform method, XII Konferencja Sieci i Systemy Informatyczne, Łód, s. 461 468, 2004. [14] Mitsu Y., i in., A recognition system for Japanese Zip code using Arc features, IEICE Transactions on Information and Systems. s. 810 816, 1994. [15] Muge F., Automatic Feature Extraction and Recognition for Digital access of Books of the Renaissance, Lecture Notes in Computer Science, Vol. 1923, Springer-Verlag, 2000. [16] Parodi P., Fontana R., Efficient and flexible text extraction from document pages, International Journal on Document Analysis and Recognition, Vol.2, Springer-Verlag, Heidelberg, 1999. [17] Parodi P., Piccioli G., An efficient pre-processing of mixed-content document images for OCR systems, Proceedings of the 13th International Conference on Pattern Recognition, vol.3, Wiede, 1996. [18] Petrou M. i in., Texture recognition from sparsely and irregularly sampled data, Computer Vision and Image Understanding archive, s. 95 104, 2006. [19] Wiatr R., Rawłuszko J., On the problems of logistics network project in the Polish Post, VI Th International Scientific Conference POSTPOINT 2005, ylina, 2005. 168
Studies & Proceedings of Polish Association for Knowledge Management Nr 80, 2016 THE DATA ADDRESS IDENTIFICATION PROBLEMS ON AUTOMATIC SORTING SYSTEMS Summary The article presents the main problems of automating the process of identifying the address data of postal items. Article focus special attention on the most important segment sorting line, which is integrated into the machine reading of video coding. With this module automatically reads addresses from the consignment. The efficiency of this module affect on the cost and throughput of the entire system. The article shows the main problems acquisition module and location of addressing field, character recognition, automatic recognition process the data from address field. keywords: data address recognition, automatization process, post mail sorting Roman Wiatr Mirosław Miciak Zakład Systemów Teleinformatycznych Wydział Telekomunikacji, Informatyki i Elektrotechniki Uniwersytet Technologiczno-Przyrodniczy w Bydgoszczy e-mail: [rowiat][miciak]@utp.edu.pl 169