Rozpoznawanie numerów tablic rejestracyjnych pojazdów z wykorzystaniem deskryptora HOG dla obrazów zaszumionych poddanych binaryzacji

Podobne dokumenty
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Wpływ modelu barw oraz metody binaryzacji na skuteczność rozpoznawania numerów tablic rejestracyjnych

System rozpoznawania cyfr oparty na histogramie zorientowanych gradientów

Samochodowy system detekcji i rozpoznawania znaków drogowych. Sensory w budowie maszyn i pojazdów Maciej Śmigielski

10. Redukcja wymiaru - metoda PCA

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 8 AiR III

Rozpoznawanie obiektów z użyciem znaczników

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Laboratorium Cyfrowego Przetwarzania Obrazów

Pattern Classification

2. Zarys metody SIFT (Scale Invariant Feature Transform)

Spośród licznych filtrów nieliniowych najlepszymi właściwościami odznacza się filtr medianowy prosty i skuteczny.

Detekcja punktów zainteresowania

Deskryptory punktów charakterystycznych

Implementacja filtru Canny ego

Parametryzacja obrazu na potrzeby algorytmów decyzyjnych

Politechnika Świętokrzyska. Laboratorium. Cyfrowe przetwarzanie sygnałów. Ćwiczenie 8. Filtracja uśredniająca i statystyczna.

Przetwarzanie obrazów rastrowych macierzą konwolucji

Przygotowanie materiału uczącego dla OCR w oparciu o aplikację Wycinanki.

Wizyjny algorytm wyznaczania obszarów zainteresowania zrealizowany w oparciu o zredukowaną ilość przechowywanej informacji

Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 7 AiR III

Prof. Stanisław Jankowski

Metody klasyfikacji danych zaszumionych. Stanisław Kaźmierczak

Laboratorium Cyfrowego Przetwarzania Obrazów

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

System biometryczny bazujący na rozpoznawaniu ust

Widzenie komputerowe (computer vision)

Komputerowe przetwarzanie obrazu Laboratorium 5

Filtracja obrazu operacje kontekstowe

Odciski palców ekstrakcja cech

Komitety sieci konwolucyjnych w zagadnieniu klasyfikacji przy jednoczesnym zaszumieniu danych wejściowych oraz etykiet klas. Stanisław Kaźmierczak

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

7. Maszyny wektorów podpierajacych SVMs

i ruchów użytkownika komputera za i pozycjonujący oczy cyberagenta internetowego na oczach i akcjach użytkownika Promotor: dr Adrian Horzyk

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Przetwarzanie obrazu

Rekonstrukcja obrazu (Image restoration)

dr inż. Tomasz Krzeszowski

Metody systemowe i decyzyjne w informatyce

Komunikacja Człowiek-Komputer

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

PRZETWARZANIE GRAFICZNYCH DANYCH EMPIRYCZNYCH DLA POTRZEB EDUKACJI SZTUCZNYCH SIECI NEURONOWYCH, MODELUJĄCYCH WYBRANE ZAGADNIENIA INŻYNIERII ROLNICZEJ

KLASYFIKACJA TEKSTUR ZA POMOCĄ SVM MASZYNY WEKTORÓW WSPIERAJĄCYCH

Raport. Bartosz Paprzycki UMK 2009/2010

Anna Fabijańska. Algorytmy segmentacji w systemach analizy ilościowej obrazów

Segmentacja przez detekcje brzegów

RACJONALIZACJA PROCESU EKSPLOATACYJNEGO SYSTEMÓW MONITORINGU WIZYJNEGO STOSOWANYCH NA PRZEJAZDACH KOLEJOWYCH

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

Filtracja obrazu operacje kontekstowe

Dwufazowy system monitorowania obiektów. Karina Murawko, Michał Wiśniewski

Krzysztof OKARMA 1 Przemysław MAZUREK 1

Diagnostyka obrazowa

Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j

Optymalizacja systemów

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Zastosowanie kołowej transformaty Hougha w zadaniu zliczania monet

Diagnostyka obrazowa

Cyfrowe Przetwarzanie Obrazów i Sygnałów

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG

SPOTKANIE 2: Wprowadzenie cz. I

5.3. Analiza maskowania przez kompaktory IED-MISR oraz IET-MISR wybranych uszkodzeń sieci połączeń Podsumowanie rozdziału

Algorytmy rozpoznawania mowy oparte o kształt i/lub ruch ust - przegląd literatury naukowej z lat

Diagnostyka obrazowa

Przykładowa analiza danych

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

AUTOMATYCZNE ROZPOZNAWANIE PUNKTÓW KONTROLNYCH GŁOWY SŁUŻĄCYCH DO 3D MODELOWANIA JEJ ANATOMII I DYNAMIKI

Detekcja kodów kreskowych w obrazach za pomocą filtrów gradientowych i transformacji morfologicznych

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Analiza składowych głównych. Wprowadzenie

ANALIZA ZDOLNOŚCI PROCESU O ZALEŻNYCH CHARAKTERYSTYKACH

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Analiza obrazów - sprawozdanie nr 2

WPŁYW KOMPRESJI BARW NA DZIAŁANIE NEURONOWEGO MODELU IDENTYFIKACYJNEGO

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Rozpoznawanie Twarzy i Systemy Biometryczne

Testowanie modeli predykcyjnych

W poszukiwaniu sensu w świecie widzialnym

Wykrywanie twarzy ludzkich na kolorowych obrazach ze złożonym tłem

Przetwarzanie obrazów wykład 4

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

Aproksymacja funkcji a regresja symboliczna

Metody kodowania wybranych cech biometrycznych na przykładzie wzoru naczyń krwionośnych dłoni i przedramienia. Mgr inż.

TRANSCOMP XIV INTERNATIONAL CONFERENCE COMPUTER SYSTEMS AIDED SCIENCE, INDUSTRY AND TRANSPORT

Algorytmy Laplacian of Gaussian i Canny ego detekcji krawędzi w procesie analizy satelitarnych obrazów procesów atmosferycznych.

ROZPOZNAWANIE TABLIC REJESTRACYJNYCH POJAZDÓW NA OBRAZACH STATYCZNYCH

Rozpoznawanie twarzy za pomocą sieci neuronowych

Przetwarzanie obrazu

Metody selekcji cech

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Laboratorium. Cyfrowe przetwarzanie sygnałów. Ćwiczenie 9. Przetwarzanie sygnałów wizyjnych. Politechnika Świętokrzyska.

Przedmowa 11 Ważniejsze oznaczenia 14 Spis skrótów i akronimów 15 Wstęp 21 W.1. Obraz naturalny i cyfrowe przetwarzanie obrazów 21 W.2.

Proste metody przetwarzania obrazu

Rozpoznawanie obiektów na podstawie zredukowanego zbioru cech. Piotr Porwik Uniwersytet Śląski w Katowicach

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Wyższa Szkoła Informatyki Stosowanej i Zarządzania

Transkrypt:

OKARMA Krzysztof 1 Rozpoznawanie numerów tablic rejestracyjnych pojazdów z wykorzystaniem deskryptora HOG dla obrazów zaszumionych poddanych binaryzacji WSTĘP Rozpoznawanie numerów tablic rejestracyjnych pojazdów stanowi jeden z podstawowych elementów współczesnych rozwiązań teleinformatycznych umożliwiających rozwój Inteligentnych Systemów Transportowych (ang. Intelligent Transportation Systems ITS) [9]. Wiele rozwiązań stosowanych w praktyce, dotyczących m.in. automatycznego naliczania opłat za przejazd płatnymi odcinkami dróg, czy też opłat za czas postoju pojazdu, wspomagane jest systemami wizyjnymi umożliwiającymi rozpoznanie numeru rejestracyjnego pojazdu. Jako źródło danych służyć może nie tylko tablica rejestracyjna, ale również, przy założeniu odpowiednich parametrów kamer, naklejka na przedniej szybie zawierająca numer rejestracyjny pojazdu. Jednym z mniej lubianych przez kierowców, aczkolwiek bardzo reprezentatywnym przykładem, są fotoradary połączone za pomocą systemu teleinformatycznego z centralną bazą danych zawierającą informacje o pojazdach, co umożliwia dodatkowo weryfikację np. zgodności numeru rejestracyjnego z marką pojazdu, czy też sprawdzenie, czy pojazd nie jest oznaczony jako skradziony. Rozwiązania wizyjne, m.in. umożliwiające rozpoznawanie numerów tablic rejestracyjnych pojazdów, mają jednakże pewne istotne ograniczenia, z których jednymi z najpoważniejszych są uwarunkowania związane z odpornością na zmienne warunki oświetleniowe oraz zakłócenia wpływające na czytelność obrazu. Biorąc pod uwagę fakt, iż kamery często są zamontowane na otwartej przestrzeni, istotny czynnik zakłócający stanowią warunki atmosferyczne. W sytuacji ciągłego doskonalenia sprzętu, poprawy jego parametrów przy jednoczesnym spadku cen i wzroście dostępności, należy spodziewać się dalszego dynamicznego rozwoju Inteligentnych Systemów Transportowych, w szczególności ich składników bazujących na analizie informacji obrazowej. Należy jednak zwrócić uwagę, iż w wielu sytuacjach informacje pozyskane z kamer nie są aż tak doskonałej jakości, aby móc bezproblemowo dokonać rozpoznania numeru rejestracyjnego pojazdu, co może być uwarunkowane nie tylko zakłóceniami obrazu, ale również możliwościami technicznymi związanymi z montażem kamer (a także ich ograniczonej liczby np. pojedyncza kamera monitorująca ruch na całym skrzyżowaniu). W tego typu sytuacjach należy pamiętać, iż jedynie niewielki fragment obrazu stanowić będą informacje użyteczne w procesie rozpoznawania numeru rejestracyjnego, gdyż tablica rejestracyjna reprezentowana może być przez zaledwie kilkadziesiąt do kilkuset pikseli. Rozwiązanie analizowane w niniejszym artykule dotyczy przede wszystkim sytuacji, w których dane obrazowe reprezentujące tablice rejestracyjne mają relatywnie niską rozdzielczość oraz dodatkowo są zniekształcone poprzez szum. Prawidłowe rozpoznanie poszczególnych znaków (w artykule skupiono się przede wszystkim na cyfrach, co nie wpływa jednak na ogólność rozważań) nie jest w takim przypadku zadaniem łatwym, dlatego też nie należy spodziewać się skuteczności rozpoznawania znaków na poziomie rzędu 90% i więcej. Przedstawione rozwiązania mają na celu raczej podniesienie i tak stosunkowo niskiej efektywności rozpoznawania znaków, aniżeli osiągnięcie skuteczności jak najbardziej zbliżonej do 100-procentowej. 1 Zachodniopomorski Uniwersytet Technologiczny w Szczecinie, Wydział Elektryczny, Katedra Przetwarzania Sygnałów i Inżynierii Multimedialnej; 70-313 Szczecin, ul. Gen. Władysława Sikorskiego 37; Tel: +48 91 449-53-13, Fax: +48 91 449-53-47; E-mail: okarma@zut.edu.pl 4787

1. CHARAKTERYSTYKA METODY ROZPOZNAWANIA ZNAKÓW Klasyczne podejście do problemu rozpoznawania kształtów, w tym oczywiście liter i cyfr, zakłada wykonywanie dwóch zasadniczych etapów przetwarzania danych. Pierwszy z nich stanowi zazwyczaj zmiana reprezentacji danych, podobnie jak ma to miejsce w wielu algorytmach kompresji danych. Istnieje tutaj pewne podobieństwo, gdyż w obu przypadkach celem tej operacji jest taki dobór sposobu reprezentacji danych, aby umożliwić efektywniejsze działanie drugiego etapu, charakterystycznego dla konkretnego zastosowania. O ile przy kompresji danych, drugi etap stanowi faza kodowania binarnego (zwykle bezstratnego) mająca na celu redukcję wielkości pliku czy też strumienia danych, o tyle dla algorytmów rozpoznawania znaków drugi etap stanowić będzie klasyfikacja danych. Elementem wspólnym jest etap pierwszy prowadzący do pośredniej reprezentacji danych, która charakteryzuje się bądź większą podatnością na kompresję, bądź lepszą separacją pomiędzy klasami reprezentującymi poszczególne symbole (cyfry). Biorąc pod uwagę wydajność obliczeniową algorytmów klasyfikacji, szczególnie pożądanym sposobem pośredniej reprezentacji danych jest opis obrazu za pomocą silnie ograniczonego zbioru cech lub deskryptorów, dobranych w taki sposób, aby umożliwić poprawną klasyfikację. Przykładem takiego sposobu ograniczenia wymiarowości wektora cech może być metoda analizy komponentów głównych (ang. Principal Component Analysis PCA) [5], znana również w zależności od zastosowania pod kilkoma innymi nazwami, choć nie jest to oczywiście jedyne możliwe podejście. 1.1. Deskryptor HOG Jednym z możliwych podejść do problemu reprezentacji pośredniej obrazu jest wykorzystanie deskryptora HOG (ang. Histogram of Oriented Gradients), które jest analizowane w niniejszej pracy. Deskryptor ten został zaproponowany przez N. Dalala oraz B. Triggsa w 2005 roku [4] jako narzędzie służące do detekcji sylwetek pieszych w statycznych obrazach. Pierwotne zastosowanie bardzo szybko zostało przystosowane do detekcji sylwetek ludzkich w sekwencjach wideo. Metoda znalazła również dość oczywiste zastosowanie w ITS w celu śledzenia ruchu pojazdów [6,7]. Wcześniejsze podejścia do analizy informacji statystycznej związanej z rozkładem jasności na obrazie dla różnych kierunków związane były głównie z detekcją sylwetek ludzkich, czego przykładem może być kombinacja histogramów klasycznych oraz kierunkowych określana jako orientation-position histogram [8]. Dodatkowo zastosowano w niej progowanie binarne amplitudy gradientu w celu efektywnej detekcji poszczególnych części ciała (np. głowa, twarz). Idea deskryptora HOG bazuje na lokalnym zliczaniu wystąpień określonych orientacji gradientu, co oznacza konieczność podziału obrazu na komórki (ang. cells) o ustalonym rozmiarze, dla których wyznaczane są wartości gradientu dla wszystkich możliwych kierunków. W efekcie uzyskiwana jest mapa obrazu zawierające informacje dotyczące kierunku lokalnych zmian jasności obrazu uwarunkowanych kształtem obiektów na nim uwidocznionych. Opis taki jest w pewnym sensie odpowiednikiem informacji o kierunku krawędzi możliwych do detekcji za pomocą popularnych filtrów Sobela, Prewitta, Robertsa czy Canny ego. Proces wyznaczania wartości deskryptora HOG jest kilkuetapowy. Pierwszy z etapów składa się z operacji normalizacji koloru oraz współczynników gamma i może być wykonywany dla przestrzeni RGB lub CIELAB (jest to operacja opcjonalna nie mająca znaczącego wpływu na wyniki późniejszej klasyfikacji), po której następuje wyznaczenie gradientu obrazu z użyciem jednej z popularnych metod. Możliwe jest wykorzystanie w tym celu filtrów splotowych Sobela lub Prewitta, jednak ze względu na wydajność często stosowane jest najprostsze podejście wykorzystujące trójelementową maskę przesuwną o współczynnikach [-1 ; 0 ; 1], prowadzącą do zadowalających rezultatów dla detekcji sylwetki człowieka [4]. W przypadku obrazów kolorowych wyznaczane są trzy wartości gradientu, niezależnie dla każdej składowej koloru, a następnie wybierana jest wartość maksymalna. Informacje związane z gradientem są wykorzystywane w celu wyznaczenia współczynników dla poszczególnych pikseli, które stanowią podstawę dla kolejnych kroków analizy. Współczynniki te są zależne od długości oraz orientacji wektora gradientu i są akumulowane dla poszczególnych komórek obrazu niezależnie dla każdego kierunku (ang. orientation bins), a następnie interpolowane. Komórki te są łączone w bloki, które mogą mieć kształt prostokątny (Rectangular HOG) lub okrągły (Circular 4788

HOG), przy czym istotną właściwością jest wzajemne nakładanie się bloków na siebie (w odróżnieniu od podziału na sąsiadujące ze sobą rozłączne bloki jak ma to miejsce np. w standardzie kompresji JPEG). Oba rodzaje bloków wykazują pewne cechy podobieństwa do innych deskryptorów, nie analizowanych w niniejszej publikacji. Bloki R-HOG stanowią odpowiednik deskryptora SIFT (ang. Scale Invariant Feature Transform), jednakże w przeciwieństwie do SIFT są one wyznaczane dla gęstej siatki w pojedynczej skali. Z kolei bloki C-HOG mają pewne elementy wspólne z deskryptorem znanym pod nazwą Shape Context [1]. 1.2. Klasyfikacja Drugim etapem procesu rozpoznawania cyfr jest klasyfikacja wykorzystująca dane w postaci lokalnych deskryptorów HOG pozyskane jako wynik działania pierwszego etapu. Klasyfikacja taka może być przeprowadzona w bardzo prosty sposób określając jako podobne (czy też jednakowe) obrazy różniące się deskryptorami poniżej określonego poziomu. Podejście takie nie prowadzi jednakże do zadowalających rezultatów, szczególnie w obecności zakłóceń. Znacznie lepsze rezultaty można uzyskać stosując jedną z metod wymagających wcześniejszego trenowania (uczenia) algorytmu z wykorzystaniem bazy obrazów treningowych. Możliwe do zastosowania jest kilka podejść np. bazujących na sztucznych sieciach neuronowych, czy też, użyte w przeprowadzonych badaniach rozwiązanie wykorzystujące tzw. maszyny wektorów nośnych (ang. Support Vector Machines SVMs) [3]. Zbudowany na podstawie danych treningowych model pozwala na dokonanie binarnej klasyfikacji wzorców (obrazów) jako reprezentujących określoną cyfrę lub nie. Model SVM stanowi reprezentację wzorców treningowych w postaci zbioru punktów w przestrzeni rzutowanych w taki sposób, aby zapewnić możliwie najlepszą separację pomiędzy zbiorami punktów reprezentującymi poszczególne klasy (w tym przypadku cyfry). Obrazy testowe podlegające klasyfikacji są mapowane do tej samej przestrzeni, a następnie testowana jest dla nich przynależność do każdej z klas. W przypadku obrazów zakłóconych lub znacząco różniących się od wzorców możliwe jest nieprzypisanie do żadnej z klas, natomiast dla obrazów zawierających cyfry zniekształcone możliwe jest przypisanie ich do więcej niż jednej klas reprezentujących cyfry podobne do siebie pod względem kształtu. 2. BADANIA EKSPERYMENTALNE I ICH WYNIKI W celu eliminacji wpływu zmian rozdzielczości obrazu na uzyskiwane wyniki przyjęto, iż zarówno obrazy za zbioru uczącego, jak również testowego (pozyskanego na podstawie rzeczywistych zdjęć pojazdów) powinny mieć jednakową rozdzielczość, co uzyskano poprzez odpowiednie przeskalowanie obrazów testowych. Eksperymenty przeprowadzono dla zbioru testowego 40 obrazów (po 4 obrazu dla każdej cyfry) poddanych dodatkowo zaszumieniu szumem Gaussa o wartości średniej 0 i wariancji 0,01 oraz (niezależnie) szumem impulsowym tzw. sól i pieprz (ang. salt and pepper noise) przy poziomie zaszumienia równym 5% liczby pikseli w obrazie. Na potrzeby badań eksperymentalnych przedstawionych w niniejszej publikacji przyjęto, iż głównym zadaniem systemu rozpoznawania znaków jest poprawna klasyfikacja pojedynczych cyfr. Ze względu na przyjęte normy standaryzujące wielkość i krój znaków stosowanych na tablicach rejestracyjnych założono, iż w celu budowy zbioru uczącego zastosować można obrazy syntetyczne cyfr poddane wybranym rodzajom zniekształceń (m.in. zaszumieniu, przesunięciom czy też nieznacznym obrotom). Jako zbiór uczący zastosowano zatem 120 dodatkowych obrazów (po 12 dla każdej z klas reprezentujących poszczególne cyfry) uzyskanych syntetycznie, a następnie poddanych zniekształceniom. Przyjęto, iż w obrazach wejściowych dokonana została uprzednio detekcja położenia tablicy rejestracyjnej, czyli wyznaczenie obszaru zainteresowania (ang. Region Of Interest ROI), natomiast segmentacja (separacja) poszczególnych znaków odbywa się na podstawie analizy histogramu pionowego obrazu [2,12]. Szczegółowe wyniki rozpoznawania poszczególnych cyfr uzyskane bezpośrednio dla obrazu kolorowego przedstawiono na rysunkach 1 3, na których uwidocznione są liczby znaków sklasyfikowanych jako przynależne do poszczególnych klas w odniesieniu do prawidłowych wartości. 4789

Na poszczególnych rysunkach przedstawione są wyniki uzyskane dla trzech przypadków tj. obrazu bez szumu, zakłóconego szumem Gaussa oraz szumem impulsowym przy zastosowaniu różnych rozmiarów komórek HOG (2 2, 4 4 oraz 8 8 pikseli). W każdym z przypadków przeprowadzone zostały eksperymenty dla trzech rozmiarów. W idealnym przypadku wykres powinien mieć kształt linii o wysokości 4 na przekątnej wykresu z wartościami zerowymi poza przekątną (macierz diagonalna). Każdy element znajdujący się poza przekątną reprezentuje niepoprawną klasyfikację cyfry, z kolei wysokość słupków na przekątnej odpowiada liczbie poprawnie rozpoznanych cyfr (maksymalnie 4). Na kolejnych rysunkach przedstawiono podobne zestawy wyników eksperymentów uzyskanych dla obrazów poddanych binaryzacji przy zastosowaniu klasycznych metod odpowiednio metody Otsu [10] (rysunki 4 6) oraz Sauvoli [11] (rysunki 7 9). Metoda Otsu, będąca jedną z najpopularniejszych metod binaryzacji obrazu, pozwala określić próg binaryzacji obrazu w sposób minimalizujący wariację wewnątrz każdej z obu klas (odpowiadającym wartościom 0 oraz 1), co jednocześnie prowadzi do maksymalizacji wariancji między klasami. Obraz bez szumu Szum Gaussa Szum impulsowy Rys. 1. Ilustracja wyników rozpoznawania cyfr dla obrazów kolorowych dla rozmiarów komórek HOG 2 2, 4 4 oraz 8 8 pikseli (od góry do dołu) 4790

Obraz bez szumu Szum Gaussa Szum impulsowy Rys. 2. Ilustracja wyników rozpoznawania cyfr dla obrazów po binaryzacji metodą Otsu dla rozmiarów komórek HOG 2 2, 4 4 oraz 8 8 pikseli (od góry do dołu) Z kolei metoda zaproponowana przez Sauvolę bazuje na lokalnej wariancji obrazu. Uzyskany za jej pomocą próg binaryzacji zależy od lokalnej wartości średniej oraz zakresu dynamicznego odchylenia standardowego. Dzięki temu możliwa jest łatwa adaptacyjna zmiany progu dla zmiennych lokalnych warunków oświetleniowych lub jasności tła. Może mieć to szczególne znaczenie dla obrazów zawierających rozbłyski świetlne spowodowane np. odbiciem światła z flesza aparatu. Zbiory oryginalnych obrazów testowych (w czterokrotnym powiększeniu) przedstawiono na rysunku 4. Z kolei rysunki 5 7 przedstawiają obrazy binarne uzyskanych metodą Otsu dla różnych rodzajów szumu oraz dla obrazów pozbawionych zakłóceń, które stanowiły dane wejściowe dla algorytmu wyznaczającego lokalne wartości deskryptora HOG, które zostały użyte w klasyfikatorze SVM. Z kolei w tabelach 1 3 zebrane zostały liczbowe wskaźniki charakteryzujące dokładność rozpoznawania poszczególnych znaków dla analizowanych w trakcie badań przypadków. 4791

Obraz bez szumu Szum Gaussa Szum impulsowy Rys. 3. Ilustracja wyników rozpoznawania cyfr dla obrazów po binaryzacji metodą Sauvoli dla rozmiarów komórek HOG 2 2, 4 4 oraz 8 8 pikseli (od góry do dołu) Rys. 4. Zbiór powiększonych obrazów testowych stanowiących fragmenty tablic rejestracyjnych pojazdów 4792

Rys. 5. Zbiór powiększonych obrazów binarnych uzyskanych metodą Otsu dla obrazów testowych bez szumu Rys. 6. Zbiór powiększonych obrazów binarnych uzyskanych metodą Otsu dla obrazów z szumem Gaussa Rys. 7. Zbiór powiększonych obrazów binarnych uzyskanych metodą Otsu dla obrazów z szumem impulsowym 4793

Tab. 1. Liczba poprawnych (oraz błędnych) klasyfikacji cyfr uzyskana przy różnych rozmiarach komórek HOG dla obrazów kolorowych i binarnych bez zakłóceń Rozmiar komórki obraz kolorowy Otsu Sauvola 2 2 18 (2) 20 (7) 23 (5) 4 4 28 (7) 30 (9) 30 (18) 8 8 27 (31) 30 (31) 33 (53) Tab. 2. Liczba poprawnych (oraz błędnych) klasyfikacji cyfr uzyskana przy różnych rozmiarach komórek HOG dla obrazów kolorowych i binarnych w obecności szumu Gaussa Rozmiar komórki obraz kolorowy Otsu Sauvola 2 2 5 (0) 28 (36) 23 (5) 4 4 12 (9) 31 (10) 27 (15) 8 8 15 (76) 29 (37) 30 (44) Tab. 3. Liczba poprawnych (oraz błędnych) klasyfikacji cyfr uzyskana przy różnych rozmiarach komórek HOG dla obrazów kolorowych i binarnych w obecności szumu impulsowego Rozmiar komórki obraz kolorowy Otsu Sauvola 2 2 7 (0) 18 (5) 19 (7) 4 4 6 (5) 28 (12) 20 (16) 8 8 11 (32) 29 (41) 30 (40) WNIOSKI Jak łatwo zauważyć dla małych rozmiarów komórek HOG uzyskuje się znacznie mniejszą liczbę nieprawidłowych klasyfikacji, jednakże spada znacząco również liczba klasyfikacji poprawnych. Najlepsze wyniki uzyskiwane są dla rozmiaru komórki 4 4 piksele, przy czym dla obrazu kolorowego obecność szumu Gaussa lub impulsowego prowadzi do znaczącego pogorszenia skuteczności rozpoznawania. Dla obrazów poddanych binaryzacji, zwłaszcza metodą Otsu, sytuacja taka zachodzi w znacznie ograniczonym stopniu powodując nieznaczne pogorszenie skuteczności rozpoznawania cyfr dla rozmiaru komórki HOG 4 4 piksele, co zaznaczono pogrubieniem w tabelach 1 3. Wyniki przeprowadzonych badań potwierdzają potrzebę stosowania algorytmów binaryzacji dla obrazów zakłóconych, dzięki czemu redukowany jest wpływ zakłóceń na wyniki uzyskiwane zarówno na etapie wyznaczania wartości deskryptora HOG, jak również na końcowy wynik późniejszej klasyfikacji cyfr. Przedstawione wnioski mogą mieć szczególne znaczenie w systemach wizyjnych wykorzystywanych dla trudnych warunków oświetleniowych, w których szum obecny na obrazie wynikać może z uwarunkowań związanych z czułością kamery, utrudniających pozyskanie wysokiej jakości obrazów dla słabo oświetlonego terenu np. w warunkach nocnych. Streszczenie W artykule przedstawiono wyniki badań eksperymentalnych związanych z weryfikacją rezultatów rozpoznawania cyfr umieszczonych na tablicach rejestracyjnych pojazdów dla obrazów poddanych różnego rodzaju zaszumieniu. Rozważono obrazy zawierające szum Gaussa, jak też szum impulsowy, dla których uzyskane wyniki klasyfikacji zostały porównane z rezultatami osiągniętymi dla obrazów bez zakłóceń. Ze względu na wydajność obliczeniową założono konieczność binaryzacji obrazu, do czego wykorzystano dwie znane metody zaproponowane przez Otsu oraz Sauvolę. Obrazy kolorowe oraz poddane binaryzacji zostały podzielone na dwa zbiory tj. treningowy i testowy, dla których wyznaczono wartości deskryptora HOG, stanowiącego jedno z najnowszych narzędzi stosowanych w celu detekcji kształtów na obrazie. Cechy lokalne obrazu opisane za pomocą deskryptora HOG zostały następnie użyte w procesie klasyfikacji znaków bazującym na maszynach wektorów nośnych (SVM). Uzyskane wyniki potwierdzają silną zależność efektywności rozpoznawania znaków zarówno od rozmiaru komórki HOG, jak też przyjętego algorytmu binaryzacji bądź jej braku. Interesujący wniosek wynikający z przeprowadzonych badań jest związany z relatywnie małym wpływem szumu na wyniki klasyfikacji przy zastosowaniu binaryzacji metodą Otsu i rozmiaru komórki HOG wynoszącego 4 4 piksele. 4794

Recognition of vehicles register plate numbers using the HOG descriptor for noisy images subjected to binarization Abstract In this paper the results of experiments related to the verification of results of recognition of vehicles register plate digits are presented for images contaminated by different types of noise. During the experiments the images containing both Gaussian and impulse noise have been considered. The results obtained for them have been compared to those achieved for the images without noise. Due to the computational efficiency reasons the necessity of binarization has been assumed, which has been conducted using well-known methods proposed by Otsu and Sauvola. Both color and binary images have been divided into two groups being the training and test sets. For those images the values of the HOG descriptor, which is one of the most recent tools used for shape detection in images, have been calculated. Local features represented by the HOG descriptor have been then used in the classification process based on the Support Vector Machines (SVMs). Achieved results confirm the strong influence of both the HOG cell size as well as the chosen binarization algorithm (if applied) on the digits recognition accuracy. An interesting conclusion resulting from the conducted experiments is related to the relatively small impact of noise on the classification results using the HOG cell size equal to 4 4 pixels for the binary images obtained using Otsu s algorithm. BIBLIOGRAFIA 1. Belongie S., Malik J., Matching with Shape Contexts. Proceedings of the IEEE Workshop on Content based Access of Image and Video Libraries (CBAIVL), 2000. 2. Caner H., Gecim H., Alkar A., Efficient Embedded Neural-Network-Based License Plate Recognition System. IEEE Transactions on Vehicular Technology, vol. 57 no. 5, September 2008, pp. 2675 2683. 3. Cortes C., Vapnik V., Support-Vector Networks. Machine Learning, vol. 20 no. 3, September 1995, pp. 273 297. 4. Dalal N., Triggs B., Histograms of Oriented Gradients for Human Detection. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), San Diego, California, USA, 2005, vol. 1, pp. 886 893. 5. Jolliffe I. T., Principal Component Analysis. Springer Series in Statistics, Springer New York, 2002. 6. Kong F., Ye Q., Zhang N., Lu K., Jiao J., On-Road Vehicle Detection Using Histograms of Multi- Scale Orientations. Proceedings of the IEEE Youth Conference on Information, Computing, and Telecommunications (YC-ICT), 2009. 7. Mao L., Xie M., Huang Y., Zhang Y., Preceding Vehicle Detection Using Histograms of Oriented Gradients. Proceedings of the International Conference on Communications, Circuits and Systems (ICCCAS), 28-30 July 2010, Chengdu, pp. 354 358. 8. Mikolajczyk K., Schmid C., Zisserman A.: Human Detection Based on a Probabilistic Assembly of Robust Part Detectors. Proceedings of the 8th European Conference on Computer Vision (ECCV), Prague, Czech Republic, 2004, vol. I, pp. 69 81. 9. Mikulski J., Using Telematics in Transport. Transport Systems Telematics (TST 2010), Communications in Computer and Information Science vol. 104, Springer Berlin Heidelberg 2010, pp. 175 182. 10. Otsu N., A Threshold Selection Method from Gray-Level Histograms, IEEE Transactions on Systems, Man and Cybernetics, vol. 9 no. 1, January 1979, pp. 62 66. 11. Sauvola J., Pietikäinen M., Adaptive Document Image Binarization. Pattern Recognition, vol. 33 no. 2, February 2000, pp. 225 236. 12. Wen Y., Lu Y., Yan J., Zhou Z., von Deneen K., Shi P., An Algorithm for License Plate Recognition Applied to Intelligent Transportation System. IEEE Transactions on Intelligent Transportation Systems, vol. 12 no. 3, September 2011, pp. 830 845. 4795