Jacek JAKUBOWSKI Wojskowa Akademia Techniczna, Instytut Systemów Elektronicznych Ocena możliwości wykorzystania deskryptorów cech lokalnych obrazu twarzy w zadaniu automatycznej identyfikacji osób Streszczenie. Artykuł prezentuje ilościową ocenę wykorzystania opisu cech lokalnych obrazu twarzy za pomocą metody SIFT jako algorytmu systemu skrytej identyfikacji tożsamości osób. Przedstawiono w nim propozycję postaci klasyfikatora oraz wyniki badania wpływu liczby klas w bazie oraz liczby wzorców w klasach na jego skuteczność. Abstract. The paper presents a quantitative assessment of the local feature image descriptors offered by the SIFT method for the needs of an inconspicuous identification of persons based on face images. A proposal of an algorithm to classify images is discussed as well as the influence of the number of classes in the base of persons and the number of patterns in classes on its effectiveness. (An assessment of the local descriptors of images for the needs of face recognition system). Keywords: image processing, face recognition Słowa kluczowe: przetwarzanie obrazów, rozpoznawanie twarzy Wprowadzenie Metody automatycznej identyfikacja tożsamości cieszą się już od ponad 20 lat niesłabnącym zainteresowaniem. Potencjalnym obszarem ich zastosowań są zarówno komercyjne systemy kontroli dostępu jak i rozbudowywane w ostatnich latach systemy ochrony antyterrorystycznej. Wśród możliwych do akwizycji i analizy cech biometrycznych (odciski palców, obraz źrenicy, DNA) szczególnie cennym, z uwagi na identyfikację bezkontaktową, materiałem jest obraz twarzy. Mimo występujących problemów spowodowanych oczywistym wpływem na wynik rozpoznania takich czynników jak wyraz twarzy, wiek, poziom oświetlenia, makijaż itp., które przyczyniają się do pogorszenia niezawodności, jest to jedyny materiał możliwy do pozyskania w warunkach niskiego stopnia współpracy podmiotu badanego lub przy całkowitym braku jego wiedzy. Na przestrzeni lat konstruowane i testowane były różne strategie ekstrakcji i wykorzystania uzyskanych cech obrazów twarzy w procesie rozpoznawania tożsamości [1]. Stosowane początkowo podejścia geometryczne [2] zostały zastąpione rozpowszechnionymi współcześnie metodami holistycznymi (całościowymi), które traktują obraz jako macierz wartości poddawaną transformacji do postaci wielowymiarowego wektora cech [3] lub też metodami mieszanymi, które ze względu na mnogość stosowanych technik trudno jednoznacznie zaszeregować do jednej z powyższych kategorii. Alternatywą dla wymienionych metod jest zaproponowana przez Davida Lowe [4] w obszarze widzenia maszynowego metoda detekcji i opisu lokalnych wyróżnionych punktów obrazu zwanych punktami kluczowymi SIFT (Scale-Invariant Feature Transform). Ze względu na sposób uzyskiwania, deskryptory punktów kluczowych obrazu charakteryzują się wysokim stopniem odporności na jego obrót, zmianę skali, położenia i do pewnego stopnia perspektywy. Dzięki temu metoda znajduje zastosowanie w syntezie zdjęć panoramicznych i lotniczych [5], orientowaniu przestrzennym urządzeń mobilnych [6] i wyszukiwaniu znanych wzorców w obrazach cyfrowych, w tym wzorców obrazów twarzy [7][8]. Badania w obszarze zastosowań powyższych metod w identyfikacji tożsamości koncentrują się w znacznej mierze na uzyskiwaniu coraz to niższych poziomów błędów rozpoznawania twarzy ze skończonego zestawu twarzy wzorcowych reprezentujących zamknięty zbiór znanych osób, dostępny najczęściej w jednej ze standardowych baz danych, np. FERET, Yale, AT&T. Praktyczne znaczenie metod weryfikowane jest jednak w zadaniu, w którym oddzielną klasę stanowi klasa osób nieznanych i gdy jej wzorców, wobec ogromu możliwych przypadków, po prostu nie ma. W niniejszej pracy, ocenie identyfikacji tożsamości właśnie w kontekście takiego zadania, poddana zostanie metoda generacji deskryptorów punktów kluczowych SIFT. Metoda SIFT jako generator cech dystynktywnych Przez punkt kluczowy (charakterystyczny) danego obrazu rozumie się miejsce w obrazie, którego opis podlega jedynie nieznacznym zmianom przy możliwych zmianach warunków akwizycji. Metoda SIFT dokonuje w pierwszym kroku wykrycia takich punktów, a następnie ich opisu z pomocą wektora cech. Procedura wykrycia bazuje na wyznaczeniu pikseli odpowiadającym lokalnym ekstremom (minima i maksima) w obrazach będących efektem filtracji danego obrazu za pomocą różnicowych filtrów Gaussa dla różnych skal [4]. Dokładna lokalizacja punktów kluczowych jest przeprowadzana z wykorzystaniem interpolacji wyznaczonych jako piksele ekstremów za pomocą trójwymiarowej funkcji kwadratowej. Niezależność opisu punktu kluczowego od obrotu uzyskuje się na drodze wyznaczenia tzw. orientacji, czyli dominującego kierunku lokalnego gradientu obrazu w otoczeniu danego punktu. Sam opis (deskryptor) punktu kluczowego jest uzyskiwany na podstawie modułów gradientów z najbliższego sąsiedztwa 16x16, których kierunki wyznaczane są względem określonej wcześniej orientacji. Sąsiedztwo to dzieli się na mniejsze obszary o ekspertymentalnie dobranych wymiarach 4x4 każdy [4], gdzie dla 8 kierunków rozmieszczonych równomiernie w zakresie od 0 do 360 stopni wyznaczane są wypadkowe moduły gradientu. Wektor cech stanowi zestawienie modułów gradientów każego z obszarów łącznie 4x4x8, czyli zawiera 128 wartości. Szczegóły transformacji można znaleźć np. w [4][8]. W efekcie działania algorytmu SIFT obraz nie jest opisywany za pomocą pojedynczego wektora cech skalarnych, jak to ma miejsce w przypadku innych konkurencyjnych technik holistycznych, ale za pomocą zbioru cech, z których każda jest wektorem. Rozpoznawanie na podstawie deskryptorów punktów kluczowych zasadza się na przyjęciu postulatu, że są one cechami dystynktywnymi obiektów, które opisują i w praktyce polega na minimalnoodległościowym dopasowaniu punktów kluczowych z obrazu wejściowego do punktów w bazie wzorców. Ze wzgędu na wielowymiarowość wektora cech oraz różnice w warunkach akwizycji obrazów, dopasowanie takie może być obarczone błędami. Przykład takich błędów zilustrowany został na rys. 1, gdzie na 43 PRZEGLĄD ELEKTROTECHNICZNY (Electrical Review), ISSN 0033-2097, R. 88 NR 9a/2012 217
wykryte punkty kluczowe testowanego obrazu tylko 25 z nich zostało przypisanych do właściwych dla niego wzorców. celów testowych w postaci pliku wykonywalnego na stronie twórcy metody Davida Lowe [9]. Dla zadanego obrazu plik ten zwraca lokalizację punktów kluczowych oraz ich deskryptory. Do przeprowadzenia niezbędnych eskperymentów numerycznych wykorzystane zostało środowisko Matlab. Rys. 1. Przykład wykrycia punktów kluczowych w obrazie badanym (w środku) i połączenia ich z najbliższymi punktami kluczowymi wybranych wzorców z bazy danych widoczna duża ilość błędnych dopasowań Należy przy tym zwrócić uwagę, że z jednoczesnym poprawnym wskazaniem klasy, istnieje duża liczba punktów kluczowych obrazu testowego, która nie została dopasowana właściwie do swych odpowiedników w bazie danych. Zmniejszenie liczby błędnych dopasowań można uzyskać na drodze określenia stosunku odległości do pierwszego oraz drugiego w kolejności punktu kluczowego z bazy danych [4]. Jeśli stosunek ten jest mniejszy niż pewien próg, to pierwszy z rozpatrywanych punktów kluczowych należy zaakceptować i potraktować jako dopasowany. Zastosowany do przypadku z rys. 1 próg, ustalony przez autora metody SIFT na drodze badań statystycznych z wykorzystaniem dużej liczby obrazów jako optymalny (o wartości 0.8), umożliwił zmniejszenie liczby błędnych dopasowań do jedności rys. 2. Materiał i algorytm przetwarzania Do badań skuteczności metody SIFT wykorzystana została baza własna obrazów twarzy 18 osób, zawierająca łącznie 1612 ujęć, czyli przeciętnie 90 na osobę. Ze względu na cele badawcze, do bazy dopuszczono obrazy twarzy w skrajnie niekorzystnych pozycjach twarze pochylone i odchylone od widoku frontalnego, profile oraz twarze w okularach. Wszystkie użyte obrazy wykonane były w odcieniach szarosci i miały rozdzielczość 128x128. Przykłady wykorzystanych obrazów dla 3 osób przedstawia rys. 3. Do badań wykorzystany został podstawowy algorytm wyszukiwania i opisu punktów kluczowych dostępny do Rys. 2. Dopasowanie punktów kluczowych ze zmniejszoną do 1 liczbą błędnych dopasowań Metodyka badań Problem identyfikacji w systemie rozpoznawnia osób jest w pierwszym kroku problemem klasyfikacji binarnej badany nowy przypadek należy do bazy danych (np. osób poszukiwanych) lub do niej nie należy. W niniejszej pracy zadanie to postuluje się rozwiązać na podstawie badania charakteru histogramu przynależności punktów kluczowych danego obrazu twarzy do klas osób znajdujących się w bazie. Histogram taki można utworzyć korzystając z zasygnalizowanej wyżej metody najbliższego sąsiada poprzez przypisanie danemu punktowi kluczowemu tylko jednego numeru klasy z bazy danych, a mianowicie tej klasy, która zawiera punkt położony najbliżej. W przypadku, gdy wzorce badanego nowego przypadku znajdują się w bazie, to należy się spodziewać koncentracji przynależności jego punktów kluczowych do jednej klasy rys. 4. Jednocześnie, gdy identyfikacji podlega osoba nieznana i niepodobna do wzorców klas, to wskazanie numerów każdej z nich powinno być jednakowo prawdopodobne. Wynikowy histogram przynależności będzie więc tym samym zbliżał się do rozkładu równomiernego rys. 5. Porównanie obu typów rozkładów pozwala powołać prosty pojedynczy atrybut różnicujący wartość maksymalną histogramu, która ze względu na możliwą różną liczbę punktów kluczowych dla różnych obrazów, powinna być zamieniona na maksymalną częstość względną. Rys. 3. Przykładowe obrazy twarzy z bazy własnej użytej do badań 218 PRZEGLĄD ELEKTROTECHNICZNY (Electrical Review), ISSN 0033-2097, R. 88 NR 9a/2012
poprawnie i niepoprawnie zaklasyfikowanych, których zestawienie zawiera Tabela 1. Tabela 1. Macierz klasyfikacji stan faktyczny i ilościowy wynik klasyfikacji Stan faktyczny Osoba nieznana (negative) Osoba znana poszukiwana (positive) Osoba nieznana liczba TN (true negative) liczba FN (false negative) Wynik klasyfikacji Osoba znana (poszukiwana) liczba FP (false positive) liczba TP (true positive) Rys. 4. Typowa postać histogramu przynależności punktów kluczowych do wzorców klas dla obrazu osoby znanej Przez częstość względną należy rozumieć liczbę punktów kluczowych sprzyjających danej klasie podzieloną przez liczbę wszystkich punktów kluczowych rozpatrywanego obrazu. Częstość względna reprezentuje wartość prawdopodobieństwa a-posteriori, że dany obraz twarzy należy do jednej z klas bazy osób znanych. Atrybut ten, zgodnie z regułą Bayesa [10], może być zatem dodatkowo użyty w drugim kroku do wskazania osoby z bazy danych na drodze określenia w histogramie tego numeru klasy, dla którego wystąpiło prawdopodobieństwo największe. Rys. 5. Typowa postać histogramu przynależności punktów kluczowych do wzorców klas dla obrazu osoby nieznanej Kwestią istotną z punktu widzenia praktycznego wykorzystania tak zdefiniowanego klasyfikatora pozostaje określenie progu decyzyjnego dla przypadku znany/nieznany i zbadanie charakteru ewentualnych jego zmian oraz zmian liczby błędnych klasyfikacji w zależności od takich czyników jak: liczba klas w bazie, liczba zarejestrowanych wzorców dla danej klasy. W przypadku klasyfikacji binarnej powszechnym narzędziem stosowanym do oceny klasyfikatora w zadanych warunkach oraz wyboru progu są krzywe ROC [11]. W dalszej części pracy wykorzystane będą standardowe oznaczenia liczby przypadków z obu kategorii Przy zastosowanych oznaczeniach oszacowaniem wartości prawdopodobieństwa wykrycia osoby znanej pod warunkiem, że rzeczywiście należy ona do klasy osób znanych będzie: TP (1) TPR TP FN a oszacowaniem prawdopodobieństwa fałszywego alarmu (PFA), polegającego na stwierdzeniu przynależności do bazy osób poszukiwanych w sytuacji gdy osoba jest nieznana będzie wartość: FP (2) FPR. FP TN Najczęściej stosowana postać krzywej ROC podaje zależność TPR od FPR wyznaczoną przy założeniu, że próg decyzyjny przyjmuje kolejno wszystkie dostępne w eksperymencie wartości atrybutu różnicujacego. Poprzez wskazanie optymalnego punktu na krzywej ROC możliwe jest tym samym ustalenie poszukiwanego progu. W niniejszej pracy badaniom zostanie poddane zachowanie się progu, przy którym prawdopodobieństwo błędnego przypisania osoby znanej do klasy osób nieznanych jest równe prawdopodobieństwu błędnego przypisania osoby nieznanej do jednej z osób w bazie, co można wyrazić następujacą zależnością: (3) optymalny próg przy: FPR 1 TPR FNR. Z uwagi na fakt, że obliczanie prawdopodobieństwa za pomocą częstości względnej wymaga dużej liczby przypadków i nie powinno być uzależnione od konkretnego zestawu osób poszukiwanych w bazie, do badań zastosowano mechanizm wielokrotnego wykorzystania dostępnych danych obrazowych. Organizacja tego mechanizmu polegała na powtarzaniu operacji losowego pobierania bez zwracania numerów osób, których obrazy po zgrupowaniu w rozłączne klasy tworzyły tym sposobem bazę danych osób poszukiwanych. Zastosowana metoda najbliższego sąsiada sprawia, że w proponowanym klasyfikatorze nie istniała faza uczenia klasyfikacja przebiegała na bieżąco (instant learning) na drodze wyszukiwania tych zgromadzonych w bazie przypadków, które odpowiadały przypadkom nowym. W efekcie, celem oceny możliwości prezentowanej metody, błędy rozpoznawania wyznaczane były wyłącznie na podstawie tych losowo wybranych obrazów testowych, które nie wchodziły do bazy obrazów osób poszukiwanych. Badanie wpływu liczby klas Celem badań w tej części pracy było sprawdzenie jak zachowuje się optymalny próg decyzyjny w klasyfikacji znany/nieznany oraz błędy rozpoznawania przy PRZEGLĄD ELEKTROTECHNICZNY (Electrical Review), ISSN 0033-2097, R. 88 NR 9a/2012 219
optymalnym progu w sytuacji, gdy w bazie rośnie liczba klas osób poszukiwanych. W jednym kroku powtórzenia omówiony powyżej mechanizm wielokrotnego wykorzystania danych został sprowadzony do losowego wyboru zadanej liczby klas do bazy osób znanych, a następnie do losowego wyboru stałej liczby 25 fotografii każdej z osób (znanych i nieznanych), które utworzyły tym samym zbiór testowy. Otrzymane w wyniku operacji oszacowania prawdopodobieństw krzywe ROC rys. 6 wskazują, że jakość pierwszego kroku klasyfikacji poprawia się wraz ze wzrostem liczby klas w bazie osób znanych. Przy ustalonej wartości prawdopodobieństwa fałszywego alarmu rośnie prawdopodobieństwo wykrycia osoby poszukiwanej. Rys. 6. Krzywe ROC dla zmiennej liczby klas osób poszukiwanych w bazie wskazywania klas i dąży do poziomu 1/N. Tym samym wraz ze wzrostem liczby klas możliwe staje się obniżenie progu decyzyjnego i poprawne zakwalifikowanie nietypowych obrazów twarzy z klasy osób znanych, które charakteryzowały się małą wartością maksymalnej częstości względnej. Wyznaczona eksperymentalnie zależność optymalnego progu decyzyjnego oraz uzyskanych błędów rozpoznania od liczby klas przedstawiona została na rys. 7. Bazą do wyznaczenia progu była przywołana wyżej zależność 1/N, do której dodano wyznaczoną metodą najmniejszych kwadratów stałą wartość A. Należy zauważyć, że przy dostatecznie dużej liczbie klas błędy rozpoznawania wystapiły na poziomie ok. 2.5%. Badanie wpływu liczby wzorców w klasach Przedstawione na rys. 6 i 7 zależności dotyczą przypadków, w których poszczególne klasy w bazie zawierały stosunkowo dużą liczbę wzorców uczących do testowania w ramach powtórzeń pobierano z każdej klasy po 25 obrazów. Skuteczność metody oprócz powyższych wyników weryfikuje również zbadanie wpływu liczności wzorców w klasach na poziom uzyskiwanych błędów. Badanie takie, przeprowadzone jak poprzednio z wykorzystaniem wielokrotnego wykorzystania danych, zrealizowano dla przypadku umieszczania w bazie osób poszukiwanych stałej liczby 10 losowo dobieranych klas. Zmienną niezależną był procent pozostawionych w bazie obrazów. Zbiór testowy utworzył pozostały odsetek obrazów z bazy osób poszukiwanych oraz taki sam odsetek obrazów osób nieznanych. Przedstawione na rys. 8 krzywe ROC wskazują na oczywiste pogorszenie jakości pierwszego kroku klasyfikacji wraz ze zmniejszeniem liczby wzorców w klasie osób poszukiwanych. Obserwowana zależność jest efektem rosnącej odległości pomiędzy poziomem częstości względnych uzyskiwanych przy badaniu obrazu osoby nieznanej a poziomem częstości maksymalnej wskazującej na osobę z bazy. Rys. 8. Krzywe ROC dla ustalonej procentowo liczby wzorców w klasach osób poszukiwanych Rys. 7. Wyniki badań zależności progu decyzyjnego oraz poziomu błędów rozpoznawania od liczby klas w bazie osób poszukiwanych Prawdopodobieństwo rozpoznania osoby znanej pod warunkiem, że obrazy jej twarzy znajdują się w bazie jest zależne od wielu czynników, ale generalnie przy dostatecznej liczbie wzorców jest duże. Jednocześnie, w przypadku N klas w bazie osób poszukiwanych, prawdpodobieństwo wskazania każdej z nich przy badaniu nieznanego przypadku jest efektem równomiernego Przy małej liczbie wzorców przychodzące nowe przypadki twarzy znanych stanowią dla nich obserwacje nietypowe, dla których metoda najbliższego sąsiedztwa znajduje niewłaściwe punkty kluczowe. Efektem jest spłaszczenie histogramu i konieczność obniżenia progu, jak to przedstawono na rys. 9. Niski próg oznacza jednak wzrost błędów popełnianych przy klasyfikacji przypadków nieznanych, dla których występują lokalne maksima w histogramie przynależności do klas. 220 PRZEGLĄD ELEKTROTECHNICZNY (Electrical Review), ISSN 0033-2097, R. 88 NR 9a/2012
kluczowych danego obrazu należy się jednak liczyć z tym, że po przekroczeniu pewnej liczby klas osób znanych jakość klasyfikacji się pogorszy. Jeżeli liczba punktów kluczowych będzie znacząco mniejsza od liczby klas, to istnieją duże szanse, że metoda najbliższego sąsiedztwa odszuka najbliższe punkty kluczowe w bazie, które nie odpowiadają danemu obrazowi i histogram przynależności do klas ulegnie spłaszczeniu. Możliwa jest jednak strategia podziału dużej bazy danych na bazy mniejsze i przedstawiona metodyka postępowania powinna przynieść poprawne wyniki. Rys. 9. Wyniki badań zależności progu decyzyjnego oraz poziomu błędów rozpoznawania od liczby wzorców klas w bazie osób poszukiwanych Wraz ze spadkiem liczby wzorców w klasach pogarsza się również proces rozpoznawania wśród przypadków znanych. Przy małym zbiorze właściwych badanemu obrazowi punktów kluczowych w bazie i konieczności dopasowania wszystkich punktów, jako właściwe wskazywane są punkty kluczowe obrazów sąsiednich. Biorac pod uwagę liczbę klas zawartych w bazie i użytych do badań należy zauważyć, że błędy rozpoznawania na poziomie nieprzekraczającym kilku procent wymagają posiadania ok. 60 obrazów twarzy każdej z osób znajdujących się w bazie. Podsumowanie Przedstawiony materiał wskazuje na potencjalną wysoką efektywność wykorzystania deskryptorów cech lokalnych obrazu w rozpoznawaniu twarzy. Przy zapewnieniu odpowiedniej liczby obrazów wzorcowych w bazie osób znanych możliwe jest uzyskanie błędów rozpoznawania na poziomie pojedynczych procent. Wymagana liczba kilkudziesięciu wzorców na osobę wydaje się stosunkowo duża, ale należy też wziąć pod uwagę duże wymagania stawiane przez zestawioną bazę różne, czasami nietypowe pozy (rys. 3), które w rzeczywistych warunkach akwizycji obrazu raczej nie będą mieć miejsca. Zaproponowana metoda klasyfikacji charakteryzuje się malejącymi błędami rozpoznawania wraz ze wzrostem liczby klas w bazie. Z uwagi na skończoną liczbę punktów LITERATURA [1] S m iatac z M., M a lina W., Automatyczne rozpoznawanie twarzy metody, problemy, zastosowania, Techniki Komputerowe, t. 42, nr 1, s. 107-128, Warszawa 2008. [2] Brunelli R., Poggio T., Face Recognition: Features versus Templates, IEEE Trans. on Pattern Recognition and Machine Intelligence, v. 15, No. 10, 1993, pp. 1042-1052. [3] B e l humeur P., H e s p a nha J., K riegman D., Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection, IEEE Trans. on Pattern Recognition and Machine Intelligence, v. 19, No. 7, 1997, ss. 711-720. [4] L o we D., Distinctive image features from scale-invariant keypoints, Int. Journal of Computer Vision, vol. 60, No. 2, 2004, ss. 91-110. [5] P a wlik P., Mikrut S., Porównanie dokładności wybranych metod dopasowania obrazów zdjęć lotniczych, Archiwum Fotogrametrii, Kartografii I Teledetekcji, vol. 17b, 2007, ss. 603-611. [6] Ilkyun J., Sewoong J., Youngouk K., Mobile robot navigation using difference of wavelet SIFT, Second International Conference on Machine Vision, Dubai, grudzień 2009, ss. 286-292. [7] Geng C., Jiang X., SIFT features for face recognition, Second IEEE International Conference on Computer Science and Technology, sierpień 2009, 598-602. [8] K r izaj J., S t ruc V., P avesic N., Adaptation of SIFT features for face recognition under varying illumination, Proc. of the 33 rd International Convention MIPRO, Opatija, 2010, ss. 691-694. [9] http://www.cs.ubc.ca/~lowe/keypoints/ [10] K wi a t k o wski W., Metody automatycznego rozpoznawania wzorców, wyd. Belstudio, Warszawa 2007. [11] K o r o n acki J., Ć wi k J., Statystyczne systemy uczące się, Akademicka Oficyna Wydawnicza EXIT, Warszawa 2008. Praca naukowa finansowana ze środków na naukę w latach 2010-2012 jako projekt rozwojowy. Autor: dr inż. Jacek Jakubowski, Wojskowa Akademia Techniczna, Instytut Systemów Elektronicznych; E-mail: jacek.jakubowski@wat.edu.pl PRZEGLĄD ELEKTROTECHNICZNY (Electrical Review), ISSN 0033-2097, R. 88 NR 9a/2012 221