POLITECHNIKA CZĘSTOCHOWSKA Wydział Inżynierii Mechanicznej i Informatyki Instytut Informatyki Teoretycznej i Stosowanej

Transkrypt

1 POLITECHNIKA CZĘSTOCHOWSKA Wydział Inżynierii Mechanicznej i Informatyki Instytut Informatyki Teoretycznej i Stosowanej Mgr inż. Janusz Bobulski METODA IDENTYFIKACJI UŻYTKOWNIKA W OPARCIU O FUZJE TRANSFORMACJI FALKOWEJ I UKRYTYCH MODELI MARKOWA PRACA DOKTORSKA Promotor Prof. dr hab. inż. Leonid Kompanets Częstochowa, 2004

2 SPIS TREŚCI 1. WPROWADZENIE DO TEMATU Stan problemu identyfikacji osób w oparciu o obraz twarzy Analiza metod identyfikacji twarzy Metoda komponentów głównych Identyfikacja i lokalizacja twarzy osób z wykorzystaniem sztucznych sieci neuronowych Identyfikacja twarzy osób za pomocą Ukrytych Modeli Markowa Identyfikacja twarzy osób z użyciem Wavelet-faces Celowe zestawienie efektywności metod identyfikacji twarzy Cel i teza pracy, bronione rozwiązania naukowe, podziękowania SZKIC METODY FaMar IDENTYFIKACJI TWARZY OSÓB W OPARCIU O FUZJE TRANSFORMACJI FALKOWEJ, UKRYTYCH MODELI MARKOWA I OBLICZEŃ LOGARYTMÓW PRAWDOPODOBIEŃSTW OBSERWACJI Podstawowe procedury i tryby pracy Problemy fuzji procedur-składników metody FaMar WYKORZYSTANIE TRANSFORMACJI FALKOWEJ DO PRZEDOBRÓBKI OBRAZÓW TWARZY Specyfika analizy obrazów z użyciem 1D transformacji falkowej Wybór rodziny 1D falek Schemat dwupoziomowy 2D transformacji falkowej obrazów twarzy SPECYFIKA IDENTYFIKACJI PARAMETRÓW UKRYTYCH MODELI MARKOWA DLA TRZECH WYDZIELONYCH OBSZARÓW TWARZY Podstawowe instrumentarium ukrytych modeli Markowa Procedura parametrycznej identyfikacji ukrytych modeli Markowa Problemy estymacji parametrów ukrytych modeli Markowa Algorytmy Viterbiego i Bauma-Welcha do szacowania prawdopodobieństw i parametrów

3 5. OPRACOWANIE SYSTEMU FaMar DO IDENTYFIKACJI OBRAZÓW TWARZY Założenia algorytmiczno-techniczne Realizacja trybu uczenia Realizacja trybu identyfikacji Algorytmiczny zapis metody FaMar Charakterystyki techniczne systemu FaMar WŁAŚCIWOŚCI WYKORZYSTANYCH W EKSPERYMENCIE BAZ OBRAZÓW TWARZY Wymagania specjalne do baz obrazów i wybór baz Charakterystyka dostępnej bazy BioID (Niemcy) Opracowanie własnej bazy FaDab obrazów twarzy EKSPERYMENTALNE DOŚWIADCZENIE POZIOMU BŁĘDÓW I CZASU IDENTYFIKACJI ZA POMOCĄ SYSTEMU FaMar Charakterystyki techniczne systemu FaMar Cele i metodyka eksperymentu Analiza wyników eksperymentu WNIOSKI KOŃCOWE LITERATURA DODATEK A Zdjęcia twarzy z bazy BioID DODATEK B Zdjęcia twarzy z bazy FaDab

4 1. WPROWADZENIE DO TEMATU Problem identyfikacji osób jest obecnie czołowym zagadnieniem wielu ośrodków badawczo-rozwojowych. Zainteresowanie tą dziedziną wynika z potencjalnych możliwości praktycznego zastosowania nowych rozwiązań w identyfikacji osób w systemach wymagających autoryzacji dostępu osób uprawnionych do korzystania z potencjalnych zasobów [Zhao02]. Rosnąca popularność systemów rozpoznawania twarzy spowodowana jest specyfiką metody, która nie wymaga od użytkowników podejmowania akcji, nie jest inwazyjna. Identyfikowane osoby mogą nie wiedzieć, że w ich bezpośrednim otoczeniu znajduje się system, który właśnie je rozpoznaje. System rozpoznawania odcisków palców potrzebuje przyłożenia palca do czytnika linii papilarnych. Systemy rozpoznawania twarzy ograniczają się jedynie do pozyskania obrazu twarzy lub ich sekwencji, po czym w automatyczny sposób dokonują analizy obrazu i podejmują decyzję czy dana osoba figuruje w bazie danych, czy też nie [Fro02]. Systemy rozpoznawania twarzy pod względem działania można podzielić na dwa typy: weryfikacji i identyfikacji. W przypadku weryfikacji system porównuje twarz użytkownika ze znanym mu wzorcem. Określenie identyczności następuje na podstawie miary podobieństwa dwóch obiektów (twarzy), porównując je jeden do jednego. W oparciu o weryfikację wspomniane systemy wykonują zadania autoryzacji (autentyfikacji), czyli potwierdzenia tożsamości osoby na podstawie obrazu twarzy [Kuk03]. Systemy realizujące zadania identyfikacji porównują twarz użytkownika z twarzami zapisanymi w bazie, twarz, dla której miara podobieństwa jest największa uznawana jest za rozpoznaną. Systemy tego typu maja zastosowanie w zadaniach klasy access control, czyli kontroli dostępu do potencjalnych zasobów, np. ochronie pomieszczeń, dostęp do stanowisk komputerowych. Prace nad systemami rozpoznawania twarzy trwają od ponad 20 lat. Pomimo wielu wysiłków nie udało się stworzyć wydajnego i skutecznego systemu. Powodem tego była m.in. słaba wydajność obliczeniowa komputerów w stosunku do ilości przetwarzanych informacji, która była kluczowym elementem systemów opartych na sztucznych sieciach neuronowych lub wyliczeniach statystycznych i algebraicznych. 4

5 Ogół metod rozpoznawania twarzy można podzielić na dwie zasadnicze kategorie: bazujące na profilu twarzy oraz oparte na obrazie czołowym twarzy [Fro02]. Pierwszą kategorią zajmowali się m.in. Chyuan Jy Wu oraz Jun S. Huang i opracowali oni metodę o skuteczności sięgającej prawie 100% [Wu90, Har81]. Natomiast w drugiej kategorii nie wypracowano dotychczas tak skutecznego algorytmu, dlatego prace w tym kierunku trwają nadal i prowadzone są w wielu ośrodkach badawczo-rozwojowych na świecie. Systemy rozpoznawania twarzy opierające się o widok czołowy można podzielić na metody opierające się na podejściu statystycznym lub technikę dopasowania szablonu (ang. template matchig). Wadą dotychczasowych metod statystycznych [Jai00] jest złożoność obliczeniowa ich algorytmów, które wykonują szereg żmudnych wyliczeń, w dodatku opierają się one często na całym obrazie twarzy, co wymaga mocnych zasobów sprzętowych. Ponadto są one trudne do zaimplementowania, a ich wydajność czasowa nie pozwala zastosować ich w systemach kontroli dostępu. Natomiast systemy bazujące na technice dopasowania szablonu [Bru93] wymagają wyodrębnienia geometrycznych cech charakterystycznych twarzy, co jest procesem trudnym do zrealizowania automatycznie. Odrębną grupą metod identyfikacji osób są techniki oparte na sztucznych sieciach neuronowych [Lin97, Row98, Gor98]. Metody te wymagają odpowiedniego doboru typu sieci oraz dużej ilości danych treningowych w celu zapewnienia dużej skuteczności. Ponadto wadą tych technik jest czas uczenia sieci neuronowej oraz zjawisko jej przeuczenia. Potencjalne zastosowania metod identyfikacji osób z wykorzystaniem obrazu twarzy jest szerokie. Można je wykorzystać do uniemożliwienia nieautoryzowanych prób dostępu do bankomatów, komputerów osobistych, sieci komputerowych, telefonów komórkowych, budynków, a także w prewencji, ściganiu przestępców, identyfikacji osób zaginionych, kontroli paszportowych oraz wielu innych dziedzinach życia. W niniejszej pracy przedstawiono propozycje metody identyfikacji osób w oparciu o ukryte modele Markowa. Identyfikacja opierać się będzie na cyfrowym obrazie twarzy w skali szarości. Do ekstrakcji cech zastosowano transformację falkową, a proces decyzyjny wykorzystuje modele Markowa. Oba wspomniane narzędzia matematyczne stosowane były dotychczas oddzielnie w rozpoznawaniu twarzy. Zaproponowana metoda przedstawia możliwości ich wspólnego zastosowania w metodzie identyfikacji twarzy. 5

6 W celu ułatwienia praktycznego zastosowania opisywanych procedur, w pracy przy zapisie wyrażeń matematycznych wykorzystuje się notację stosowaną w środowisku MatLab, różniącą się w niektórych przypadkach od tradycyjnego zapisu. 1.1 Stan problemu identyfikacji osób w oparciu o obraz twarzy Proces identyfikacji osób w oparciu o obraz twarzy sprowadza się do problemu rozpoznawania wzorca, którym w tym przypadku jest twarz. Na rys.1.1 pokazano schemat realizacji technik rozpoznawania [Ete98]. System rozpoznawania oparty jest o dwa podstawowe tryby funkcjonowania: tryb uczenia oraz tryb rozpoznawania. W obu trybach początkowe fazy są podobne: wprowadzenie opisu analizowanego obiektu np. w postaci obrazu cyfrowego obróbka wstępna ekstrakcja cech charakterystycznych obiektu. Różnice występują w kolejnych fazach. W trybie uczenia następuje uczenie systemu danymi pozyskanymi z procesu ekstrakcji cech, podjęcie i ocena decyzji treningowej oraz zapamiętanie danych. W trybie rozpoznawania porównuje się dane w postaci cech charakterystycznych opisujące obiekt z danymi opisującymi obiekty zapisane w bazie danych [Kom02]. Opis pierwotny obiektu rozpoznawanego Przetwarzanie wstępne Ekstrakcja cech charakterystycznych Porównanie ze wzorcem Decyzja o rozpoznaniu Tryb rozpoznawania Tryb uczenia Opis pierwotny obiektów treningowych Przetwarzanie wstępne Ekstrakcja cech charakterystycznych Uczenie systemu Decyzja treningowa systemu Ocena decyzji Rys.1.1 Schemat procesu rozpoznawania obrazów W systemach rozpoznawania twarzy realizujących zadanie identyfikacji schemat działania jest podobny. Występują dwa tryby pracy: uczenia i identyfikacji. W fazie uczenia 6

7 następuje wydobycie cech twarzy, nauczenie systemu i zapis danych do bazy. W trybie identyfikacji po wyodrębnieniu cech charakterystycznych twarzy porównywana jest ona z obiektami w bazie i na podstawie miary podobieństwa podejmowana jest decyzja o rozpoznaniu. Systemy w pełni automatyczne, przed zastosowaniem odpowiedniej metody identyfikacji przeprowadzają procedurę lokalizacji twarzy w obrazie wejściowym wydzielając ją z obrazu i odrzucając zbędną część. Lokalizacja obrazu twarzy Lokalizacja twarzy polega na dokładnym określeniu położenia i wielkości twarzy występujących w badanym obrazie. Istnieje wiele metod realizacji tego zadania, jednak w praktyce w przypadku obrazów w skali szarości stosuje się metodę bazującą na dopasowaniu wzorca. Polega ona na stworzeniu wzorca twarzy i porównywaniu go z kolejnymi fragmentami obrazu. Jako miarę podobieństwa stosuje się błąd średniokwadratowy [Kuk03, Nik00]. W przypadku obrazów kolorowych stosuje się mechanizm detekcji koloru skóry. Polega on na kwantyzacji przestrzeni barw obrazu kolorowego oraz wyodrębnieniu obszarów odpowiadających barwie skóry i mogących zawierać twarz, a następnie poszukiwaniu na nich twarzy technikami podobnymi do stosowanych w obrazach w skali szarości. Kwantyzacja barw polega na transformacji obrazu wejściowego z modelu barw RGB do innych modeli barw. Najczęściej stosowanymi modelami barw są YcbCr, HSV i I1I2I3 oraz ich modyfikacje. Szczegółowy opis tej procedury można znaleźć w pracach [Kuk03, Sat99, Yan02]. 1.2 Analiza metod identyfikacji twarzy Metoda komponentów głównych Podstawową i jedną z najbardziej rozpowszechnionych metod identyfikacji osób jest technika wykorzystująca w obróbce wstępnej analizę komponentów głównych (ang. Principal Component Analisys - PCA), wykorzystująca obrazy i wektory własne wyznaczane na bazie transformacji Karhunena-Loeva (ang. Karhunen-Loeve Transformation KLT). Jako pierwsi 7

8 metodę KLT/PCA do reprezentacji twarzy wykorzystali Sirovich i Kirby [Kir90, Sir87], natomiast Pentland rozszerzył tą ideę na problem identyfikacji osób [Pen91, Pen94]. Technika ta została szeroko rozpropagowana i doczekała się wielu modyfikacji i zastosowań. Baza danych Wybór cech Nowy obraz Ocena macierzy kowariancji KLT: Ocena komponentów głównych Wyznaczenie wartości własnych i wektorów własnych Znajdowanie EigenFace Rekonstrukcja: Aproksymacja danych wejściowych Znajdowanie p największych wartości własnych i odpowiadającym im wektorów własnych KLT: Przedstawienie nowego obrazu w zredukowanej przestrzeni cech REZULTAT Rys. 1.2 Struktura obliczeń w technice PCA/KLT [Kuk03] Idea metody PCA opartej o przekształcenia KLT przedstawia Rys. 1.2 [Kuk03]. Ideą analizy głównych komponentów jest uzyskanie podstawowych zmian w wejściowym zestawie cech twarzy i opisanie tych zmian przy pomocy odpowiednich wartości własnych i odpowiadających im wektorom własnym. 8

9 Przekształcenie ortogonalne bazy wektorów własnych (KLT) pozwala na transformacje przestrzeni cech wejściowych w nową przestrzeń cech o mniejszej wymiarowości. Nazywane jest to redukcją przestrzeni cech, a wynik tej transformacji pozwala na zdefiniowanie komponentów głównych. Macierz kowariancji reprezentuje zmiany w zestawie cech twarzy, a jej rząd D odpowiada rozmiarom wektora cech wejściowych opisujących obraz. Wartości własne macierzy kowariancji są jej widmem w bazie wektorów własnych. Podstawowa zmienność macierzy kowariancji opisana jest przez p największych wartości własnych, przy czym p<<d. Wektory własne składają się na bazę wykorzystywaną w KLT. W procesie redukcji cech w kolejnych przekształceniach wykorzystywanych jest tylko p największych wartości własnych i odpowiadających im wektorów własnych. Danymi wejściowymi KLT są obrazy opisane w wejściowej przestrzeni cech o rozmiarach D, natomiast danymi wyjściowymi są komponenty główne będące widmem opisanym przez p wektorów własnych. Dzięki temu KLT redukuje przestrzeń cech wejściowych o rozmiarze D do przestrzeni o rozmiarze p cech. Transformacja KLT komponentów głównych tworzy z nich twarze własne (ang. EigenFaces) (Rys. 1.3). Podobnie jest realizowana aproksymacja lub pełna rekonstrukcja obrazów. Rys. 1.3 Przykład Eigenfaces otrzymanych z odwrotnej KLT [Pen91] Każdy nowy obraz przeznaczony do rozpoznawania także podlega KLT w bazie wektorów własnych, przez co otrzymuje się jego reprezentację w zredukowanej przestrzeni cech. W zredukowanej przestrzeni cech problem porównywania obrazów staje się prostszy, pod warunkiem, że reprezentowane są one przez mniejszą liczbę cech opisujących ich główne właściwości. 9

10 Algorytmiczny zapis metody PCA/KLT [Kuk03] Wektor cech opisujący obraz zapisuje się: q numer obrazu x(i,q) wartość i-tej cechy, i=1,2,...,d D rozmiar przestrzeni cech Q liczba obrazów w klasie x(1, q) x(2, q) ( X q ) = q = 1,2, K, Q (1.1) M x( D, q) W oparciu o powyższy wzór, zestaw wszystkich obrazów przeznaczonych do treningu systemu rozpoznawania można zapisać: K liczba klas L liczba obrazów w danej klasie X D KL ( 1) (2) ( KL) [ X X K X ] = (1.2) Bloki algorytmu realizującego metodę PCA/KLT [Kuk03]: 1. Określić średni obraz X : K L 1 ( q) X = X KL k= 1 q= 1 2. Zapisać dane wejściowe (1.2) w postaci wycentrowanej macierzy cech: D D KL (1) (2) ( KL) [( X X ) ( X X ) ( X X )] (1.3) = K (1.4) 3. Obliczyć macierz kowariancji R D D R D (rzędu D): ( D ) T R D DD KL D KL = (1.5) 4. Dla macierzy (1.5) określić wartości własne i odpowiadające im wektory własne, dla których spełnione są warunki: D T [ VD ] RDVD Λ = (1.6) Λ D diagonalna macierz rzędu D, na przekątnej, której są wartości własne V D ortogonalna macierz rzędu D, której wiersze określają wektory własne, odpowiadające wartościom własnym 5. Z elementów macierzy Λ D wybrać p największych wartości, przy czym p<<d 10

11 6. Z macierzy [V D ] T wybrać p wierszy, odpowiadających p największym wartościom własnym, z których buduje się macierz redukcji cech F p D 7. Wykonać przekształcenia Karhunena-Loeva dla wszystkich obrazów wejściowych: Y p KL Fp DDD KL Y (q) q-ty obraz w zredukowanej przestrzeni cech y(i,q) wartość i-tej cechy w q-tym obrazie, i=1,2,...,p p rozmiar zredukowanej przestrzeni cech (p<<d) = (1.7) ( 1) (2) ( KL) [ Y Y K Y ] Yp KL = (1.8) y(1, q) y(2, q) ( Y q ) = q = 1,2, K, KL (1.9) M y( p, q) Rozmiar zredukowanej przestrzeni cech równy jest p i jest mniejszy od wejściowego rozmiaru D/p razy. Po dokonaniu redukcji metodą PCA do danych wejściowych oprócz KL wektorów (1.8) należy macierz przekształcenia Karhunena-Loeva (1.7) oraz obraz średni, obliczony z (1.3). Dane wyjściowe Y p KL, F p D i X są potrzebne do zadania rozpoznawania twarzy. Proces rozpoznawania obrazów testowych W bazie danych zawarta jest pewna liczba obrazów podzielonych na klasy. W procesie rozpoznawania należy sprawdzić przynależność obrazu testowego do bazy danych albo przez obliczenie miary podobieństwa między tym obrazem i wzorcami znajdującymi się w bazie, albo przez wyliczenie miary podobieństwa między charakterystyką tego obrazu a wspólną charakterystyką klasy obrazów. Testowy obraz zostanie przypisany do klasy, dla której miara podobieństwa będzie największa. Proces rozpoznawania nowego obrazu O M N realizowany jest w trzech etapach: 1. Usuwanie wartości średniej (lub obrazu średniego) z obrazu testowego. 2. Redukcji cech z wykorzystaniem procedur metody PCA/KLT i wyznaczenie wektora X ~. 11

12 3. Wyliczenie odległości między wektorem X ~ (k ) i wektorami średnimi X dla wszystkich klas z określeniem numeru klasy, któremu odpowiada minimum odległości obliczonej na podstawie metryki euklidesowej w postaci: d k ( k ) 2 ( k ) 2 ( k ) ( ~ x ) ( ~ ) ( ~ ) 2 1 x1 + x2 x2 + + x p x p = K (1.10) Identyfikacja i lokalizacja twarzy osób z wykorzystaniem sztucznych sieci neuronowych Spośród wielu rodzajów sieci neuronowych do zadań lokalizacji twarzy najczęściej używa się sieci perceptron wielowarstwowy oraz pamięci autoasocjacyjnej. Sieci neuronowe wydają się rozwiązaniem szybkim w implementacji, jednakże nie dają 100% skuteczności. Są wrażliwe na skalę i obrót obiektu. Mimo wszystko po poczynieniu odpowiednich założeń jest to metoda jak najbardziej godna uwagi [Tad93]. Do zadań rozpoznawania obrazów stosuje się sieci wielowarstwowe, np. perceptron wielowarstwowy lub pamięć autoasocjacyjną [Gor98]. Sieci jednowarstwowe potrafią jedynie liniowo klasyfikować dane wejściowe, co wydaje się niewystarczające do zrealizowania tego zadania. Więcej informacji można znaleźć w [Lin97, Kor96, Żur96]. Rys. 1.4 Przykładowa architektura sieci neuronowej [Rut97] Na rys.1.4 przedstawiono przykładową architekturę sieci neuronowej, która może być wykorzystana do zadań rozpoznawania twarzy. Sieć składa się z L warstw, w każdej z nich 12

13 znajduje się N k neuronów, k=1,2,..,l, oznaczonych NE k i, i=1,2,...,n k. Sieć ma N 0 wejść, na które są podawane sygnały u 1, u 2,..., u No reprezentujące twarz. Sygnał wyjściowy i-tego neuronu w k-tej warstwie jest oznaczony jako y (k) i (t), i=1,2,..., N k, k=1,2,...l. Symbol d (L) i, i=1,2,..., N k, oznacza sygnały wzorcowe sieci wykorzystywane do uczenia sieci, natomiast ε (L) i, i=1,2,..., N k, błąd sieci [Rut97]. W celu uzyskania większej skuteczności sieci neuronowych w procesach rozpoznawania twarzy stosuje się wielkie zestawy treningowe, co jest oczywiście niezwykle kłopotliwe. Dołączenie nowej osoby do bazy danych wymaga organizacji całych serii zdjęciowych, najczęściej przy różnych warunkach zewnętrznych. Bardzo dobre rezultaty osiągnęli S.-H Lin i S.-Y. Kung stosując opracowaną przez nich probabilistyczną, ukierunkowaną na decyzje sieć neuronową [Lin97]. Osiągnęli 92.65% poprawnych rozpoznań, a po wprowadzeniu weryfikacji na podstawie linii włosów poprawność wzrosła do 97.75%. Połączenie sztucznych sieci neuronowych z innymi technikami pozwala na osiągniecie dobrych rezultatów [Yoo98]. Jedną z możliwości jest zastosowanie transformacji falkowej i wykorzystanie wavelet networks. Po raz pierwszy technikę tę zastosował Zhang i Benveniste [Zha97]. Podobne podejście można znaleźć w pracach [Szu96, Kru03]. Inną techniką identyfikacji osób na podstawie obrazu twarzy może być połączenie sieci neuronowych z metodą PCA/KLT. Purnell, Nieuwoudt i Botha w swojej pracy [Pur98] przedstawili takie właśnie podejście. Transformacja KLT jest stosowana do ekstrakcji cech, natomiast sieć neuronowa do klasyfikacji Identyfikacja twarzy osób za pomocą Ukrytych Modeli Markowa W pracy [Sam94], Samaria i Young zaproponowali użycie jednowymiarowego ciągłego Ukrytego Modelu Markowa (UMM) do rozwiązania problemu rozpoznawania twarzy. Zakładając, że każda twarz jest w pionowej, czołowej pozycji, cechy charakterystyczne będą występować w przewidywalnej hierarchii. Ta kolejność sugeruje użycie modelu top-bottom, w którym tylko przejścia między przyległymi stanami są dozwolone [Sam93]. Zastosowano pięciostanowy ukryty model Markowa, którego stany odnoszą się do wybranych cech twarzy, takich jak czoło, oczy, nos, usta i podbródek [Sam94]. Sekwencja obserwacji jest generowana na podstawie obrazu XxY z użyciem okna o 13

14 wymiarach XxL i zakładką XxM. Każdy wektor obserwacji jest blokiem L linii. Występuje tu zachodzenie M linii między kolejnymi obserwacjami (Rys 1.5). Rys. 1.5 Ilustracja procesu pobierania cech [Sam94] Zachodzenie obserwacji pozwala na wychwycenie cech niezależnie od pionowej pozycji twarzy, podczas gdy oddzielne partycjonowanie obrazu może skutkować odcięciem części cech występujących na granicy bloku danych. Gdy nie występuje zachodzenie na siebie obserwacji i dodatkowo okno pobierające dane jest zbyt małe, uzyskana informacja nie odzwierciedla cech twarzy. Jednak przy zbyt dużym wzroście wysokości okna zwiększa się prawdopodobieństwo odcięcia cech twarzy. W tej metodzie dla każdej twarzy generowany jest jeden model Markowa. Jego parametry są estymowane na podstawie obserwacji, które są tworzone w oparciu o cechy wydobyte z obrazu. Wyznaczenie parametrów UMM następuje poprzez zastosowanie procedury Bauma-Welcha. W procesie identyfikacji obraz testowy, podany na wejście, dzielony jest na fragmenty pozwalające wydobyć cechy twarzy. Otrzymane w ten sposób obserwacje są wykorzystywane do testowania wszystkich modeli zapamiętanych w bazie, reprezentujących poszczególne osoby. Model, dla którego prawdopodobieństwo wygenerowania tych obserwacji jest największe ujawnia tożsamość osoby. 14

15 1.2.4 Identyfikacja twarzy osób z użyciem Wavelet-faces W pracy [Chi02] Chien i Wu zaproponowali użycie Wavelet-faces używających Transformacji Falkowej (TFL) do rozpoznawania twarzy. W tej metodzie zastosowano dwuwymiarową TFL do ekstrakcji cech twarzy. Używając 2D TFL obraz dekomponowany jest na cztery podobrazy przez filtry górno- i dolno-przepustowe (Rys. 1.6). Symbole 2 1 i 1 2 oznaczają odpowiednio decymację rzędów i kolumn, czyli odrzucenie co drugiego rzędu/kolumny. Symbole Lo i Hi oznaczają filtr górno i dolnoprzepustowy danego banku filtrów; w prezentowanej metodzie Daubechies (db1). Rys. 1.6 Schemat dwuwymiarowej TFL Wynikowe obrazy posiadają różną energię, i tak podobraz LL ma ją największą i jest pomniejszoną kopią oryginalnego obrazu. Natomiast pozostałe podobrazy LH, HL, i HH wydobywają zmieniające się składniki obrazu, odpowiednio w kierunku poziomym, pionowym oraz diagonalnym. Zastosowanie TFL kolejnych poziomów, czyli poddanie wyników TFL kolejnym transformacjom według tego samego schematu powoduje rozbicie obrazu wejściowego na mniejsze podobrazy i wydobycie bardziej szczegółowych informacji. W prezentowanej metodzie zastosowano dwuwymiarową transformację falkową trzeciego poziomu. Obraz wynikowy LL był poddawany kolejnym przetwarzaniom TFL. Ten sposób wyznaczania TFL kolejnych poziomów jest nazywany strukturą piramidy (Rys.1.7). 15

16 Rys. 1.7 Przykład 2D-TFL drugiego poziomu w strukturze piramidy [Laij01] Do budowy wektora cech wykorzystano obraz LL z wyniku 2D TFL trzeciego poziomu, którego rozmiar wynosi 1/8 wysokości na 1/8 szerokości obrazu wejściowego. Jako klasyfikatora użyto reguły najbliższego sąsiada, polegającej na wyznaczeniu euklidesowej odległości do najbliższego wektora cech. Wektor cech, do którego ta odległość jest najmniejsza jest uznawany za najbardziej podobny, a twarz, którą reprezentuje, jako rozpoznaną. Podobne podejście zostało zastosowane w [Laij01]. Podobnie jak w metodzie przedstawionej wcześniej. Zastosowano 2D TFL trzeciego poziomu w strukturze piramidy, a jako funkcję falkową wykorzystano db4. Garcia i inni w [Gar00] zaproponowali użycie TFL do identyfikacji osób. W zaproponowanej metodzie zastosowano 2D TFL drugiego poziomu. Zastosowano klasyczny schemat dekompozycji falkowej oferujący lepszą analizę szczegółów sygnału (Rys.1.8). W tym schemacie rozkładu falkowego każdy obraz wynikowy 2D TFL pierwszego poziomu poddawany jest ponownej transformacji. Wynikowe obrazy z drugiego poziomu transformacji wykorzystywane są do budowy wektora cech. Powstaje on z wyliczenia wariancji z 15 podobrazów wynikowych 2D TFL drugiego poziomu reprezentujących szczegóły. Dodatkowo wyliczane są trzy wartości średnie i trzy wariancje (tło, górna i dolna część twarzy) z obrazu przybliżeń. W ten sposób otrzymywany jest wektor 21 wartości wykorzystywany do identyfikacji. Do klasyfikacji wektorów cech użyto miary odległości Bhattacharyya. 16

17 Rys.1.8 Wynik 2D TFL drugiego poziomu w schemacie klasycznym [Gar00] 1.3 Celowe zestawienie efektywności metod identyfikacji twarzy Analizując dotychczasowe rozwiązania zagadnienia identyfikacji twarzy stwierdzono wady poszczególnych metod, które są powodem ich słabej skuteczności. Poniżej przedstawiono wady poszczególnych metod. Wady metody PCA/KLT: Duża złożoność obliczeniowa Duże wymagania sprzętowe. 17

18 Wady metod opartych o sieci neuronowe: Czasochłonny proces uczenia Błędna odpowiedź o identyfikacji w przypadku wprowadzenia twarzy nie będącej zarejestrowanej w bazie Duże wymagania sprzętowe. Wady metody UMM: Duże wymagania do parametryzacji modelu (wybór eksperymentalny macierzy A, B, π) Czułość na zmiany natężenia oświetlenia. Wady metody Wavelet-faces: Duże wymagania do parametryzacji modelu (wybór rodziny falek i struktury transformacji falkowej) Ponadto, wadą wspomnianych metod jest praca z całym obrazem twarzy, co powoduje wprowadzanie zakłóceń pochodzących spoza obszaru twarzy, a także zwiększa wymagania sprzętowe dotyczące mocy obliczeniowej, pamięci operacyjnej oraz miejsca na dysku. Aby zbudować skuteczny i szybki system identyfikacji twarzy należy wykorzystać zalety wspomnianych metod, starając się jednocześnie unikać ich wad. W tab.1.1 przedstawiono zestawienie popularnych metod identyfikacji twarzy oraz ich krótkie charakterystyki. 18

19 Tab.1.1 Zestawienie charakterystyk metod identyfikacji osób na podstawie obrazu twarzy Metoda KLT/PCA SSN UMM Autorzy Kukhariev, Kużmiński Lin, Kung Samaria, Young Wavelet - faces Chen, Wu Prawidłowo rozpozn. [%] Liczba twarzy użytych do testowania [szt.] Podstawa wyznaczenia cech charakterystycznych twarzy Wektor cech własnych wyznaczony z KLT Cechy geometryczne twarzy Wartość intensywności pikseli Podobrazy uzyskane z TFL Metoda klasyfikacji Odległość euklidesowa Funkcja transmitancji sieci Największe prawdopodobieństwo Odległość euklidesowa 1 Wyniki na podstawie [Kuk03] 2 Wyniki na podstawie [Lin97] 3 Wyniki na podstawie [Sam94] 4 Wyniki na podstawie [Chi02] 19

20 1.4 Cel i teza pracy, bronione rozwiązania naukowe, podziękowania Jak wykazano w przeglądzie dotychczasowych rozwiązań, metody posiadają wiele wad, a ich skuteczność na dużych bazach obrazów twarzy nie jest zadowalająca zapotrzebowania praktyczne. Celem rozprawy jest opracowanie metody identyfikacji użytkownika na podstawie obrazu twarzy, która opiera się na tezie: Fuzja matematycznych narzędzi Transformacji Falkowej i Ukrytych Modeli Markowa, a także wyodrębnienie specyficznych obszarów twarzy (obszary: oczu, nosa, ust) jest przesłanką do opracowania metody identyfikacji użytkownika, która posiada porównywalne właściwości z prezentowanymi dotychczasowymi rozwiązaniami bazującymi na statycznych frontalnych 2D obrazach twarzy. Celem badań jest opracowanie systemu i komponentów programowych do identyfikacji twarzy reprezentowanej przez jej obraz cyfrowy, w oparciu o fuzje Transformacji Falkowej i Ukrytych Modeli Markowa. Koniecznym wymaganiem do opracowania jest udowodnienie eksperymentalne potwierdzające poprawność metody, a także osiągnięcie porównywalnych z istniejącymi systemami poziomów błędów i złożoności obliczeniowej. Ponadto powinny być przeprowadzone badania eksperymentalne w celu prawidłowego wyboru odpowiednich wartości parametrów modeli w poszczególnych fazach działania systemu programowego FaMar (Face, Markow). Bronione rezultaty naukowe 1. Opracowana metoda (i odpowiedni system programowy) FaMar do identyfikacji twarzy użytkownika oparta na fuzji matematycznych narzędzi falkowego przetwarzania obrazu twarzy i ukrytych modeli Markowa, która posiada charakterystyki porównywalne z charakterystykami osiągniętymi w prezentowanych metodach. 20

21 2. Wybór schematu falkowej transformacji drugiego poziomu dla obrazu twarzy z podziałem obrazu na trzy informatywne części (obszary: oczy, nosa, ust), a także dobór eksperymentalny funkcji falki rodziny Daubechies. 3. Wybór architektury 1D-UMM i opracowanie specjalnej techniki przedobróbki obrazu twarzy, za pomocą której zabezpiecza się efektywne skanowanie 2D obrazu twarzy, a także doświadczalna identyfikacja parametrów modelu 1D-UMM względem warunków stawianych przez problem opracowania systemu FaMar. 4. Stworzona specjalna baza obrazów FaDab zawierająca frontalne obrazy twarzy 150 osób służąca do uczenia i testowania systemu FaMar. 5. Wyniki eksperymentalnego potwierdzenia, że poziom błędów i czas identyfikacji obrazu twarzy przez program FaMar są porównywalne do odpowiednich charakterystyk osiągniętych w dotychczasowych metodach (PCA/KLT, HMM, Wavelet-face); udowodnienie przeprowadzono z wykorzystaniem baz obrazów twarzy BioID (Niemcy) i FaDab (stworzona przez autora). 6. Eksperymentalny dowód potwierdzający, że w specyficznych przypadkach identyfikacji może być wykorzystany tylko obszar oczu. 7. Eksperymentalny dowód uzasadniający efektywność wykorzystania w metodzie funkcji falkowej db1. Praca zawiera wyniki uzyskane przez doktoranta w ramach realizacji projektu badawczego promotorskiego Nr 4T11C00425 z dnia Podziękowania Doktorant wyraża podziękowania dla profesora Leonida Kompanetsa za ukierunkowanie pracy, cenne rady i wiedzę, którą podzielił się w trakcie realizacji pracy doktorskiej. 21

22 2. SZKIC METODY FaMar IDENTYFIKACJI TWARZY OSÓB W OPARCIU O FUZJE TRANSFORMACJI FALKOWEJ, UKRYTYCH MODELI MARKOWA I OBLICZEŃ LOGARYTMÓW PRAWDOPODOBIEŃSTW OBSERWACJI W rozdziale tym przedstawiono szkic metody FaMar (Face, Markow) identyfikacji twarzy osób w oparciu o fuzje transformacji falkowej, ukrytych modeli Markowa i obliczeń logarytmów prawdopodobieństw obserwacji stanów. Omówiono założenia metody, podstawowe procedury, tryby pracy, a także problemy fuzji procedur-składników metody FaMar. 2.1 Podstawowe procedury i tryby pracy Opierając się na zasadach dotychczasowych metodach identyfikacji twarzy można osiągnąć poziom błędów rzędu 6-8%. Aby uniknąć problemów występujących w tych metodach można wykorzystać ich zalety i połączyć je, starając się uniknąć ich wad. W celu zrealizowania tego zadania proponuje się wykorzystanie połączenia transformacji falkowej, ukrytych modeli Markowa i zasady największego prawdopodobieństwa. Transformacja falkowa (TFL) jest narzędziem pozwalającym na dostrojenie i dopasowanie jej parametrów do przetwarzanych danych. Dzięki temu uzyskuje się optymalny pożądany wynik, który może posłużyć do ekstrakcji cech. Ukryte modele Markowa (UMM) są popularnym narzędziem statystycznym do analizy procesów losowych. W celu ich zastosowania wystarczy zdefiniować ich strukturę i wyznaczyć parametry, aby uzyskać najlepszą, maksymalną odpowiedź dotyczącą adekwatności modelu w stosunku do analizowanych danych. Zasada maksymalnego prawdopodobieństwa pozwala na szybkie podjęcie decyzji. W przeciwieństwie do innych metod nie trzeba definiować klas obiektów oraz jej przestrzeni. Wystarczy wyznaczyć prawdopodobieństwo i wskazać, dla którego obiektu jest ono największe, w stosunku do prawdopodobieństwa początkowego. Większość dotychczasowych rozwiązań problemu identyfikacji twarzy bazuje na wydobywaniu i analizie niskoczęstotliwościowych cech twarzy. Lepszym rozwiązaniem może 22

23 być wykorzystanie zarówno nisko- jak i wysokoczęstotliwościowej informacji. Jednym z rozwiązań może być zastosowanie TFL i UMM. Oba narzędzia są czułe na pełny zakres zmiany sygnału. Dlatego opracowanie systemu bazującego na TFL i UMM oraz odpowiednie ich wzajemne dostrojenie, tak aby ich działanie zazębiało się, rokuje na uzyskanie wyników lepszych od systemów wykorzystujących tylko niskoczęstotliwościową część sygnału. Tryb uczenia Tryb identyfikacji Wczytanie obrazu Wczytanie obrazu Normalizacja twarzy i wydzielenie obszaru oczu, nosa i ust Normalizacja twarzy i wydzielenie obszaru oczu, nosa i ust Transformata falkowa poszczególnych obszarów twarzy Transformata falkowa poszczególnych obszarów twarzy Kodowanie informacji i budowa wektorów cech Kodowanie informacji i budowa wektorów cech Generowanie modelu dla każdego z obszarów Estymacja parametrów modeli Sumowanie prawdopodobie ństw ól h Testowanie modeli zapisanych w bazie Zapis modeli do bazy Decyzja Rys. 2.1 Schemat procedur składników metody FaMar identyfikacji r twarzy ż k ik W proponowanej metodzie identyfikacji osób rozróżnia się dwa tryby pracy: tryb uczenia i tryb identyfikacji. W pierwszym z nich następuje wprowadzenie danych wejściowych, przetwarzanie wstępne, ekstrakcja cech, uczenie systemu i zapis do bazy danych. Natomiast w drugim, po wprowadzeniu danych, następuje przetwarzanie wstępne, 23

24 ekstrakcja cech, identyfikacja i podjęcie decyzji o rozpoznaniu. Schemat działania metody FaMar identyfikacji osób przedstawiono na rys. 2.1 Tryb uczenia Przetwarzanie wstępne Pierwszym etapem w procesie uczenia jest wczytanie obrazu i jego obróbka wstępna. Obraz po wczytaniu jest skalowany do rozmiaru: wys. 400, szer. 300 pikseli. Następnie poddawany jest on filtracji przy pomocy filtru medianowego, w celu usunięcia zakłóceń w obrazie, które mogą być przyczyną błędów. Drugim etapem jest normalizacja twarzy. Jest to niezbędny proces, dzięki któremu możliwe jest porównywanie obiektów, jakimi są w tym przypadku obrazy twarzy. Założeniem normalizacji jest odpowiednie przeskalowanie obrazu twarzy, tak, aby mogły one być porównywane. Pierwszą czynnością w procesie normalizacji jest wyznaczenie środków oczu. Dokonuje się tego przy pomocy procedury projekcji, czyli obliczeniu pseudo-gradientu wartości pikseli całego obrazu, a następnie zsumowaniu tych wartości dla każdego wiersza oraz kolumny. Otrzymuje się w ten sposób dwa wektory, odpowiednio sumy gradientów w poziomie i w pionie. Wyznaczając wartości maksymalne, otrzymuje się współrzędne środków oczu [Kuk03]. Po wyznaczeniu środków oczu, zdjęcie twarzy skalowane jest tak, aby odległość między nimi wynosiła 60 pikseli. Dodatkowo odrzucana jest ta cześć obrazu, która leży poza obiektem, czyli nie będąca twarzą. Drugą częścią przetwarzania wstępnego jest podział twarzy na trzy obszary. Ze znormalizowanego obrazu twarzy wydzielane są obszary zawierające najwięcej informacji oraz gwarantujące wystarczającą ilość danych potrzebnych do procesu identyfikacji. Do tych obszarów należą: obszary oczu, nosa i ust. Obszary czoła i brody są odrzucane, ponieważ zawierają najmniej informacji oraz wprowadzają najwięcej zakłóceń. Podziału dokonuje się w oparciu o proporcje twarzy, czyli wzajemne położenie jej elementów w stosunku do odległości między oczami. Ekstrakcja cech W procesie ekstrakcji cech została wykorzystana Transformacja Falkowa (TFL). Stosując dwuwymiarową transformację falkową obraz twarzy jest rozkładany przez filtry dolno- i 24

25 górnoprzepustowe na cztery podobrazy. W proponowanej metodzie zastosowano dwuwymiarową transformację falkową drugiego poziomu. Po dokonaniu transformacji pierwszego poziomu obrazy wyjściowe stają się obrazami wejściowymi drugiego poziomu. Wyniki otrzymane z transformacji falkowej drugiego poziomu muszą być zakodowane do postaci akceptowanej przez model Markowa. Najprostszą metodą redukcji i kodowania informacji, jaka może być zastosowana, jest użycie odchylenia standardowego lub wartości średniej. Uczenie W procesie identyfikacji zastosowano Ukryte Modele Markowa (UMM). Statystycznymi parametrami modelu są: Liczba stanów modelu N. Macierz prawdopodobieństwa przejść A={a ij } 1 i,j N, gdzie a ij jest N prawdopodobieństwem przejścia ze stanu i do stanu j, pod warunkiem, że = a = 1. Macierz prawdopodobieństwa obserwacji B={b j (O T )}, 1 j N, 1 t T, oznaczająca prawdopodobieństwo wygenerowania t-tej obserwacji w stanie j. Wektor prawdopodobieństw stanów początkowych π = {π i } 1 i N. j 1 ij Formalnie model UMM przedstawia się następująco: λ = ( A, B, π ) (2.1) W metodzie FaMar dla każdej części twarzy generowany jest jeden model. Na początku parametry modelu generowane są losowo, a następnie estymuje się je przy pomocy algorytmu Baum a-welch a [68]. Bazuje on na algorytmie forward-backward. Po wyznaczeniu parametrów modelu zapisywany jest on do bazy. Każda twarz reprezentowana jest przez trzy modele, dla każdego obszaru po jednym (Rys. 2.2) 25

26 Rys.2.2 Sposób reprezentacji obszarów twarzy przez UMM Tryb identyfikacji W procesie identyfikacji początkowe etapy są jednakowe z trybem uczenia. Najpierw następuje wczytanie obrazu twarzy. Później twarz jest normalizowana i dzielona na obszary. Proces ekstrakcji cech jest analogiczny do występującego w trybie uczenia. Różnice obu trybów występują w etapie końcowym. Identyfikacja Proces identyfikacji polega na wyliczeniu prawdopodobieństwa wygenerowania obserwacji przez dany model z bazy danych. Wybierany jest ten model, dla którego prawdopodobieństwo jest największe. W proponowanej metodzie FaMar, prawdopodobieństwo liczone jest dla każdego modelu reprezentującego jeden z obszarów twarzy. Następnie prawdopodobieństwa są sumowane, obraz twarzy, dla którego wartość jest największa wybierany jest jako poprawny. 26

27 2.2 Problemy fuzji procedur-składników metody FaMar Jednym z ważniejszych problemów syntezy systemów biometrycznych z zadowalającymi dla praktyki charakterystykami technicznymi jest problem fuzji biometryk i/lub metod obróbki. Zazwyczaj stworzenie zadowalającej metody fuzyjnej jest sztuką (Stateof-the-art.). Problem fuzji metod i biometryk jest skomplikowanym teoretycznym problemem. Jeśli zdefiniować efekt fuzji biometryk/metod obróbki jako równoległe działanie odpowiednich komponentów (połączenie bloków), to efekt fuzji w pierwszym przybliżeniu można obliczyć dosyć prosto. Niech mamy równolegle połączenie dwóch bloków z jednakowymi prawdopodobieństwami niezawodnego funkcjonowania p i dla każdego bloku. Wtedy prawdopodobieństwo funkcjonowania równoległego systemu Σ P 2 =(1-(1-p i ) 2 ) (2.2) Σ Jeśli, np. p i = 0,5 i 0,8, to P 2 będą odpowiednio równe 0,75 i 0,96. Jednak fuzja jest zjawiskiem bardziej skomplikowanym. W tym przypadku warto stosować do walidacji wyników zasadę zespołu algorytmów, który zawiera algorytmy erudyty (np. do szybkiej detekcji obiektu), algorytmy specjaliści (np. do autentykacji obiektów), algorytmy non-konformiści (wykorzystują inne źródła informacyjne). To znaczy, że fuzja w sposób specyficzny włącza procedury sekwencyjne i równoległe. W metodzie FaMar wykorzystano sekwencyjny typ fuzji: połączenie przetwarzania falkowego dla 2D-obrazy twarzy i następnie identyfikacje rodziny 1D-HMM dla falkowych obrazów twarzy; decyzję rozpoznawczą przyjmuje się na podstawie poszukiwania 1D-HMM rodziny (modelu) posiadającej maksymalną sumę logarytmów prawdopodobieństw wygenerowania modeli. W tym celu wybierane są trzy informatywne części obrazu twarzy. Przyjęta strategia daje możliwość skrócić ilość obliczeń w skutek wykorzystania kilku 1D obrazów twarzy, przy czym tracone jest minimum informacji w 2D-obrazie twarzy. 27

28 3. WYKORZYSTANIE TRANSFORMACJI FALKOWEJ DO PRZEDOBRÓBKI OBRAZÓW TWARZY W rozdziale tym omówiono podstawowe pojęcia i opis idei Transformacji Falkowej (TFL). Rozdział 3.1 stanowi kompendium wiedzy z tego zakresu i został napisany w celu kompletności informacji dotyczących TFL [Mis98]. W opisanej poniżej metodzie identyfikacji osób TFL wykorzystuje się do ekstrakcji cech twarzy. 3.1 Specyfika analizy obrazów z użyciem 1D transformacji falkowej Wynik ciągłej transformacji falkowej (CWT) jest zdefiniowany jako zbiór wartości sygnału pomnożonych przez skalę a i funkcję Ψ falki dla wszystkich chwil sygnału. t czas ciągły a współczynnik skalowania f(t) przebieg sygnału, ψ(a, t) funkcja falki. ( a t) f ( t) ( a t) C, = ψ, dt (3.1) Wynikiem CWT jest zbiór współczynników falki C, które są funkcjami skali i położenia. Przemnażając każdy współczynnik przez właściwie skalowaną i przesuniętą falkę zyskujemy składowe falki oryginalnego sygnału. Graficznie cały proces został przedstawiony na rys.3.1 [Chu97, Bur98, Ant95, Hal97]. Przebieg sygnału Składowe falki różnych skal i pozycji Rys. 3.1 Ilustracja procesu rozkładu falkowego oryginalnego sygnału [Mis98] 28

29 Ciągła transformata falkowa jest sumą całego czasu sygnału pomnożonego przez przeskalowaną, przesuniętą wersję falki. Proces ten daje w rezultacie współczynniki falki, które są funkcją skali i położenia [Dau92, Mey90, Mey93, Nas95]. Proces tworzenia ciągłej transformaty falkowej obejmuje następujące etapy [Mis98]: 1. Pobranie falki i porównanie jej do odcinka na początku oryginalnego sygnału. 2. Obliczenie wartości C, która przedstawia jak dokładnie skorelowana jest falka z tym odcinkiem sygnału. Im wyższe jest C, tym większe podobieństwo falki do odcinka sygnału. Rezultaty zależą od kształtu falki, która zostanie wybrana (Rys. 3.2). Rys. 3.2 Zestawienie falki z początkowym odcinkiem sygnału [Mis98] 3. Przesunięcie falki w prawo i powtórzenie kroków 1 i 2 dopóki nie przykryje całego sygnału (Rys. 3.3). Rys.3.3 Wybór zakresu skali falki [Mis98] 29

30 4. Skalowanie falki i powtórzenie kroków 1 do 3 (Rys. 3.4). Rys.3.4 Ilustracja procedury skalowania falki [Mis98] 5. Powtórzenie kroków 1 do 4 dla wszystkich skalowań. Po wykonaniu tych pięciu kroków, współczynniki przedstawiają w różnych skalach różne odcinki sygnału. Współczynniki są wynikiem regresji oryginalnego sygnału wykonanego na falkach. Rys. 3.5 przedstawia przykładowy wykres współczynników falkowych, na którym oś x-ów reprezentuje pozycję wzdłuż sygnału (czasu), oś y-ów reprezentuje skalę, a kolor w każdym punkcie (x, y) reprezentuje wartość C współczynnika falki. 30

31 Rys D-widok wykresu współczynnika C [Mis98] Wykres współczynnika C przypomina nierówną powierzchnię oglądaną z góry. Rys. 3.6 pokazuje tę samą powierzchnię, ale widoczną z boku: Rys D-widok wykresu współczynnika C [Mis98] Współczynniki ciągłej transformaty falkowej rysowane są przez czasowo - skalowy obraz sygnału (Rys.3.5). Jest to odmienny obraz danych sygnału niż czasowo - częstotliwościowy obraz Fouriera. Skala i częstotliwość Skale na rysunku współczynników, pokazanym jako etykiety osi y-ów, biegną od 1 do 31. Wyższe skalowanie odpowiada większemu rozciągnięciu falki. Im większe jest rozciągnięcie falki, tym dłuższy odcinek sygnału jest z nią porównywany, co powoduje zgrubny pomiar cech sygnału przez współczynniki falki. 31

32 Rys.3.7 Przykład skalowani przebiegu sygnału [Mis98] W ten sposób istnieje zależność między skalą falki i częstotliwością, jaka jest odkrywana przez analizę falki: Niska skala kompresuje falkę, wykrywając szybko zmieniające się szczegóły w zakresie wysokich częstotliwości. Wysoka skala rozciąga falkę, wykrywając wolno zmieniające się zgrubne cechy w zakresie niskiej częstotliwości. Dyskretna Transformata Falkowa (DWT) Efektywna metoda analizy falkowej bazująca na potędze liczby 2, stosująca układ używający filtrów, została rozwinięta w 1988 roku przez Mallata. Algorytm Mallata jest faktycznie klasycznym układem znanym w przetwarzaniu sygnału jako dwukanałowy koder pod-pasmowy. Ten algorytm filtrujący daję szybką transformatę falkowa blok, do którego wpływa sygnał i z którego szybko otrzymywane są współczynniki falek [Pit99]. Filtrowanie jedno-okresowe: przybliżenia i szczegóły Dla wielu sygnałów istota niskiej częstotliwości jest ich najważniejszą częścią [Don96, Har98]. To jest to, co daje sygnałowi jego tożsamość. Istotą wysokiej częstotliwości są szczegóły. Na przykład ludzki głos. Jeśli zostaną usunięte składniki wysokiej częstotliwości, głos brzmi odmiennie, ale można nadal odróżnić, co jest mówione. Jednak, jeśli zostaną usunięte składniki niskiej częstotliwości, słychać będzie bełkot. Z tego powodu, w analizie falek, często mówi się o przybliżeniach i szczegółach. Przybliżenia są składowymi sygnału wysokiej skali, niskiej częstotliwości. Szczegóły są składowymi sygnału niskiej skali, wysokiej częstotliwości. Proces filtrowania na jego najbardziej zasadniczym poziomie przedstawia rys

33 Rys. 3.8 Schemat procedury rozkładu sygnału na składowe A i D [Mis98] Oryginalny sygnał, S, przechodzi przez dwa uzupełniające się filtry i wychodzi jako dwa sygnały. Jeśli ta operacja wykonywana jest na rzeczywistym cyfrowym sygnale, to jest używanych dwa razy tyle danych, ile było na wejściu. Zakładając, że oryginalny sygnał S składa się z 1000 próbek danych, wtedy przybliżenia i szczegóły mają po 1000 próbek, ale całość już Aby rozwiązać ten problem, wprowadzono pojęcie decymacji (downsamplingu) oznaczające wyrzucenie, co drugiego punktu danych (Rys. 3.9). Rys. 3.9 Ilustracja procedury dwukrotnej decymacji sygnału [Mis98] Lepsze zrozumienie procesu umożliwia wykonanie jednoetapowej dyskretnej transformacji falkowej sygnału. Sygnał jest sinusoidą z wysoko-częstotliwościowym szumem dodanym do niego. Rys przedstawia schemat z rzeczywistymi sygnałami. 33

34 Rys Schemat jednoetapowej dyskretnej transformacji falkowej rzeczywistego przebiegu sygnału [Mis98] Współczynniki szczegółów cd składają się głównie z szumu wysoko - częstotliwościowego, podczas gdy współczynniki aproksymacji ca zawierają dużo mniej szumu niż oryginalny sygnał. Rozkład wielopoziomowy Proces rozkładu może zostać powtórzony, wraz z kolejnym przybliżeniem, będąc rozłożonym w układzie tak, aby jeden sygnał został rozbity na dużo niższe składniki rozwiązania. Taki proce nazywany jest drzewem dekompozycji falkowej (Rys. 3.11). Rys Drzewo transformacji falkowej do trzeciego poziomu [Mis98] 34

35 Odwrotna Transformacja Falkowa Rekonstrukcja falki jest procesem odwrotnym do dyskretnej transformaty falkowej, dzięki której rozkłada się sygnały. Jej zadaniem jest złożenie tych komponentów z powrotem w oryginalny sygnał przy minimalnej stracie informacji. Cały ten proces nazywany jest rekonstrukcją, albo syntezą. Matematyczny zabieg, który wykonuje tę syntezę jest nazywany odwrotną dyskretną transformacją falkową (IDWT) [Ant98, Don94, Pes96, Str96]. Na rys przedstawiony jest przykład syntezy sygnału rekonstruowanego na podstawie współczynników falkowych. Rys Ilustracja procesu syntezy sygnału ze składników falkowych [Mis98] Tam gdzie analiza falki obejmuje filtrowanie i decymację, proces rekonstrukcji falki składa się z nadpróbkowania i filtrowania. Nadpróbkowanie jest procesem wydłużania komponentu sygnału przez wstawianie zer między próbkami (Rys. 3.13). Składowa sygnału Składowa sygnału po procesie nadpróbkowania Rys Ilustracja procesu nadpróbkowania [Mis98] 35

36 Rekonstrukcja filtrów Dobór filtrów do filtrowania jest decydujący w procesie rekonstrukcji oryginalnego sygnału, aby był on możliwie najdokładniejszy. Decymacja (downsampling), czyli odrzucenie, np. co drugiej próbki sygnału, wykonywana podczas rozkładu fazy wprowadza zniekształcanie nazywane aliasingiem. Dlatego należy zwrócić uwagę na dobór filtrów dla rozkładu i rekonstrukcji faz, które są blisko powiązane, ale nie identyczne, dzięki czemu można zredukować skutki aliasingu [Wic94]. Dolno- i górnoprzepustowe filtry (L i H), oraz skojarzone z nimi filtry rekonstruujące (L` i H`), nazywany kwadraturowymi filtrami lustrzanymi (Rys. 3.14). Rys Schemat systemu kwadraturowych filtrów lustrzanych [Mis98] Odtwarzanie aproksymacji i szczegółów Cechą charakterystyczną analizy falkowej jest możliwość odtworzenia oryginalnego sygnału z współczynników aproksymacji i szczegółów (Rys. 3.15). Rys Proces rekonstrukcji oryginalnego sygnału ze składników aproksymacyjnych [Mis98] 36

37 Jest również możliwe, by odtworzyć aproksymacje i szczegóły sygnału z ich własnych wektorów współczynników. Aby odtworzyć aproksymacje pierwszego poziomu A1 z wektora współczynników ca1, należy poddać procesowi używanemu do odtwarzania oryginalnego sygnału wektor współczynników ca1. Jednak zamiast łączyć go z wektorem szczegółów cd1, wprowadza się w to miejsce wektor zer (Rys. 3.16). Rys Ilustracja procesu rekonstrukcji przybliżenia A1 z wektora współczynników ca1 [Mis98] Proces daje w rezultacie odtworzone przybliżenie A1, które ma taką samą długość jak oryginalny sygnał S i jest jego precyzyjnym przybliżeniem. Podobnie, można odtworzyć szczegóły D1, używając procesu analogicznego (Rys. 3.17). Rys Ilustracja procesu rekonstrukcji szczegółu D1 z wektora składników cd1 [Mis98] Odtworzone szczegóły i przybliżenia staną się rzeczywistymi elementami oryginalnego sygnału, gdy zostaną połączone. A D = S (3.2) 37

38 Wektory współczynników ca1 i cd1 z powodu, że zostały one wytworzone przy pomocy decymacji, są tylko połową długości oryginalnego sygnału, nie mogą bezpośrednio łączyć się, by odtworzyć sygnał. Przed ich połączeniem konieczne jest odtworzenie przybliżenia i szczegółów. Rozwijając tę technikę do składników analizy wielopoziomowej, można stwierdzić, że podobne relacje posiadają wszystkie odtwarzane elementy sygnału. Dlatego też jest kilka metod, by ponownie zmontować oryginalny sygnał (Rys. 3.18). Rys Zależności między częściami sygnału rekonstruowanego [Mis98] 3.2 Wybór rodziny 1D falek Ważną rzeczą w transformacji falkowej jest odpowiedni dobór banku filtrów. Gwarantuje on wydobycie informacji niezbędnych do identyfikacji. Zależy on od rodzaju przetwarzanej informacji i jest sprawą indywidualną dla każdego przypadku. Doboru falki dokonuje się eksperymentalnie. W prezentowanym przypadku najlepsze wyniki otrzymano z filtrem db1 (Daubechies Wavelet) z pakietu MatLab. Więcej informacji na temat odpowiedniego doboru falek można znaleźć w [Mis98, Coh92]. 38

39 Haar Podstawową funkcją w analizie falkowej jest falka Haara. Jest ona nieciągła i jest porównywalna do funkcji skoku. Reprezentuje ona tak samo falkę, jak Daubechies db1 (Rys.3.19) Rys Wykres falkowej funkcji Ψ db1 [Mis98] Daubechies Ingrid Daubechies, jedna z najwybitniejszych uczonych na świecie w dziedzinie badań nad falkami, wynalazła kompaktowo podtrzymywaną ortonormalnie falkę w ten sposób przyczyniła się do zrealizowania dyskretnej analizy falkowej. Nazwy falek z rodziny Daubechies są oznaczane jako dbn, gdzie N jest liczbą porządkową a db przydomkiem falki. Falka db1, jak wspomniano wyżej, jest taka sama jak Haar. Na rys jest kolejne dziewięć elementów rodziny. Rys Wykresy funkcji falek z rodziny Daubechies [Mis98] 39

40 Coiflets Rodzina falek coiflets została zbudowana przez I. Daubechies na wniosek R. Coifmana [Coi95, Dau92]. Funkcja falki coiflets ma 2N momentów równych 0, a funkcja skalowania ma 2N-1 momentów równych 0. Obie funkcje wspierają długości 6N-1. Rys Wykresy funkcji falek z rodziny coiflets [Mis98] Biortogonalna Ta rodzina falek przedstawia własność fazy liniowej, która jest potrzebna do rekonstrukcji sygnału i obrazu [Coh92]. Przez używanie dwóch falek, jednej dla rozkładu i drugiej dla odtworzenia, zamiast tej samej, uzyskuje się interesującą własność. Falka stosowana do analizy posiada własności użyteczne w procesie filtracji, natomiast falka użyta do syntezy skupia się na własnościach użytecznych w rekonstrukcji. 40

41 Rys Wykresy funkcji falek z rodziny Biortogonalnej [Mis98] Symlets Symlets są symetrycznymi falkami zaprojektowanymi przez Daubechies jako modyfikacja rodziny db. Własności obu rodzin falek są podobne. 41

42 Rys Wykresy funkcji falek z rodziny symlets [Mis98] 3.3 Schemat dwupoziomowy 2D transformacji falkowej obrazów twarzy Dwuwymiarowa transformacja falkowa pozwala na analizę obrazów [Coh93, Vor92, Don94]. Obraz twarzy jest rozkładany przez filtry dolno- i górnoprzepustowe na cztery podobrazy. Wynikowe obrazy posiadają różną energię, i tak podobraz LL (A 1 ) ma ją największą i jest pomniejszoną kopią oryginalnego obrazu. Natomiast pozostałe podobrazy LH, HL, i HH wydobywają zmieniające się składniki obrazu, odpowiednio w kierunku poziomym (D 11 ), pionowym (D 12 ) oraz diagonalnym (D 13 ) [Gar00]. W procesie przetwarzania sygnałów dwuwymiarowych do przeprowadzenia transformacji stosuje się wydzielony bank filtrów. Zazwyczaj stosuje się parę filtrów górno- i dolnoprzepustowy. Splot z filtrem dolnoprzepustowym daje w efekcie tak zwany obraz przybliżony, natomiast splot z kombinacją filtrów pasmowych zwraca obrazy z wydzielonymi szczegółami w określonych kierunkach: poziomym, pionowym i diagonalnym. Schemat przetwarzania obrazu przedstawiono na rys [Bob03b]. 42

43 A j Wiersze Lo Wiersze Hi L H Kolumny Lo Kolumny Hi Kolumny Lo Kolumny Hi LL LH HL HH A j+1 D j+1,1 D j+1,2 D j+1, Wiersze X Kolumn X Decymacja kolumn Decymacja wierszy Splot wierszy z filtrem X Splot wierszy z filtrem X Rys Schemat jednopoziomowej 2D transformacji falkowej Efekt zastosowania transformacji falkowej na rzeczywistym obrazie twarzy przedstawiono na rys Poprzez zastosowanie decymacji (downsamplingu) [Zie02], czyli odrzuceniu co drugiej kolumny i co drugiego wiersza, rozmiar obrazu wynikowego jest równy rozmiarowi obrazu wejściowego. Operacja ta nie zwiększa ilości danych, jednocześnie nie powodując istotnej utraty informacji. 43

44 A 1 D 11 A 0 D 12 D 13 Rys Wynik transformacji falkowej pierwszego poziomu obrazu twarzy Tak, jak w przypadku transformacji jednowymiarowej, tak i przy przetwarzaniu obrazów, proces może być powtórzony przez zastosowanie rekurencji [Mal89, Pit99]. W rezultacie, można uzyskać bardziej szczegółowe dane dotyczące przetwarzanej informacji. Sposób tworzenia n-poziomowej transformaty można opisać następująco: A n = [H x * [H y * A n-1 ] 2,1 ] 1,2 (3.3) D n1 = [H x * [G y * A n-1 ] 2,1 ] 1,2 (3.4) D n2 = [G x * [H y * A n-1 ] 2,1 ] 1,2 (3.5) D n3 = [G x * [G y * A n-1 ] 2,1 ] 1,2 (3.6) gdzie: * - splot funkcji; 2,1 ( 1,2) - oznacza próbkowanie co drugi wiersz (kolumnę) Po dokonaniu transformaty pierwszego poziomu obrazy wyjściowe stają się obrazami wejściowymi drugiego. Analogicznie można tworzyć rozkłady kolejnych poziomów. Drzewo rozkładu drugiego poziomu przedstawiono na rys

45 Rys Drzewo 2D transformacji falkowej drugiego poziomu A 0 obraz wejściowy A 1 pomniejszony obraz A 0 D 11 zmiany w kierunku poziomym w obrazie A 0 D 12 zmiany w kierunku pionowym w obrazie A 0 D 13 zmiany w kierunku diagonalnym w obrazie A 0 A 2 pomniejszony obraz A 1 D 211 zmiany w kierunku poziomym w obrazie A 1 D 212 zmiany w kierunku pionowym w obrazie A 1 D 213 zmiany w kierunku diagonalnym w obrazie A 1 AD 22 pomniejszony obraz D 11 D 221 zmiany w kierunku poziomym w obrazie D 11 D 222 zmiany w kierunku pionowym w obrazie D 11 D 223 zmiany w kierunku diagonalnym w obrazie D 11 AD 23 pomniejszony obraz D 12 D 231 zmiany w kierunku poziomym w obrazie D 12 D 232 zmiany w kierunku pionowym w obrazie D 12 D 233 zmiany w kierunku diagonalnym w obrazie D 12 AD 24 pomniejszony obraz D 13 D 241 zmiany w kierunku poziomym w obrazie D 13 D 242 zmiany w kierunku pionowym w obrazie D 13 D 243 zmiany w kierunku diagonalnym w obrazie D 13 45

46 Rys Wynik transformacji falkowej drugiego poziomu obrazu twarzy W proponowanej metodzie zastosowano dwuwymiarową transformację falkową drugiego poziomu. Przykładowy wynik zastosowania 2D TFL drugiego poziomu przedstawiono na rys Ważnym aspektem ekstrakcji cech z pomocą TFL jest odpowiedni dobór falki. Kształt falki należy dostosować do poszczególnych przypadków indywidualnie uwzględniając 46

47 właściwości poszczególnych sygnałów [Ant94, Ant99, Coif95, Lav99]. Błędny dobór falki będzie powodował problemy z analizą i identyfikacją badanego sygnału. Natomiast wybór odpowiedniego banku filtrów zagwarantuje selekcję indywidualnych cech sygnału pozwalających na jego identyfikację z wysoką jakością [Mal97, Lai93]. Prace [Chi02, Laij01, Gar00] opisują zastosowanie transformacji falkowej do identyfikacji osób. Autorzy tych prac przedstawiają sposób użycia TFL oraz jej parametry, funkcję falkową, jednak nie uzasadniają wyboru danej falki. Nie przedstawiają oni badań potwierdzających zasadności oraz wpływu doboru danej falki na wynik identyfikacji. W rozdziale siódmym przedstawiono wyniki eksperymentu dotyczącego skuteczność ekstrakcji cech wybranej grupy falek w opracowanej metodzie. Na rys przedstawiono wyniki zastosowania kilku funkcji falkowych. Analiza tych wyników pozwala stwierdzić, która funkcja jest w stanie najlepiej wychwycić granice charakterystycznych elementów twarzy t.j. oczu, co ma decydujący wpływ na proces identyfikacji. Rys.3.28 Wynik 2D TFL pierwszego poziomu z użyciem funkcji db1 47

48 Rys.3.29 Wynik 2D TFL pierwszego poziomu z użyciem funkcji db3 Rys.3.30 Wynik 2D TFL pierwszego poziomu z użyciem funkcji coif1 Rys.3.31 Wynik 2D TFL pierwszego poziomu z użyciem funkcji sym2 48

49 Analizując przedstawione wyniki transformacji falkowej (Rys ) można zauważyć różnice w kontraście wydzielania granic wysokoczęstotliwościowych elementów twarzy, które są skutkiem zastosowania różnych funkcji falkowych. Niektóre z nich (db1) lepiej nadają się do wydobywania cech w rozpatrywanym przypadku, ponieważ wyraźniej wydobywają te granice, np. kontury oczu i brwi są lepiej widoczne na rysunku 3.28 niż na innych. W paragrafie 7.2 przedstawiono wyniki eksperymentu dotyczącego doboru rodziny funkcji falkowej. 49

50 4. SPECYFIKA IDENTYFIKACJI PARAMETRÓW UKRYTYCH MODELI MARKOWA DLA TRZECH WYDZIELONYCH OBSZARÓW TWARZY Przedstawiona w tej pracy metoda identyfikacji osób, wykorzystuje ukryte modele Markowa do klasyfikacji osób. W rozdziale tym przedstawiono podstawowe idee i opis struktury ukrytych modeli Markowa. W opisanej poniżej metodzie identyfikacji osób parametry UMM wykorzystuje się jako informację do podjęcia decyzji metodą największego prawdopodobieństwa Podstawowe instrumentarium ukrytych modeli Markowa Ukryte modele Markowa (UMM) znane są w teorii jako stochastyczny automat skończony. W przypadku dyskretnego modelu Markowa, każdy stan związany jest z możliwym do zaobserwowania zdarzeniem [Mur04, Rab89]. UMM jest podwójnie osadzonym procesem stochastycznym, w którym podstawowy proces stochastyczny jest ukryty, możliwy do zaobserwowania tylko przez zbiór innych procesów stochastycznych, produkujących sekwencje obserwacji. Obserwację wyznaczoną w t-ym momencie czasu oznaczamy przez o t. Obserwacja jest wektorem, którego składowymi są zwykle współczynniki dyskretnego widma sygnału (DTF ang. Discrete Transform Fourier), predykcji liniowej, transformacji falkowej itp. Sekwencję obserwacji z przedziału czasu od t = 1 do t = T oznacza się O=(o 1,o 2,...,o T ). Zadanie budowania modelu reprezentującego obraz twarzy polega na utworzeniu dla każdego obrazu M (lub jego fragmentu) oddzielnego modelu λ (patrz wzór (2.1)). W procesie tworzenia modelu (zwanym uczeniem lub treningiem) wykorzystuje się sekwencje obserwacji pozyskane z obrazu twarzy M. Utworzony model jest generatorem obserwacji, których podobieństwo do obserwacji pozyskanych z rozpoznawanego obrazu twarzy jest podstawą identyfikacji osoby. Dla zadanego zbioru modeli {Λ i } utworzonych dla obrazów twarzy i umieszczonych w bazie, zadanie identyfikacji polega na wyznaczeniu prawdopodobieństwa wygenerowania sekwencji obserwacji O przez dany model, a następnie porównaniu tych wartości. 50

51 Przy modelowaniu za pomocą modeli Markowa obserwacje powinny spełniać następujące założenia: 1) obraz twarzy jest uważany za stacjonarny w segmentach (stanach), 2) zmiana stanu odbywa się w dyskretnych chwilach czasu (krokach), 3) prawdopodobieństwo wygenerowania określonej obserwacji zależy wyłącznie od stanu i nie zależy od poprzednio wygenerowanej obserwacji (zależność kolejnych obserwacji w sekwencji obserwacji jest modelowana jako zależność pomiędzy stanami w sekwencji stanów, generującymi te obserwacje). UMM jest automatem skończonym, który może być traktowany jako generator przypadkowych sekwencji obserwacji. Zmianę stanów modelu, następującą w każdym kroku, opisuje jednorodny łańcuch Markowa, charakteryzowany przez macierz A = [a ij ] prawdopodobieństw przejść między stanami. Dla t = 0 rozkład prawdopodobieństw stanów q 0 oznaczymy przez π = [π 1, π 2,..., π N ] [Lix00]. Generowanie obserwacji (wyjść) przez model jest losowe i najczęściej charakteryzowane przez wektor rozkładów prawdopodobieństwa obserwacji B = [b i (o t )] o następujących składowych: b ( o ) P( o q i) = dla i = 1,2,...,N. (4.1) i t t t = Rozkłady te, zwane wyjściami, mogą być albo rozkładami dyskretnymi na skończonym zbiorze symboli wyjściowych albo n-wymiarowymi funkcjami gęstości prawdopodobieństwa. Jeżeli o t jest dowolnym wektorem w przestrzeni euklidesowej E n, to b i (o t ) jest interpretowane jako prawdopodobieństwo wygenerowania obserwacji o t przez model będący w i-tym stanie. Ukryty model Markowa oznacza się zwykle jako trójkę λ = (π, A, B), gdzie wielkości π, A, B są nazywane parametrami modelu. Konstruowanie sytemu automatycznej identyfikacji osób wymaga stworzenia narzędzi umożliwiających realizację dwóch zasadniczych procesów: - uczenia (treningu), polegającego na estymacji parametrów zbioru modeli UMM za pomocą obserwacji uczących pozyskanych z obrazów uczących; - rozpoznawania, polegającego na wyznaczeniu modelu reprezentującego zdjęcie twarzy, dla którego prawdopodobieństwo wygenerowania obserwacji pozyskanej z nieznanego obrazu testowego jest największe. 51

52 Jako przykład rozpatrzymy metodę automatycznej identyfikacji osób zdjęcia twarzy reprezentują osoby, a zbiór obrazów tworzy bazę danych osób. W procesie uczenia należy dokonać ekstrakcji sekwencji obserwacji O = (o 1,o 2,...,o T ) dla każdego obrazu twarzy ze zbioru uczącego i wykorzystać je do zbudowania UMM oddzielnie dla każdego obrazu (lub jego fragmentu). W procesie rozpoznawania dokonuje się ekstrakcji sekwencji obserwacji ze zdjęcia rozpoznawanej osoby, a następnie wyznacza się prawdopodobieństwa wygenerowania tej sekwencji przez wcześniej zbudowane modele Markowa dla twarzy z bazy danych. Prawdopodobieństwa te służą do przyporządkowania rozpoznawanego obrazu określonemu modelowi (osobie z bazy), czyli są podstawą procesu rozpoznawania. Wykorzystywane w procesie uczenia oraz identyfikacji algorytmy Bauma-Welcha i Viterbiego oraz procedury indukcji w przód i wstecz zostały szczegółowo opisane w [Wiś97, Mur04, Gąc98]. Definiowanie UMM wymaga specyfikacji topologii łańcucha oraz estymacji prawdopodobieństw przejść między stanami i parametrów rozkładów wyjściowych dla każdego stanu. W praktyce na początku tworzy się proste UMM o rozkładach wyjściowych w postaci pojedynczej funkcji gęstości [Kot78]. Następnie są one zastępowane przez modele coraz bardziej złożone, np. rozkładami wyjściowymi w postaci kompozycji funkcji gęstości. Zadaniem procesu uczenia jest uzyskanie zestawu modeli, które zgodnie z przyjętym kryterium, są dopasowane do danych uczących. Estymacja parametrów UMM sprowadza się do problemu optymalizacji, w którym najczęściej przyjmowanym kryterium, z powodu istnienia efektywnych algorytmów rozwiązania, jest kryterium maksymalnego prawdopodobieństwa. W najprostszym ciągłym UMM rozkład wyjściowy dla i-tego stanu ma postać wielowymiarowej gaussowskiej funkcji gęstości: gdzie n jest wymiarem wektora obserwacji o t. 1 1 ' 1 b i( ot ) = N( ot, µ i, Σi ) = exp ( ot µ i ) Σi ( ot µ i ), (4.2) n Σ 2 ( 2π ) i Wówczas każdy stan we wszystkich modelach UMM jest charakteryzowany przez: - wektor wartości średnich µ i, - macierz kowariancji Σ i. 52

53 W celu uproszczenia problemu często przyjmuje się założenie, że macierz kowariancji jest diagonalna. Nie prowadzi to do dużego wzrostu błędów modelowania w przypadku, gdy funkcje gęstości rozkładów parametrów są unimodalne. Dla rozkładów multimodalnych jako rozkłady wyjściowe stosuje się kompozycje o następującej postaci: b i M = i ( o ) c N( o, Σ ) t im m= 1 t, µ, (4.3) gdzie c im jest wagą m-tego składnika kompozycji, a M i jest liczbą składników kompozycji. Aby kompozycja rozkładów normalnych była rozkładem gęstości prawdopodobieństwa, wagi c im muszą spełniać następujące warunki: im im M i c im m= 1 = 1 (4.4) c 0. (4.5) mi W rozkładzie wyjściowym (4.2) również można przyjąć macierz kowariancji w postaci macierzy diagonalnej. W pewnych przypadkach korzystne jest przyjęcie założenia, że wektor obserwacji składa się z niezależnych strumieni danych. Oznacza to, że wektor obserwacji o t może być podzielony na statystycznie niezależne strumienie o ts, s {1,2,...,S}. Wówczas prawdopodobieństwo wygenerowania wektora obserwacji o t przez model λ jest: P ( o λ ) P( o λ) P( o λ) KP( o λ) t t1 t 2 ts =, (4.6) a rozkłady wyjściowe są estymowane dla każdego strumienia niezależnie. Strumieniom można przypisać różne wagi k s. Przyjmujemy, że kompozycja rozkładów ciągłych, będąca rozkładem wyjściowym dla i-tego stanu i wektora obserwacji O = (o 1,o 2,...,o T ), jest utworzona z normalnych wielowymiarowych rozkładów gęstości i ma następującą postać: b i S is ( o ) = c N( o, Σ ) t M ism s= 1 m= 1 gdzie: - M is liczba składników kompozycji w s-tym strumieniu, - c ism współczynniki wagowe m-tego składnika w s-tym strumieniu. ts k s, µ ism ism, (4.7) 53

54 Przyjmuje się, że stan modelu dla s-tego strumienia jest rozpatrywany jako substan, w którym prawdopodobieństwa przejścia są współczynnikami wagowymi składników (Rys.4.1). Rys.4.1 Schemat wykorzystania współczynników wagowych modelu 1D-UMM [Wiś00a] Dyskretne modele UMM mają rozkłady wyjściowe w postaci dyskretnych rozkładów prawdopodobieństwa. Dyskretny rozkład wyjściowy w i-tym stanie obserwacji o t ma postać: i ( o ) P[ v( o )] b =, (4.8) gdzie: - v(o t ) symbol obserwacji ze zbioru v-elementowego, będący wynikiem kwantyzacji wektora obserwacji o t, - P i [v(o t )] prawdopodobieństwo wygenerowania w i-tym stanie symbolu v. t i t Zatem dyskretny rozkład wyjściowy zadawany jest za pomocą tablicy prawdopodobieństw symboli obserwacji. Każdy symbol posiada swojego reprezentanta w postaci wektora obserwacji. Zbiór możliwych wektorów obserwacji nazywa się przestrzenią obserwacji. Reprezentanci są wybierani tak, aby równomiernie pokryć przestrzeń obserwacji i są zwykle wyznaczani przez grupowanie i uśrednianie wektorów obserwacji ekstrahowanych z danych uczących. Oznacza to, że zbiór symboli tworzony jest w procesie kwantyzacji wektorów obserwacji. Wektorowi obserwacji przypisuje się symbol obserwacji, którego reprezentant jest temu wektorowi obserwacji najbliższy. Dyskretny rozkład wyjściowy w i-tym stanie dla obserwacji z wydzielonymi niezależnymi strumieniami o t = (o t1,o t2,...,o ts ) ma następującą postać: 54

55 b i S ( ot ) = { Pis[ vs ( ots )]} gdzie k s jest współczynnikiem wagowym przypisanym s-temu strumieniowi [Wiś00a]. s= 1 k s, (4.9) Przed rozpoczęciem procesu tworzenia modeli UMM, lub w trakcie jego trwania, oraz przed właściwym procesem rozpoznawania należy dokonać ekstrakcji charakterystyk z obrazów twarzy realizuje się to przez przetworzenie zdjęć cyfrowych twarzy za pomocą odpowiednich narzędzi programowych (np. Transformacji Falkowej). Dla modeli UMM z dyskretnymi rozkładami wyjściowymi należy dokonać kwantyzacji wektorowej uzyskanych charakterystyk (wektorów obserwacji). 4.2 Procedura parametrycznej identyfikacji ukrytych modeli Markowa Kolejnym zasadniczym etapem opracowania metody FaMar identyfikacji osób jest utworzenie ukrytych modeli Markowa dla poszczególnych obrazów twarzy. Wymaga to wykonania dla modeli UMM: - specyfikacji topologii, - estymacji wartości parametrów w procesie uczenia (treningu). Specyfikacja topologii modelu UMM polega na określeniu liczby jego stanów, czyli rozmiaru macierzy A prawdopodobieństw przejść między stanami oraz postaci rozkładów wyjściowych, będących elementami wektora B = [b i (o t )]. W tym celu definiowane są prototypowe modele UMM. Proces uczenia przebiega w kilku etapach i polega na wyznaczeniu elementów macierzy A, wektora π prawdopodobieństw początkowych i wektora B = [b i (o t )] rozkładów wyjściowych. Najpierw tworzony jest początkowy model UMM, czyli wyznaczane są początkowe wartości parametrów tego modelu. Można to uczynić następująco: 1) gdy nie są dostępne żadne informacje o danych uczących (na etapie definiowania modelu prototypowego) przyjmuje się, że: 55

56 - wszystkie dopuszczalne przejścia między stanami są równie prawdopodobne (prawdopodobieństwa a ij 0 są równe) i dopiero w procesie uczenia wyznaczone zostaną ich rzeczywiste wartości; - składowe funkcje gęstości tworzące rozkłady wyjściowe dla wszystkich stanów modelu są normalne, ich wartości średnie są zerowane, a wariancje są jednakowe; 2) gdy nie są dostępne żadne informacje o danych uczących (na etapie definiowania modelu prototypowego) przyjmuje się, że: - wszystkie dopuszczalne przejścia między stanami są generowane losowo (prawdopodobieństwa przejść a ij 0 są losowe) i dopiero w procesie uczenia wyznaczone zostaną ich rzeczywiste wartości; - wartości prawdopodobieństwa wygenerowania danej obserwacji o t w danym stanie i są generowane losowo (prawdopodobieństwo obserwacji b ij 0 są losowe) i dopiero w procesie uczenia wyznaczone zostaną ich rzeczywiste wartości;; 3) gdy nie są dostępne żadne informacje o danych uczących, modelom wszystkich zdjęć twarzy przypisuje się identyczne wartości średnie i wariancje równe wartości średniej i wariancji wszystkich danych wejściowych do uczenia. Po utworzeniu początkowego zbioru modeli realizowany jest proces reestymacji parametrów tych modeli. Reestymacji parametrów UMM można dokonać w dwojaki sposób: 1) za pomocą procedury Bauma-Welcha, z wykorzystaniem algorytmu w przód wstecz ; 2) za pomocą procedury Viterbiego, z wykorzystaniem algorytmu najlepszej ścieżki. Definiowanie prototypowych modeli UMM Pierwszym krokiem w procesie tworzenia UMM jest zdefiniowanie jednego lub więcej modeli prototypowych. Wartości parametrów tych modeli nie są ważne, są one wykorzystywane przede wszystkim do wyznaczenia topologii właściwych modeli UMM. Zdefiniowanie pojedynczego modelu UMM polega na specyfikacji następujących danych: - nazwy lub symbolu modelu λ, - typu modelu (ciągły czy dyskretny), - rozmiaru i zawartości wektora obserwacji O, - rozmiaru i zawartości macierzy prawdopodobieństwa wygenerowania obserwacji B, 56

57 - liczby S strumieni danych, ich rozmiaru oraz współczynników wagowych k s (s = 1,2,...,S) (suma rozmiarów wszystkich strumieni powinna równać się rozmiarowi wektora obserwacji), - liczby stanów N, - macierzy przejść A (tranzycyjnej) poprzez nadanie niezerowych wartości elementom macierzy wszędzie tam, gdzie możliwe są przejścia między stanami, wartości pozostałych elementów macierzy powinny być zerowe (wiersze macierzy tranzycyjnej powinny sumować się do jedynki), - dla każdego i-tego stanu emisyjnego i każdego s-tego (s = 1,2,...,S) strumienia danych:! dla rozkładów wyjściowych ciągłych: liczby M is składowych kompozycji oraz dla każdej m-tej (m = 1, 2,...,M is ) składowej: współczynnika wagowego c ism oraz wektora wartości średnich µ ism i wektora obserwacji o ism lub macierzy kowariancji Σ ism (wskazane jest przechowywanie macierzy kowariancji w postaci odwróconej Σ -1 ism);! dla rozkładów wyjściowych dyskretnych: prawdopodobieństwa wystąpienia symboli, będących wynikiem kwantyzacji wektorowej strumienia danych. Systemy o powiązanych kompozycjach rozkładów Procedurę wyznaczania składników kompozycji tworzących rozkład wyjściowy można uprościć. Zamiast wyznaczać składniki kompozycji oddzielnie dla każdego stanu modelu, można utworzyć zbiór (o ustalonej liczności) typowych składników w postaci gaussowskich funkcji gęstości (o ustalonych parametrach), wykorzystywanych następnie przy tworzeniu rozkładów wyjściowych wszystkich stanów określonego modelu lub nawet wszystkich modeli UMM. Zbiór składników kompozycji, nazywany książką kodową, powinien być reprezentowany dla przestrzeni obserwacji, której elementami są wektory obserwacji (charakterystyk) uzyskane z rozpoznawanych obrazów twarzy. Gdy obserwacje podzielone są na niezależne strumienie danych, książka kodowa tworzona jest dla każdego strumienia. Wówczas zdefiniowanie, dla i-tego stanu, rozkładu wyjściowego o postaci: b i S s ( o ) = c f ( o, Σ ) t M s= 1 m= 1 ism ts k s, µ sm sm (4.10) 57

58 polega na wyznaczeniu dla każdego strumienia danych współczynników wagowych c ism (m = 1,2,...,M s, s = 1,2,...,S s ), przypisanych składnikom kompozycji. W zależności (4.10) parametry gaussowskich funkcji gęstości oraz liczba składników tworzących kompozycję nie zależą od numeru stanu. Często jednak niezmienność liczby i parametrów funkcji gęstości dla różnych stanów modelu UMM, a przez to uproszczenie algorytmów uczenia, jest wystarczającym powodem stosowania kompozycji powiązań. Zdefiniowanie systemu o powiązanych kompozycjach wymaga zatem utworzenia książki kodowej, oraz podania wektora współczynników wagowych dla każdego stanu. Wymiar tego wektora jest równy liczbie składników książki kodowej. 4.3 Problemy estymacji parametrów ukrytych modeli Markowa Podstawowym problemem w procesie tworzenia modelu UMM jest estymacja jego parametrów. Dla zadanej sekwencji (lub zbioru sekwencji) obserwacji O=(o 1,o 2,...,o T ), problem estymacji polega na wyznaczeniu wartości parametrów modelu λ = (π, A, B). Przy przyjętych założeniach na rozkłady wyjściowe oznacza to konieczność wyznaczania w procesie uczenia wektorów wartości średniej oraz wektorów wariancji lub macierzy kowariancji funkcji gęstości rozkładów normalnych będących składnikami kompozycji. Estymacja parametrów realizowana jest w procesie uczenia zdefiniowanych wcześniej modeli UMM, w którym wykorzystywana jest sekwencja wektorów obserwacji. Sekwencje obserwacji mogą być wyznaczane na bieżąco (wykorzystywane są wówczas dane z urządzenia rejestrującego np. aparat cyfrowy, kamera) lub odczytywane z wcześniej utworzonych plików. Przyjęte rozwiązanie zależy głównie od dostępnych urządzeń. Podstawową zasadą przy tworzeniu modeli UMM jest traktowanie tych modeli jako generatora wektorów obserwacji. Każda wykorzystywana w czasie uczenia sekwencja obserwacji stanowi wyjście stanów modelu UMM, którego parametry mają być wyznaczone. Gdyby znany był stan, który wygenerował każdy wektor obserwacji w danych uczących, wtedy mogłyby być wyznaczone: 58

59 - nieznane wartości średnie i wariancje rozkładu wyjściowego tego stanu, poprzez wykorzystanie wszystkich wektorów skojarzonych z tym stanem, - macierz tranzycyjna, na podstawie liczby przejść między stanami. W przypadku, gdy rozkład wyjściowy modelowany jest za pomocą kompozycji rozkładów, stan jest szeregowym połączeniem substanów. Wówczas wektory obserwacji sekwencji uczącej są przyporządkowane tym substanom, które generują je z największym prawdopodobieństwem. Liczba obserwacji przyporządkowanych każdemu substanowi wewnątrz stanu modelu może być wykorzystana do estymacji współczynników wagowych składowych kompozycji. Do grupowania wektorów obserwacji wewnątrz każdego stanu wykorzystywany jest algorytm segmentacyjny [Ada00, Wiś00]. Monitorowanie procesu estymacji umożliwiają wprowadzanie w trakcie jego trwania informacje o kolejnym numerze iteracji, wartości prawdopodobieństwa oraz jego zmianie w stosunku do poprzedniego kroku iteracji. Reestymacja parametrów modelu Reestymacja parametrów modelu (Rys.4.2) przebiega podobnie jak inicjacja. Różnica dotyczy zastosowania na wejściu wcześniej wyznaczonego początkowego modelu UMM oraz wykorzystywania algorytmu Bauma-Welcha w procesie estymacji parametrów: przy wyznaczaniu prawdopodobieństwa przebywania w każdym stanie stosuje się algorytm w przód-wstecz. Prawdopodobieństwo to jest następnie wykorzystane przy tworzeniu średnich ważonych dla parametrów UMM. 59

60 Początkowy UMM Algorytm Bauma-Welcha Uaktualnienie parametrów UMM Czy estymacje zbieżne? NIE TAK Reestymowany UMM Rys. 4.2 Schemat procedury reestymacji parametrów modelu z użyciem algorytmu Bauma-Welcha Algorytm Viterbiego wyznacza twardą decyzję o tym, który stan generuje określony wektor obserwacji z obserwacji uczącej. Algorytm Bauma-Welcha podejmuje miękką decyzję, wyznaczając jedynie prawdopodobieństwo wygenerowania obserwacji przez stan [Aas96]. Jeżeli tworzone są modele z dużą liczbą składowych kompozycji dla każdego stanu, trzeba przewidzieć sytuację, gdy składowym kompozycjom przyporządkowano bardzo mało wektorów obserwacji i w konsekwencji albo wariancje, albo odpowiadające tym składowym wagi, mają bardzo małe wartości. Jeśli któreś z tych zdarzeń zaistnieje, składowa kompozycji powinna być usunięta albo nadać minimalną dopuszczalną wartość wariancji lub współczynnikowi wagowemu kompozycji [Aga93, Cho95, Kim96]. W szczególnych przypadkach w celu otrzymania adekwatnych modeli reprezentujących dane wejściowe potrzebna jest duża ilość danych uczących. Tworzenie rozbudowanych systemów rozpoznawania wzorca wymaga zastosowania kilku tysięcy danych wejściowych, 60

61 wtedy pojedyncza iteracja uczenia może zająć długi okres czasu. Istnieją dwie metody przyśpieszenia obliczeń: 1) Mechanizm odcinania zastosowany w algorytmie w przód-wstecz, gdzie najpierw wyznaczane są prawdopodobieństwa wstecz β t (i), a następnie w przód α t (i). Jednak, jak pokazuje praktyka, obliczanie tych prawdopodobieństw dla wszystkich sekwencji stanów i wszystkich chwil czasu nie jest konieczne, ponieważ wystąpienie wielu z tych sekwencji jest mało prawdopodobne. Zatem nie popełni się błędu, gdy przy przejściu w przód (wykonywanym jako drugie) ograniczy się obliczenia α t (i) do tych sekwencji, dla których ogólne prawdopodobieństwo określone przez iloczyn α t (i)β t (i) różni się od ogólnego prawdopodobieństwa P(O λ) nie więcej, niż o przyjętą wartość progową. Takie odcinanie jest zawsze możliwe, ponieważ nie powoduje żadnej straty w dokładności modelowania. Odcinanie podczas przejścia wstecz (wykonywanego jako pierwsze) jest również możliwe. Jednak w tym przypadku iloczyn prawdopodobieństwa α t (i)β t (i) jest niedostępny, ponieważ α t (i) nie zostało jeszcze obliczone i dlatego musi być przyjęta odpowiednia wartość progu, aby uniknąć błędów odcinania. Wskazane jest, aby odcinanie na ścieżce wstecz pozostawało pod kontrolą użytkownika. Można przyjąć stały, odpowiednio niski próg odcinania, oznacza to jednak mniejszą skuteczność tej operacji. Gdy ograniczenia związane z dostępnym czasem obliczeń są istotne, można zastosować dynamiczny próg odcinania. Na początku przyjmuje się wysoki próg, który w przypadku odrzucenia wszystkich lub zbyt dużej liczby danych uczących można obniżyć, a następnie powtórzyć cały proces dla odrzuconych danych uczących. Ponowny błąd spowoduje dalsze obniżenie progu postępowanie takie jest powtarzane do momentu, gdy dane zostaną przetworzone albo, gdy wartość progu osiągnie przyjętą minimalną wartość. Wartości progów dobiera się eksperymentalnie. 2) Zastosowanie do obliczeń równolegle więcej niż jednego komputera. Należy podzielić dane uczące pomiędzy dostępne maszyny, a następnie uruchomić proces uczenia na każdej maszynie tak, aby każdy z nich zastosował ten sam początkowy zbiór modeli. Po zakończeniu obliczeń na wszystkich komputerach, zgromadzone w akumulatorach wyniki cząstkowe są łączone i wykorzystywane do estymacji parametrów zbioru modeli UMM [Rab89, Gąc98]. 61

62 4.4. Algorytmy Viterbiego i Bauma-Welcha do szacowania prawdopodobieństw i parametrów Zależności matematyczne w algorytmie Viterbiego Zbiór powtórzeń określonej obserwacji, dla której zostanie utworzony N-stanowy model UMM oznacza się przez {O r } (r = 1,2,...,R). Z każdej obserwacji O r wydziela się T r fragmentów, a następnie każdy fragment przekształca się w obserwację. W celu zainicjowania nowego modelu UMM sekwencja obserwacji każdego powtórzenia O r jest dzielona na N równych części (są to dane do pierwszej iteracji algorytmu) [Hu96, For73]. W kolejnych iteracjach obserwacje dla wszystkich powtórzeń obserwacji zostaną przyporządkowane stanom modelu UMM za pomocą procedury Viterbiego. Przyporządkowanie wykonywane jest niezależnie dla każdego powtórzenia (r=1,2,...,r) i jest wynikiem procesu optymalizacji z następującym kryterium: gdzie: a j ϕ N () t = maxϕ ( t 1) ( Tr ) maxϕ i ( T r ) a in r [ i aij ] b j ( ot ) i = dla 2 i N 1 (4.11) i ϕ dla 2 t T r 1 oraz 2 i N 1 (4.12) b j S M js r r ( ot ) = c jsmn( ots jsm, Σ jsm ) s= 1 m= 1 k s, µ (4.13) z następującymi warunkami początkowymi: ϕ 1 (1) = 1 (4.14) ϕ j (1) = a 1j b j (o r 1 ) dla 2 j N 1 (4.15) Jeżeli przez A ij oznaczymy ogólną liczbę przejść z i-tego do j-tego stanu, które miały miejsce dla wszystkich powtórzeń obserwacji w ostatniej iteracji procesu optymalizacji, wówczas prawdopodobieństwa przejść między stanami mogą być estymowane za pomocą następujących częstości względnych: 62

63 ij aˆ ij = N (4.16) A k = 2 Sekwencja stanów, która maksymalizuje ϕ N (T r ) (dla r = 1,2,...,R) wyznacza nowe przyporządkowania obserwacji do stanów. Gdy rozkład wyjściowy ma postać kompozycji rozkładów, wewnątrz każdego i-ego stanu realizowane jest dalsze przypisywanie obserwacji do składowych kompozycji. Wykorzystuje się do tego następujące mechanizmy: 1) grupowania, w celu umieszczenia każdego strumienia obserwacji o r st w jednej z M si grup, r 2) przypisanie każdego strumienia obserwacji o st do tej składowej kompozycji, która wygeneruje tę obserwację z największym prawdopodobieństwem. W ten sposób dla każdej obserwacji o r st, przydzielonej do określonej składowej kompozycji można zdefiniować funkcję φ r ism (t), która: - przyjmuje wartość 1, gdy s-ty strumień obserwacji o r st został przyporządkowany do m- tej składowej kompozycji i-tego stanu, - przyjmuje wartość 0 w pozostałych przypadkach. Wartości średnie i wariancje są estymowane za pomocą zwykłych wartości średnich: R T r r r= 1 t= 1 A ik () t r r φ jsm ost r= 1 t= 1 ˆ µ jsm = R T (4.17) φ r jsm () t Σˆ jsm = R T r r= 1 t= 1 φ r jsm r r ' ()( t o ˆ µ )( o ˆ µ ) R st T r r= 1 t= 1 φ jsm r jsm () t st jsm (4.18) Współczynniki wagowe składowych kompozycji są estymowane na podstawie liczby obserwacji przyporządkowanych każdej składowej: 63

64 c R Tr r φ jsm r= 1 t= 1 jsm = R Tr M s r φ jsl r= 1 t= 1 l= 1 () t () t (4.19) Rozważono następujący problem: Dla podanego wektora obserwacji O = (o 1, o 2,..., o T ) i modelu λ znajduje się optymalną sekwencję stanów q = (q 1, q 2,..., q T ). - optymalnym kryterium będzie wyznaczenie maksymalnego prawdopodobieństwa, - objaśnienie danych. Rozwiązanie problemu: - wybiera się najbardziej prawdopodobną ścieżkę, - znajduje się ścieżkę (q 1, q 2,..., q T ) z maksymalnym prawdopodobieństwem: P(q 1, q 2,..., q T O, λ) (4.20) - rozwiązanie przez dynamiczne programowanie, - definiuje się: () i = P( q, q,..., q = i, o, o,..., o λ) δ max 1 2 t 1 2 t q1, q2,..., qt 1 (4.21) - δ(i) jest ścieżką końcową o najwyższym prawdopodobieństwie dla modelu będącego w stanie i, - przez odpowiednie podstawienie mamy: () i δ () i [ a ] b ( o ) δ (4.22) i+ 1 = max t ij j t +1 i 64

65 N a Nk k a 1k 1 2 t-1 t t+1 t+2 T-1 T CZAS o 1 o 2 o t-1 o t o t+1 o t+2 o T-1 o T OBSERWACJA Rys.4.3. Schemat procedury przeszukiwania według Viterbiego [Kan03] Bloki algorytmu - inicjalizacja: - obliczanie: () i b ( ) δ = 1 i N (4.23) 1 π i i o 1 ψ 1 = 0 (4.24) ( ) = δ ( i) [ a ] b ( o ) δ t j t 1 ij j t (4.25) 1max j N [ a ] ψ 2 t T, 1 j N (4.26) ( j ) = arg max δ t 1() i t 1 i N ij - końcowe wyznaczenie: P q * * T 1 i N [ δ () i ] = max (4.27) T 1 i N - ścieżka (sekwencja stanów) wstecz: [ δ () i ] = arg max (4.28) * ( q ) * t = t+ 1 t+ 1 T q ψ, t = T 1, T 2,..., 1 (4.20) 65

66 Zależności matematyczne w algorytmie Bauma-Welcha (w przód i wstecz) Procedura Bauma-Welcha jest podobna do opisanej powyżej procedury Viterbiego. Zasadnicza różnica polega na zastąpieniu funkcji φ przyporządkowania obserwacji do konkretnego stanu funkcją, która określa prawdopodobieństwo przyporządkowania obserwacji do dowolnego stanu. Oznacza to, że procedura Viterbiego wyznacza ostre granice segmentacji danych, a procedura Bauma-Welcha granice rozmyte. Prawdopodobieństwo przyporządkowania obserwacji do określonego stanu (przebywania w stanie) wyznacza się za pomocą prawdopodobieństw w przód i wstecz. Prawdopodobieństwo w przód α j (t) dla za pomocą następującej zależności rekurencyjnej: 2 j N 1oraz1 t T jest wyznaczane N r j () t = 1 α αi ( t 1) aij b j ( ot ) (4.30) j= 2 z warunkami początkowymi: i warunkiem końcowym: () 1 1 α (4.31) 1 = r () b ( O ) α j 1 = a 1 j j t dla 2 j N 1 (4.32) r N ( T ) α ( T ) 1 = α N r i r ain (4.33) = j 2 Prawdopodobieństwo wstecz β i (t) dla 2 i N 1 oraz 1 t T r jest wyznaczane za pomocą następującej formuły rekurencyjnej: z warunkami początkowymi: i warunkiem końcowym: i N 1 j= 2 r () t = a b ( o ) β ( t ) β (4.34) i ( T r ) = ain ij j t+ 1 j + 1 β 1 i N (4.35) N 1 r () 1 a b ( o ) β () = β 1 1 j j 1 j 1. (4.36) = j 2 66

67 W uczeniu zintegrowanym, w którym model UMM jest złożeniem Q modeli danych wejściowych (o numerach q = 1,2,...,Q), przyjmuje się, że w momencie czasu t wartości prawdopodobieństwa α i β odpowiadające stanowi wejściowemu i stanom wyjściowym modelu UMM reprezentują prawdopodobieństwa w przód i wstecz odpowiednio w czasie t - t i t + t, gdzie t jest wielkością małą. Zależności, na podstawie których wyznacza się α i β, są następujące. Dla prawdopodobieństwa w przód warunki początkowe dla czasu t=1 są postaci: 1 gdy q = 1 ( q) α 1 () 1 = ( q 1) ( q) (4.37) () α1 1 a1n gdy q 1 q 1 ( q) ( q) () 1 a b ( o ) α (4.38) ( q) j = ( q) Nq 1 j N 1 j= 2 q ( q) () 1 = α () 1 j j 1 α a (4.39) gdzie indeks górny oznacza numer modelu w założeniu modelów. ( q) inq Wszystkie niewyspecyfikowane wartości prawdopodobieństwa α są zerowe. Dla czasu t > 1: α 0 gdy q = 1 ( q) 1 () t = ( q 1) ( q 1) ( q 1) ( ) ( ) α N t 1 + α t a1n gdy q (4.40) q q 1 Nq 1 ( q) ( q) ( q) ( q) ( q) ( q) j () t = 1 () t a1 j + α α α i ( t 1) aij b j ( ot ) (4.41) i= 2 ( q) Nq N 1 i= 2 q ( q) () t = α () t α a (4.42) i Dla prawdopodobieństwa wstecz, warunki początkowe określone dla czasu t = T są następujące: 1 gdy q = Q ( q) β N ( T ) = q ( q+ 1 ( q+ 1) (4.43) ( ) β N T a gdy q Q q+ 1 1Nq+ 1 ( q) i ( q) inq ( q) ( q) ( T ) a β ( T ) β = (4.44) ( q) 1 inq Nq N q 1 1 j j= 2 ( q) ( q) ( q) ( T ) = a b ( o ) β ( T ) β (4.45) j T j 67

68 gdzie wszystkie niewyspecyfikowane wartości prawdopodobieństwa β są zerowe. Dla czasu t < T: β 0 gdy q = Q ( q) N () t = q ( q+ 1) ( q+ 1) ( q+ 1) ( ) ( ) β1 t β N t a gdy q Q (4.46) q+ 1 1Nq+ 1 ( q) i q ( q) ( q) ( q) ( q) ( q) () t = a β () t + a b ( o ) β ( t 1) inq Nq N 1 ij j= 2 β (4.47) ( q) 1 N q 1 1 j j= 2 ( q) ( q) ( q) () t = a b ( o ) β () t j t j j t+ 1 j + β (4.48) Ogólne prawdopodobieństwo (P λ) można wyznaczyć z prawdopodobieństw w przód albo wstecz następująco: ( O λ ) = α ( T ) = ( 1) P N. (4.49) Bardziej szczegółowe omówienie algorytmów Viterbiego i Bauma-Welcha można znaleźć w pracach [Wiś00a, Rab89]. β 1 Rozważono następujący problem: Dla podanego wektora obserwacji O = (o 1, o 2,..., o T ) estymuje się parametry modelu λ=(π, A, B) tak, aby uzyskać maksimum P(O λ). Rozwiązanie problemu: - estymuje się parametry modelu λ=(π, A, B) dla maksymalnego P(O λ), - rozwiązuje się metodą nieanalityczną z powodu komplikacji - rozwiązanie może się powtarzać, - ξ(i, j) jest prawdopodobieństwem przebywania modelu w stanie i dla czasu t i w stanie j dla czasu t + 1, - δ(i) jest ścieżką końcową o najwyższym prawdopodobieństwie dla modelu będącego w stanie i, () i aijb j ( ot+ 1 ) β t+ 1( j) P( O λ) i= 1 j= 1 () i a b ( o ) β ( j) α α ij j t+ 1 t+ 1 ξ ( i, j) = = (4.50) N N α t () i a b ( o ) β ( j) ij j t+ 1 t+ 1 68

69 N a ij b j (o t+1 ) i t-1 t t+1 t+2 T-1 T j CZAS o 1 o 2 o t-1 o t o t+1 o t+2 o T-1 o T OBSERWACJA Rys.4.4. Schemat procedury przeszukiwania według Bauma-Welcha [Kan03] Składniki i zależności w algorytmie: - definiuje się γ t (i) jako prawdopodobieństwo przebywania modelu w stanie i dla czasu t, dla podanej sekwencji obserwacji, T - () i t= 1 T 1 t= 1 t t N () i = ξ ( i, j) γ (4.51) γ jest oczekiwaną liczbą, ile razy stan i został odwiedzony, - ( i, j) ξ jest oczekiwaną liczbą przejść ze stanu i do stanu j, t j= 1 t - π i = oczekiwana częstotliwość w stanie i dla czasu (t = 1) = γ 1 (i), - a ij = (oczekiwana liczba przejść ze stanu i do stanu j) / (oczekiwana liczba przejść ze stanu i): a ij = t γ ( i j) () i ξ, t (4.52) 69

70 - b j (k) = (oczekiwana liczba, ile razy w stanie j zaobserwowano symbol k) / (oczekiwana liczba, ile razy przebywano w stanie j): b j ( k) = t, ot = k t γ t t () i () i γ (4.53) Na podstawie przeprowadzonego celowego przeglądu właściwości UMM (struktury, parametrów, procedur Bauma-Welcha i Viterbiego) w dalszej części będzie wykonana eksperymentalna estymacja zakresów zmian parametrów UMM przy opracowaniu systemu identyfikacji twarzy użytkownika, w którym UMM wykorzystywane są do klasyfikacji. 70

71 5. OPRACOWANIE SYSTEMU FaMar DO IDENTYFIKACJI OBRAZÓW TWARZY W rozdziale tym została uzasadniona teza o możliwości zastosowania ukrytych modeli Markowa do identyfikacji osób na podstawie cyfrowego obrazu frontalnych twarzy. Rozdział przedstawia opracowanie metody FaMar identyfikacji osób. 5.1 Założenia algorytmiczno-techniczne W celu poprawnego działania metody należy przyjąć pewne założenia wstępne. Dotyczą one sposobu reprezentowania twarzy, środowiska pracy, możliwości praktycznego zastosowania metody. Osoby będą identyfikowane na podstawie obrazu twarzy, reprezentowanego przez cyfrowe zdjęcie o następujących parametrach:! wymiary: wysokość 400 pikseli, szerokość 300 pikseli,! głębia koloru: skala szarości poziomów Matematycznie obrazy będą przedstawione w postaci macierzy: k- wysokość obrazu l- szerokość obrazu M={m kl }, m kl [ ], k=1,2,...,400, l=1,2,...,300 (5.1) Zdjęcia powinny być wykonane z rozdzielczością minimum 70 dpi oraz równomiernie oświetlone, co gwarantuje, ostrość i możliwość rozróżnienia szczegółów. Zakładamy, że zdjęcie zawiera twarz i jest ona głównym jego obiektem. W praktyce oznacza to, iż nie trzeba stosować już procedury lokalizacji twarzy, co znacznie upraszcza metodę. Ponadto obraz powinien spełniać następujące warunki:! przedstawia widok czołowy twarzy,! twarz nie jest obrócona w żadnej płaszczyźnie (kąty obrotu nie mogą przekraczać 5 ),! twarz nie wyraża emocji neutralny wyraz. 71

72 Warunek dotyczący emocji jest konieczny do spełnienia, ponieważ emocje wyrażane na twarzy powodują zmianę kształtu oczu, brwi, ust, a konsekwencją tego jest zmiana wektora cech reprezentującego twarz. Warunek dotyczący obrotu twarzy gwarantuje możliwość porównywania twarzy. W przypadku obrotu twarzy, w którejkolwiek płaszczyźnie, należałoby zastosować procedury obracające twarz do pozycji normalnej. 5.2 Realizacja trybu uczenia Przetwarzanie wstępne Pierwszym etapem w procesie uczenia jest wczytanie obrazu i jego obróbka wstępna. Obraz twarzy powinien spełniać warunki opisane w paragrafie 5.1, w przeciwnym razie nie jest możliwe poprawne działanie metody. Dopuszczalne są odstępstwa w rozmiarze zdjęcia, gdyż po wczytaniu jest ono skalowane do rozmiaru wys.400 x szer.300 pikseli. Obraz poddawany jest filtracji przy pomocy filtru medianowego, w celu usunięcia zakłóceń w obrazie, które mogą być przyczyną błędów (Rys. 5.2). Filtr medianowy przetwarza dany punkt obrazu jako medianę z wartości punktów go otaczających. Mediana to wartość środkowa w uporządkowanym rosnąco ciągu wartości pikseli całego rozważanego otoczenia przetwarzanego piksela [Wró01]. Zasadę działania mediany przedstawia rys ,2,5,6,12,13,16,25, Rys. 5.1 Ilustracja działania filtru medianowego [Wró01] 72

73 Obraz wejściowy Filtr [5x5] pikseli Obraz po filtracji Rys. 5.2 Ilustracja efektu filtracji medianowej obrazu filtrem [5x5]: z lewej obraz wejściowy, z prawej obraz po filtracji; usunięto drobne plamki wprowadzające zakłócenia Drugim etapem jest normalizacja obrazu twarzy. Jest to niezbędny proces, za pomocą którego możliwe jest porównywanie obiektów, jakimi są w tym przypadku twarze. Założeniem normalizacji jest odpowiednie przeskalowanie obrazu twarzy tak, aby mogły one być porównywane. Pierwszą czynnością w procesie normalizacji jest wyznaczenie środków oczu. Dokonuje się tego z użyciem metody projekcji przez obliczenie pseudo-gradientu wartości pikseli całego obrazu, a następnie sumowaniu tych wartości dla każdego wiersza oraz kolumny [Kuk03]. W1 = W 2 = k i= 1 l j= 1 m ij m ij m m i, j+ 1 i+ 1, j (5.2) W1 suma gradientów wartości pikseli w poziomie W2 suma gradientów wartości pikseli w pionie k wysokość obrazu l szerokość obrazu i- indeks numeru wiersza j- indeks numeru kolumny 73

74 Otrzymano w ten sposób dwa wektory odpowiednio sumy gradientów w poziomie i w pionie. Następnie znajdujemy wartości maksymalne tych wektorów, dla sumy gradientów wierszy jedną wartość wyznaczającą linię oczu (współrzędna y-owe), a dla sumy gradientów kolumn dwie wartości (współrzędne x-owe) E Y współrzędna Y oczu E X1 współrzędna X oka prawego E X2 współrzędna X oka lewego i- indeks numeru wiersza j- indeks numeru kolumny E E E Y X = max = max ( W1) ( W 2( 1: j / 2) ) 1 = max (5.3) X 2 i j j ( W 2( j / 2 : j) ) Rezultat tego procesu przedstawiono na rys Rys.5.3 Ilustracja procesu normalizacji obrazu twarzy za pomocą metody wyznaczania środków oczu i odległości między nimi (wykorzystano metodę projekcji) 74

75 Po wyznaczeniu środków oczu, zdjęcie twarzy skalowane jest tak, aby odległość między nimi wynosiła 60 pikseli. Dokonuje się tego poprzez wyznaczenie współczynnika skalowania f S i przeskalowania względem niego całego obrazu P = ( E X 1, E ) (5.4) 1 Y P = ( E X 2, E ) (5.5) f 2 Y S = 60 E E (5.6) X 2 X 1 M2 =resize ( M, f S ) (5.7) P 1, P 2 punkty wyznaczające środki oczu f S - współczynnika skalowania resize funkcja zmieniająca rozmiar obrazu M(400x300) względem współczynnika f S Dodatkowo odrzucana jest ta cześć obrazu, która leży poza obiektem, czyli nie będąca twarzą. Zapewnia to normalizacje wszystkich twarzy, pozbycie się części wprowadzających zakłócenia oraz możliwość ich porównywania (Rys. 5.4). M3 = M2 ( E X1-50:E X2 +50 ; E Y -100:E Y +200 ) (5.8) Rys. 5.4 Ilustracja szczegółów procesu normalizacji obrazu twarzy 75

76 Drugą częścią przetwarzania wstępnego jest podział twarzy na trzy obszary. Ze znormalizowanego obrazu twarzy wydzielane są obszary zawierające najwięcej informacji oraz gwarantujące wystarczającą ilość danych potrzebnych do procesu identyfikacji. Do tych obszarów należą rejon oczu, nosa i ust. Czoło i broda są odrzucane, ponieważ zawierają najmniej informacji oraz wprowadzają najwięcej zakłóceń. Podziału dokonuje się w oparciu o proporcje twarzy, czyli położenie jej elementów względem pozycji środków oczu A obraz obszaru twarzy: 1 - dla oczu, 2 - dla nosa, 3 - dla ust M3 znormalizowany obraz twarzy. A1 = M3 ( 51:160 ; 1:300 ) (5.9) A2 = M3 ( 146:255 ; 1:300 ) (5.10) A3 = M3 (241:350 ; 1:300 ) (5.11) Zastosowano tutaj częściowe nakładanie się obrazu (15 pikseli) w celu zniwelowania różnic w budowie poszczególnych twarzy. Wydzielone obszary mają jednakowy rozmiar, tj. 110x300 pikseli. Opisany proces i wydzielone obszary przedstawia rys A1 - Obszar oczu A2 - Obszar nosa A3 - Obszar ust Rys.5.5 Wynik formalnego wydzielania informatywnych obszarów twarzy 76

77 Ekstrakcja cech W procesie ekstrakcji cech została wykorzystana transformacja falkowa (TFL). Stosując 2D TFL obraz twarzy jest rozkładany przez filtry dolno- i górnoprzepustowe na cztery podobrazy. Wynikowe obrazy posiadają różną energię i tak podobraz LL (A 1 ) ma największą i jest pomniejszoną kopią oryginalnego obrazu. Natomiast pozostałe podobrazy LH, HL, i HH wydobywają zmieniające się składniki obrazu odpowiednio w kierunku poziomym (D 11 ), pionowym (D 12 ) oraz diagonalnym (D 13 ) (Rys. 3.24) [Chi02]. Szczegółowy opis transformacji falkowej znajduje się w rozdziale 3. W proponowanej metodzie zastosowano dwuwymiarową transformację falkową drugiego poziomu. Po dokonaniu transformacji pierwszego poziomu obrazy wyjściowe stają się obrazami wejściowymi drugiego (Rys. 3.26). Piksele w obrazach wynikowych przyjmują wartości od 0 do 255. Gwarancją na pożądany poziom skuteczności rozpoznawania jest odpowiedni dobór banku filtrów w transformacji falkowej. Wybór ten zależy od rodzaju przetwarzanej informacji i należy go dostosować do poszczególnych przypadków indywidualnie uwzględniają właściwości poszczególnych sygnałów [Ant94, Ant99, Coi95, Lav99]. Niewłaściwy dobór funkcji falkowej spowoduje problemy z analizą i identyfikacją badanego sygnału. Natomiast wybór odpowiedniego banku filtrów zagwarantuje selekcję indywidualnych cech sygnału pozwalających na jego jednoznaczną identyfikację. W rozdziale siódmym zaprezentowano wyniki eksperymentalnego doboru falki i badanie skuteczności ekstrakcji cech wybranej grupy falek w opracowanej metodzie. W prezentowanym przypadku najlepsze wyniki otrzymano z filtrem db1. Wyniki 2D transformacji falkowej drugiego poziomu obszaru: oczu, nosa i ust, przedstawiono na rys. 5.6, 5.7,

78 Rys. 5.6 Wynik transformacji falkowej drugiego poziomu obszaru oczu 78

79 Rys. 5.7 Wynik transformacji falkowej drugiego poziomu obszaru nosa 79

80 Rys. 5.8 Wynik transformacji falkowej drugiego poziomu obszaru ust 80

81 Wyniki otrzymane z transformacji falkowej drugiego poziomu muszą być zakodowane do postaci akceptowanej przez model Markowa. Najprostszą metodą kodowania informacji, jaka może być zastosowana jest odchylenie standardowe σ X lub wartość średnia X [Gar00]. W tym celu wylicza się odchylenie standardowe poszczególnych kolumn macierzy współczynników MW otrzymanych z transformaty falkowej drugiego poziomu obrazu reprezentującego poszczególne obszary twarzy. Budowę macierzy współczynników MW TFL przedstawia rys.5.9. A 2 D 211 AD 22 D 221 D 212 D 213 D 222 D 223 AD 23 D 231 AD 24 D 241 D 232 D 233 D 242 D 243 Rys.5.9 Budowa macierzy współczynników MW TFL drugiego poziomu Wartość średnia współczynników TFL n liczba elementów kolumny obrazu x element kolumny obrazu i indeks elementu kolumny obrazu n = i x n i X (5.12) Odchylenie standardowe współczynników TFL n liczba kolumn obrazu X kolumna obrazu i indeks kolumny obrazu 1 2 S( X ) = (5.13) n n ( X i X ) i= 1 Budowa wektorów cech charakterystycznych poszczególnych części twarzy W 1 = S(MW 1 ) (5.14) W 2 = S(MW 2 ) (5.15) 81

82 W 3 = S(MW 3 ) (5.16) W x wektor cech charakterystycznych poszczególnych części twarzy: 1-oczy, 2-nos, 3-usta Następnie należy przeskalować dane do postaci akceptowanej przez model Markowa. Proces ten zależny jest od parametrów modelu, to znaczy od liczby stanów N oraz liczby obserwacji O T. Przykład zakodowanych obrazów przedstawia rys Stany q reprezentują kwantowane odchylenie standardowe wartość jaskrawości pikseli obrazu otrzymanego z TFL. Kolejne obserwacje O t reprezentują kolejne kolumny pikseli obrazu TFL [Bob03]. Zakres dynamiczny wartości, jakie przyjmują obserwacje przedstawiono w tabeli 5.1. Tab.5.1 Wyniki doboru liczby obserwacji O UMM Numer twarzy z Numer stanu q UMM i zakres dynamiczny dla obszaru Zakres dynamiczny BioID Oczu nosa ust stanów UMM

83 Rys Widoki obrazów obszarów twarzy i odpowiadające im sekwencje obserwacji O T 83

84 Tab.5.2 Wyniki doboru liczby stanów N UMM Liczba stanów N [szt.] Poziom błędów [%] Log P(O λ 1 ) Log P(O λ 2 ) Log (P(O λ 1 )) Log(P(O λ 2 )) Badania polegały na pomiarze poziomów błędów w zależności od wybieranej liczby stanów modelu i liczby obserwacji. Zakres dynamiczny numerów stanów, jakie eksperymentalnie przyjmują obserwacje, wynosi 1-14 (Tab.5.1), dlatego liczbę obserwacji O ustalono na 14. Liczbę stanów modelu wyznaczono na 28 w oparciu o wyniki przedstawione w tab.5.2. Z ich analizy wynika, że liczba stanów N poniżej 20 powoduje wyższy poziom błędów (Tab.5.2). Zwiększenie liczby stanów powyżej 28 nie zmniejsza już poziomu błędów, ale wydłuża czas obliczeń. Ponadto czułość systemu przy małej liczbie stanów jest niska (dla N=10 różnice miedzy podobnymi twarzami wynosi 5%), zwiększenie liczby stanów zwiększa różnice wartości prawdopodobieństwa ilustrującego podobieństwo miedzy twarzami (dla N=28 11%). Badania przeprowadzono na serii obrazów z bazy BioID. Uczenie W procesie identyfikacji zastosowano Ukryte Modele Markowa, które są podwójnym procesem stochastycznym możliwym do zaobserwowania poprzez inny proces stochastyczny generujący sekwencje obserwacji O T. Statystycznymi parametrami modelu są [Lix00, Kwo01]: Liczba stanów modelu N. Macierz prawdopodobieństwa przejść A={a ij } 1 i,j N, gdzie a ij jest N prawdopodobieństwem przejścia ze stanu i do stanu j, pod warunkiem = a = 1. Macierz prawdopodobieństwa obserwacji B={b j (O T )}, 1 j N, 1 t T, oznaczającą prawdopodobieństwo wygenerowania t-tej obserwacji wstanie j. Wektor prawdopodobieństw początkowych stanów π = {π i } 1 i N. j 1 ij 84

85 W metodzie FaMar dla każdej części twarzy generowany jest jeden model. Na początku parametry modelu generowane są losowo, a następnie estymuje się je przy pomocy algorytmu Bauma-Welcha (szczegółowy opis w rozdziale 4): 1. Wygenerowanie losowe modelu λ Wyliczenie nowego λ w oparciu o λ 0 i obserwacje O. 3. Jeśli log P( O λ ) log P( O λ 0 ) < DELTA, to stop. 4. W przeciwnym razie, ustaw λ 0 λ i przejdź do punktu 2. Po wyznaczeniu parametrów modelu zapisywany jest on do bazy danych. Każda twarz reprezentowana jest przez trzy modele, dla każdego obszaru po jednym λ i =(A i, B i, π i ) (5.17) i obszar twarzy: 1-oczy, 2-nos, 3-usta Ponadto do bazy zapisujemy obraz twarzy, jednak nie jest on wykorzystywany do identyfikacji a jest jedynie używany do wyświetlenia informacji przy identyfikacji. Doboru architektury i parametrów rodziny UMM dokonano eksperymentalnie. Zastosowano model ergodyczny, czyli taki, w którym dozwolone są przejścia między wszystkimi stanami, w dowolnej kolejności. Liczbę N stanów Q ustalono na 28, w związku z czym macierz przejść A ma wymiary 28x28. Mniejsza liczba stanów jest niewystarczająca do poprawnej identyfikacji. Liczbę T obserwacji O ustanowiono na 14, co powoduje, że rozmiar macierzy obserwacji ma wymiar 28x14. Wektor prawdopodobieństw początkowych π ma długość 28. Do zapisu informacji o jednej osobie potrzebne jest B (36 kb). 5.3 Realizacja trybu identyfikacji W procesie identyfikacji początkowe etapy są jednakowe z trybem uczenia (rozdział 4.3). Najpierw następuje wczytanie obrazu twarzy. Później obraz twarzy jest normalizowany i dzielony na obszary. Proces ekstrakcji cech jest analogiczny do występującego w trybie uczenia. Różnice obu trybów występują w końcowym etapie. 85

86 Identyfikacja Proces identyfikacji polega na wyliczeniu prawdopodobieństwa wygenerowania obserwacji O przez dany model λ pobrany z bazy danych, reprezentowany przez trzy parametry A, B, π. Wybierany jest ten model, dla którego prawdopodobieństwo jest największe. Zastosowano metodę maksymalnego prawdopodobieństwa [Bob04]. W metodzie FaMar, twarz reprezentowana jest przez trzy modele λ. Prawdopodobieństwo wygenerowania obserwacji P(O λ) liczone jest oddzielnie dla każdego modelu reprezentującego jeden z obszarów twarzy. Następnie prawdopodobieństwa są sumowane sumę oznaczono jako PF. Twarz, dla której wartość PF jest największa wybierana jest jako poprawna. Prawdopodobieństwo wygenerowania obserwacji przez dany model można wyznaczyć z równań [Kan03]. P ( O λ ) = P( O q, λ) P( q λ) (5.18) q T P( O q, λ ) = P( ot qt, λ) = bq ( o1 ) bq ( o2 )... bq ( o T T ) (5.19) 1 2 i= 1 P ( q ) = π q a q q aq q... a q T 1 q T λ (5.20) 3 PF = P( λ ) (5.21) i= 1 O i i obszar twarzy: 1-oczy, 2-nos, 3-usta P(O λ) prawdopodobieństwo wygenerowania obserwacji przez dany model λ P(O q,λ) prawdopodobieństwo wygenerowania obserwacji przez dany model λ w stanie q P(q λ) prawdopodobieństwo przebywania w stanie q modelu λ i Ze względu na małe wartości prawdopodobieństw P(O λ) i PF stosuje się logarytm prawdopodobieństwa, dzięki czemu zyskuje się większą łatwość porównywania wartości. Skutkiem zastosowania logarytmu są ujemne wartości prawdopodobieństwa, lecz nie przeszkadza to w poprawnym wyznaczaniu jego wartości i ich porównywania [Bob03a]. Wartości prawdopodobieństwa wygenerowania obserwacji przez dany model są ze sobą porównywane. Twarze, dla których wartość PF jest mniejsza od są odrzucane i nie są uwzględniane w procesie identyfikacji. Sytuacja taka występuje w momencie, gdy jeden z modeli nie jest w stanie wygenerować danej obserwacji (PF = 86

87 - ), następuje wtedy podstawienie tej wartości pod PF. Wartość ta wynika z parametrów modelu, jakie zostały przyjęte. 5.4 Algorytmiczny zapis metody FaMar W prezentowanej metodzie wyróżniamy dwa tryby pracy: tryb uczenia i tryb identyfikacji. W pierwszym z nich następuje wprowadzenie danych wejściowych, przetwarzanie wstępne, ekstrakcja cech, uczenie systemu i zapis do bazy danych. Natomiast w drugim, po wprowadzeniu danych, następuje przetwarzanie wstępne, ekstrakcja cech, identyfikacja i podjęcie decyzji o rozpoznaniu. Tryb uczenia 1. Start 2. Wczytaj obraz twarzy M={m kl }, m kl [ ], k=1,2,...,400, l=1,2,..., Znajdź współrzędne środków oczu P = ( E X 1, E ), P = ( E X 2, E ) metodą projekcji 1 Y 2 Y 4. Normalizuj twarz M względem punktów P 1, P 2, P 1 P 2 = 60 pikseli 5. Wydziel trzy obszary twarzy: A 1 - oczy, A 2 - nos, A 3 - usta 6. Wykonaj 2D transformację falkową drugiego poziomu funkcją db1 dla każdego z obszarów A i, i=1,2,3. 7. Zakoduj wektory obserwacji i W, reprezentujące poszczególne obszary 8. Wygeneruj losowo oddzielny początkowy model Markowa λ i 0 dla każdego z obszarów 9. Wyznacz parametry modeli i 10. Zapisz modele λ do bazy danych 11. Stop i λ = ( A, B,π ) Tryb identyfikacji 1. Start 2. Wczytaj obraz twarzy M={m kl }, m kl [ ], k=1,2,...,400, l=1,2,..., Znajdź współrzędne środków oczu P = ( E X 1, E ), P = ( E X 2, E ) metodą projekcji 1 Y 2 Y 87

88 4. Normalizuj twarz M względem punktów P 1, P 2, P 1 P 2 = 60 pikseli 5. Wydziel trzy obszary twarzy: A 1 - oczy, A 2 - nos, A 3 - usta 6. Wykonaj 2D transformację falkową drugiego poziomu funkcją db1 dla każdego z obszarów A i 7. Zakoduj wektory obserwacji 8. Dla i:= 1,2,3 8a. Dla j:= 1,2,...,n i! Pobierz model λ j z bazy danych! Testuj model oblicz P i i ( λ ) i W, reprezentujące poszczególne obszary ij W 9. Oblicz prawdopodobieństwo dla twarzy j, PF = 10. Wyświetl twarz, dla której PF jest największe 11. Stop j 3 j P i i= 1 i obszar twarzy: 1- oczy, 2 nos, 3 usta j indeks twarzy w bazie n liczba twarzy w bazie P prawdopodobieństwo wygenerowania wektora obserwacji W i przez dany model PF suma prawdopodobieństw modeli reprezentujących twarz 5.5 Charakterystyki techniczne systemu FaMar System FaMar składa się z modułów odpowiedzialnych za: Wczytywanie i obróbkę wstępną obrazu Wyznaczenie środków oczu za pomocą procedury projekcji Normalizację i wydzielenie trzech obszarów twarzy Transformację falkową wydzielonych obszarów Kodowanie wektorów obserwacji reprezentujących obszary twarzy Generowanie początkowych UMM dla poszczególnych obszarów Wykonane algorytmu Bauma-Welcha do estymacji parametrów UMM! Algorytm forward! Algorytm backward 88

89 Wyliczenie prawdopodobieństwa wygenerowania obserwacji przez model Podjecie decyzji na podstawie sumy prawdopodobieństw Obsługę bazy danych: zapis i odczyt danych z dysku Interfejs graficzny Struktura bazy danych na dysku: Plik danych zawierający macierze A UMM Plik danych zawierający macierze B UMM Plik danych zawierający wektory π UMM Plik danych zawierający miniatury obrazów twarzy osób Rozmiar danych w bazie dla pojedynczej osoby: Macierz A (28x28) 1568 B Macierz B (28x14) 784 B Wektor π (28) 56 B Obraz F (115x150 pikseli) B System zrealizowany w środowisku badawczym Matlab 6.0 z wykorzystaniem funkcji standardowych oraz modułów Image Processing Toolbox i Wavelet Toolbox. Interfejs graficzny systemu FaMar Na rysunkach podano zrzuty ekranów przedstawiające wygląd interfejsu graficznego systemu FaMar. Na ich podstawie można zapoznać się z zasadami obsługi systemu. 89