MODEL EKSPERYMENTALNY OPISU TREŚCI WIZYJNYCH

Podobne dokumenty
dr inż. Jacek Naruniec

27 stycznia 2009

Założenia i obszar zastosowań. JPEG - algorytm kodowania obrazu. Geneza algorytmu KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG

KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG

INDEKSOWANIE DUŻYCH ZBIORÓW OBRAZÓW

Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j

Przetwarzanie obrazu

Kompresja obrazów w statycznych - algorytm JPEG

Detekcja kształtów i wybrane cechy obrazów konturowych

Przedmowa 11 Ważniejsze oznaczenia 14 Spis skrótów i akronimów 15 Wstęp 21 W.1. Obraz naturalny i cyfrowe przetwarzanie obrazów 21 W.2.

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG

Przetwarzanie obrazów rastrowych macierzą konwolucji

BIBLIOTEKA PROGRAMU R - BIOPS. Narzędzia Informatyczne w Badaniach Naukowych Katarzyna Bernat

Kompresja sekwencji obrazów - algorytm MPEG-2

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Cyfrowe przetwarzanie i kompresja danych

Wyszukiwanie informacji w dużych zbiorach obrazów

Parametryzacja obrazu na potrzeby algorytmów decyzyjnych

MPEG Wstęp. Multimedia Content Description Interface Oficjalna nazwa: (zwarty zapis) obiektów w multimedialnych.

W poszukiwaniu sensu w świecie widzialnym

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

Kompresja sekwencji obrazów

Akwizycja obrazów. Zagadnienia wstępne

Transformata Fouriera

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Klasyfikacja metod kompresji

Politechnika Świętokrzyska. Laboratorium. Cyfrowe przetwarzanie sygnałów. Ćwiczenie 6. Transformata cosinusowa. Krótkookresowa transformata Fouriera.

Metody kodowania wybranych cech biometrycznych na przykładzie wzoru naczyń krwionośnych dłoni i przedramienia. Mgr inż.

Joint Photographic Experts Group

dr inż. Piotr Odya dr inż. Piotr Suchomski

Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI)

10. Redukcja wymiaru - metoda PCA

Diagnostyka obrazowa

0. OpenGL ma układ współrzędnych taki, że oś y jest skierowana (względem monitora) a) w dół b) w górę c) w lewo d) w prawo e) w kierunku do

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 8 AiR III

Kompresja dźwięku w standardzie MPEG-1

dr inż. Piotr Odya Wprowadzenie

FFT i dyskretny splot. Aplikacje w DSP

Przetwarzanie obrazu

Transformaty. Kodowanie transformujace

Zbigniew JERZAK Adam KOTLIŃSKI. Studenci kierunku Informatyka na Politechnice Śląskiej w Gliwicach

Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy

Kompresja JPG obrazu sonarowego z uwzględnieniem założonego poziomu błędu

Reprezentacja i analiza obszarów

Wyszukiwanie obrazów 1

Klasyfikacja metod kompresji

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych

Grafika Komputerowa Wykład 2. Przetwarzanie obrazów. mgr inż. Michał Chwesiuk 1/38

Wybrane metody kompresji obrazów

Wydział Elektryczny. Katedra Telekomunikacji i Aparatury Elektronicznej. Instrukcja do pracowni specjalistycznej

Kodowanie i kompresja Streszczenie Studia Wieczorowe Wykład 10, 2007

Zastosowanie kompresji w kryptografii Piotr Piotrowski

Obraz jako funkcja Przekształcenia geometryczne

Zastosowania obliczeń inteligentnych do wyszukiwania w obrazowych bazach danych

Manipulator OOO z systemem wizyjnym

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Reprezentacja i analiza obszarów

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

Inteligentna analiza danych

POPRAWIANIE JAKOŚCI OBRAZU W DZIEDZINIE PRZESTRZENNEJ (spatial image enhancement)

EKSPLORACJA ZASOBÓW INTERNETU LABORATORIUM VIII WYSZUKIWANIE OBRAZÓW

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 9 AiR III

Diagnostyka obrazowa

Hierarchiczna analiza skupień

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Przekształcenia punktowe

Spośród licznych filtrów nieliniowych najlepszymi właściwościami odznacza się filtr medianowy prosty i skuteczny.

Teoria sygnałów Signal Theory. Elektrotechnika I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny)

Elementy statystyki wielowymiarowej

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Zakres wymaganych wiadomości do testów z przedmiotu Metrologia. Wprowadzenie do obsługi multimetrów analogowych i cyfrowych

Automatyczna klasyfikacja zespołów QRS

Wyznaczanie budżetu niepewności w pomiarach wybranych parametrów jakości energii elektrycznej

Micha Strzelecki Metody przetwarzania i analizy obrazów biomedycznych (2)

Kompresja danych DKDA (7)

Przekształcenia widmowe Transformata Fouriera. Adam Wojciechowski

Kodowanie transformujace. Kompresja danych. Tomasz Jurdziński. Wykład 11: Transformaty i JPEG

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

Analiza obrazów - sprawozdanie nr 2

Pattern Classification

SYLABUS/KARTA PRZEDMIOTU

Teoria przetwarzania A/C i C/A.

PRACA DYPLOMOWA STUDIA PIERWSZEGO STOPNIA. Łukasz Kutyła Numer albumu: 5199

Segmentacja przez detekcje brzegów

CYFROWE PRZTWARZANIE SYGNAŁÓW (Zastosowanie transformacji Fouriera)

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

Kodowanie i kompresja Streszczenie Studia dzienne Wykład 9,

Rozwiązanie n1=n2=n=8 F=(4,50) 2 /(2,11) 2 =4,55 Fkr (0,05; 7; 7)=3,79

Testowanie hipotez statystycznych.

Analiza obrazu. wykład 1. Marek Jan Kasprowicz Uniwersytet Rolniczy Marek Jan Kasprowicz Analiza obrazu komputerowego 2009 r.

Zygmunt Wróbel i Robert Koprowski. Praktyka przetwarzania obrazów w programie Matlab

Elementy modelowania matematycznego

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Python: JPEG. Zadanie. 1. Wczytanie obrazka

Sieci neuronowe - projekt

Transkrypt:

Piotr Owczarek Tomasz Rosiński Instytut Elektroniki i Telekomunikacji Politechnika Poznańska ul. Piotrowo 3A, 60-965 Poznań powczarek@et.put.poznan.pl trosins@et.put.poznan.pl MODEL EKSPERYMENTALNY OPISU TREŚCI WIZYJNYCH Streszczenie: Artykuł ten zawiera prezentację wyników działania oprogramowania referencyjnego standardu ISO/IEC 15938 MPEG-7 experimentation Model (XM). Zawarto w nim przegląd wybranych deskryptorów części wizyjnej standardu MPEG-7. Przegląd uzupełniony został eksperymentami przeprowadzonymi z wykorzystaniem XM i analizą otrzymanych wyników. 1. WPROWADZENIE Międzynarodowy standard ISO/IEC 15938, określany akronimem MPEG-7 (ang. Moving Picture Experts Group), definiuje opisu zawartości danych multimedialnych. Opis ten dokonywany jest przy użyciu deskryptorów. Deskryptory zawierają parametry cech danych multimedialnych wyznaczone w procesie ekstrakcji. Standard MPEG-7 w szczególności zawiera definicję semantyki i składni deskryptorów wizyjnych odnoszących się do zawartości obrazów cyfrowych oraz sekwencji wizyjnych. Opisowi z wykorzystaniem deskryptorów podlegają tzw. obiekty wizyjne (ang. video object), które opisywane są przy użyciu następujących cech: koloru, kształtu, tekstury oraz ruchu, dlatego też deskryptory wizyjne standardu można podzielić na grupy odnoszące się do każdej z tych cech [1, ]. W niniejszym opracowaniu zostały przedstawione wybrane deskryptory koloru, kształtu i tekstury zdefiniowane w dokumencie standardu: Multimedia Content Description Interface Part 3 Visual [1]. Dokonany przegląd uzupełniony został wynikami testów przeprowadzonych przez autorów z wykorzystaniem Modelu Eksperymentalnego MPEG-7. Celem tych eksperymentów jest analiza cech funkcjonalnych Modelu Eksperymentalnego.. MODEL EKSPERYMENTALNY Model Eksperymentalny (ang. experimentation Model, XM) to oprogramowanie referencyjne (ang. Reference Software) implementujące standard MPEG-7, które zostało opracowane przez międzynarodową grupę naukowców zajmujących się przetwarzaniem obrazów oraz opisem danych, w celu prowadzenia badań i testów. Jego kod źródłowy został napisany w języku C++ i jest udostępniany poprzez serwer Politechniki w Monachium [7]. XM zawiera implementację zarówno części normatywnych standardu MPEG-7 jak również dodatkowych komponentów, niezbędnych do ekstrakcji opisu danych multimedialnych. W wyniku kompilacji kodu źródłowego XM uzyskuje się dwa rodzaje aplikacji: Służące do ekstrakcji opisu; Wyszukujące odpowiednią zawartość wizyjną na podstawie zdefiniowanego zapytania. W przeprowadzonych eksperymentach została użyta wersja 5.6 Modelu Eksperymentalnego. 3. DESKRYPTORY KOLORU Deskryptory koloru odgrywają rolę w modelu eksperymentalnym, stanowią one najliczniejszą grupę, w skład której wchodzą: Dominant Color Descriptor; Scalable Color Descriptor; Color Structure Descriptor; Color Layout Descriptor; GoP/GoF Color Descriptor. Oprócz deskryptorów opisujących treść obrazu pod względem koloru XM zawiera również dwa deskryptory pomocnicze: Color Space Descriptor (CSD) i Color Quantization Descriptor (CQD). Nie są one wykorzy-stywane jako samodzielne ale w połączeniu z innymi deskryptorami. CSD określa przestrzeń barw użytą przez inny deskryptor szczególnie przez Dominant Color Descriptor. CQD określa natomiast poziomy kwantyzacji dla potrzeb innych deskryptorów. 3.1. Dominant Color Descriptor (DCD) DCD umożliwia opis kolorów reprezentatywnych dla danego obrazu lub regionu, a co za tym idzie pozwala na efektywne przeszukiwanie nawet bardzo dużych baz danych []. DCD zdefiniować można jako następujący wektor: F={(c i,p i,v i),s}, i=1,,...,n (3.1) gdzie: N - liczba kolorów dominujących, c i - wektor określający wartości poszczególnych składowych w odpowiedniej przestrzeni barw, p i względny udział składowej opisanej wektorem c i <0;1>; p i =1 i w danym obrazie (wartości z zakresu ), v i - opcjonalny parametr opisujący wa-riancję wartości koloru w obszarze wokół badanego koloru (ang. Color Variance), s - spójność przestrzenną (ang. Spatial Coherency) dla badanego koloru dominującego [1]. Liczba kolorów dominujących może być różna dla poszczególnych obrazów, jednakże maksymalna liczba określona przez standard wynosi 8 co zostało przyjęte jako warunek wystarczający dla poprawnej klasyfikacji obrazu pod względem DCD [1]. Wyszukiwanie podobieństw z wykorzystaniem DCD polega na obliczeniu DCD dla każdego koloru dominu-

jącego w obrazie będącym zapytaniem, po czym wyliczana jest dla par obrazów (obraz zapytanie, obraz badany) następująca odległość: N 1 N D = p 1i i=1 j=1 p j N 1 N i=1 j=1 a 1i, j p 1i p j (3.) gdzie indeksy 1 i dotyczą deskryptorów obu obrazów a parametr a k,l oznacza współczynnik podobieństwa między dwoma kolorami c k i c l.dokładną definicję parametru a 1i,j zawiera standard [1]. Jak widać z powyższych zależności w najprostszej wersji opisu nie jest konieczne branie pod uwagę przy wyszukiwaniu wartości wariancji i spójności przestrzennej. Najczęściej same wartości prawdopodo-bieństwa oraz wektory c i dają zadowalające rezultaty. Jeżeli jednak wymagana jest wysoka dokładność procedury wyszukującej należy uwzględnić również wspomniane wartości v i oraz s i. Odpowiednie zależności znaleźć można w standardzie [1]. 4.1.07.tiff 4.1.07b.tiff 4.1.07a.jpg Rys.3.. Zestaw obrazów najbardziej podobnych do zapytania przy użyciu deskryptorów koloru Wyniki testów przeprowadzonych przez autorów wykazują dużą skuteczność wyszukiwania z zasto-sowaniem DCD oraz zgodność z subiektywnymi odczuciami obserwatora. Użyta została pełna wersja deskryptora zawierająca wartości v i oraz s i Testy te wykazały mały wpływ kodowania oraz zmian rozdzielczości i skalowania na skuteczność wyszukiwania. Tab.3.1. Wyniki wyszukiwania z zastosowaniem DCD 4.1.07.tiff 4.1.07a.jpg 4.1.07d.tiff 4.1.07c.tiff 4.1.07a.tiff 4.1.07c.tiff 4.1.07a.tiff 4.1.07d.tiff Odległość wyznaczona na podstawie wzoru 3..010611e-01 3.91584e+000 3.91584e+000 7.897483e+000 1.7546e+001 Tab. 3.1. przedstawia wyniki otrzymane podczas testów na przykładowych obrazach; jako zapytanie użyty został obraz 4.1.07.tiff. Należy zwrócić uwagę na fakt iż implementacja DCD w XM obarczona jest pewnym błędem objawiającym się niezerową wartością odległości pomiędzy dwoma identycznymi obrazami. 3.. Scalable Color Descriptor (SCD) Scalable Color Descriptor to deskryptor oparty na transformacji Haara zastosowanej na wartościach histogramu koloru w przestrzeni HSV. Wartości histogramu są normalizowane i w sposób nieliniowy kwantowane do reprezentacji liczby czterobitowej naturalnej w każdym z podzakresów histogramu. Na powstałych wartościach wykonywana jest transformacja Haara. Zależnie od zdefiniowanych parametrów deskryptora wartości mogą być skalowane poprzez odrzucanie mniej znaczących bitów współczynników transformaty jak również przez zmianę liczby wyznaczonych współczynników transformaty Haara [1]. Amplitudy współczynników zapisywane są w postaci płaszczyzn bitowych uporządkowanych od najbardziej znaczących do najmniej znaczących spośród wszystkich. Reprezentacja taka umożliwia skalowalność rozwiązania przy przesyłaniu opisu w ograniczonym paśmie. Wynik działania deskryptora zawiera informacje o ilości bitów jakie zostały odrzucone w reprezentacji amplitudy współczynników. W szczególnym przypadku odrzuconych może zostać nawet 8 bitów co daje w efekcie opis zawierający jedynie znaki poszczególnych współczynników transformaty. Podejście takie daje bardzo zwarty i kompaktowy opis [1, 3]. Wyszukiwanie realizowane może być na dwa sposoby w przestrzeni współczynników Haara lub - po wyliczeniu transformaty odwrotnej - na wartościach histogramu. Sposób pierwszy jest bardziej efektywny jeśli chodzi o złożoność obliczeniową choć daje nieznacznie gorsze rezultaty. Porównywanie odbywa się w tej metodzie poprzez obliczenie odległości Hamminga - porównywane są dwa deskryptory a wynik takiego porównania to liczba bitów różniących te opisy. Tab. 3.. przedstawia wynik wyszukiwania dla zestawu testowego obrazów[1]. Podobnie jak w przypadku deskryptora DCD autorzy stwierdzili niewielki wpływ kompresji oraz skalowania obrazów na skuteczność wyszukiwania. Tab. 3.. Wyniki wyszukiwania z zastosowaniem SCD Odległość Hamminga wektorów opisu 4.1.07.tiff 0 4.1.07a.jpg 104.00 4.1.07d.tiff 104.00 4.1.07c.tiff 1.00 4.1.07a.tiff 135.00 4.1.07b.tiff 168.00 3.3. Color Structure Descriptor (CSD) CSD opisuje obraz zarówno pod względem rozkładu kolorów jak również ich struktury. W odróżnieniu od histogramu koloru deskryptor ten bierze pod uwagę informacje przez histogram nie uwzględniane strukturę przestrzenną koloru w badanym obrazie. Ekstrakcja deskryptora odbywa się w trzech fazach: obliczanie histogramu CS (ang. Colour Structure) w przestrzeni HMMD skwantowanej wektorowo; nieliniowa kwantyzacja poziomów zgodnie z właściwościami statystycznymi obrazu. Pierwszy krok ekstrakcji daje w wyniku specyficzny histogram związany ściśle ze strukturą koloru w obrazie [1], []. Wartości histogramu przedstawiają zatem nie tyle amplitudy w poszczególnych przedziałach co charakterystykę przestrzenną rozkładu koloru.

Wyszukiwanie dopasowujące realizowane jest poprzez obliczenie podobieństwa między wektorami. Przy założeniu że h A(i) i h B(i) będą odpowiednio wektorami zawierającymi wartości deskryptorów dla obrazu A i B miara odległości będzie przedstawiać się następującą zależnością: N dist A, B = h A i h B i (3.3) i=0 gdzie: N - jest liczbą przedziałów kwantowania (N=56), i indeks przedziału kwantowania []. Tab. 3.3. przedstawia wyniki przeprowadzonych prób eksperymentalnych z wykorzystaniem CSD. Testy wykazały iż opis nie jest wrażliwy na zmiany rozdzielczości obrazu czy też kompresję co pokrywa się z założeniem iż istotnym elementem opisu jest rozkład przestrzenny koloru w obrazie. Tab. 3.3. Wyniki wyszukiwania z zastosowaniem CSD Odległość L1 wektorów opisu dist(a,b) 4.1.07.tiff 0 4.1.07a.jpg 0 4.1.07d.tiff 1 4.1.07c.tiff 1 4.1.07a.tiff 4.1.07b.tiff 3 3.4. Color Layout Desriptor (CLD) CLD to deskryptor zawierający opis koloru niewrażliwy na zmiany rozdzielczości, pozwalający na bardzo szybkie wyszukiwanie obrazów. Został on opracowany w celu umożliwienia opisu rozkładu przestrzennego koloru w obrazie. Zasadniczą różnicą w stosunku do CSD jest fakt iż wynikiem działania deskryptora nie jest histogram kolorów lecz próbki transformaty DCT dla poszczególnych składowych przestrzeni YCbCr [4]. Ekstrakcja deskryptora odbywa się w czterech etapach: podział obrazu na 64 (8x8) bloki, znalezienie dla każdego bloku koloru reprezentatywnego i przedstawienie obrazu jako 64 jednorodne co do koloru bloki, z których każdy zawiera jedynie kolor reprezentatywny, obliczenie DCT dla każdej składowej Y, Cb, Cr, uzyskane współczynniki są szeregowane zgodnie z uporządkowaniem zygzakowatym. Następnie pewna ich liczba jest kwantowana w sposób nieliniowy (64 poziomy dla współczynników DC i 3 dla współczynników AC). Ponieważ standard dopuszcza skalowalność deskryptora, możliwa jest różna liczba współczynników biorących udział w procesie kwantyzacji. Zalecane jest użycie 1 współczynników - 6 dla luminancji i po 3 dla obu chrominancji, jednakże istnieje też możliwość wykorzystania schematu wykorzystującego 18 współczynników (po 6 dla luminancji i każdej z chrominancji), jak również dowolne kształtowanie opisu przez podanie liczby próbek, osobno dla luminancji i chrominancji (możliwe wartości to 3, 6, 10, 15, 1,8 i 64). W deskryptorze zawarta jest zatem definicja zastosowanego wzorca, określająca liczbę współczynników Y,Cb i Cr użytych w opisie [1]. Wyszukiwanie odbywa się poprzez obliczanie odległości Euklidesowej pomiędzy wartościami dwóch deskryptorów dla każdej składowej koloru z osobna []: Tab. 3.4. przedstawia wyniki przeprowadzonych prób eksperymentalnych z wykorzystaniem CLD. Tab. 3.4. Wyniki wyszukiwania z zastosowaniem SCD Odległość L wektorów opisu - D 4.1.07.tiff 0.000000 4.1.07a.jpg 0.000000 4.1.07d.tiff 0.000000 4.1.07c.tiff.41414 4.1.07a.tiff 4.730838 4.1.07b.tiff 1.686083 Przeprowadzony eksperyment wykazał dużą zgodność wyszukiwania z wykorzystaniem deskryptora CLD z subiektywną oceną podobieństwa obrazów oraz jego bardzo małą wrażliwość na zmiany rozdzielczości obrazu i zniekształcenia czy skalowanie. 4. DESKRYPTORY KSZTAŁTU Standard MPEG-7 definiuje trzy deskryptory związane z kształtem obiektu dwa dotyczące obiektów dwuwymiarowych (Region Based Shape Decsriptor, Contour Based Shape Descriptor) oraz jeden opisujący obiekty trójwymiarowe (3-D Shape Descriptor). 4.1. Region-Based Shape Descriptor (RSD) Deskryptor ten opisuje kształt obiektu biorąc pod uwagę zarówno punkty obrysu jak i punkty wewnętrzne, a co za tym idzie można dzięki niemu uzyskać efektywny opis kształtu nawet wówczas gdy zawiera on obszary rozłączne lub dziury. Deskryptor działa na zasadzie opisu kształtu za pomocą szeregu dwuwymiarowych zespolonych ortogonalnych funkcji ART (ang. Angular Radial Transform) [1, 6] określonych zależnością: F nm = V nm,, f, = V nm, f, d d (4.1) gdzie F nm jest współczynnikiem transformaty ART rzędu n i m, f(ρ,θ) jest obrazem przedstawionym we współrzędnych biegunowych, V(ρ,θ) jest funkcją podstawową ART zdefiniowaną następującą zależnością : V nm, =A m R n. (4.) Funkcje bazowe - kątowa A m oraz promieniowa R n zdefiowane są zależnościami (8) i (9). A m = 1 exp jm, (4.3) R n ={ 1, n=0, cos n, n 0. (4.4) Proces ekstrakcji deskryptora przebiega w następujących fazach: wygenerowanie funkcji podstawowych używane

są trzy funkcje radialne i 1 funkcji kątowych, normalizacja rozmiaru danego kształtu, wyliczenie transformaty ART, normalizacja współczynników transformaty, kwantyzacja współczynników ART. Wynikiem działania powyższego algorytmu jest opis zawierający tablicę 35 znormalizowanych i skwantowanych współczynników ART zapisanych w postaci czterobitowej [1,, 5]. (a) (b) 1 8 5 11 17 Rys. 4.. (a) Obraz użyty jako zapytanie, (b) pięć pierwszych obrazów wyszukanych przez RSD Tab. 4.1. Wyniki wyszukiwania z zastosowaniem CSD Odległość L1 wektorów opisu - D 1 0.000000 8 1.86000e-001 5.34394e-001 1 4.836088e-001 17 4.91838e-001 5.010840e-001 Tab. 4.1 przedstawia wyniki otrzymane podczas eksperymentów, a poszczególne obrazy przedstawia rys. 4.. Zestaw testowy zawierał 76 obrazów monochromatycznych. Jak wykazały testy deskryptor ten jest odporny na zmiany skali obiektu, jego pozycji oraz obrotu. Model Eksperymentalny wykorzystuje dla potrzeb wyszukiwania binarne maski obiektów jako zapytania. Wyszukiwanie dopasowujące korzysta z następującej definicji podobieństwa: D= M d [i] M q [i] (4.5) i gdzie M oznacza tablicę otrzymanych współczynników ART, indeksy d i q dotyczą odpowiednio obrazu badanego i obrazu będącego zapytaniem. 4.. Contour-Based Shape Descriptor (CSD) CSD oparty jest na przekształceniu CSS (ang. Curvature Scale Space). Polega ono na wyszukaniu wklęsłości i wypukłości kształtu przez wyznaczenie punktów przegięcia. Proces ten powtarzany jest dla konturów obrazu przeskalowanych w procesie wygładzania. W każdym z kroków przekształcenia wyznaczane są punkty zerowe funkcji krzywizny konturu [1]. Wartości deskryptora przedstawione są jako pary wektorów określających regularność kształtu i jego pukty charakterystyczne pod względem obwiedni, dla obrazów oryginalnego i po przeprowadzonej filtracji (wygładzaniu) oraz liczbę wartości szczytowych funkcji CSS wraz z maksymalną amplitudą. Zawarte są w nim również pozycje poszczególnych wartości szczytowych względem konturu obiektu [3]. Wyszukiwanie realizowane jest poprzez obliczenie odległości euklidesowej pomiędzy odpowiadającymi sobie pod względem położenia wartościami szczytowymi funkcji CSS. Reprezentacja cech konturu w taki sposób, w jaki przedstawiono powyżej jest odporna na zmiany położenia, orientacji, skalowanie i odbicia badanych kształtów oraz na zaszumienie samego konturu. W Modelu Eksperymentalnym przyjęte zostały następujące ograniczenia dotyczące deskryptora: kształty zdefiniowane zostały jako białe obiekty na czarnym tle; w przypadku gdy obraz zawiera więcej niż jeden kształt badany jest tylko kształt znaleziony jako pierwszy począwszy od górnego lewego narożnika obrazu [7]. W związku z powyższym obrazy należące do zestawu testowego zostały przedstawione jako negatywy obrazów z zestawu testowego RSD. (a) (b) 1 7 13 53 44 6 Rys. 4.3. (a) Obraz użyty jako zapytanie, (b) pięć pierwszych obrazów wyszukanych przez CSD Tab. 4.. Wyniki wyszukiwania z zastosowaniem CSD Odległość L wartości szczytowych funkcji CSS 1 0.000000 7 0.38544 13 0.673103 53 0.677738 44 0.688838 6 0.70013 Wyniki przeprowadzonego eksperymentu przedstawia rys. 4.3 oraz tab. 4.. 5. DESKRYPTORY TEKSTURY Tekstura obiektu wizyjnego to cecha, która jest użyteczna w wielu systemach przetwarzania obrazów, np. w analizie obrazów lotniczych i medycznych. Tekstura jest także cechą, która umożliwia wyszukiwanie obrazów (ang. image retrieval). W standardzie MPEG-7 zostały zdefiniowane trzy deskryptory tekstury obiektów wizyjnych [1]: Homogeneous Texture Descriptor HTD, który służy do opisu jednorodnych tekstur obiektów wizyjnych; Texture Browsing Descriptor TBD, który opisuje percepcyjne właściwości postrzegania tekstur; Edge Components Histogram Descriptor ECHD, który nie opisuje regionów o danych teksturach, lecz rozkład i kierunkowość krawędzi pomiędzy regionami o różnych teksturach w obrazie. Wyniki ekstrakcji cech tekstur przy użyciu deskryptorów HTD oraz TBD zostaną przedstawione odpowiednio w

podpunktach 5.1 i 5.. 5.1.Homogeneous Texture Descriptor (HTD) Homogeneous Texture Descriptor służy do opisu jednorodnych tekstur obiektów wizyjnych. Metoda wykorzystywana do ekstrakcji tego deskryptora została zaproponowana w pracy [10] i polega na wyznaczeniu parametrów statystycznych każdego z kanałów dwuwymiarowego widma obrazu statycznego. Podział widma na rozłączne subpasma (Rys 5.1.) odbywa się przy użyciu zastawu filtrów zamodelowanych funkcją Gabora [10]: ( s ) ( r ), ) exp( )exp( ) (5.1) G s, r ( s s Oznaczenia użyte we wzorze 4.1: s, r indeksy subpasm; ω, θ argument pulsacji i kąta; σ, τ odchylenie standardowe argumentu pulsacji i kąta. Rys. 5.1. Podział widma na kanały dla obliczeń deskryptora HTD ( sporządzono na podstawie [1]) Deskryptor HTD dzieli widmo obrazu na 30 kanałów o sześciu kierunkach orientacji i pięciu zakresach częstotliwości (rys. 5.1). Dla każdego z kanałów wyznaczana jest średnia energia składników widma oraz ich wariancja. Składnia deskryptora HTD jest następująca [1]: HTD f, f, e,..., e, d,..., ] (5.) [ DC SD 1 30 1 d 30 Użyte we wzorze 5. symbole oznaczają: f DC jednorodnie skwantowana wartość średniej luminancji obrazu; f SD jednorodnie skwantowana wartość odchylenia standardowego luminancji punktów obrazu od średniej; e i średnia wartość energii i-tego kanału; d i wartość dewiacji energii i-tego kanału. Ekstrakcja i wyszukiwanie na podstawie deskryptora HTD zostało przeprowadzone na monochromatycznych obrazach tekstur pochodzących ze zbioru testowego Brodatz [8] Do testów zostało użytych 97 różnych obrazów tego zbioru. Jako miara porównania wektorów w przestrzeni opisu została zastosowana norma L1: d x, y = x i y i (5.3) N x i i y i są wektorami opisu dwóch obrazów w przestrzeni opisu R n. Poniżej (tab. 5.1) zostały zaprezentowane rezultaty wyszukiwania dla zapytania będącego obrazem D00. W wyniku otrzymano uszeregowaną listę tekstur najbardziej odpowiadających zadanemu zapytaniu. Sześć obrazów o największym podobieństwie do zapytania przedstawia rys. 5.. D00 D40 D9 D9 D19 D67 Rys. 5.. Obrazy najbardziej podobnych tekstur do D00, wyszukiwanie na podstawie HTD Tab. 5.1 Wyniki wyszukiwania z zastosowaniem HTD dla obrazu D00 Lp. Obraz Odległość wektorów opisu d 1 D00 0.000000 D40 1.01509 3 D9 1.7778 4 D9 1.43467 5 D19 1.440774 6 D67 1.59589 Wyznaczone w procesie wyszukiwania obrazy (rys. 5.) różnią się znacznie zarówno luminancją jak i prezentowaną zawartością. W rezultacie porównania obrazów tekstur z użyciem deskryptora HTD otrzymujemy wyniki, które nie zawsze są zgodne z odczuciami percepcyjnymi. Jednakże wyznaczanie opisu HTD jest stosunkowo szybkie. 5.. Texture Browsing Descriptor (TBD) Texture Browsing Descriptor opisuje tekstury obiektów wizyjnych poprzez wyznaczenie parametrów odpowiadających ludzkiemu sposobowi postrzegania []. Składnia opisu deskryptora TBD jest następująca: TBD v, v, v, v, ] (5.4). [ 1 3 4 v5 Użyte we wzorze 5.4 symbole oznaczają [1]: v 1 parametr regularności bądź strukturyzacji tekstury (ang. regularity); v v 3 parametry opisujące kierunkowość tekstury (ang. directionality); v 4 v 5 parametry opisujące ziarnistość tekstury (ang. coarseness). Algorytm ekstrakcji cech TBD został przedstawiony w [1, ] i także opiera się na filtracji widma z użyciem funkcji Gabora (wzór 5.1). Uzyskane w ten sposób kanały podlegają następnie szczegółowej analizie. Miara odległości d wektorów cech zostaje wyznaczona

zgodnie z algorytmem przedstawionym w [3]. W tab. 5. zostały przedstawione wyniki wyszukiwania z wykorzystaniem deskryptora TBD. Test został prze-prowadzony na 97 monochromatycznych obrazach tekstur ze zbioru Brodatz [9] dla zapytania będącego obrazem D00. Na rys. 5.3 przedstawiono sześć obrazów o największym podo-bieństwie do zapytania. D00 D9 D31 D58 D86 D99 Rys. 5.3. Obrazy najbardziej podobnych tekstur do D00, wyszukiwanie na podstawie TBD Tab. 5. Wyniki wyszukiwania z zastosowaniem HTD dla obrazu D00 Lp. Obraz Odległość wektorów opisu d 1 D 00 0.000000 D9 0.000000 3 D31 0.000000 4 D58 0.000000 5 D86 0.100000 6 D99 0.100000 Deskryptor TBD ma na celu wyznaczenie opisu, który bardziej odpowiada percepcyjnym właściwościom postrzegania człowieka. Nie gwarantuje to jednak uzyskiwania zadowalających rezultatów wyszukiwania (rys 5.3). W przeprowadzonym teście uzyskaliśmy trzy obrazy tekstur (tab. 5.), które posiadają takie same wektory opisu, co zapytanie (tj. d = 0.000000). Pozostałe dwa obrazy różnią się nieznacznie (tj. d = 0.100000) Liczba parametrów deskryptora jest ograniczona do pięciu (wzór 5.4). Dodatkowo wartości poszczególnych parametrów są silnie kwantowane, co zapewnia bardzo ograniczoną objętość bitową deskryptora. Jednakże wpływa to bardzo niekorzystnie na precyzję wyszukiwania z użyciem TBD i ogranicza zakres jego zastosowań. Deskryptor TBD charakteryzuje się bardzo dużą złożonością obliczeniowa ekstrakcji opisu, co dyskwalifikuje zastosowanie tego deskryptora w aplikacjach działających w czasie rzeczywistym. 6. PODSUMOWANIE W niniejszym artykule zawarto przegląd wybranych deskryptorów wizyjnych standardu MPEG-7 oraz wyników ich ekstrakcji przy wykorzystaniu Modelu Eksperymentalnego. Użycie Modelu Eksperymentalnego w każdym z przeprowadzonych testów gwarantowało uzyskanie deskryptorów zgodnych ze składnią standardu. Zbiór danych wejściowych użytych do eksperymentów z poszczególnymi deskryptorami został odpowiednio wyselekcjonowany. Ocena trafności uzyskanych wyników miała charakter subiektywny i była w dużej mierze zależna od wykorzystanego zbioru danych testowych. Przeprowadzone eksperymenty dotyczyły opisu i wyszukiwania na podstawie deskryptora tylko jednej cechy. Jednakże w przypadku wyszukiwania w rzeczywistych zbiorach danych wizyjnych niezbędnym wydaje się tworzenie schematów opisu, które będą integrować odpowiednio dobrane grupy deskryptorów. W tym przypadku koniecznym jest przyporządkowanie odpowiednich wag ekstrahowanym deskryptorom. SPIS LITERATURY [1] ISO/IEC 15938-3/FCD, Information technology Multimedia content description interface Part 3 Visual [] B.S. Manjunath, P. Salembier, T. Sikora, Introduction to MPEG-7, John Willey & Sons, Ltd. 00 [3] A. Yamada, M. Pickering, S. Jeannin, L. Cieplinski, J. R. Ohm, M. Kim, MPEG-7 Visual part of experimentation Model Version 10.0, ISO/IEC JTC1/SC9/WG11/N4063, March, 001 [4] B.S. Manjunath, J. R. Ohm, V. V. Vasudevan, A. Yamada, Color and Texture Descriptors, IEEE Transactions On Circuits and Systems for Video Technology, Vol 11, No. 6, June 001 [5] M. Bober, Mpeg-7 Visual Shape Desriptors IEEE Transactions On Circuits and Systems for Video Technology, Vol 11, No. 6, June 001 [6] T. Sikora, The MPEG-7 Visual Standard for Content Description An Overview, IEEE Transactions On Circuits and Systems for Video Technology, Vol 11, No. 6, June 001 [7] MPEG-7 XM Software v.5.6, Institute for Integrated Circuits, Technische Universität Munchen, Germany, June 001. http://www.lis.e-technik.tumuenchen.de-/ research/bv/topics/mmdb/e-mpeg7.html [8] P. Brodatz, Textures: A Photographic Album for Artists & Designers, Dover, New York, 1966 [9] J. R. Smith S. Chang, VisualSEEk: A Fully Automated Content-Based Image Query System, ACM Multimedia, 1996 [10] B. S. Manjunath, W. Y. Ma: Texture features for browsing and retrieval of image data, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 18, no. 8, pp. 837-84, 1996