Algorytmy graficzne. Charakterystyki oraz wyszukiwanie obrazów cyfrowych

Algorytmy graficzne Charakterystyki oraz wyszukiwanie obrazów cyfrowych 1

Pojęcie i reprezentacje obrazu Obraz cyfrowy, I, definiuje się jako odwzorowanie z przestrzeni pikseli P do przestrzeni kolorów C, tzn. I: P C. Klasy obrazów obrazy k-spektralne. W tym przypadku przestrzeń kolorów to k - wymiarowa przestrzeń wektorowa R k. Przykładem są wielozakresowe obrazy satelitarne lub meteorologiczne. W przypadku obrazów wielozakresowych wykonanych przez próbkowanie poza spektrum widzialnym, konieczne jest kolorowanie przy użyciu sztucznych kolorów. obrazy 3-spektralne (RGB) są szczególnym przypadkiem obrazów k-spektralnych. obrazy w odcieniach szarości. Przestrzeń kolorów jest przestrzenią liczbową (skalarną): C={0,1,2,,L-1}. obrazy binarne przypadek szczególny obrazów z odcieniami szarości. W tym przypadku C={0,1}. Obraz cyfrowy reprezentowany jest najczęściej przez macierz lub zbiór macierzy. Elementy macierzy odpowiadają podstawowym elementom obrazu pikselom. Przyjętymi formatami reprezentacji obrazów cyfrowych są formaty z przeplotem pikseli (pixel interleaved) oraz przeplotem koloru (color interleaved). a b c 118 0 91 110 1 91 0 0 0 Rys. 1. Sposoby reprezentacji obrazów cyfrowych. a) reprezentacja obrazu w odcieniach szarości za pomocą pojedynczej macierzy prostokątnej; reprezentacja obrazów RGB w formacie: b) color interleaved za pomocą trzech macierzy kwadratowych. Każda macierz reprezentuje inny kanał barwny; c) pixel interleaved. W tym przypadku, cały obraz jest reprezentowany pojedynczą macierzą, której elementami są wektory trójwymiarowe.

Deskryptory obrazu Najprostszymi deskryptorami obrazu są deskryptory statystyczne. Niech dany jest obraz cyfrowy reprezentowany macierzą NxN, dla którego wartości pikseli opisane są funkcją f(x,y). Wówczas: Średnia jasność obrazu a Wariancja (moment centralny drugiego rzędu) b Wariancja niesie informację o dynamice (zróżnicowaniu) obrazu. Stanowi prostą miarę kontrastu: mała wartość wariancji obraz o małym kontraście; duża wartość wariancji obraz o dużym kontraście. W praktyce wykorzystuje się też momenty wyższych rzędów. Dla przykładu, moment centralny trzeciego rzędu jest miarą asymetrii rozkładu prawdopodobieństwa poziomów jasności (asymetrii histogramu). Wartość momentu centralnego dla rozkładów symetrycznych jest zerowy, ujemny dla rozkładów o asymetrii lewostronnej i dodatni dla rozkładów o symetrii prawostronnej. Kontrast: gdzie f max oraz f min stanowią odpowiednio maksymalną oraz minimalną wartość jasności w obrazie lub w bloku (kontrast lokalny). Rys. Obraz (a) średnia: 218, wariancja: 1134.5, entropia: 5.89, wartość minimalna: 2, wartość maksymalna 255. Obraz (b) średnia: 218, wariancja: 42.17, entropia: 3.80, wartość minimalna: 176, wartość maksymalna: 225 3

Histogram Histogram Jest jednym z podstawowych narzędzi wykorzystywanych w przetwarzaniu i analizie obrazów. Jest wykorzystywany m. in. jako etap procedur korekcji jakości wizualnej obrazu, kwantyzacji, kompresji, segmentacji, wyszukiwania obrazów, etc. Histogram jest funkcją przyporządkowującą możliwym poziomom jasności lub możliwym kolorom liczbę odpowiadających im pikseli w obrazie. Jest narzędziem globalnego opisu obrazu zawiera informacje o liczbie wystąpień poszczególnych wartości pikseli, ale nie o ich strukturze przestrzennej!. Odtworzenie obrazu na podstawie znajomości histogramu nie jest praktycznie możliwe. W jakim przypadku na podstawie histogramu obraz można jednak odtworzyć? W praktyce często stosuje się histogramy unormowane: h(k)=n k /N, gdzie N liczba pikseli obrazu. Dla dużych wartości N (teoretycznie, zmierzających do nieskończoności), prawo wielkich liczb pozwala identyfikować częstość wystąpienia poszczególnych wartości jako prawdopodobieństwo ich wystąpienia. Innym deskryptorem obrazu jest dystrybuanta histogramu unormowanego (suma wysokości słupków jest równa 1): a b 500 Histogram 462 316 6 0.008 c Histogram znormalizowany 400 0.006 300 0.004 200 100 0.002 50 100 150 200 250 Rys. Przyk ładowy obraz (a), jego histogram (b) oraz histogram znormalizowany (c). 4 50 100 150 200 25

Histogram jako deskryptor obrazu Histogram nie reprezentuje obrazu w sposób jednoznaczny. Wiele obrazów może posiadać identyczny histogram. a b e 50 40 30 20 10 c d Rys. (a) (d) przykładowe obrazy o rozmiarze 10x10 o identycznym histogramie przedstawionym na rysunku (e). Przykład pokazuje, że w nietrywialnych przypadkach histogram nie jest odwzorowaniem odwracalnym. 5

Histogram obrazu (przykłady) Istotne cechy histogramu: liczby punktów dla których wartości w histogramie są niezerowe, szerokość, środek ciężkości, liczba modów, entropia a dziecko.tif b dziecko.tif c dziecko.tif d dziecko.tif 0.025 0.02 0.015 0.01 0.005 Histogram, PDF 0.3 0.2 0.1 Histogram, PDF 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Histogram, PDF 0.25 0.2 0.15 0.1 0.05 Histogram, PDF 50 100 150 200 250 50 100 150 200 250 50 100 150 200 250 50 100 150 200 2 1 0.8 0.6 0.4 Dystrybuanta, CDF 1 0.8 0.6 0.4 Dystrybuanta, CDF 1 0.8 0.6 0.4 Dystrybuanta, CDF 1 0.8 0.6 0.4 Dystrybuanta, CDF 0.2 0.2 0.2 0.2 50 100 150 200 250 50 100 150 200 250 50 100 150 200 250 50 100 150 200 25 Rys. Obrazy czterech typów oraz ich histogramy i dystrybuanty histogramów: a) - obraz o średnim kotraście; b) obraz o słabym kontraście; c) obraz prześwietlony; d) obraz niedoświetlony. Entropia obrazów jest równa odpowiednio: 6.99, 2.72, 3.02 oraz 5.38. 6

Histogramy wielowymiarowe Histogramy wielowymiarowe (2D) wykorzystywane są do wizualizacji korelacji zachodzących pomiędzy wyróżnionymi składowymi obrazu cyfrowego. Ze względu na łatwość wizualizacji w praktyce wykorzystywane są najczęściej histogramy dwuwymiarowe. Histogramy 3D wykorzystuje się jako narzędzie porównywania obrazów kolorowych w systemach wyszukiwania obrazów. Reprezentują względną liczbę (częstość) wystąpień pikseli przyjmujących określone wartości dwóch lub więcej składowych (korelacje) patrz rysunki. Mogą być wykorzystane do podziału wielowymiarowej przestrzeni atrybutów obrazu we wstępnej fazie kwantyzacji wektorowej. a Rysunek beans.tif Brak pikseli przyjmujących wartości jednocześnie r=[0..10] oraz b=[0..10]. W obrazie przeważają piksele dla których składowe r i b leżą w przedziałach odpowiednio: r=[5..20], b=[10..30] Histogram 2D, RG Histogram 2D, RB c d e Histogram 2D, BG b 200 150 100 n 50 0 10 Red 20 30 10 30 20 Green 80 n60 40 20 0 10 Red 20 30 10 30 20 Blue 40 n30 20 10 0 10 Blue 20 30 10 5 10 15 20 25 30 Rys. (a) - przykładowy obraz RGB; (b) - histogram RGB; odpowiednio (c), (d) oraz (e) - histogram składowych RG; histogram składowych RB; histogram składowych BG. 7

Entropia obrazu a b W przypadku, gdy znany jest rozkład prawdopodobieństwa wartości pikseli w obrazie możliwe jest oszacowanie entropii obrazu jako miary ilości informacji w nim zawartej. Zakładając, że wartość piksela obrazu jest zmienną losową przyjmującą wartości n=1,2,,n, entropia jest dana równaniem c d gdzie H(n) odpowiada prawdopodobieństwu wystąpienia piksela o wartości n i jest wartością n-tego słupka histogramu unormowanego do jedności. Takie oszacowanie entropii zakłada, że wartość danego piksela jest zmienną losową i nie zależy od wartości pikseli sąsiednich. W ogólności założenie takie nie jest poprawne, ponieważ w obrazach istnieją bardzo silne korelacje przestrzenne (fakt ten wykorzystuje się w kompresji). Rys. Przykładowe obrazy cyfrowe. Prawdopodobieństwo wystąpienia czarnych pikseli na kolejnych obrazach wynosi odpowiednio 1/2, 95/100, 1 oraz 0. Entropia obrazów wynosi odpowiednio 1.0, 0.29, 0 oraz 0. Ramka wokół obrazu (d) nie stanowi jego fragmentu. Obrazy (c) i (d) są nierozróżnialne z punktu widzenia entropii. Entropię można interpretować jako nieoznaczoność (losowość) związaną z wynikiem eksperymentu (pojawieniem się symbolu źródła, etc.). Entropia jest równa minimalnej liczbie bitów koniecznych do reprezentacji wartości pojedynczego piksela obrazu. Entropia, podobnie jak momenty statystyczne, pozwala reprezentować obrazy w przestrzeni liczb rzeczywistych. Oznacza to radykalną redukcję wymiaru przestrzeni reprezentacji w porównaniu z wielowymiarowymi przestrzeniami wektorowymi histogramów. 8

Korelacje w danych obrazowych (1) Jedną z cech charakteryzujących dane obrazowe są silne korelacje przestrzenne objawiające się podobnymi wartościami pikseli sąsiadujących w obrazie (o podobnych współrzędnych przestrzennych). Wielkość korelacji zależy do rodzaju obrazu oraz od przyjętego modelu barw zgodnie z którym obraz jest reprezentowany. Model RGB prowadzi do bardzo dużych korelacji pomiędzy składowymi R, G oraz B. Istnienie korelacji wykorzystuje się w procedurach kompresji danych obrazowych. a b c Rys. Przykład korelacji w obrazie. (a) przykładowy obraz; (b) zależność wartości sąsiednich pikseli w wierszach obrazu; (b) zależność wartości pikseli przesuniętych względem siebie o 5 (w wierszach obrazu). Widoczna koncentracja punktów na prostej y=x. 9

Korelacje w danych obrazowych (2) a b Rys. Kolejny przykład korelacji pomiędzy wartościami sąsiednich pikseli. 10

Korelacje w danych obrazowych (3) Statystyczną miarą liniowych zależności w zbiorze danych jest kowariancja. Dla dwóch zmiennych losowych X 1 oraz X 2 kowariancja ma postać: W przypadku, gdy zmienne losowe są niezależne kowariancja jest równa zero: Zmienne losowe o takiej własności nazywa się nieskorelowanymi. Kowariancja niesie zatem informację o tym czy zmienne losowe są ze sobą powiązane zależnością liniową. Dla wektora n zmiennych losowych X 1, X 2,, X n utworzyć można macierz kowariancji M, której (i,j) elementem jest cov(x i,x j ), tzn. Macierz korelacji uzyskuje się przez normalizację elementów macierzowych macierzy kowariancji. Elementy macierzy korelacji posiadają własność: 1. 11

Korelacje w danych obrazowych (4) a 100 b 100 80 80 60 60 40 40 20 20 0 0 20 40 60 80 100 0 0 20 40 60 80 100 c 200 150 d 200 150 Rys. (a) Losowa macierz kwadratowa 100x100 o wartościach z przedziału [0,255]. Na rysunku (b) przedstawiona jest macierz korelacji wyznaczona dla wierszy macierzy losowej (a). Wyraźnie widoczna jest główna przekątna macierzy na której elementy osiągają maksymalną wartość równą 1. 100 50 100 50 Rysunek (c) przedstawia przykładowy obraz oraz macierz korelacji (d) dla jego wierszy. Postać macierzy kowariancji sugeruje istnienie silnych korelacji pomiędzy wierszami obrazu. 0 0 50 100 150 200 250 300 0 0 50 100 150 200 12

Wyszukiwanie obrazów ze względu na zawartość (CBIR) Rys. Schemat procesu wyszukiwania obrazów ze względu na zawartość. Wyszukiwanie obrazów ze względu na zawartość (content-based image retrieval, CBIR) jest techniką przeszukiwania dużych kolekcji obrazów w oparciu o ich własności wizualne. W odróżnieniu od tradycyjnych metod wyszukiwania ze względu na format, rozmiar, czas utworzenia, algorytm kompresji, rozdzielczość, etc. metody wyszukiwania ze względu na zawartość dążą do symulowania procesu wyszukiwania właściwego dla człowieka wyszukiwania ze względu na treść obrazu. Wykorzystanie tekstowego opisu obrazów w wielu przypadkach jest niewystarczające i niepraktyczne. Operacje oceny podobieństwa obrazów wykorzystujące odpowiednią funkcję podobieństwa operują na deskryptorach (wektorach cech) obrazów, a nie bezpośrednio na obrazach. Kluczowym zagadnieniem jest ekstrakcja cech wizualnych obrazów. Proces ten wykonywany w trybie off-line. Wyszukiwanie obrazów ze względu na zawartość wymaga technik automatycznej ekstrakcji takich własności wizualnych. Do najczęściej wykorzystywanych własności należą: kolor (histogram, momenty statystyczne, etc.), tekstura, kształt (wymaga segmentacji, tzn. podziału obrazu na obszary o jednakowym kolorze lub poziomie jasności) oraz lokalizacja (położenie segmentów, kolorów i kształtów w obrazie). Sformułowanie zapytania (query) przez użytkownika polega na zadaniu obrazu wzorca, określonego kształtu, tekstury lub określeniu własności statystycznych obrazów, które powinny być wyszukane. W systemie QBIC (Query By Image Content, IBM) własnościami wizualnymi na podstawie których przebiega proces wyszukiwania mogą być: procentowy udział kolorów w obrazie, kształty, tekstury oraz ich lokalizacja w obrazie. Wyszukiwanie polega na porównywaniu deskryptora wyznaczonego na podstawie zapytania użytkownika z deskryptorami obrazów przechowywanych w bazie. Konieczne jest zadanie funkcji porównania. Sprzężenie zwrotne (dla polepszenia jakości wyszukiwania). 13

Problemy związane z CBIR Problem 1: Jakie własności wybrać jako reprezentację (treści) obrazu? Odpowiedź: Niezmiennicze (odporne) ze względu na zmienne warunki, w których obraz może być pozyskany (zmiany poziomu oświetlenia, przesłanianie, przestawianie elementów sceny, odległość kamera-obiekt, etc.) Posługiwanie się cechami o takich własnościach może zapewnić poprawne klasyfikowanie obrazów obiektów w różnych warunkach. Najczęściej wykorzystywane deskryptory to: momenty statystyczne, histogram, tekstura, kształty. Przed określeniem wartości poszczególnych cech najczęściej wykonywana jest odpowiednia modyfikacja obrazu umożliwiająca pozyskanie cech reprezentujących obraz. Modyfikacja może sprowadzać się do: zmiany przestrzeni barw, kwantyzacji, segmentacji, wyodrębnienia określonych fragmentów obrazu, wyeliminowania szumu, etc. Nie istnieje uniwersalna przestrzeń nadająca się do opisu obrazów niezależnie od zastosowania. Najczęściej wykorzystywanymi przestrzeniami barw są: rgb, CIELUV, CIELAB, Munsell, HSV oraz modele barw przeciwstawnych. W wielu zastosowaniach pożądaną cechą przestrzeni barw jest percepcyjna jednorodność (spośród wymienionych, cechę tę posiadają CIELUV oraz CIELAB). Problem 2: Miary podobieństwa. Jakich miar podobieństwa wektorów cech użyć? Różne miary prowadzą do różnej efektywności procesu wyszukiwania. Nie istnieje miara idealna, niezależna od zastosowania. W praktyce wykorzystuje się również funkcje, które nie są metrykami (odległościami). Problem 3: Z jednej strony, użytkownik zainteresowany jest wyszukiwaniem ze względu na treść obrazu. Z drugiej strony, wyszukiwanie polega na ustalaniu stopnia podobieństwa wektora cech obrazów, a nie ich treści. W zależności od konkretnego zastosowania należy więc zapewnić reprezentowanie obrazu przez takie cechy, które mogą zapewnić związek (korelacje) z treścią obrazu. Problem tzw. przepaści semantycznej (semantic gap). a b c d e f Rys. Kwantyzacja sześcianu barw RGB. (a) obraz oryginalny; (b)-(f) obraz po kwantyzacji do odpowiednio 64, 16, 8, 4 oraz 2 wartości na każdą składową wektora koloru. Zadaniem kwantyzacji jest zmniejszenie dynamiki wartości pikseli na potrzeby procesu wyszukiwania. Kwantyzacja niweluje również nieistotne fluktuacje wartości pikseli. 14

Deskryptory obrazu Najczęściej wykorzystywaną własnością do definiowania deskryptorów obrazu jest kolor. Informacja o poziomach szarości (luminancja) jest niewystarczająca do porównywania obrazów. Deskryptory Momenty statystyczne. Najczęściej wykorzystuje się trzy pierwsze momenty statystyczne: średnia, wariancja oraz moment trzeciego rzędu, będący miarą asymetrii. W przypadku obrazów o trzech składowych koloru, obraz reprezentowany jest przez 9 liczb: 3 deskryptory dla każdej z trzech składowych. Wyszukiwanie w oparciu o momenty statystyczne może stanowić etap wstępny służący do zawężenia przestrzeni poszukiwań, po którym następuje proces wyszukiwania w oparciu o inne cechy. Entropia. Prosty deskryptor, ale o mocno ograniczonej efektywności. Entropia względna (odległości Kullbacka-Leiblera) i funkcje z nią związane. Histogramy składowych barwy. Histogram uważany jest za bardzo efektywną i zwięzłą reprezentację zawartości wizualnej obrazu cyfrowego. Do jego zalet należą prostota wyznaczenia, odporność ze względu na translacje i obroty osi widzenia, oraz ograniczona wrażliwość na zmianę skali, przesłanianie i zmianę kąta widzenia. Histogram nie zawiera jednak informacji o strukturze przestrzennej. Histogramy można interpretować jako elementy wielowymiarowych przestrzeni wektorowych. Wymiarem przestrzeni można regulować przez proces kwantyzacji obrazów. Wektor spójności koloru (Color Coherence Vector). Wektor spójności stanowi rozszerzenie koncepcji histogramu o informacje przestrzenne. Dany kolor (słupek histogramu, składowa koloru) jest klasyfikowany jako spójny (coherent) lub niespójny (coherent) w zależności od tego, czy piksele go reprezentujące tworzą spójny, zamknięty obszar w obrazie, czy też są rozproszone. Wektor spójności ma postać: { (a 1,b 1 ), (a 2,b 2 ),, (a N,b N )}, gdzie a i oznacza liczbę pikseli tworzących spójny obszar, b i liczbę pikseli obszarów niespójnych. 15

Konstrukcja histogramu jako deskryptora Jak budować histogramy jako wektory cech? Stosowanie histogramów obrazów nieprzetworzonych, np. histogram RGB, gdzie każda składowa przyjmuje 256 różnych wartości jest niepraktyczne, wymaga bowiem posługiwania się wektorami o 256 3 składowych! W praktyce przeprowadza się redukcję liczby możliwych kolorów w drodze kwantyzacji. Grupowanie słupków histogramu. Technika ta polega na zmniejszaniu liczby kolorów występujących w obrazie przez utożsamianie ze sobą sąsiednich wartości (słupków) składowych koloru, np. wartości [0,3] składowej R w obrazie RGB sklejane są ze sobą i reprezentowane przez wartość 0; wartości [5,8] reprezentowane przez 1; wartości [10,13] reprezentowane przez 2 itd. dla całego dopuszczalnego zakresu i wszystkich składowych. Efektywnie jest to równoważne kwantyzacji obrazu; w tym przypadku kwantyzacji do 256/4=64 wartości dla jednej składowej, co daje histogramy o rozmiarze 64 3. Składowe wektora opisujące kolor piksela nie muszą być kwantyzowane w jednakowy sposób. W przypadku przestrzeni HSV uzasadniona może być silna kwantyzacja składowych S i/lub V, podczas gdy składowa H powinna być kwantowana w sposób znacznie słabszy. Kafelkowanie obrazu polega na pokryciu całego obrazu oknami (kafelkami) o ustalonym rozmiarze, np. 4x4 i wyznaczeniu dla każdego takiego bloku średniej wartości poszczególnych składowych. Lista średnich wziętych ze wszystkich bloków obrazu stanowi listę możliwych wartości jakie przyjmują składowe koloru. Histogram obrazu nie zawiera informacji o rozkładzie przestrzennym pikseli. Istnieje wiele różnych sposobów włączenia takiej informacji do histogramu. Do najprostszych należy podział każdego słupka histogramu na określoną liczbę składowych, które opisują liczbę pikseli danego koloru leżących w określonych partiach (blokach) obrazu. Metoda ta wymaga podziału obrazu na rozdzielne bloki (patrz rysunek). W takim przypadku zwiększa się wymiar wektora cech. a 1 b c 3 5 4 2 1 2 3 4 5 Rys. (a) - Przykładowy podział obrazu na bloki; (b) W standardowym przypadku wszystkie piksele określonej wartości reprezentowane są przez słupek histogramu; (c) Podział słupka histogramu na części opisujące liczbę pikseli danej wartości w poszczególnych blokach obrazu. 16

Funkcje podobieństwa histogramów W przypadku porównywania obrazów reprezentowanych przez histogramy zaproponowanych zostało wiele różnych miar podobieństwa. Niech dane są dwa obrazy cyfrowe reprezentowane przez odpowiednio histogramy H 1 oraz H 2. Niech obrazy są jednakowego rozmiaru (dlaczego to założenie jest istotne), a kolory pikseli opisane są w N wymiarowej przestrzeni wektorowej (histogramy są wówczas N-wymiarowymi wektorami). Odległość Manhattan Odległość Euklidesa Odległość kosinusowa Miara przekroju histogramów Unormowana korelacja wzajemna 17

Odległości Manhattan oraz Euklidesa (1) Odległości Manhattan oraz Euklidesa są przykładami miar wywodzących się od uogólnionej metryki Minkowskiego. Ich wykorzystanie jest uzasadnione wtedy, gdy składowe wektora cech (w tym przypadku słupki histogramów) są od siebie niezależne i posiadają jednakową wagę. Chociaż warunki te nie są najczęściej spełnione (dlaczego?), to miary tego typu należą do najbardziej popularnych i najczęściej wykorzystywanych. H 1 H 2 1 2 3 4 5 6 7 8 9 10 Przykład. Niech dane są trzy obrazy o jednakowej liczbie pikseli równej N, których histogramy (nieunormowane) przedstawione są na rysunku obok (wysokość każdego słupka jest równa 1/3 N). Histogramy zostały uporządkowane w taki sposób, że sąsiednie słupki histogramów odpowiadają barwom percepcyjnie podobnym. Odległości obrazów w przestrzeni histogramów obliczone na podstawie odległości Manhattan są równe odpowiednio: Podobnie, wykorzystując odległość Euklidesa otrzymujemy: H 3 1 2 3 4 5 6 7 8 9 10 W obu przypadkach odległość w przestrzeni histogramów nie odpowiada percepcyjnemu podobieństwu obrazów. Obrazem percepcyjnie najbardziej podobnym do (1) jest obraz (2). W przestrzeni histogramów obrazem bliższym jest jednak obraz (3). 1 2 3 4 5 6 7 8 9 10 18

Odległości Manhattan oraz Euklidesa (2) Rozwiązaniem problemu przedstawionego na poprzednim rysunku może być posługiwanie się odległościami Manhattan oraz Euklidesa w przestrzeni skumulowanych histogramów (odpowiedniki dystrybuant), zamiast w przestrzeniach samych histogramów. Ilustruje to poniższy przykład. h 1 Rysunki przedstawiają skumulowane histogramy (dystrybuanty) obrazów opisanych na poprzedniej stronie. Odległości Manhattan oraz Euklidesa dla dystrybuant są równe odpowiednio: 1 2 3 4 5 6 7 8 9 10 h 2 oraz Wniosek: W tym przypadku wyznaczone odległości odpowiadają percepcyjnemu podobieństwu obrazów. 1 2 3 4 5 6 7 8 9 10 h 3 1 2 3 4 5 6 7 8 9 10 19

Odległość biliniowa (kwadratowa) a H 1 H 2 Z odległością Euklidesa związana jest odległość biliniowa, zaproponowana w jednym z pierwszych systemów wyszukiwania obrazów systemie QBIC. Odległość pary obrazów definiuje się zgodnie z równaniem: 1 2 3 1 2 3 H 3 1 2 3 b 1 0.5 0. 0.5 1 0.2 0. 0.2 1 Rys. (a) - Histogramy trzech przykładowych obrazów, których piksele są elementami trójwymiarowej przestrzeni barw: (czerwony, pomarańczowy, zielony). Dla uproszczenia przyjęto, że obrazy zawierają piksele tylko jednego koloru oraz, że są identycznego rozmiaru (każdy zawiera N pikseli). (b) Przykładowa macierz podobieństwa w rozpatrywanej trójwymiarowej przestrzeni barw. Jest jasne, że odległości Manhattan pomiędzy histogramami H1 i H2 oraz H1 i H3 są identyczne i równe N. Odległość kwadratowa pomiędzy tymi samymi histogramami jest równa odpowiednio: N oraz 1.41 N. Sugeruje to, że obraz reprezentowany przez H1 jest bardziej podobny do obrazu reprezentowanego przez H2 niż obrazu reprezentowanego przez H3. Jest to zbieżne z wrażeniem postrzeganym przez człowieka. gdzie H 1 oraz H 2 reprezentują histogramy obrazów (uporządkowane w postaci wektorów), natomiast A jest macierzą podobieństwa kolorów w rozpatrywanej przestrzeni barw (w której opisane są kolory obrazów). Macierz podobieństwa kolorów A jest kwadratową macierzą symetryczną, której element (i,j) określa podobieństwo kolorów C i oraz C j w przestrzeni barw: W macierzy podobieństwa elementy diagonalne osiągają wartość maksymalną równą 1, ponieważ podobieństwo barwy do samej siebie jest równe 1. Podobieństwo barw najbardziej odległych jest równe 0. Działanie macierzy podobieństwa sprowadza się do ważenia różnic wartości histogramów tak, by uwzględnić podobieństwo lub brak określonych barw obrazu. W tym przypadku barwy powinny być reprezentowane w przestrzeniach percepcyjnie jednorodnych (odległość proporcjonalna do postrzeganego podobieństwa pomiędzy barwami). W przeciwieństwie do wcześniej opisanych funkcji, odległość tego typu uwzględnia wzajemne podobieństwo barw. 20

Entropia względna (odległość Kullbacka-Leiblera) Entropia Shannona pozwala reprezentować obrazy w przestrzeni jednowymiarowej (przestrzeń wartości entropii), podobnie jak pojedyncze momenty statystyczne. Entropia względna (odległość Kullbacka-Leiblera) jest funkcją określającą podobieństwo dwóch rozkładów prawdopodobieństwa. Entropia względna dwóch dyskretnych rozkładów prawdopodobieństwa określona jest równaniem: gdzie dla zapewnienia ciągłości wymaga się by: Entropia względna nie jest stabilna numerycznie (nieskończoności) dlatego w praktyce stosować można funkcję Jeffreya zdefiniowaną w następujący sposób: 21

Ocena efektywności procesu wyszukiwania Zaproponowanych zostało kilka miar służących ocenie efektywności wyszukiwania informacji (niekoniecznie obrazów). Powszechnie stosowanymi miarami jest dokładność (precision) oraz kompletność (recall) dokładność (precision) jest miarą zdefiniowaną jako stosunek liczby dokumentów istotnych (na temat, relewantnych) podanych w odpowiedzi na zapytanie do całkowitej liczby dokumentów wygenerowanych jako odpowiedź na zapytanie. Miara ta przyjmuje wartości z przedziału [0,1]. Wartość 1 przyjmuje gdy wszystkie dokumenty podane w odpowiedzi są relewantne (odpowiadają wzorcowi). W kontekście wyszukiwania obrazów, w przypadku gdy zbiór obrazów podzielony jest na rozłączne kategorie, dokładność określa stosunek liczby obrazów wygenerowanych na wyjściu i pochodzących z kategorii identycznej z kategorią wzorca do całkowitej liczby obrazów na wyjściu. kompletność (recall) jest definiowana jako stosunek liczby dokumentów istotnych obecnych w odpowiedzi na zapytanie do całkowitej liczby dokumentów istotnych w zbiorze dokumentów. Kompletność przyjmuje wartości z przedziału [0,1]. Aby zapewnić możliwość przyjęcia wartości 1 liczba dokumentów na wyjściu powinna być równa co najmniej liczbie elementów istotnych. Parametr ten nazywany jest czasem czułością metody. R(q) Q(q) Rys. Ilustracja miar dokładności i kompletności. R(q) oraz Q(q) oznaczają odpowiednio zbiór elementów istotnych skojarzonych z wzorcem q oraz zbiór elementów wygenerowanych jako odpowiedź na zapytanie. 22

Ilustracja Rys. Przykładowy podzbiór obrazów wykorzystanych do prezentacji algorytmu wyszukiwania obrazów ze względu na zawartość. 23

Ilustracja a b c Rys. Rezultat wyszukiwania w zbiorze obrazów obrazu najbardziej podobnego do obrazu podanego w pierwszej kolumnie. (a), (b) i (c) stanowią wyniki wyszukiwania z miarą podobieństwa, odpowiednio: odległość Euklidesa, modułowa, przekrój histogramów. Obrazy uszeregowane są w wierszu ze względu na stopień podobieństwa (podobieństwo maleje w kierunku do prawej). 24

Ilustracja a b c Wnioski? Rys. Inny przykład wyszukiwania obraz z funkcjami jak na poprzednim slajdzie. 25

Projekt (laboratorium) Projekt w wersji podstawowej obejmuje: Przygotowanie systemu wyszukiwania obrazów cyfrowych barwnych w zbiorze co najmniej 70 obrazów o jednakowych wymiarach (np. 100x100 pikseli). Obrazy powinny pochodzić z różnych (nazwanych) kategorii tematycznych (co najmniej 5 kategorii), każda kategoria reprezentowana przez zbliżoną liczbę obrazów. Poza tym obrazy powinny być wybierane bez konkretnego klucza. Uproszczony interfejs, pełna funkcjonalność systemu. Redukcja liczby kolorów przez kwantyzację do zadanej liczby poziomów oraz praca w przestrzeni RGB. Porównanie efektywności wyszukiwania na podstawie porównania momentów statystycznych oraz zastosowania różnych funkcji odległości histogramów: Manhattan, Euklidesa, przekroju histogramów, Jeffreya, Kullbacka-Leiblera. Komentarz. Wnioski. Przykłady zapytania i generowanych przez system odpowiedzi. Kod. Opis użytych funkcji, klas, etc Dokumentacja opublikowana w sieci lub w postaci wydruku. Całość: 10 punktów Bonusy: Praca w przestrzeni rgb lub HSV: +0.5 punktu. Każda dodatkowa przestrzeń: +1 punkt. Uwzględnienie rozkładu przestrzennego wartości pikseli: +2 punkty. Każda dodatkowa miara podobieństwa (inna niż podana na wykładzie, konieczne wskazanie źródła): + 0.25 punktu. Czas i warunki: Czas na przygotowanie projektu: 4 tygodnie. Projekty oddawane w trakcie laboratorium. Każdy tydzień spóźnienia: -3 punkty (spóźnienie >3 tygodnie: 0 punktów) Oddanie projektów skopiowanych (w całości lub części): 0 punktów za projekt lub całość laboratorium. 26