Algorytmy graficzne. Charakterystyki oraz wyszukiwanie obrazów cyfrowych

Podobne dokumenty
Wyszukiwanie obrazów 1

Algorytmy graficzne. Charakterystyki oraz wyszukiwanie obrazów cyfrowych

Parametryzacja obrazu na potrzeby algorytmów decyzyjnych

Marcin Wilczewski Politechnika Gdańska, 2013/14

Obraz jako funkcja Przekształcenia geometryczne

Akwizycja obrazów. Zagadnienia wstępne

dr inż. Jacek Naruniec

Analiza składowych głównych

Laboratorium. Cyfrowe przetwarzanie sygnałów. Ćwiczenie 9. Przetwarzanie sygnałów wizyjnych. Politechnika Świętokrzyska.

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Hierarchiczna analiza skupień

Przetwarzanie obrazu

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

dr inż. Piotr Odya dr inż. Piotr Suchomski

Ćwiczenie 6. Transformacje skali szarości obrazów

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Analiza składowych głównych. Wprowadzenie

Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 3 AiR III

Założenia i obszar zastosowań. JPEG - algorytm kodowania obrazu. Geneza algorytmu KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG

MODELE KOLORÓW. Przygotował: Robert Bednarz

WYKŁAD 12. Analiza obrazu Wyznaczanie parametrów ruchu obiektów

Grafika Komputerowa Wykład 2. Przetwarzanie obrazów. mgr inż. Michał Chwesiuk 1/38

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Przetwarzanie obrazów rastrowych macierzą konwolucji

Histogram obrazu, modyfikacje histogramu

Przetwarzanie obrazów Grafika komputerowa. dr inż. Marcin Wilczewski 2016/2017

Wykład 5: Statystyki opisowe (część 2)

PODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.

Zamiana reprezentacji wektorowej na rastrową - rasteryzacja

Teoria światła i barwy

Proste metody przetwarzania obrazu

EKSPLORACJA ZASOBÓW INTERNETU LABORATORIUM VIII WYSZUKIWANIE OBRAZÓW

Przedmowa 11 Ważniejsze oznaczenia 14 Spis skrótów i akronimów 15 Wstęp 21 W.1. Obraz naturalny i cyfrowe przetwarzanie obrazów 21 W.2.

Analiza korespondencji

Biostatystyka, # 3 /Weterynaria I/

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Ważne rozkłady i twierdzenia c.d.

Prawdopodobieństwo i statystyka

Dane obrazowe. R. Robert Gajewski omklnx.il.pw.edu.pl/~rgajewski

Spośród licznych filtrów nieliniowych najlepszymi właściwościami odznacza się filtr medianowy prosty i skuteczny.

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

POPRAWIANIE JAKOŚCI OBRAZU W DZIEDZINIE PRZESTRZENNEJ (spatial image enhancement)

Grafika Komputerowa Wykład 6. Teksturowanie. mgr inż. Michał Chwesiuk 1/23

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Elementy modelowania matematycznego

Rozdział 1. Zmienne losowe, ich rozkłady i charakterystyki. 1.1 Definicja zmiennej losowej

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 8 AiR III

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG

Grafika komputerowa. Dla DSI II

Zbigniew JERZAK Adam KOTLIŃSKI. Studenci kierunku Informatyka na Politechnice Śląskiej w Gliwicach

W poszukiwaniu sensu w świecie widzialnym

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

INFORMATYKA WSTĘP DO GRAFIKI RASTROWEJ

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

0. OpenGL ma układ współrzędnych taki, że oś y jest skierowana (względem monitora) a) w dół b) w górę c) w lewo d) w prawo e) w kierunku do

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Zaawansowane metody numeryczne

Programowanie celowe #1

Przetwarzanie obrazu

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Przetwarzanie obrazów wykład 4

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Spacery losowe generowanie realizacji procesu losowego

Statystyka i eksploracja danych

Teledetekcja w inżynierii środowiska

POB Odpowiedzi na pytania

Filtrowanie tekstur. Kinga Laurowska

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Analiza głównych składowych- redukcja wymiaru, wykł. 12

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Złożoność obliczeniowa zadania, zestaw 2

WYKŁAD 11. Kolor. fiolet, indygo, niebieski, zielony, żółty, pomarańczowy, czerwony

Rozkłady dwóch zmiennych losowych

i ruchów użytkownika komputera za i pozycjonujący oczy cyberagenta internetowego na oczach i akcjach użytkownika Promotor: dr Adrian Horzyk

KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

macierze jednostkowe (identyczności) macierze diagonalne, które na przekątnej mają same

Komputerowa Analiza Danych Doświadczalnych

Waldemar Izdebski - Wykłady z przedmiotu SIT / Mapa zasadnicza 30

SIMR 2016/2017, Analiza 2, wykład 1, Przestrzeń wektorowa

Analiza obrazów. Segmentacja i indeksacja obiektów

Ćwiczenia 3 ROZKŁAD ZMIENNEJ LOSOWEJ JEDNOWYMIAROWEJ

Akwizycja i przetwarzanie sygnałów cyfrowych

Sieci Kohonena Grupowanie

Statystyka opisowa- cd.

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Wyższa Szkoła Informatyki Stosowanej i Zarządzania

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 7 AiR III

Laboratorium Grafiki Komputerowej Przekształcenia na modelach barw

Metody systemowe i decyzyjne w informatyce

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego

Politechnika Świętokrzyska. Laboratorium. Cyfrowe przetwarzanie sygnałów. Ćwiczenie 8. Filtracja uśredniająca i statystyczna.

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

Gimp Grafika rastrowa (konwersatorium)

Transkrypt:

Algorytmy graficzne Charakterystyki oraz wyszukiwanie obrazów cyfrowych 1

Pojęcie i reprezentacje obrazu Obraz cyfrowy, I, definiuje się jako odwzorowanie z przestrzeni pikseli P do przestrzeni kolorów C, tzn. I: P C. Klasy obrazów obrazy k-spektralne. W tym przypadku przestrzeń kolorów to k - wymiarowa przestrzeń wektorowa R k. Przykładem są wielozakresowe obrazy satelitarne lub meteorologiczne. W przypadku obrazów wielozakresowych wykonanych przez próbkowanie poza spektrum widzialnym, konieczne jest kolorowanie przy użyciu sztucznych kolorów. obrazy 3-spektralne (RGB) są szczególnym przypadkiem obrazów k-spektralnych. obrazy w odcieniach szarości. Przestrzeń kolorów jest przestrzenią liczbową (skalarną): C={0,1,2,,L-1}. obrazy binarne przypadek szczególny obrazów z odcieniami szarości. W tym przypadku C={0,1}. Obraz cyfrowy reprezentowany jest najczęściej przez macierz lub zbiór macierzy. Elementy macierzy odpowiadają podstawowym elementom obrazu pikselom. Przyjętymi formatami reprezentacji obrazów cyfrowych są formaty z przeplotem pikseli (pixel interleaved) oraz przeplotem koloru (color interleaved). a b c 118 0 91 110 1 91 0 0 0 Rys. 1. Sposoby reprezentacji obrazów cyfrowych. a) reprezentacja obrazu w odcieniach szarości za pomocą pojedynczej macierzy prostokątnej; reprezentacja obrazów RGB w formacie: b) color interleaved za pomocą trzech macierzy kwadratowych. Każda macierz reprezentuje inny kanał barwny; c) pixel interleaved. W tym przypadku, cały obraz jest reprezentowany pojedynczą macierzą, której elementami są wektory trójwymiarowe.

Deskryptory obrazu Najprostszymi deskryptorami obrazu są deskryptory statystyczne. Niech dany jest obraz cyfrowy reprezentowany macierzą NxN, dla którego wartości pikseli opisane są funkcją f(x,y). Wówczas: Średnia jasność obrazu a Wariancja (moment centralny drugiego rzędu) b Wariancja niesie informację o dynamice (zróżnicowaniu) obrazu. Stanowi prostą miarę kontrastu: mała wartość wariancji obraz o małym kontraście; duża wartość wariancji obraz o dużym kontraście. W praktyce wykorzystuje się też momenty wyższych rzędów. Dla przykładu, moment centralny trzeciego rzędu jest miarą asymetrii rozkładu prawdopodobieństwa poziomów jasności (asymetrii histogramu). Wartość momentu centralnego dla rozkładów symetrycznych jest zerowy, ujemny dla rozkładów o asymetrii lewostronnej i dodatni dla rozkładów o symetrii prawostronnej. Kontrast: gdzie f max oraz f min stanowią odpowiednio maksymalną oraz minimalną wartość jasności w obrazie lub w bloku (kontrast lokalny). Rys. Obraz (a) średnia: 218, wariancja: 1134.5, entropia: 5.89, wartość minimalna: 2, wartość maksymalna 255. Obraz (b) średnia: 218, wariancja: 42.17, entropia: 3.80, wartość minimalna: 176, wartość maksymalna: 225 3

Histogram Histogram Jest jednym z podstawowych narzędzi wykorzystywanych w przetwarzaniu i analizie obrazów. Jest wykorzystywany m. in. jako etap procedur korekcji jakości wizualnej obrazu, kwantyzacji, kompresji, segmentacji, wyszukiwania obrazów, etc. Histogram jest funkcją przyporządkowującą możliwym poziomom jasności lub możliwym kolorom liczbę odpowiadających im pikseli w obrazie. Jest narzędziem globalnego opisu obrazu zawiera informacje o liczbie wystąpień poszczególnych wartości pikseli, ale nie o ich strukturze przestrzennej!. Odtworzenie obrazu na podstawie znajomości histogramu nie jest praktycznie możliwe. W jakim przypadku na podstawie histogramu obraz można jednak odtworzyć? W praktyce często stosuje się histogramy unormowane: h(k)=n k /N, gdzie N liczba pikseli obrazu. Dla dużych wartości N (teoretycznie, zmierzających do nieskończoności), prawo wielkich liczb pozwala identyfikować częstość wystąpienia poszczególnych wartości jako prawdopodobieństwo ich wystąpienia. Innym deskryptorem obrazu jest dystrybuanta histogramu unormowanego (suma wysokości słupków jest równa 1): a b 500 Histogram 462 316 6 0.008 c Histogram znormalizowany 400 0.006 300 0.004 200 100 0.002 50 100 150 200 250 Rys. Przyk ładowy obraz (a), jego histogram (b) oraz histogram znormalizowany (c). 4 50 100 150 200 25

Histogram jako deskryptor obrazu Histogram nie reprezentuje obrazu w sposób jednoznaczny. Wiele obrazów może posiadać identyczny histogram. a b e 50 40 30 20 10 c d Rys. (a) (d) przykładowe obrazy o rozmiarze 10x10 o identycznym histogramie przedstawionym na rysunku (e). Przykład pokazuje, że w nietrywialnych przypadkach histogram nie jest odwzorowaniem odwracalnym. 5

Histogram obrazu (przykłady) Istotne cechy histogramu: liczby punktów dla których wartości w histogramie są niezerowe, szerokość, środek ciężkości, liczba modów, entropia a dziecko.tif b dziecko.tif c dziecko.tif d dziecko.tif 0.025 0.02 0.015 0.01 0.005 Histogram, PDF 0.3 0.2 0.1 Histogram, PDF 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Histogram, PDF 0.25 0.2 0.15 0.1 0.05 Histogram, PDF 50 100 150 200 250 50 100 150 200 250 50 100 150 200 250 50 100 150 200 2 1 0.8 0.6 0.4 Dystrybuanta, CDF 1 0.8 0.6 0.4 Dystrybuanta, CDF 1 0.8 0.6 0.4 Dystrybuanta, CDF 1 0.8 0.6 0.4 Dystrybuanta, CDF 0.2 0.2 0.2 0.2 50 100 150 200 250 50 100 150 200 250 50 100 150 200 250 50 100 150 200 25 Rys. Obrazy czterech typów oraz ich histogramy i dystrybuanty histogramów: a) - obraz o średnim kotraście; b) obraz o słabym kontraście; c) obraz prześwietlony; d) obraz niedoświetlony. Entropia obrazów jest równa odpowiednio: 6.99, 2.72, 3.02 oraz 5.38. 6

Histogramy wielowymiarowe Histogramy wielowymiarowe (2D) wykorzystywane są do wizualizacji korelacji zachodzących pomiędzy wyróżnionymi składowymi obrazu cyfrowego. Ze względu na łatwość wizualizacji w praktyce wykorzystywane są najczęściej histogramy dwuwymiarowe. Histogramy 3D wykorzystuje się jako narzędzie porównywania obrazów kolorowych w systemach wyszukiwania obrazów. Reprezentują względną liczbę (częstość) wystąpień pikseli przyjmujących określone wartości dwóch lub więcej składowych (korelacje) patrz rysunki. Mogą być wykorzystane do podziału wielowymiarowej przestrzeni atrybutów obrazu we wstępnej fazie kwantyzacji wektorowej. a Rysunek beans.tif Brak pikseli przyjmujących wartości jednocześnie r=[0..10] oraz b=[0..10]. W obrazie przeważają piksele dla których składowe r i b leżą w przedziałach odpowiednio: r=[5..20], b=[10..30] Histogram 2D, RG Histogram 2D, RB c d e Histogram 2D, BG b 200 150 100 n 50 0 10 Red 20 30 10 30 20 Green 80 n60 40 20 0 10 Red 20 30 10 30 20 Blue 40 n30 20 10 0 10 Blue 20 30 10 5 10 15 20 25 30 Rys. (a) - przykładowy obraz RGB; (b) - histogram RGB; odpowiednio (c), (d) oraz (e) - histogram składowych RG; histogram składowych RB; histogram składowych BG. 7

Entropia obrazu a b W przypadku, gdy znany jest rozkład prawdopodobieństwa wartości pikseli w obrazie możliwe jest oszacowanie entropii obrazu jako miary ilości informacji w nim zawartej. Zakładając, że wartość piksela obrazu jest zmienną losową przyjmującą wartości n=1,2,,n, entropia jest dana równaniem c d gdzie H(n) odpowiada prawdopodobieństwu wystąpienia piksela o wartości n i jest wartością n-tego słupka histogramu unormowanego do jedności. Takie oszacowanie entropii zakłada, że wartość danego piksela jest zmienną losową i nie zależy od wartości pikseli sąsiednich. W ogólności założenie takie nie jest poprawne, ponieważ w obrazach istnieją bardzo silne korelacje przestrzenne (fakt ten wykorzystuje się w kompresji). Rys. Przykładowe obrazy cyfrowe. Prawdopodobieństwo wystąpienia czarnych pikseli na kolejnych obrazach wynosi odpowiednio 1/2, 95/100, 1 oraz 0. Entropia obrazów wynosi odpowiednio 1.0, 0.29, 0 oraz 0. Ramka wokół obrazu (d) nie stanowi jego fragmentu. Obrazy (c) i (d) są nierozróżnialne z punktu widzenia entropii. Entropię można interpretować jako nieoznaczoność (losowość) związaną z wynikiem eksperymentu (pojawieniem się symbolu źródła, etc.). Entropia jest równa minimalnej liczbie bitów koniecznych do reprezentacji wartości pojedynczego piksela obrazu. Entropia, podobnie jak momenty statystyczne, pozwala reprezentować obrazy w przestrzeni liczb rzeczywistych. Oznacza to radykalną redukcję wymiaru przestrzeni reprezentacji w porównaniu z wielowymiarowymi przestrzeniami wektorowymi histogramów. 8

Korelacje w danych obrazowych (1) Jedną z cech charakteryzujących dane obrazowe są silne korelacje przestrzenne objawiające się podobnymi wartościami pikseli sąsiadujących w obrazie (o podobnych współrzędnych przestrzennych). Wielkość korelacji zależy do rodzaju obrazu oraz od przyjętego modelu barw zgodnie z którym obraz jest reprezentowany. Model RGB prowadzi do bardzo dużych korelacji pomiędzy składowymi R, G oraz B. Istnienie korelacji wykorzystuje się w procedurach kompresji danych obrazowych. a b c Rys. Przykład korelacji w obrazie. (a) przykładowy obraz; (b) zależność wartości sąsiednich pikseli w wierszach obrazu; (b) zależność wartości pikseli przesuniętych względem siebie o 5 (w wierszach obrazu). Widoczna koncentracja punktów na prostej y=x. 9

Korelacje w danych obrazowych (2) a b Rys. Kolejny przykład korelacji pomiędzy wartościami sąsiednich pikseli. 10

Korelacje w danych obrazowych (3) Statystyczną miarą liniowych zależności w zbiorze danych jest kowariancja. Dla dwóch zmiennych losowych X 1 oraz X 2 kowariancja ma postać: W przypadku, gdy zmienne losowe są niezależne kowariancja jest równa zero: Zmienne losowe o takiej własności nazywa się nieskorelowanymi. Kowariancja niesie zatem informację o tym czy zmienne losowe są ze sobą powiązane zależnością liniową. Dla wektora n zmiennych losowych X 1, X 2,, X n utworzyć można macierz kowariancji M, której (i,j) elementem jest cov(x i,x j ), tzn. Macierz korelacji uzyskuje się przez normalizację elementów macierzowych macierzy kowariancji. Elementy macierzy korelacji posiadają własność: 1. 11

Korelacje w danych obrazowych (4) a 100 b 100 80 80 60 60 40 40 20 20 0 0 20 40 60 80 100 0 0 20 40 60 80 100 c 200 150 d 200 150 Rys. (a) Losowa macierz kwadratowa 100x100 o wartościach z przedziału [0,255]. Na rysunku (b) przedstawiona jest macierz korelacji wyznaczona dla wierszy macierzy losowej (a). Wyraźnie widoczna jest główna przekątna macierzy na której elementy osiągają maksymalną wartość równą 1. 100 50 100 50 Rysunek (c) przedstawia przykładowy obraz oraz macierz korelacji (d) dla jego wierszy. Postać macierzy kowariancji sugeruje istnienie silnych korelacji pomiędzy wierszami obrazu. 0 0 50 100 150 200 250 300 0 0 50 100 150 200 12

Wyszukiwanie obrazów ze względu na zawartość (CBIR) Rys. Schemat procesu wyszukiwania obrazów ze względu na zawartość. Wyszukiwanie obrazów ze względu na zawartość (content-based image retrieval, CBIR) jest techniką przeszukiwania dużych kolekcji obrazów w oparciu o ich własności wizualne. W odróżnieniu od tradycyjnych metod wyszukiwania ze względu na format, rozmiar, czas utworzenia, algorytm kompresji, rozdzielczość, etc. metody wyszukiwania ze względu na zawartość dążą do symulowania procesu wyszukiwania właściwego dla człowieka wyszukiwania ze względu na treść obrazu. Wykorzystanie tekstowego opisu obrazów w wielu przypadkach jest niewystarczające i niepraktyczne. Operacje oceny podobieństwa obrazów wykorzystujące odpowiednią funkcję podobieństwa operują na deskryptorach (wektorach cech) obrazów, a nie bezpośrednio na obrazach. Kluczowym zagadnieniem jest ekstrakcja cech wizualnych obrazów. Proces ten wykonywany w trybie off-line. Wyszukiwanie obrazów ze względu na zawartość wymaga technik automatycznej ekstrakcji takich własności wizualnych. Do najczęściej wykorzystywanych własności należą: kolor (histogram, momenty statystyczne, etc.), tekstura, kształt (wymaga segmentacji, tzn. podziału obrazu na obszary o jednakowym kolorze lub poziomie jasności) oraz lokalizacja (położenie segmentów, kolorów i kształtów w obrazie). Sformułowanie zapytania (query) przez użytkownika polega na zadaniu obrazu wzorca, określonego kształtu, tekstury lub określeniu własności statystycznych obrazów, które powinny być wyszukane. W systemie QBIC (Query By Image Content, IBM) własnościami wizualnymi na podstawie których przebiega proces wyszukiwania mogą być: procentowy udział kolorów w obrazie, kształty, tekstury oraz ich lokalizacja w obrazie. Wyszukiwanie polega na porównywaniu deskryptora wyznaczonego na podstawie zapytania użytkownika z deskryptorami obrazów przechowywanych w bazie. Konieczne jest zadanie funkcji porównania. Sprzężenie zwrotne (dla polepszenia jakości wyszukiwania). 13

Problemy związane z CBIR Problem 1: Jakie własności wybrać jako reprezentację (treści) obrazu? Odpowiedź: Niezmiennicze (odporne) ze względu na zmienne warunki, w których obraz może być pozyskany (zmiany poziomu oświetlenia, przesłanianie, przestawianie elementów sceny, odległość kamera-obiekt, etc.) Posługiwanie się cechami o takich własnościach może zapewnić poprawne klasyfikowanie obrazów obiektów w różnych warunkach. Najczęściej wykorzystywane deskryptory to: momenty statystyczne, histogram, tekstura, kształty. Przed określeniem wartości poszczególnych cech najczęściej wykonywana jest odpowiednia modyfikacja obrazu umożliwiająca pozyskanie cech reprezentujących obraz. Modyfikacja może sprowadzać się do: zmiany przestrzeni barw, kwantyzacji, segmentacji, wyodrębnienia określonych fragmentów obrazu, wyeliminowania szumu, etc. Nie istnieje uniwersalna przestrzeń nadająca się do opisu obrazów niezależnie od zastosowania. Najczęściej wykorzystywanymi przestrzeniami barw są: rgb, CIELUV, CIELAB, Munsell, HSV oraz modele barw przeciwstawnych. W wielu zastosowaniach pożądaną cechą przestrzeni barw jest percepcyjna jednorodność (spośród wymienionych, cechę tę posiadają CIELUV oraz CIELAB). Problem 2: Miary podobieństwa. Jakich miar podobieństwa wektorów cech użyć? Różne miary prowadzą do różnej efektywności procesu wyszukiwania. Nie istnieje miara idealna, niezależna od zastosowania. W praktyce wykorzystuje się również funkcje, które nie są metrykami (odległościami). Problem 3: Z jednej strony, użytkownik zainteresowany jest wyszukiwaniem ze względu na treść obrazu. Z drugiej strony, wyszukiwanie polega na ustalaniu stopnia podobieństwa wektora cech obrazów, a nie ich treści. W zależności od konkretnego zastosowania należy więc zapewnić reprezentowanie obrazu przez takie cechy, które mogą zapewnić związek (korelacje) z treścią obrazu. Problem tzw. przepaści semantycznej (semantic gap). a b c d e f Rys. Kwantyzacja sześcianu barw RGB. (a) obraz oryginalny; (b)-(f) obraz po kwantyzacji do odpowiednio 64, 16, 8, 4 oraz 2 wartości na każdą składową wektora koloru. Zadaniem kwantyzacji jest zmniejszenie dynamiki wartości pikseli na potrzeby procesu wyszukiwania. Kwantyzacja niweluje również nieistotne fluktuacje wartości pikseli. 14

Deskryptory obrazu Najczęściej wykorzystywaną własnością do definiowania deskryptorów obrazu jest kolor. Informacja o poziomach szarości (luminancja) jest niewystarczająca do porównywania obrazów. Deskryptory Momenty statystyczne. Najczęściej wykorzystuje się trzy pierwsze momenty statystyczne: średnia, wariancja oraz moment trzeciego rzędu, będący miarą asymetrii. W przypadku obrazów o trzech składowych koloru, obraz reprezentowany jest przez 9 liczb: 3 deskryptory dla każdej z trzech składowych. Wyszukiwanie w oparciu o momenty statystyczne może stanowić etap wstępny służący do zawężenia przestrzeni poszukiwań, po którym następuje proces wyszukiwania w oparciu o inne cechy. Entropia. Prosty deskryptor, ale o mocno ograniczonej efektywności. Entropia względna (odległości Kullbacka-Leiblera) i funkcje z nią związane. Histogramy składowych barwy. Histogram uważany jest za bardzo efektywną i zwięzłą reprezentację zawartości wizualnej obrazu cyfrowego. Do jego zalet należą prostota wyznaczenia, odporność ze względu na translacje i obroty osi widzenia, oraz ograniczona wrażliwość na zmianę skali, przesłanianie i zmianę kąta widzenia. Histogram nie zawiera jednak informacji o strukturze przestrzennej. Histogramy można interpretować jako elementy wielowymiarowych przestrzeni wektorowych. Wymiarem przestrzeni można regulować przez proces kwantyzacji obrazów. Wektor spójności koloru (Color Coherence Vector). Wektor spójności stanowi rozszerzenie koncepcji histogramu o informacje przestrzenne. Dany kolor (słupek histogramu, składowa koloru) jest klasyfikowany jako spójny (coherent) lub niespójny (coherent) w zależności od tego, czy piksele go reprezentujące tworzą spójny, zamknięty obszar w obrazie, czy też są rozproszone. Wektor spójności ma postać: { (a 1,b 1 ), (a 2,b 2 ),, (a N,b N )}, gdzie a i oznacza liczbę pikseli tworzących spójny obszar, b i liczbę pikseli obszarów niespójnych. 15

Konstrukcja histogramu jako deskryptora Jak budować histogramy jako wektory cech? Stosowanie histogramów obrazów nieprzetworzonych, np. histogram RGB, gdzie każda składowa przyjmuje 256 różnych wartości jest niepraktyczne, wymaga bowiem posługiwania się wektorami o 256 3 składowych! W praktyce przeprowadza się redukcję liczby możliwych kolorów w drodze kwantyzacji. Grupowanie słupków histogramu. Technika ta polega na zmniejszaniu liczby kolorów występujących w obrazie przez utożsamianie ze sobą sąsiednich wartości (słupków) składowych koloru, np. wartości [0,3] składowej R w obrazie RGB sklejane są ze sobą i reprezentowane przez wartość 0; wartości [5,8] reprezentowane przez 1; wartości [10,13] reprezentowane przez 2 itd. dla całego dopuszczalnego zakresu i wszystkich składowych. Efektywnie jest to równoważne kwantyzacji obrazu; w tym przypadku kwantyzacji do 256/4=64 wartości dla jednej składowej, co daje histogramy o rozmiarze 64 3. Składowe wektora opisujące kolor piksela nie muszą być kwantyzowane w jednakowy sposób. W przypadku przestrzeni HSV uzasadniona może być silna kwantyzacja składowych S i/lub V, podczas gdy składowa H powinna być kwantowana w sposób znacznie słabszy. Kafelkowanie obrazu polega na pokryciu całego obrazu oknami (kafelkami) o ustalonym rozmiarze, np. 4x4 i wyznaczeniu dla każdego takiego bloku średniej wartości poszczególnych składowych. Lista średnich wziętych ze wszystkich bloków obrazu stanowi listę możliwych wartości jakie przyjmują składowe koloru. Histogram obrazu nie zawiera informacji o rozkładzie przestrzennym pikseli. Istnieje wiele różnych sposobów włączenia takiej informacji do histogramu. Do najprostszych należy podział każdego słupka histogramu na określoną liczbę składowych, które opisują liczbę pikseli danego koloru leżących w określonych partiach (blokach) obrazu. Metoda ta wymaga podziału obrazu na rozdzielne bloki (patrz rysunek). W takim przypadku zwiększa się wymiar wektora cech. a 1 b c 3 5 4 2 1 2 3 4 5 Rys. (a) - Przykładowy podział obrazu na bloki; (b) W standardowym przypadku wszystkie piksele określonej wartości reprezentowane są przez słupek histogramu; (c) Podział słupka histogramu na części opisujące liczbę pikseli danej wartości w poszczególnych blokach obrazu. 16

Funkcje podobieństwa histogramów W przypadku porównywania obrazów reprezentowanych przez histogramy zaproponowanych zostało wiele różnych miar podobieństwa. Niech dane są dwa obrazy cyfrowe reprezentowane przez odpowiednio histogramy H 1 oraz H 2. Niech obrazy są jednakowego rozmiaru (dlaczego to założenie jest istotne), a kolory pikseli opisane są w N wymiarowej przestrzeni wektorowej (histogramy są wówczas N-wymiarowymi wektorami). Odległość Manhattan Odległość Euklidesa Odległość kosinusowa Miara przekroju histogramów Unormowana korelacja wzajemna 17

Odległości Manhattan oraz Euklidesa (1) Odległości Manhattan oraz Euklidesa są przykładami miar wywodzących się od uogólnionej metryki Minkowskiego. Ich wykorzystanie jest uzasadnione wtedy, gdy składowe wektora cech (w tym przypadku słupki histogramów) są od siebie niezależne i posiadają jednakową wagę. Chociaż warunki te nie są najczęściej spełnione (dlaczego?), to miary tego typu należą do najbardziej popularnych i najczęściej wykorzystywanych. H 1 H 2 1 2 3 4 5 6 7 8 9 10 Przykład. Niech dane są trzy obrazy o jednakowej liczbie pikseli równej N, których histogramy (nieunormowane) przedstawione są na rysunku obok (wysokość każdego słupka jest równa 1/3 N). Histogramy zostały uporządkowane w taki sposób, że sąsiednie słupki histogramów odpowiadają barwom percepcyjnie podobnym. Odległości obrazów w przestrzeni histogramów obliczone na podstawie odległości Manhattan są równe odpowiednio: Podobnie, wykorzystując odległość Euklidesa otrzymujemy: H 3 1 2 3 4 5 6 7 8 9 10 W obu przypadkach odległość w przestrzeni histogramów nie odpowiada percepcyjnemu podobieństwu obrazów. Obrazem percepcyjnie najbardziej podobnym do (1) jest obraz (2). W przestrzeni histogramów obrazem bliższym jest jednak obraz (3). 1 2 3 4 5 6 7 8 9 10 18

Odległości Manhattan oraz Euklidesa (2) Rozwiązaniem problemu przedstawionego na poprzednim rysunku może być posługiwanie się odległościami Manhattan oraz Euklidesa w przestrzeni skumulowanych histogramów (odpowiedniki dystrybuant), zamiast w przestrzeniach samych histogramów. Ilustruje to poniższy przykład. h 1 Rysunki przedstawiają skumulowane histogramy (dystrybuanty) obrazów opisanych na poprzedniej stronie. Odległości Manhattan oraz Euklidesa dla dystrybuant są równe odpowiednio: 1 2 3 4 5 6 7 8 9 10 h 2 oraz Wniosek: W tym przypadku wyznaczone odległości odpowiadają percepcyjnemu podobieństwu obrazów. 1 2 3 4 5 6 7 8 9 10 h 3 1 2 3 4 5 6 7 8 9 10 19

Odległość biliniowa (kwadratowa) a H 1 H 2 Z odległością Euklidesa związana jest odległość biliniowa, zaproponowana w jednym z pierwszych systemów wyszukiwania obrazów systemie QBIC. Odległość pary obrazów definiuje się zgodnie z równaniem: 1 2 3 1 2 3 H 3 1 2 3 b 1 0.5 0. 0.5 1 0.2 0. 0.2 1 Rys. (a) - Histogramy trzech przykładowych obrazów, których piksele są elementami trójwymiarowej przestrzeni barw: (czerwony, pomarańczowy, zielony). Dla uproszczenia przyjęto, że obrazy zawierają piksele tylko jednego koloru oraz, że są identycznego rozmiaru (każdy zawiera N pikseli). (b) Przykładowa macierz podobieństwa w rozpatrywanej trójwymiarowej przestrzeni barw. Jest jasne, że odległości Manhattan pomiędzy histogramami H1 i H2 oraz H1 i H3 są identyczne i równe N. Odległość kwadratowa pomiędzy tymi samymi histogramami jest równa odpowiednio: N oraz 1.41 N. Sugeruje to, że obraz reprezentowany przez H1 jest bardziej podobny do obrazu reprezentowanego przez H2 niż obrazu reprezentowanego przez H3. Jest to zbieżne z wrażeniem postrzeganym przez człowieka. gdzie H 1 oraz H 2 reprezentują histogramy obrazów (uporządkowane w postaci wektorów), natomiast A jest macierzą podobieństwa kolorów w rozpatrywanej przestrzeni barw (w której opisane są kolory obrazów). Macierz podobieństwa kolorów A jest kwadratową macierzą symetryczną, której element (i,j) określa podobieństwo kolorów C i oraz C j w przestrzeni barw: W macierzy podobieństwa elementy diagonalne osiągają wartość maksymalną równą 1, ponieważ podobieństwo barwy do samej siebie jest równe 1. Podobieństwo barw najbardziej odległych jest równe 0. Działanie macierzy podobieństwa sprowadza się do ważenia różnic wartości histogramów tak, by uwzględnić podobieństwo lub brak określonych barw obrazu. W tym przypadku barwy powinny być reprezentowane w przestrzeniach percepcyjnie jednorodnych (odległość proporcjonalna do postrzeganego podobieństwa pomiędzy barwami). W przeciwieństwie do wcześniej opisanych funkcji, odległość tego typu uwzględnia wzajemne podobieństwo barw. 20

Entropia względna (odległość Kullbacka-Leiblera) Entropia Shannona pozwala reprezentować obrazy w przestrzeni jednowymiarowej (przestrzeń wartości entropii), podobnie jak pojedyncze momenty statystyczne. Entropia względna (odległość Kullbacka-Leiblera) jest funkcją określającą podobieństwo dwóch rozkładów prawdopodobieństwa. Entropia względna dwóch dyskretnych rozkładów prawdopodobieństwa określona jest równaniem: gdzie dla zapewnienia ciągłości wymaga się by: Entropia względna nie jest stabilna numerycznie (nieskończoności) dlatego w praktyce stosować można funkcję Jeffreya zdefiniowaną w następujący sposób: 21

Ocena efektywności procesu wyszukiwania Zaproponowanych zostało kilka miar służących ocenie efektywności wyszukiwania informacji (niekoniecznie obrazów). Powszechnie stosowanymi miarami jest dokładność (precision) oraz kompletność (recall) dokładność (precision) jest miarą zdefiniowaną jako stosunek liczby dokumentów istotnych (na temat, relewantnych) podanych w odpowiedzi na zapytanie do całkowitej liczby dokumentów wygenerowanych jako odpowiedź na zapytanie. Miara ta przyjmuje wartości z przedziału [0,1]. Wartość 1 przyjmuje gdy wszystkie dokumenty podane w odpowiedzi są relewantne (odpowiadają wzorcowi). W kontekście wyszukiwania obrazów, w przypadku gdy zbiór obrazów podzielony jest na rozłączne kategorie, dokładność określa stosunek liczby obrazów wygenerowanych na wyjściu i pochodzących z kategorii identycznej z kategorią wzorca do całkowitej liczby obrazów na wyjściu. kompletność (recall) jest definiowana jako stosunek liczby dokumentów istotnych obecnych w odpowiedzi na zapytanie do całkowitej liczby dokumentów istotnych w zbiorze dokumentów. Kompletność przyjmuje wartości z przedziału [0,1]. Aby zapewnić możliwość przyjęcia wartości 1 liczba dokumentów na wyjściu powinna być równa co najmniej liczbie elementów istotnych. Parametr ten nazywany jest czasem czułością metody. R(q) Q(q) Rys. Ilustracja miar dokładności i kompletności. R(q) oraz Q(q) oznaczają odpowiednio zbiór elementów istotnych skojarzonych z wzorcem q oraz zbiór elementów wygenerowanych jako odpowiedź na zapytanie. 22

Ilustracja Rys. Przykładowy podzbiór obrazów wykorzystanych do prezentacji algorytmu wyszukiwania obrazów ze względu na zawartość. 23

Ilustracja a b c Rys. Rezultat wyszukiwania w zbiorze obrazów obrazu najbardziej podobnego do obrazu podanego w pierwszej kolumnie. (a), (b) i (c) stanowią wyniki wyszukiwania z miarą podobieństwa, odpowiednio: odległość Euklidesa, modułowa, przekrój histogramów. Obrazy uszeregowane są w wierszu ze względu na stopień podobieństwa (podobieństwo maleje w kierunku do prawej). 24

Ilustracja a b c Wnioski? Rys. Inny przykład wyszukiwania obraz z funkcjami jak na poprzednim slajdzie. 25

Projekt (laboratorium) Projekt w wersji podstawowej obejmuje: Przygotowanie systemu wyszukiwania obrazów cyfrowych barwnych w zbiorze co najmniej 70 obrazów o jednakowych wymiarach (np. 100x100 pikseli). Obrazy powinny pochodzić z różnych (nazwanych) kategorii tematycznych (co najmniej 5 kategorii), każda kategoria reprezentowana przez zbliżoną liczbę obrazów. Poza tym obrazy powinny być wybierane bez konkretnego klucza. Uproszczony interfejs, pełna funkcjonalność systemu. Redukcja liczby kolorów przez kwantyzację do zadanej liczby poziomów oraz praca w przestrzeni RGB. Porównanie efektywności wyszukiwania na podstawie porównania momentów statystycznych oraz zastosowania różnych funkcji odległości histogramów: Manhattan, Euklidesa, przekroju histogramów, Jeffreya, Kullbacka-Leiblera. Komentarz. Wnioski. Przykłady zapytania i generowanych przez system odpowiedzi. Kod. Opis użytych funkcji, klas, etc Dokumentacja opublikowana w sieci lub w postaci wydruku. Całość: 10 punktów Bonusy: Praca w przestrzeni rgb lub HSV: +0.5 punktu. Każda dodatkowa przestrzeń: +1 punkt. Uwzględnienie rozkładu przestrzennego wartości pikseli: +2 punkty. Każda dodatkowa miara podobieństwa (inna niż podana na wykładzie, konieczne wskazanie źródła): + 0.25 punktu. Czas i warunki: Czas na przygotowanie projektu: 4 tygodnie. Projekty oddawane w trakcie laboratorium. Każdy tydzień spóźnienia: -3 punkty (spóźnienie >3 tygodnie: 0 punktów) Oddanie projektów skopiowanych (w całości lub części): 0 punktów za projekt lub całość laboratorium. 26